Non-record: Fused Triton relu^2 kernel — negative result (val_bpb=1.1198) by ibarrajo · Pull Request #1237 · openai/parameter-golf

ibarrajo · 2026-04-01T23:54:43Z

Summary

Fused Triton kernel for relu^2.square() activation — hand-written Triton kernel with torch.compile fallback
Negative result: Triton kernel provides no speed improvement when torch.compile is active (it already fuses the same ops)
QK-Gain 4.0 included
TTT s_0 score: 1.1198

Results

Metric	Value
val_bpb (TTT s_0)	1.1198
val_bpb (base)	1.1273
Artifact size	15.1 MB (930 KB headroom)
Current SOTA	1.1147

Key Findings

Fused Triton kernel does NOT help: torch.compile already fuses relu^2 into an efficient kernel. Hand-written Triton provides zero speedup
Lesson: Before writing custom Triton kernels, benchmark against torch.compile — it handles elementwise fusion well
Non-record: 1.1198 does not beat SOTA of 1.1147

Rule Compliance

🤖 Generated with Claude Code

…198) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

Non-record: Fused Triton relu^2 kernel — negative result (val_bpb=1.1…

d3f8e84

…198) Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Non-record: Fused Triton relu^2 kernel — negative result (val_bpb=1.1198)#1237

Non-record: Fused Triton relu^2 kernel — negative result (val_bpb=1.1198)#1237
ibarrajo wants to merge 1 commit intoopenai:mainfrom
ibarrajo:approach-f

ibarrajo commented Apr 1, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

ibarrajo commented Apr 1, 2026

Summary

Results

Key Findings

Rule Compliance

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant