Swiglu gating_ QAT_Residual Attention Scalin _EMA- Sliding window_Optimizations for 10min/16MB Track by visin109 · Pull Request #2159 · openai/parameter-golf

visin109 · 2026-05-06T07:29:29Z

Submission for "track_10min_16mb"

This PR contains my experimental submission for the "track_10min_16mb" Parameter Golf challenge.

The work focuses on improving compression-aware transformer training under strict constraints:

≤10 minute training budget
≤16MB compressed artifact
Optimized for validation BPB

Key Explored Modifications

Quantization-Aware Training (STE-based fake quantization)
SwiGLU / gated MLP replacement over standard ReLU²
Adaptive residual mixing with learnable skip blending
Learnable per-head attention query scaling ("q_gain")
Per-channel residual scaling for attention and MLP outputs
EMA-based weight tracking for smoother evaluation
SWA stabilization during late training stages
Encoder-decoder style skip connection reuse
Sliding-window BPB validation strategy
Multi-optimizer training setup (Muon + Adam parameter grouping)
Muon momentum warmup scheduling
Warmup / warmdown learning-rate scheduling
Int8 + zlib compression tuning
Per-row / per-tensor quantization strategy
Percentile clipping for stable int8 export
Small-tensor FP16 passthrough optimization
GQA (Grouped Query Attention) efficiency experiments
Rotary positional embeddings (RoPE)
Hyperparameter tuning for short-budget convergence efficiency

Improvements over the Baseline

The initial baseline configuration produced unstable convergence and poor compression efficiency (~2.0+ BPB range). Through iterative architectural experimentation and hyperparameter tuning, training stability and post-quantization consistency were significantly improved.

Key improvements achieved:

Lower quantization degradation after export
Faster convergence under strict wallclock limits
Improved gradient flow using adaptive residual scaling
Better attention stability using learnable query scaling
More stable evaluation through EMA-based weight tracking
Improved compression efficiency under int8 export constraints

Final Observed Results

Validation BPB: ~1.599
Compressed model size: ~7.3 MB
Training budget: ~10 minutes
Successful int8 + zlib export validation

Resource Note

Due to limited H100 GPU availability during the final phase, several validation iterations were performed on a local consumer GPU setup using reduced validation subsets for faster experimentation.

This branch represents an active experimental pipeline and further architectural exploration is ongoing.

Updated script name and added evaluation notes regarding resource constraints during testing.

visin109 and others added 3 commits May 1, 2026 02:00

Adding final submission

9eaf5c2

Update README with new training script and file details

b9e2bb9

Modify README with script update and evaluation notes

432686f

Updated script name and added evaluation notes regarding resource constraints during testing.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Swiglu gating_ QAT_Residual Attention Scalin _EMA- Sliding window_Optimizations for 10min/16MB Track#2159

Swiglu gating_ QAT_Residual Attention Scalin _EMA- Sliding window_Optimizations for 10min/16MB Track#2159
visin109 wants to merge 3 commits into
openai:mainfrom
visin109:main

visin109 commented May 6, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

visin109 commented May 6, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant