Prompt-Caching für RL-Training: 7,5-facher Speedup bei langen Prompts
Die meisten Open-Source-RL-Engines wie GRPO packen Sequenzen naiv: Prompt + Response wird für jede Probe in der Gruppe wiederholt berechnet. Bei kurzen Prompts und langen Completions ist das effizient, bei langen Prompts und kurzen Antworten jedoch hochgradig verschwenderisch. Beispiel: 1000-Token-Prompt mit 100-Token-Response bei Gruppengröße G=8 erzeugt 8800 zu verarbeitende Token, obwohl nur 1800 einzigartig sind – rund 5× zu viel Compute. Der vorgestellte Ansatz berechnet den Prompt einmalig und leitet anschließend alle G Responses dahinter. Das klingt trivial, ist es aber nicht: Im Gegensatz zu Inference-Caching müssen beim Training Gradienten durch den Prompt zurückfließen, was die kausale Attention-Maske aufbricht. Die Lösung erfordert unterschiedliche Techniken für Full-Attention- und Linear-Attention-Schichten. Gemessen an Qwen3.5-4B reichen die Speedups von 7,5× (16k Prompt / 64 Tokens Output) über 5,4× (16k / 1k) bis 1,7× (8k / 4k) – das Verhältnis von Prompt- zu Response-Länge ist der entscheidende Hebel.
- Bei G=8 und 1000-Token-Prompt + 100-Token-Response werden ohne Caching ~5× so viele Tokens verarbeitet wie nötig.
- Die Methode ist analog zu Inference Prefix Caching, muss aber Gradientenfluss durch den gecachten Prompt sicherstellen.
- Unterschiedliche Implementierungen nötig für Full-Attention- vs. Linear-Attention-Layer.
- Speedup-Messung auf Qwen3.5-4B: 16k/64 → 7,5×, 16k/128 → 7,3×, 16k/1k → 5,4×, 8k/4k → 1,7×.
- Der Gewinn skaliert direkt mit dem Verhältnis Prompt-Länge zu Response-Länge.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
DualKV: FlashAttention-Variante eliminiert Prompt-Replikation im RL-Training
- FORSCHUNGarxiv.org1w
Learning-Zone Energy: Online-Datenselektion für effizienteres RL-Post-Training
- FORSCHUNGarxiv.org2d
MVR-cache steigert Semantic-Caching-Trefferrate um bis zu 37 %
- FORSCHUNGarxiv.org3w
Prompt-effizientes RLVR durch Rare-Event-Amplification und Bidirectional Pairing
Prompt-Caching für RL-Training: 7,5-facher Speedup bei langen Prompts
Die meisten Open-Source-RL-Engines wie GRPO packen Sequenzen naiv: Prompt + Response wird für jede Probe in der Gruppe wiederholt berechnet. Bei kurzen Prompts und langen Completions ist das effizient, bei langen Prompts und kurzen Antworten jedoch hochgradig verschwenderisch. Beispiel: 1000-Token-Prompt mit 100-Token-Response bei Gruppengröße G=8 erzeugt 8800 zu verarbeitende Token, obwohl nur 1800 einzigartig sind – rund 5× zu viel Compute. Der vorgestellte Ansatz berechnet den Prompt einmalig und leitet anschließend alle G Responses dahinter. Das klingt trivial, ist es aber nicht: Im Gegensatz zu Inference-Caching müssen beim Training Gradienten durch den Prompt zurückfließen, was die kausale Attention-Maske aufbricht. Die Lösung erfordert unterschiedliche Techniken für Full-Attention- und Linear-Attention-Schichten. Gemessen an Qwen3.5-4B reichen die Speedups von 7,5× (16k Prompt / 64 Tokens Output) über 5,4× (16k / 1k) bis 1,7× (8k / 4k) – das Verhältnis von Prompt- zu Response-Länge ist der entscheidende Hebel.
- Bei G=8 und 1000-Token-Prompt + 100-Token-Response werden ohne Caching ~5× so viele Tokens verarbeitet wie nötig.
- Die Methode ist analog zu Inference Prefix Caching, muss aber Gradientenfluss durch den gecachten Prompt sicherstellen.
- Unterschiedliche Implementierungen nötig für Full-Attention- vs. Linear-Attention-Layer.
- Speedup-Messung auf Qwen3.5-4B: 16k/64 → 7,5×, 16k/128 → 7,3×, 16k/1k → 5,4×, 8k/4k → 1,7×.
- Der Gewinn skaliert direkt mit dem Verhältnis Prompt-Länge zu Response-Länge.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
DualKV: FlashAttention-Variante eliminiert Prompt-Replikation im RL-Training
- FORSCHUNGarxiv.org1w
Learning-Zone Energy: Online-Datenselektion für effizienteres RL-Post-Training
- FORSCHUNGarxiv.org2d
MVR-cache steigert Semantic-Caching-Trefferrate um bis zu 37 %
- FORSCHUNGarxiv.org3w
Prompt-effizientes RLVR durch Rare-Event-Amplification und Bidirectional Pairing