Prompt-Caching für RL-Training: 7,5-facher Speedup bei langen Prompts

Warum es zählt

Wer RL-Training mit langen Prompts und kurzen Completions betreibt – etwa für Reasoning- oder Tool-Use-Tasks – kann mit dieser Methode den Compute-Bedarf drastisch senken, ohne die Gradientenberechnung zu kompromittieren.

— Lumeric Redaktion

Die meisten Open-Source-RL-Engines wie GRPO packen Sequenzen naiv: Prompt + Response wird für jede Probe in der Gruppe wiederholt berechnet. Bei kurzen Prompts und langen Completions ist das effizient, bei langen Prompts und kurzen Antworten jedoch hochgradig verschwenderisch. Beispiel: 1000-Token-Prompt mit 100-Token-Response bei Gruppengröße G=8 erzeugt 8800 zu verarbeitende Token, obwohl nur 1800 einzigartig sind – rund 5× zu viel Compute. Der vorgestellte Ansatz berechnet den Prompt einmalig und leitet anschließend alle G Responses dahinter. Das klingt trivial, ist es aber nicht: Im Gegensatz zu Inference-Caching müssen beim Training Gradienten durch den Prompt zurückfließen, was die kausale Attention-Maske aufbricht. Die Lösung erfordert unterschiedliche Techniken für Full-Attention- und Linear-Attention-Schichten. Gemessen an Qwen3.5-4B reichen die Speedups von 7,5× (16k Prompt / 64 Tokens Output) über 5,4× (16k / 1k) bis 1,7× (8k / 4k) – das Verhältnis von Prompt- zu Response-Länge ist der entscheidende Hebel.

Was wir noch wissen

Bei G=8 und 1000-Token-Prompt + 100-Token-Response werden ohne Caching ~5× so viele Tokens verarbeitet wie nötig.
Die Methode ist analog zu Inference Prefix Caching, muss aber Gradientenfluss durch den gecachten Prompt sicherstellen.
Unterschiedliche Implementierungen nötig für Full-Attention- vs. Linear-Attention-Layer.
Speedup-Messung auf Qwen3.5-4B: 16k/64 → 7,5×, 16k/128 → 7,3×, 16k/1k → 5,4×, 8k/4k → 1,7×.
Der Gewinn skaliert direkt mit dem Verhältnis Prompt-Länge zu Response-Länge.

Quelle lesenreddit.com

7,5×

Speedup bei 16k-Prompt / 64-Token-Response

Rl Inferenz Infra Post Training

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Prompt-Caching für RL-Training: 7,5-facher Speedup bei langen Prompts

ToolsQwen

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Bei G=8 und 1000-Token-Prompt + 100-Token-Response werden ohne Caching ~5× so viele Tokens verarbeitet wie nötig.
Die Methode ist analog zu Inference Prefix Caching, muss aber Gradientenfluss durch den gecachten Prompt sicherstellen.
Unterschiedliche Implementierungen nötig für Full-Attention- vs. Linear-Attention-Layer.
Speedup-Messung auf Qwen3.5-4B: 16k/64 → 7,5×, 16k/128 → 7,3×, 16k/1k → 5,4×, 8k/4k → 1,7×.
Der Gewinn skaliert direkt mit dem Verhältnis Prompt-Länge zu Response-Länge.

7,5×

Speedup bei 16k-Prompt / 64-Token-Response

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Prompt-Caching für RL-Training: 7,5-facher Speedup bei langen Prompts

Frag die KI zum Artikel

Verwandte Beiträge

Prompt-Caching für RL-Training: 7,5-facher Speedup bei langen Prompts

Frag die KI zum Artikel

Verwandte Beiträge