RTPurbo: Full-Attention-LLMs in wenigen Hundert Schritten zu Sparse-Modellen
Long-Context-Inferenz in großen Sprachmodellen leidet unter dem quadratischen Rechenaufwand von Full Attention. Bisherige Ansätze setzen entweder auf nativ-sparses Training oder heuristische Token-Eviction, was jeweils Kompromisse bei Effizienz, Trainingskosten oder Genauigkeit mit sich bringt. Die Arbeit zu RTPurbo zeigt, dass Full-Attention-LLMs bereits intrinsisch sparse sind und mit nur wenigen hundert Trainingsschritten in hochsparse Modelle überführt werden können. Drei Kernbeobachtungen bilden die Grundlage: Erstens benötigt nur eine kleine Teilmenge der Attention-Heads tatsächlich vollen Long-Context-Zugriff. Zweitens lässt sich Long-Range-Retrieval über einen niedrigdimensionalen Unterraum abbilden – ein 16-dimensionaler Indexer genügt. Drittens ist das nützliche Token-Budget stark abfrageabhängig, weshalb dynamische Top-p-Selektion statischen Schwellwerten überlegen ist. RTPurbo behält den vollen KV-Cache nur für sogenannte Retrieval-Heads und kombiniert dies mit einem leichtgewichtigen Token-Indexer für sparse Attention. Experimente auf Long-Context-Benchmarks und Reasoning-Tasks belegen nahezu verlustfreie Genauigkeit bei bis zu 9,36× Prefill-Speedup (1M Kontext) und 2,01× Decode-Speedup.
- Nur ein kleiner Teil der Attention-Heads erfordert vollständige Long-Context-Verarbeitung (Retrieval-Heads).
- Long-Range-Retrieval wird über einen 16-dimensionalen Indexer effizient approximiert.
- Dynamische Top-p-Selektion ersetzt statische Token-Budgets für bessere query-adaptive Sparsität.
- RTPurbo erreicht Sparsifizierung in wenigen Hundert Trainingsschritten – kein natives Sparse-Pretraining nötig.
- Validierung auf Long-Context-Benchmarks und Reasoning-Tasks zeigt nahezu verlustfreie Genauigkeit.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
RTPurbo: Full-Attention-LLMs in wenigen Hundert Schritten zu Sparse-Modellen
Long-Context-Inferenz in großen Sprachmodellen leidet unter dem quadratischen Rechenaufwand von Full Attention. Bisherige Ansätze setzen entweder auf nativ-sparses Training oder heuristische Token-Eviction, was jeweils Kompromisse bei Effizienz, Trainingskosten oder Genauigkeit mit sich bringt. Die Arbeit zu RTPurbo zeigt, dass Full-Attention-LLMs bereits intrinsisch sparse sind und mit nur wenigen hundert Trainingsschritten in hochsparse Modelle überführt werden können. Drei Kernbeobachtungen bilden die Grundlage: Erstens benötigt nur eine kleine Teilmenge der Attention-Heads tatsächlich vollen Long-Context-Zugriff. Zweitens lässt sich Long-Range-Retrieval über einen niedrigdimensionalen Unterraum abbilden – ein 16-dimensionaler Indexer genügt. Drittens ist das nützliche Token-Budget stark abfrageabhängig, weshalb dynamische Top-p-Selektion statischen Schwellwerten überlegen ist. RTPurbo behält den vollen KV-Cache nur für sogenannte Retrieval-Heads und kombiniert dies mit einem leichtgewichtigen Token-Indexer für sparse Attention. Experimente auf Long-Context-Benchmarks und Reasoning-Tasks belegen nahezu verlustfreie Genauigkeit bei bis zu 9,36× Prefill-Speedup (1M Kontext) und 2,01× Decode-Speedup.
- Nur ein kleiner Teil der Attention-Heads erfordert vollständige Long-Context-Verarbeitung (Retrieval-Heads).
- Long-Range-Retrieval wird über einen 16-dimensionalen Indexer effizient approximiert.
- Dynamische Top-p-Selektion ersetzt statische Token-Budgets für bessere query-adaptive Sparsität.
- RTPurbo erreicht Sparsifizierung in wenigen Hundert Trainingsschritten – kein natives Sparse-Pretraining nötig.
- Validierung auf Long-Context-Benchmarks und Reasoning-Tasks zeigt nahezu verlustfreie Genauigkeit.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.