RTPurbo: Full-Attention-LLMs in wenigen Hundert Schritten zu Sparse-Modellen

Warum es zählt

Wer Long-Context-Inferenz mit bestehenden Full-Attention-Modellen betreiben will, kann mit RTPurbo drastische Effizienzgewinne erzielen, ohne von Grund auf neu zu trainieren – das senkt Einstiegshürde und Kosten für sparse Inferenz erheblich.

— Lumeric Redaktion

Long-Context-Inferenz in großen Sprachmodellen leidet unter dem quadratischen Rechenaufwand von Full Attention. Bisherige Ansätze setzen entweder auf nativ-sparses Training oder heuristische Token-Eviction, was jeweils Kompromisse bei Effizienz, Trainingskosten oder Genauigkeit mit sich bringt. Die Arbeit zu RTPurbo zeigt, dass Full-Attention-LLMs bereits intrinsisch sparse sind und mit nur wenigen hundert Trainingsschritten in hochsparse Modelle überführt werden können. Drei Kernbeobachtungen bilden die Grundlage: Erstens benötigt nur eine kleine Teilmenge der Attention-Heads tatsächlich vollen Long-Context-Zugriff. Zweitens lässt sich Long-Range-Retrieval über einen niedrigdimensionalen Unterraum abbilden – ein 16-dimensionaler Indexer genügt. Drittens ist das nützliche Token-Budget stark abfrageabhängig, weshalb dynamische Top-p-Selektion statischen Schwellwerten überlegen ist. RTPurbo behält den vollen KV-Cache nur für sogenannte Retrieval-Heads und kombiniert dies mit einem leichtgewichtigen Token-Indexer für sparse Attention. Experimente auf Long-Context-Benchmarks und Reasoning-Tasks belegen nahezu verlustfreie Genauigkeit bei bis zu 9,36× Prefill-Speedup (1M Kontext) und 2,01× Decode-Speedup.

Was wir noch wissen

Nur ein kleiner Teil der Attention-Heads erfordert vollständige Long-Context-Verarbeitung (Retrieval-Heads).
Long-Range-Retrieval wird über einen 16-dimensionalen Indexer effizient approximiert.
Dynamische Top-p-Selektion ersetzt statische Token-Budgets für bessere query-adaptive Sparsität.
RTPurbo erreicht Sparsifizierung in wenigen Hundert Trainingsschritten – kein natives Sparse-Pretraining nötig.
Validierung auf Long-Context-Benchmarks und Reasoning-Tasks zeigt nahezu verlustfreie Genauigkeit.

Quelle lesenreddit.com

9,36×

Prefill-Speedup bei 1M-Token-Kontext

Foundation Modelle Inferenz Infra Long Context

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

RTPurbo: Full-Attention-LLMs in wenigen Hundert Schritten zu Sparse-Modellen

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Nur ein kleiner Teil der Attention-Heads erfordert vollständige Long-Context-Verarbeitung (Retrieval-Heads).
Long-Range-Retrieval wird über einen 16-dimensionalen Indexer effizient approximiert.
Dynamische Top-p-Selektion ersetzt statische Token-Budgets für bessere query-adaptive Sparsität.
RTPurbo erreicht Sparsifizierung in wenigen Hundert Trainingsschritten – kein natives Sparse-Pretraining nötig.
Validierung auf Long-Context-Benchmarks und Reasoning-Tasks zeigt nahezu verlustfreie Genauigkeit.

9,36×

Prefill-Speedup bei 1M-Token-Kontext

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

RTPurbo: Full-Attention-LLMs in wenigen Hundert Schritten zu Sparse-Modellen

Frag die KI zum Artikel

Verwandte Beiträge

RTPurbo: Full-Attention-LLMs in wenigen Hundert Schritten zu Sparse-Modellen

Frag die KI zum Artikel

Verwandte Beiträge