Z-Lab veröffentlicht DFlash für Gemma 4 26B-A4B – schnellere Spekulative Decodierung

Warum es zählt

DFlash verwaltet KV-Cache, RoPE-Offsets und Kontextpuffer persistent über Iterationen, was Geschwindigkeitsvorteile bei wachsendem Kontext verspricht – allerdings aktuell nur via vLLM nutzbar, llama.cpp-Support steht noch aus.

— Lumeric Redaktion

Z-Lab hat ein DFlash-Gewicht für das Gemma-4-Modell mit 26 Milliarden aktiven Parametern (26B-A4B-it) veröffentlicht, das in der LocalLLaMA-Community bislang kaum Beachtung fand, da die Diskussion von MTP-Ansätzen (Multi-Token Prediction) dominiert wurde. DFlash basiert auf paralleler Block-Diffusion zum spekulativen Decodieren und ist im Gegensatz zu MTP stateful: Es hält einen persistenten Zustand über Iterationen hinweg, inklusive Kontextpuffer, KV-Cache-Positionen und RoPE-Offsets. Der Autor des Reddit-Posts argumentiert, dass DFlash dadurch bei langen Sessions und wachsendem Kontext einen strukturellen Vorteil gegenüber MTP besitzt, da bei letzterem der KV-Cache schneller anschwillt. Offen bleibt, wie groß der tatsächliche Geschwindigkeitsgewinn bei Sparse-MoE-Modellen wie Gemma 4 26B oder Qwen 3.6 35B ausfällt. Derzeit ist DFlash ausschließlich über vLLM nutzbar; der Stand der llama.cpp-Integration ist unklar und wird in den Kommentaren nachgefragt.

Was wir noch wissen

DFlash nutzt parallele Block-Diffusion als Drafting-Mechanismus für spekulative Decodierung.
Stateful-Design: persistenter Zustand für Kontextpuffer, KV-Cache-Positionen und RoPE-Offsets über Iterationen.
Aktuell nur vLLM-kompatibel – llama.cpp-Support noch nicht verfügbar.
Community-Interesse gilt auch dem Einsatz bei Qwen 3.6 35B (ebenfalls Sparse-MoE).
Veröffentlichung blieb zunächst unter dem Radar, da MTP-Diskussionen dominierten.

Quelle lesenreddit.com

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Z-Lab veröffentlicht DFlash für Gemma 4 26B-A4B – schnellere Spekulative Decodierung

ToolsQwen Llama

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

DFlash nutzt parallele Block-Diffusion als Drafting-Mechanismus für spekulative Decodierung.
Stateful-Design: persistenter Zustand für Kontextpuffer, KV-Cache-Positionen und RoPE-Offsets über Iterationen.
Aktuell nur vLLM-kompatibel – llama.cpp-Support noch nicht verfügbar.
Community-Interesse gilt auch dem Einsatz bei Qwen 3.6 35B (ebenfalls Sparse-MoE).
Veröffentlichung blieb zunächst unter dem Radar, da MTP-Diskussionen dominierten.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Z-Lab veröffentlicht DFlash für Gemma 4 26B-A4B – schnellere Spekulative Decodierung

Frag die KI zum Artikel

Verwandte Beiträge

Z-Lab veröffentlicht DFlash für Gemma 4 26B-A4B – schnellere Spekulative Decodierung

Frag die KI zum Artikel

Verwandte Beiträge