Z-Lab veröffentlicht DFlash für Gemma 4 26B-A4B – schnellere Spekulative Decodierung
Z-Lab hat ein DFlash-Gewicht für das Gemma-4-Modell mit 26 Milliarden aktiven Parametern (26B-A4B-it) veröffentlicht, das in der LocalLLaMA-Community bislang kaum Beachtung fand, da die Diskussion von MTP-Ansätzen (Multi-Token Prediction) dominiert wurde. DFlash basiert auf paralleler Block-Diffusion zum spekulativen Decodieren und ist im Gegensatz zu MTP stateful: Es hält einen persistenten Zustand über Iterationen hinweg, inklusive Kontextpuffer, KV-Cache-Positionen und RoPE-Offsets. Der Autor des Reddit-Posts argumentiert, dass DFlash dadurch bei langen Sessions und wachsendem Kontext einen strukturellen Vorteil gegenüber MTP besitzt, da bei letzterem der KV-Cache schneller anschwillt. Offen bleibt, wie groß der tatsächliche Geschwindigkeitsgewinn bei Sparse-MoE-Modellen wie Gemma 4 26B oder Qwen 3.6 35B ausfällt. Derzeit ist DFlash ausschließlich über vLLM nutzbar; der Stand der llama.cpp-Integration ist unklar und wird in den Kommentaren nachgefragt.
- DFlash nutzt parallele Block-Diffusion als Drafting-Mechanismus für spekulative Decodierung.
- Stateful-Design: persistenter Zustand für Kontextpuffer, KV-Cache-Positionen und RoPE-Offsets über Iterationen.
- Aktuell nur vLLM-kompatibel – llama.cpp-Support noch nicht verfügbar.
- Community-Interesse gilt auch dem Einsatz bei Qwen 3.6 35B (ebenfalls Sparse-MoE).
- Veröffentlichung blieb zunächst unter dem Radar, da MTP-Diskussionen dominierten.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Z-Lab veröffentlicht DFlash für Gemma 4 26B-A4B – schnellere Spekulative Decodierung
Z-Lab hat ein DFlash-Gewicht für das Gemma-4-Modell mit 26 Milliarden aktiven Parametern (26B-A4B-it) veröffentlicht, das in der LocalLLaMA-Community bislang kaum Beachtung fand, da die Diskussion von MTP-Ansätzen (Multi-Token Prediction) dominiert wurde. DFlash basiert auf paralleler Block-Diffusion zum spekulativen Decodieren und ist im Gegensatz zu MTP stateful: Es hält einen persistenten Zustand über Iterationen hinweg, inklusive Kontextpuffer, KV-Cache-Positionen und RoPE-Offsets. Der Autor des Reddit-Posts argumentiert, dass DFlash dadurch bei langen Sessions und wachsendem Kontext einen strukturellen Vorteil gegenüber MTP besitzt, da bei letzterem der KV-Cache schneller anschwillt. Offen bleibt, wie groß der tatsächliche Geschwindigkeitsgewinn bei Sparse-MoE-Modellen wie Gemma 4 26B oder Qwen 3.6 35B ausfällt. Derzeit ist DFlash ausschließlich über vLLM nutzbar; der Stand der llama.cpp-Integration ist unklar und wird in den Kommentaren nachgefragt.
- DFlash nutzt parallele Block-Diffusion als Drafting-Mechanismus für spekulative Decodierung.
- Stateful-Design: persistenter Zustand für Kontextpuffer, KV-Cache-Positionen und RoPE-Offsets über Iterationen.
- Aktuell nur vLLM-kompatibel – llama.cpp-Support noch nicht verfügbar.
- Community-Interesse gilt auch dem Einsatz bei Qwen 3.6 35B (ebenfalls Sparse-MoE).
- Veröffentlichung blieb zunächst unter dem Radar, da MTP-Diskussionen dominierten.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.