BeeLlama v0.2.0: DFlash-Update bringt bis zu 4,93× Speed-up auf RTX 3090
BeeLlama v0.2.0 (veröffentlicht 2026-05-22) ist ein spezialisierter lokaler Inferenz-Server, der spekulatives Decoding per DFlash-Technik stark beschleunigt. Im Mittelpunkt des Updates steht eine überarbeitete DFlash-Implementierung, die bei Qwen 3.6 27B durch reduzierten Overhead, verbessertes Prefill-Handling und K/V-Projection-Caching des Drafter-Modells einen Median von 163,9 tok/s (Speedup 4,40×) erreicht. Gemma 4 31B wird erstmals vollständig unterstützt – inklusive Vision – und erzielt sogar 177,8 tok/s (4,93×). Die Benchmarks wurden auf Windows 11 mit AMD Ryzen 7 5700X3D, 32 GB DDR4 und einer RTX 3090 24 GB gemessen; als Baseline dient llama.cpp b9275 (CUDA 13.1). Prompt-Processing-Geschwindigkeit bleibt nahezu unverändert (≥0,93× Baseline), was zeigt, dass der Overhead durch DFlash beim Prefill minimal ist. Bei langen Multi-Turn-Coding-Kontexten (~28K–30K Token) fällt der Speedup auf 1,94× für Qwen und 1,74× für Gemma, bedingt durch niedrigere Acceptance-Raten (~24%). Zusätzlich wurden Drafter/Target-Validierung verschärft, Reasoning- und Tool-Call-Grenzen präzisiert sowie adaptive Profit-Logik um das Baseline-Probing korrigiert.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
BeeLlama v0.2.0: DFlash-Update bringt bis zu 4,93× Speed-up auf RTX 3090
BeeLlama v0.2.0 (veröffentlicht 2026-05-22) ist ein spezialisierter lokaler Inferenz-Server, der spekulatives Decoding per DFlash-Technik stark beschleunigt. Im Mittelpunkt des Updates steht eine überarbeitete DFlash-Implementierung, die bei Qwen 3.6 27B durch reduzierten Overhead, verbessertes Prefill-Handling und K/V-Projection-Caching des Drafter-Modells einen Median von 163,9 tok/s (Speedup 4,40×) erreicht. Gemma 4 31B wird erstmals vollständig unterstützt – inklusive Vision – und erzielt sogar 177,8 tok/s (4,93×). Die Benchmarks wurden auf Windows 11 mit AMD Ryzen 7 5700X3D, 32 GB DDR4 und einer RTX 3090 24 GB gemessen; als Baseline dient llama.cpp b9275 (CUDA 13.1). Prompt-Processing-Geschwindigkeit bleibt nahezu unverändert (≥0,93× Baseline), was zeigt, dass der Overhead durch DFlash beim Prefill minimal ist. Bei langen Multi-Turn-Coding-Kontexten (~28K–30K Token) fällt der Speedup auf 1,94× für Qwen und 1,74× für Gemma, bedingt durch niedrigere Acceptance-Raten (~24%). Zusätzlich wurden Drafter/Target-Validierung verschärft, Reasoning- und Tool-Call-Grenzen präzisiert sowie adaptive Profit-Logik um das Baseline-Probing korrigiert.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.