BeeLlama v0.2.0: DFlash-Update bringt bis zu 4,93× Speed-up auf RTX 3090

CompaniesAMD

Warum es zählt

Lokale Ausführung großer 27B–31B-Modelle auf Consumer-GPUs wird mit DFlash um das bis zu 4,9-Fache schneller, ohne nennenswerten Prompt-Processing-Overhead – ein praktisch relevanter Sprung für Entwickler ohne Datacenter-Hardware.

— Lumeric Redaktion

BeeLlama v0.2.0 (veröffentlicht 2026-05-22) ist ein spezialisierter lokaler Inferenz-Server, der spekulatives Decoding per DFlash-Technik stark beschleunigt. Im Mittelpunkt des Updates steht eine überarbeitete DFlash-Implementierung, die bei Qwen 3.6 27B durch reduzierten Overhead, verbessertes Prefill-Handling und K/V-Projection-Caching des Drafter-Modells einen Median von 163,9 tok/s (Speedup 4,40×) erreicht. Gemma 4 31B wird erstmals vollständig unterstützt – inklusive Vision – und erzielt sogar 177,8 tok/s (4,93×). Die Benchmarks wurden auf Windows 11 mit AMD Ryzen 7 5700X3D, 32 GB DDR4 und einer RTX 3090 24 GB gemessen; als Baseline dient llama.cpp b9275 (CUDA 13.1). Prompt-Processing-Geschwindigkeit bleibt nahezu unverändert (≥0,93× Baseline), was zeigt, dass der Overhead durch DFlash beim Prefill minimal ist. Bei langen Multi-Turn-Coding-Kontexten (~28K–30K Token) fällt der Speedup auf 1,94× für Qwen und 1,74× für Gemma, bedingt durch niedrigere Acceptance-Raten (~24%). Zusätzlich wurden Drafter/Target-Validierung verschärft, Reasoning- und Tool-Call-Grenzen präzisiert sowie adaptive Profit-Logik um das Baseline-Probing korrigiert.

Quelle lesenreddit.com

BeeLlama DFlash vs. Baseline (tok/s, RTX 3090) · Spitzenwert

177.8%

Gemma 4 31B DFlash

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

BeeLlama v0.2.0: DFlash-Update bringt bis zu 4,93× Speed-up auf RTX 3090

Toolsv0 Qwen Llama Vercel

CompaniesAMD

Warum es zählt

— Lumeric Redaktion

BeeLlama DFlash vs. Baseline (tok/s, RTX 3090) · Spitzenwert

177.8%

Gemma 4 31B DFlash

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

BeeLlama v0.2.0: DFlash-Update bringt bis zu 4,93× Speed-up auf RTX 3090

Frag die KI zum Artikel

Verwandte Beiträge

BeeLlama v0.2.0: DFlash-Update bringt bis zu 4,93× Speed-up auf RTX 3090

Frag die KI zum Artikel

Verwandte Beiträge