BeeLlama.cpp: llama.cpp-Fork mit DFlash & TurboQuant – 2–3× schneller, 200k Kontext auf RTX 3090

CompaniesNVIDIA

Warum es zählt

Wer Qwen 3.6 27B lokal auf einer einzigen RTX 3090 mit Vision und großem Kontext betreiben will, bekommt mit BeeLlama.cpp eine einsatzbereite Konfiguration – ohne VRAM-Kompromisse oder Tooling-Probleme, die bisherige Lösungen plagten.

— Lumeric Redaktion

BeeLlama.cpp (kurz: „Bee") ist ein performance-fokussierter Fork von llama.cpp, entwickelt von GitHub-Nutzer Anbeeld. Ausgangspunkt war der Wunsch, Qwen 3.6 27B in Q5-Quantisierung mit 200k Kontext, Vision-Support und Speculative Decoding auf einer einzigen NVIDIA RTX 3090 unter Windows zu betreiben – was bestehende Tools nicht out-of-the-box ermöglichten. Das Fork führt mehrere Techniken zusammen: DFlash Speculative Decoding nutzt einen separaten Draft-GGUF, der über Cross-Attention auf einen Hidden-State-Ringbuffer des Zielmodells (4096 Slots pro Layer) zugreift. TurboQuant und TCQ (Trellis-Coded Quantization) bieten fünf KV-Cache-Kompressionstypen (turbo2 bis turbo3_tcq) mit 4× bis 7,5× Kompression. Ein adaptiver Draft-Max-Controller passt den Draft-Horizont zur Laufzeit an. Zusätzlich schützt ein Reasoning-Loop-Detektor vor repetitiven Ausgaben in Reasoning-Modellen. CopySpec ermöglicht modellfreie Spekulation per Rolling-Hash. TurboQuant stammt aus TheTom/llama-cpp-turboquant, TCQ und der DFlash-Grundaufbau aus spiritbuun/buun-llama-cpp. Das Projekt ist öffentlich auf GitHub verfügbar und bringt eine fertige Plug-and-play-Konfiguration für Qwen 3.6 27B mit.

Quelle lesenreddit.com

135 tps

Peak-Durchsatz auf RTX 3090 (Qwen 3.6 27B Q5)

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

BeeLlama.cpp: llama.cpp-Fork mit DFlash & TurboQuant – 2–3× schneller, 200k Kontext auf RTX 3090

ToolsQwen NVIDIA Hardware Llama

CompaniesNVIDIA

Warum es zählt

— Lumeric Redaktion

135 tps

Peak-Durchsatz auf RTX 3090 (Qwen 3.6 27B Q5)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

BeeLlama.cpp: llama.cpp-Fork mit DFlash & TurboQuant – 2–3× schneller, 200k Kontext auf RTX 3090

Frag die KI zum Artikel

Verwandte Beiträge

BeeLlama.cpp: llama.cpp-Fork mit DFlash & TurboQuant – 2–3× schneller, 200k Kontext auf RTX 3090

Frag die KI zum Artikel

Verwandte Beiträge