BeeLlama.cpp: llama.cpp-Fork mit DFlash & TurboQuant – 2–3× schneller, 200k Kontext auf RTX 3090
BeeLlama.cpp (kurz: „Bee") ist ein performance-fokussierter Fork von llama.cpp, entwickelt von GitHub-Nutzer Anbeeld. Ausgangspunkt war der Wunsch, Qwen 3.6 27B in Q5-Quantisierung mit 200k Kontext, Vision-Support und Speculative Decoding auf einer einzigen NVIDIA RTX 3090 unter Windows zu betreiben – was bestehende Tools nicht out-of-the-box ermöglichten. Das Fork führt mehrere Techniken zusammen: DFlash Speculative Decoding nutzt einen separaten Draft-GGUF, der über Cross-Attention auf einen Hidden-State-Ringbuffer des Zielmodells (4096 Slots pro Layer) zugreift. TurboQuant und TCQ (Trellis-Coded Quantization) bieten fünf KV-Cache-Kompressionstypen (turbo2 bis turbo3_tcq) mit 4× bis 7,5× Kompression. Ein adaptiver Draft-Max-Controller passt den Draft-Horizont zur Laufzeit an. Zusätzlich schützt ein Reasoning-Loop-Detektor vor repetitiven Ausgaben in Reasoning-Modellen. CopySpec ermöglicht modellfreie Spekulation per Rolling-Hash. TurboQuant stammt aus TheTom/llama-cpp-turboquant, TCQ und der DFlash-Grundaufbau aus spiritbuun/buun-llama-cpp. Das Projekt ist öffentlich auf GitHub verfügbar und bringt eine fertige Plug-and-play-Konfiguration für Qwen 3.6 27B mit.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
BeeLlama.cpp: llama.cpp-Fork mit DFlash & TurboQuant – 2–3× schneller, 200k Kontext auf RTX 3090
BeeLlama.cpp (kurz: „Bee") ist ein performance-fokussierter Fork von llama.cpp, entwickelt von GitHub-Nutzer Anbeeld. Ausgangspunkt war der Wunsch, Qwen 3.6 27B in Q5-Quantisierung mit 200k Kontext, Vision-Support und Speculative Decoding auf einer einzigen NVIDIA RTX 3090 unter Windows zu betreiben – was bestehende Tools nicht out-of-the-box ermöglichten. Das Fork führt mehrere Techniken zusammen: DFlash Speculative Decoding nutzt einen separaten Draft-GGUF, der über Cross-Attention auf einen Hidden-State-Ringbuffer des Zielmodells (4096 Slots pro Layer) zugreift. TurboQuant und TCQ (Trellis-Coded Quantization) bieten fünf KV-Cache-Kompressionstypen (turbo2 bis turbo3_tcq) mit 4× bis 7,5× Kompression. Ein adaptiver Draft-Max-Controller passt den Draft-Horizont zur Laufzeit an. Zusätzlich schützt ein Reasoning-Loop-Detektor vor repetitiven Ausgaben in Reasoning-Modellen. CopySpec ermöglicht modellfreie Spekulation per Rolling-Hash. TurboQuant stammt aus TheTom/llama-cpp-turboquant, TCQ und der DFlash-Grundaufbau aus spiritbuun/buun-llama-cpp. Das Projekt ist öffentlich auf GitHub verfügbar und bringt eine fertige Plug-and-play-Konfiguration für Qwen 3.6 27B mit.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.