BeeLlama v0.3.1: llama.cpp-Fork mit DFlash erreicht 177,8 tps auf RTX 3090
CompaniesAMD
Warum es zählt
Für lokale Inferenz auf Consumer-Hardware (RTX 3090) ermöglicht DFlash bei Qwen 3.6 27B und Gemma 4 31B bis zu ~5× höheren Durchsatz gegenüber Standard-llama.cpp. Multi-GPU und Multi-Slot werden jetzt ebenfalls unterstützt.
— Lumeric Redaktion
Token/s Throughput (RTX 3090, Task Store Module) · Spitzenwert
177.8%
Gemma 4 31B – DFlash
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
BeeLlama v0.3.1: llama.cpp-Fork mit DFlash erreicht 177,8 tps auf RTX 3090
CompaniesAMD
Warum es zählt
Für lokale Inferenz auf Consumer-Hardware (RTX 3090) ermöglicht DFlash bei Qwen 3.6 27B und Gemma 4 31B bis zu ~5× höheren Durchsatz gegenüber Standard-llama.cpp. Multi-GPU und Multi-Slot werden jetzt ebenfalls unterstützt.
— Lumeric Redaktion
Token/s Throughput (RTX 3090, Task Store Module) · Spitzenwert
177.8%
Gemma 4 31B – DFlash
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.