ExLlamaV3 erhält DFlash-Support mit bis zu 3× Inferenz-Speedup
ExLlamaV3-Maintainer turboderp hat in einem intensiven Entwicklungszyklus seit April mehrere signifikante Updates veröffentlicht. Zunächst wurde Gemma-4-Support ergänzt, gefolgt von Verbesserungen der Caching-Effizienz. Vor zwei Wochen erschien DFlash-Support, der auf verschiedenen Workload-Kategorien erhebliche Geschwindigkeitssteigerungen zeigt: Im Coding-Szenario steigt der Durchsatz von 59,21 t/s (Baseline) über 75,34 t/s (N-gram/Suffix) auf 177,67 t/s mit DFlash – ein 3-facher Speedup. Agentic-Code-Workloads erreichen 140,61 t/s (2,51×). Letzte Woche folgten Modelloptimierungen, die vor allem Trinity-Nano 4.15bpw auf einer RTX 5090 um bis zu 70,5 % schneller machen. Auch Qwen3.5-27B und Gemma4-31B profitieren auf 5090 und AMD Radeon Pro 6000 mit 13–16 % Verbesserung. Aktuell laufen DFlash-Modellquantisierung sowie weitere Bugfixes, und auf dem Dev-Branch wird bereits an neuen Features gearbeitet. Die Community kann dem Projekt im offiziellen ExLlama-Discord folgen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
ExLlamaV3 erhält DFlash-Support mit bis zu 3× Inferenz-Speedup
ExLlamaV3-Maintainer turboderp hat in einem intensiven Entwicklungszyklus seit April mehrere signifikante Updates veröffentlicht. Zunächst wurde Gemma-4-Support ergänzt, gefolgt von Verbesserungen der Caching-Effizienz. Vor zwei Wochen erschien DFlash-Support, der auf verschiedenen Workload-Kategorien erhebliche Geschwindigkeitssteigerungen zeigt: Im Coding-Szenario steigt der Durchsatz von 59,21 t/s (Baseline) über 75,34 t/s (N-gram/Suffix) auf 177,67 t/s mit DFlash – ein 3-facher Speedup. Agentic-Code-Workloads erreichen 140,61 t/s (2,51×). Letzte Woche folgten Modelloptimierungen, die vor allem Trinity-Nano 4.15bpw auf einer RTX 5090 um bis zu 70,5 % schneller machen. Auch Qwen3.5-27B und Gemma4-31B profitieren auf 5090 und AMD Radeon Pro 6000 mit 13–16 % Verbesserung. Aktuell laufen DFlash-Modellquantisierung sowie weitere Bugfixes, und auf dem Dev-Branch wird bereits an neuen Features gearbeitet. Die Community kann dem Projekt im offiziellen ExLlama-Discord folgen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.