ExLlamaV3 erhält DFlash-Support mit bis zu 3× Inferenz-Speedup

CompaniesAMD

Warum es zählt

DFlash bringt besonders für Coding-Workloads massive Geschwindigkeitsgewinne (3× Baseline), während die Modelloptimierungen auf High-End-GPUs wie der RTX 5090 oder AMD 6000 Pro Effizienzsteigerungen von über 70 % ermöglichen — relevant für alle, die große Modelle lokal quantisiert betreiben.

— Lumeric Redaktion

ExLlamaV3-Maintainer turboderp hat in einem intensiven Entwicklungszyklus seit April mehrere signifikante Updates veröffentlicht. Zunächst wurde Gemma-4-Support ergänzt, gefolgt von Verbesserungen der Caching-Effizienz. Vor zwei Wochen erschien DFlash-Support, der auf verschiedenen Workload-Kategorien erhebliche Geschwindigkeitssteigerungen zeigt: Im Coding-Szenario steigt der Durchsatz von 59,21 t/s (Baseline) über 75,34 t/s (N-gram/Suffix) auf 177,67 t/s mit DFlash – ein 3-facher Speedup. Agentic-Code-Workloads erreichen 140,61 t/s (2,51×). Letzte Woche folgten Modelloptimierungen, die vor allem Trinity-Nano 4.15bpw auf einer RTX 5090 um bis zu 70,5 % schneller machen. Auch Qwen3.5-27B und Gemma4-31B profitieren auf 5090 und AMD Radeon Pro 6000 mit 13–16 % Verbesserung. Aktuell laufen DFlash-Modellquantisierung sowie weitere Bugfixes, und auf dem Dev-Branch wird bereits an neuen Features gearbeitet. Die Community kann dem Projekt im offiziellen ExLlama-Discord folgen.

Quelle lesenreddit.com

DFlash vs. Baseline (ExLlamaV3, t/s) · Spitzenwert

59.21%

Baseline (Coding)

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

ExLlamaV3 erhält DFlash-Support mit bis zu 3× Inferenz-Speedup

ToolsQwen Llama

CompaniesAMD

Warum es zählt

— Lumeric Redaktion

DFlash vs. Baseline (ExLlamaV3, t/s) · Spitzenwert

59.21%

Baseline (Coding)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

ExLlamaV3 erhält DFlash-Support mit bis zu 3× Inferenz-Speedup

Frag die KI zum Artikel

Verwandte Beiträge

ExLlamaV3 erhält DFlash-Support mit bis zu 3× Inferenz-Speedup

Frag die KI zum Artikel

Verwandte Beiträge