JetBrains Mellum 2: 12B-MoE-Modell erreicht 111 t/s auf Consumer-GPU
Warum es zählt
Das Modell übertrifft in diesem informellen Test Qwen 3.5-9B bei der Inferenzgeschwindigkeit (~30 t/s) deutlich und besteht Tool-Call-Aufgaben, an denen größere Modelle (gemma4-12b, gpt-oss-20b) scheitern – relevant für lokale Coding-Assistenten auf Mid-Range-Hardware.
— Lumeric Redaktion
111 t/s
Token-Generierung auf AMD RX 7900 XT
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
JetBrains Mellum 2: 12B-MoE-Modell erreicht 111 t/s auf Consumer-GPU
Warum es zählt
Das Modell übertrifft in diesem informellen Test Qwen 3.5-9B bei der Inferenzgeschwindigkeit (~30 t/s) deutlich und besteht Tool-Call-Aufgaben, an denen größere Modelle (gemma4-12b, gpt-oss-20b) scheitern – relevant für lokale Coding-Assistenten auf Mid-Range-Hardware.
— Lumeric Redaktion
111 t/s
Token-Generierung auf AMD RX 7900 XT
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.