wird geladen

JetBrains Mellum 2: 12B-MoE-Modell erreicht 111 t/s auf Consumer-GPU · Lumeric

Feed
Digest
Lounge
Stash
Profil

Beitrag

BENCHMARK

reddit.com· r/LocalLLaMA4d

JetBrains Mellum 2: 12B-MoE-Modell erreicht 111 t/s auf Consumer-GPU

Toolsv0 GPT Qwen Llama Hugging Face Vercel

CompaniesPerplexity Hugging Face AMD

Warum es zählt

Das Modell übertrifft in diesem informellen Test Qwen 3.5-9B bei der Inferenzgeschwindigkeit (~30 t/s) deutlich und besteht Tool-Call-Aufgaben, an denen größere Modelle (gemma4-12b, gpt-oss-20b) scheitern – relevant für lokale Coding-Assistenten auf Mid-Range-Hardware.

— Lumeric Redaktion

Quelle lesenreddit.com

111 t/s

Token-Generierung auf AMD RX 7900 XT

Coding Assistenten Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

LAUNCHhuggingface.co1w
Mellum 2: Offenes 12B-MoE-Modell für Software-Engineering
MEINUNGreddit.com1w
Mellum2-12B-A2.5B-Thinking läuft als Q8-GGUF schnell auf RTX 5090

BENCHMARK

reddit.com· r/LocalLLaMA4d

JetBrains Mellum 2: 12B-MoE-Modell erreicht 111 t/s auf Consumer-GPU

Toolsv0 GPT Qwen Llama Hugging Face Vercel

CompaniesPerplexity Hugging Face AMD

Warum es zählt

Das Modell übertrifft in diesem informellen Test Qwen 3.5-9B bei der Inferenzgeschwindigkeit (~30 t/s) deutlich und besteht Tool-Call-Aufgaben, an denen größere Modelle (gemma4-12b, gpt-oss-20b) scheitern – relevant für lokale Coding-Assistenten auf Mid-Range-Hardware.

— Lumeric Redaktion

111 t/s

Token-Generierung auf AMD RX 7900 XT

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Quelle lesenreddit.com

Themen

Coding Assistenten Inferenz Infra Open Source

Reaktion

Speichern

Verwandte Beiträge

LAUNCHhuggingface.co1w
Mellum 2: Offenes 12B-MoE-Modell für Software-Engineering
MEINUNGreddit.com1w
Mellum2-12B-A2.5B-Thinking läuft als Q8-GGUF schnell auf RTX 5090