Mellum2-12B-A2.5B-Thinking läuft als Q8-GGUF schnell auf RTX 5090
Warum es zählt
Für lokale Inferenz zeigt der Post, dass Mellum2 als 12B-MoE-Modell (nur 2,5B aktive Parameter) auf einer RTX 5090 mit Q8-Quantisierung sehr flott läuft – interessant für Nutzer, die Thinking-Fähigkeiten lokal betreiben wollen.
— Lumeric Redaktion
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Mellum2-12B-A2.5B-Thinking läuft als Q8-GGUF schnell auf RTX 5090
Warum es zählt
Für lokale Inferenz zeigt der Post, dass Mellum2 als 12B-MoE-Modell (nur 2,5B aktive Parameter) auf einer RTX 5090 mit Q8-Quantisierung sehr flott läuft – interessant für Nutzer, die Thinking-Fähigkeiten lokal betreiben wollen.
— Lumeric Redaktion
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.