Mellum2-12B-A2.5B-Thinking läuft als Q8-GGUF schnell auf RTX 5090

Warum es zählt

Für lokale Inferenz zeigt der Post, dass Mellum2 als 12B-MoE-Modell (nur 2,5B aktive Parameter) auf einer RTX 5090 mit Q8-Quantisierung sehr flott läuft – interessant für Nutzer, die Thinking-Fähigkeiten lokal betreiben wollen.

— Lumeric Redaktion

Quelle lesenreddit.com

Foundation Modelle Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Mellum2-12B-A2.5B-Thinking läuft als Q8-GGUF schnell auf RTX 5090

Warum es zählt

— Lumeric Redaktion

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Mellum2-12B-A2.5B-Thinking läuft als Q8-GGUF schnell auf RTX 5090

Frag die KI zum Artikel

Verwandte Beiträge

Mellum2-12B-A2.5B-Thinking läuft als Q8-GGUF schnell auf RTX 5090

Frag die KI zum Artikel

Verwandte Beiträge