Mimo 2.5 Pro läuft mit 40 t/s auf 8× Nvidia GB10 Cluster

CompaniesNVIDIA

Warum es zählt

Das 1T-Modell Mimo 2.5 Pro bleibt auch bei 250k Kontext noch praxistauglich (17 t/s) und skaliert im Parallelbetrieb auf 83 t/s bei 4 gleichzeitigen Anfragen — relevante Richtwerte für den Einsatz großer Modelle auf Consumer-naher NVIDIA-Spark-Hardware.

— Lumeric Redaktion

Der Reddit-Nutzer ciprianveg hat Mimo 2.5 Pro – ein Modell mit rund 1 Billion Parametern – auf einem selbst aufgebauten Cluster aus acht Asus-Einheiten mit Nvidia GB10-Chips (Spark-Plattform) in Betrieb genommen. Als Inferenz-Backend kommt mtp-2 zum Einsatz. Im Single-User-Coding-Betrieb liefert das Setup 40 Token/s bei 1k Kontext, 32 t/s bei 30k, 25 t/s bei 125k und noch 17 t/s bei 250k Kontext. Im Parallelbetrieb steigt der Gesamtdurchsatz deutlich: zwei parallele Anfragen erreichen 60 t/s, vier Anfragen 83 t/s gesamt. Die Messungen zeigen, dass auch ein 1T-Modell auf kompakter NVIDIA-Spark-Hardware über den vollen Long-Context-Bereich hinweg nutzbar bleibt. Weitere Details hat der Nutzer im NVIDIA Developer Forum unter forums.developer.nvidia.com veröffentlicht.

Was wir noch wissen

Hardware: 8× Asus Nvidia GB10 (Spark-Plattform), Inferenz-Backend mtp-2
Single-User-Durchsatz: 40 t/s (1k), 32 t/s (30k), 25 t/s (125k), 17 t/s (250k Kontext)
Parallelbetrieb: 2 parallele Requests → 60 t/s gesamt; 4 parallele Requests → 83 t/s gesamt
Modellgröße: ~1 Billion Parameter (1T), Aufgabenbereich Coding
Detailbericht im NVIDIA Developer Forum (forums.developer.nvidia.com/t/370803)

Quelle lesenreddit.com

Mimo 2.5 Pro Inferenz-Durchsatz (t/s, GB10-Cluster) · Spitzenwert

40%

1k Kontext

Inferenz Infra Foundation Modelle Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Mimo 2.5 Pro läuft mit 40 t/s auf 8× Nvidia GB10 Cluster

ToolsNVIDIA Hardware

CompaniesNVIDIA

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Hardware: 8× Asus Nvidia GB10 (Spark-Plattform), Inferenz-Backend mtp-2
Single-User-Durchsatz: 40 t/s (1k), 32 t/s (30k), 25 t/s (125k), 17 t/s (250k Kontext)
Parallelbetrieb: 2 parallele Requests → 60 t/s gesamt; 4 parallele Requests → 83 t/s gesamt
Modellgröße: ~1 Billion Parameter (1T), Aufgabenbereich Coding
Detailbericht im NVIDIA Developer Forum (forums.developer.nvidia.com/t/370803)

Mimo 2.5 Pro Inferenz-Durchsatz (t/s, GB10-Cluster) · Spitzenwert

40%

1k Kontext

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Mimo 2.5 Pro läuft mit 40 t/s auf 8× Nvidia GB10 Cluster

Frag die KI zum Artikel

Verwandte Beiträge

Mimo 2.5 Pro läuft mit 40 t/s auf 8× Nvidia GB10 Cluster

Frag die KI zum Artikel

Verwandte Beiträge