Mimo 2.5 Pro läuft mit 40 t/s auf 8× Nvidia GB10 Cluster
Der Reddit-Nutzer ciprianveg hat Mimo 2.5 Pro – ein Modell mit rund 1 Billion Parametern – auf einem selbst aufgebauten Cluster aus acht Asus-Einheiten mit Nvidia GB10-Chips (Spark-Plattform) in Betrieb genommen. Als Inferenz-Backend kommt mtp-2 zum Einsatz. Im Single-User-Coding-Betrieb liefert das Setup 40 Token/s bei 1k Kontext, 32 t/s bei 30k, 25 t/s bei 125k und noch 17 t/s bei 250k Kontext. Im Parallelbetrieb steigt der Gesamtdurchsatz deutlich: zwei parallele Anfragen erreichen 60 t/s, vier Anfragen 83 t/s gesamt. Die Messungen zeigen, dass auch ein 1T-Modell auf kompakter NVIDIA-Spark-Hardware über den vollen Long-Context-Bereich hinweg nutzbar bleibt. Weitere Details hat der Nutzer im NVIDIA Developer Forum unter forums.developer.nvidia.com veröffentlicht.
- Hardware: 8× Asus Nvidia GB10 (Spark-Plattform), Inferenz-Backend mtp-2
- Single-User-Durchsatz: 40 t/s (1k), 32 t/s (30k), 25 t/s (125k), 17 t/s (250k Kontext)
- Parallelbetrieb: 2 parallele Requests → 60 t/s gesamt; 4 parallele Requests → 83 t/s gesamt
- Modellgröße: ~1 Billion Parameter (1T), Aufgabenbereich Coding
- Detailbericht im NVIDIA Developer Forum (forums.developer.nvidia.com/t/370803)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Mimo 2.5 Pro läuft mit 40 t/s auf 8× Nvidia GB10 Cluster
Der Reddit-Nutzer ciprianveg hat Mimo 2.5 Pro – ein Modell mit rund 1 Billion Parametern – auf einem selbst aufgebauten Cluster aus acht Asus-Einheiten mit Nvidia GB10-Chips (Spark-Plattform) in Betrieb genommen. Als Inferenz-Backend kommt mtp-2 zum Einsatz. Im Single-User-Coding-Betrieb liefert das Setup 40 Token/s bei 1k Kontext, 32 t/s bei 30k, 25 t/s bei 125k und noch 17 t/s bei 250k Kontext. Im Parallelbetrieb steigt der Gesamtdurchsatz deutlich: zwei parallele Anfragen erreichen 60 t/s, vier Anfragen 83 t/s gesamt. Die Messungen zeigen, dass auch ein 1T-Modell auf kompakter NVIDIA-Spark-Hardware über den vollen Long-Context-Bereich hinweg nutzbar bleibt. Weitere Details hat der Nutzer im NVIDIA Developer Forum unter forums.developer.nvidia.com veröffentlicht.
- Hardware: 8× Asus Nvidia GB10 (Spark-Plattform), Inferenz-Backend mtp-2
- Single-User-Durchsatz: 40 t/s (1k), 32 t/s (30k), 25 t/s (125k), 17 t/s (250k Kontext)
- Parallelbetrieb: 2 parallele Requests → 60 t/s gesamt; 4 parallele Requests → 83 t/s gesamt
- Modellgröße: ~1 Billion Parameter (1T), Aufgabenbereich Coding
- Detailbericht im NVIDIA Developer Forum (forums.developer.nvidia.com/t/370803)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.