MiMo-V2.5-IQ3_S mit 1-Million-Token-Kontext auf Dual-GPU getestet

CompaniesAMD

Warum es zählt

MiMo-V2.5 zeigt laut Test bei 50k+ Kontext stabilere Prefill-Geschwindigkeit als MiniMax – relevant für alle, die lokale Modelle mit sehr großem Kontextfenster über llama-server betreiben. Loop-Probleme lassen sich offenbar mit Repetition Penalty 1.1 und festem Seed mitigieren.

— Lumeric Redaktion

Der Reddit-Nutzer LegacyRemaster betreibt MiMo-V2.5 in der IQ3_S-GGUF-Quantisierung mit einem Kontextfenster von exakt 1.048.576 Token unter llama-server (llama.cpp). Die Hardware-Konfiguration umfasst eine RTX 6000 mit 96 GB VRAM und eine AMD W7800 mit 48 GB VRAM; alle 49 Modell-Layer werden vollständig auf die GPUs ausgelagert (72.842 MiB auf Vulkan0, 34.524 MiB auf Vulkan1). Die zweite GPU befindet sich auf einem separaten Rechner, weshalb zunächst nur die IQ3-Variante getestet wird. Auffällig ist die im Vergleich zu MiniMax deutlich stabilere Verarbeitungs- und Prefill-Geschwindigkeit jenseits von 50k Token Kontext. Als zentrales Problem identifiziert der Nutzer eine Loop-Tendenz des Modells; Repetition Penalty 1.1, Temperatur 0.2 und ein fixer Seed wirken dem entgegen. Der Test wird fortgesetzt, sobald die 300k-Kontext-Marke überschritten wird.

Was wir noch wissen

Alle 49 Layer vollständig auf GPU ausgelagert: 72.842 MiB (Vulkan0) + 34.524 MiB (Vulkan1)
Startparameter: --ctx-size 1048576, --flash-attn on, --temp 0.2, --n-cpu-moe 0, Split-Mode 'layer'
MiMo-V2.5 behält Prefill-Geschwindigkeit bei 50k+ Kontext stabiler als MiniMax im Direktvergleich
Hauptproblem: Modell neigt zu Loops; Workaround: Repetition Penalty 1.1 + fester Seed
Test läuft parallel in llama-server und VSCode + Kilocode; Folgebericht ab 300k Kontext geplant

Quelle lesenreddit.com

Foundation Modelle Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MiMo-V2.5-IQ3_S mit 1-Million-Token-Kontext auf Dual-GPU getestet

ToolsLlama

CompaniesAMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Alle 49 Layer vollständig auf GPU ausgelagert: 72.842 MiB (Vulkan0) + 34.524 MiB (Vulkan1)
Startparameter: --ctx-size 1048576, --flash-attn on, --temp 0.2, --n-cpu-moe 0, Split-Mode 'layer'
MiMo-V2.5 behält Prefill-Geschwindigkeit bei 50k+ Kontext stabiler als MiniMax im Direktvergleich
Hauptproblem: Modell neigt zu Loops; Workaround: Repetition Penalty 1.1 + fester Seed
Test läuft parallel in llama-server und VSCode + Kilocode; Folgebericht ab 300k Kontext geplant

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MiMo-V2.5-IQ3_S mit 1-Million-Token-Kontext auf Dual-GPU getestet

Frag die KI zum Artikel

Verwandte Beiträge

MiMo-V2.5-IQ3_S mit 1-Million-Token-Kontext auf Dual-GPU getestet

Frag die KI zum Artikel

Verwandte Beiträge