MiMo-V2.5-IQ3_S mit 1-Million-Token-Kontext auf Dual-GPU getestet
Der Reddit-Nutzer LegacyRemaster betreibt MiMo-V2.5 in der IQ3_S-GGUF-Quantisierung mit einem Kontextfenster von exakt 1.048.576 Token unter llama-server (llama.cpp). Die Hardware-Konfiguration umfasst eine RTX 6000 mit 96 GB VRAM und eine AMD W7800 mit 48 GB VRAM; alle 49 Modell-Layer werden vollständig auf die GPUs ausgelagert (72.842 MiB auf Vulkan0, 34.524 MiB auf Vulkan1). Die zweite GPU befindet sich auf einem separaten Rechner, weshalb zunächst nur die IQ3-Variante getestet wird. Auffällig ist die im Vergleich zu MiniMax deutlich stabilere Verarbeitungs- und Prefill-Geschwindigkeit jenseits von 50k Token Kontext. Als zentrales Problem identifiziert der Nutzer eine Loop-Tendenz des Modells; Repetition Penalty 1.1, Temperatur 0.2 und ein fixer Seed wirken dem entgegen. Der Test wird fortgesetzt, sobald die 300k-Kontext-Marke überschritten wird.
- Alle 49 Layer vollständig auf GPU ausgelagert: 72.842 MiB (Vulkan0) + 34.524 MiB (Vulkan1)
- Startparameter: --ctx-size 1048576, --flash-attn on, --temp 0.2, --n-cpu-moe 0, Split-Mode 'layer'
- MiMo-V2.5 behält Prefill-Geschwindigkeit bei 50k+ Kontext stabiler als MiniMax im Direktvergleich
- Hauptproblem: Modell neigt zu Loops; Workaround: Repetition Penalty 1.1 + fester Seed
- Test läuft parallel in llama-server und VSCode + Kilocode; Folgebericht ab 300k Kontext geplant
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
MiMo-V2.5-IQ3_S mit 1-Million-Token-Kontext auf Dual-GPU getestet
Der Reddit-Nutzer LegacyRemaster betreibt MiMo-V2.5 in der IQ3_S-GGUF-Quantisierung mit einem Kontextfenster von exakt 1.048.576 Token unter llama-server (llama.cpp). Die Hardware-Konfiguration umfasst eine RTX 6000 mit 96 GB VRAM und eine AMD W7800 mit 48 GB VRAM; alle 49 Modell-Layer werden vollständig auf die GPUs ausgelagert (72.842 MiB auf Vulkan0, 34.524 MiB auf Vulkan1). Die zweite GPU befindet sich auf einem separaten Rechner, weshalb zunächst nur die IQ3-Variante getestet wird. Auffällig ist die im Vergleich zu MiniMax deutlich stabilere Verarbeitungs- und Prefill-Geschwindigkeit jenseits von 50k Token Kontext. Als zentrales Problem identifiziert der Nutzer eine Loop-Tendenz des Modells; Repetition Penalty 1.1, Temperatur 0.2 und ein fixer Seed wirken dem entgegen. Der Test wird fortgesetzt, sobald die 300k-Kontext-Marke überschritten wird.
- Alle 49 Layer vollständig auf GPU ausgelagert: 72.842 MiB (Vulkan0) + 34.524 MiB (Vulkan1)
- Startparameter: --ctx-size 1048576, --flash-attn on, --temp 0.2, --n-cpu-moe 0, Split-Mode 'layer'
- MiMo-V2.5 behält Prefill-Geschwindigkeit bei 50k+ Kontext stabiler als MiniMax im Direktvergleich
- Hauptproblem: Modell neigt zu Loops; Workaround: Repetition Penalty 1.1 + fester Seed
- Test läuft parallel in llama-server und VSCode + Kilocode; Folgebericht ab 300k Kontext geplant
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.