MiniMax M2.7 mit 100k Kontext auf Strix Halo: llama.cpp-Konfiguration im Detail
Der Reddit-Nutzer Zc5Gwu beschreibt, wie er MiniMax M2.7 im GGUF-Format (Quantisierung: UD-IQ3_XXS via unsloth) mit einem Kontextfenster von 100.000 Token auf einem AMD Strix-Halo-System unter headless Fedora Linux zum Laufen gebracht hat. Kernproblem war Out-of-Memory (OOM): Gelöst wurde es vor allem durch `--cache-ram 0`, das den KV-Cache vollständig im VRAM hält statt ihn in den RAM auszulagern. Mit `--kv-unified` teilen sich zwei parallele Sessions (`-np 2`) denselben Cache, was VRAM spart. Flash Attention (`-fa on`) ist aktiviert, alle Layer werden auf die GPU ausgelagert (`-ngl 999`). Für das Betriebssystem empfiehlt der Autor, die Swap-Größe zu erhöhen und `OOMScoreAdjust=500` in der Systemd-Service-Datei zu setzen, damit der OOM-Killer keine kritischen Prozesse beendet. Im qualitativen Vergleich mit Qwen3.6 27B attestiert der Autor MiniMax stärkeres „Intent-Verständnis" beim Coding, sieht Qwen jedoch als vielseitiger und stärker bei Code-Reviews und Architektur-Diskussionen. Die Einrichtung folgt teilweise den Setup-Guides von „Donato".
- Modell: unsloth/MiniMax-M2.7-GGUF in UD-IQ3_XXS-Quantisierung, 100k Kontext via llama-server
- --cache-ram 0 verhindert KV-Cache-Auslagerung in RAM und löste laut Autor die meisten OOM-Abstürze
- --kv-unified lässt zwei parallele Sessions (-np 2) denselben KV-Cache teilen, spart VRAM
- Betriebssystem: Headless Fedora Linux; Empfehlung: größerer Swap + OOMScoreAdjust=500 im Systemd-Service
- Qualitativ: MiniMax besser bei Coding-Intuition/Intent, Qwen3.6 27B laut Autor vielseitiger und stärker bei Code-Review
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com1w
Llama.cpp auf macOS: 100k-Kontext mit Qwen3.5-35B-A3B optimieren
- MEINUNGreddit.com2w
MiMo-V2.5-IQ3_S mit 1-Million-Token-Kontext auf Dual-GPU getestet
- MEINUNGreddit.com2w
Community-Diskussion: LLM-Inferenz auf Radeon 7900XTX mit llama.cpp und Vulkan optimieren
- MEINUNGreddit.com2w
Stabiles 30B-Modell mit 256k Kontext auf 32-GB-Mac: Community-Diskussion
MiniMax M2.7 mit 100k Kontext auf Strix Halo: llama.cpp-Konfiguration im Detail
Der Reddit-Nutzer Zc5Gwu beschreibt, wie er MiniMax M2.7 im GGUF-Format (Quantisierung: UD-IQ3_XXS via unsloth) mit einem Kontextfenster von 100.000 Token auf einem AMD Strix-Halo-System unter headless Fedora Linux zum Laufen gebracht hat. Kernproblem war Out-of-Memory (OOM): Gelöst wurde es vor allem durch `--cache-ram 0`, das den KV-Cache vollständig im VRAM hält statt ihn in den RAM auszulagern. Mit `--kv-unified` teilen sich zwei parallele Sessions (`-np 2`) denselben Cache, was VRAM spart. Flash Attention (`-fa on`) ist aktiviert, alle Layer werden auf die GPU ausgelagert (`-ngl 999`). Für das Betriebssystem empfiehlt der Autor, die Swap-Größe zu erhöhen und `OOMScoreAdjust=500` in der Systemd-Service-Datei zu setzen, damit der OOM-Killer keine kritischen Prozesse beendet. Im qualitativen Vergleich mit Qwen3.6 27B attestiert der Autor MiniMax stärkeres „Intent-Verständnis" beim Coding, sieht Qwen jedoch als vielseitiger und stärker bei Code-Reviews und Architektur-Diskussionen. Die Einrichtung folgt teilweise den Setup-Guides von „Donato".
- Modell: unsloth/MiniMax-M2.7-GGUF in UD-IQ3_XXS-Quantisierung, 100k Kontext via llama-server
- --cache-ram 0 verhindert KV-Cache-Auslagerung in RAM und löste laut Autor die meisten OOM-Abstürze
- --kv-unified lässt zwei parallele Sessions (-np 2) denselben KV-Cache teilen, spart VRAM
- Betriebssystem: Headless Fedora Linux; Empfehlung: größerer Swap + OOMScoreAdjust=500 im Systemd-Service
- Qualitativ: MiniMax besser bei Coding-Intuition/Intent, Qwen3.6 27B laut Autor vielseitiger und stärker bei Code-Review
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com1w
Llama.cpp auf macOS: 100k-Kontext mit Qwen3.5-35B-A3B optimieren
- MEINUNGreddit.com2w
MiMo-V2.5-IQ3_S mit 1-Million-Token-Kontext auf Dual-GPU getestet
- MEINUNGreddit.com2w
Community-Diskussion: LLM-Inferenz auf Radeon 7900XTX mit llama.cpp und Vulkan optimieren
- MEINUNGreddit.com2w
Stabiles 30B-Modell mit 256k Kontext auf 32-GB-Mac: Community-Diskussion