MiniMax M2.7 mit 100k Kontext auf Strix Halo: llama.cpp-Konfiguration im Detail

Warum es zählt

Die konkrete Parameterkombination – insbesondere `--cache-ram 0`, `--kv-unified` und `-np 2` – löst OOM-Probleme bei großen Kontextfenstern auf Consumer-Hardware und ist direkt übertragbar auf ähnliche Local-LLM-Setups.

— Lumeric Redaktion

Der Reddit-Nutzer Zc5Gwu beschreibt, wie er MiniMax M2.7 im GGUF-Format (Quantisierung: UD-IQ3_XXS via unsloth) mit einem Kontextfenster von 100.000 Token auf einem AMD Strix-Halo-System unter headless Fedora Linux zum Laufen gebracht hat. Kernproblem war Out-of-Memory (OOM): Gelöst wurde es vor allem durch `--cache-ram 0`, das den KV-Cache vollständig im VRAM hält statt ihn in den RAM auszulagern. Mit `--kv-unified` teilen sich zwei parallele Sessions (`-np 2`) denselben Cache, was VRAM spart. Flash Attention (`-fa on`) ist aktiviert, alle Layer werden auf die GPU ausgelagert (`-ngl 999`). Für das Betriebssystem empfiehlt der Autor, die Swap-Größe zu erhöhen und `OOMScoreAdjust=500` in der Systemd-Service-Datei zu setzen, damit der OOM-Killer keine kritischen Prozesse beendet. Im qualitativen Vergleich mit Qwen3.6 27B attestiert der Autor MiniMax stärkeres „Intent-Verständnis" beim Coding, sieht Qwen jedoch als vielseitiger und stärker bei Code-Reviews und Architektur-Diskussionen. Die Einrichtung folgt teilweise den Setup-Guides von „Donato".

Was wir noch wissen

Modell: unsloth/MiniMax-M2.7-GGUF in UD-IQ3_XXS-Quantisierung, 100k Kontext via llama-server
--cache-ram 0 verhindert KV-Cache-Auslagerung in RAM und löste laut Autor die meisten OOM-Abstürze
--kv-unified lässt zwei parallele Sessions (-np 2) denselben KV-Cache teilen, spart VRAM
Betriebssystem: Headless Fedora Linux; Empfehlung: größerer Swap + OOMScoreAdjust=500 im Systemd-Service
Qualitativ: MiniMax besser bei Coding-Intuition/Intent, Qwen3.6 27B laut Autor vielseitiger und stärker bei Code-Review

Quelle lesenreddit.com

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MiniMax M2.7 mit 100k Kontext auf Strix Halo: llama.cpp-Konfiguration im Detail

ToolsQwen Llama Hugging Face

CompaniesHugging Face AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Modell: unsloth/MiniMax-M2.7-GGUF in UD-IQ3_XXS-Quantisierung, 100k Kontext via llama-server
--cache-ram 0 verhindert KV-Cache-Auslagerung in RAM und löste laut Autor die meisten OOM-Abstürze
--kv-unified lässt zwei parallele Sessions (-np 2) denselben KV-Cache teilen, spart VRAM
Betriebssystem: Headless Fedora Linux; Empfehlung: größerer Swap + OOMScoreAdjust=500 im Systemd-Service
Qualitativ: MiniMax besser bei Coding-Intuition/Intent, Qwen3.6 27B laut Autor vielseitiger und stärker bei Code-Review

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MiniMax M2.7 mit 100k Kontext auf Strix Halo: llama.cpp-Konfiguration im Detail

Frag die KI zum Artikel

Verwandte Beiträge

MiniMax M2.7 mit 100k Kontext auf Strix Halo: llama.cpp-Konfiguration im Detail

Frag die KI zum Artikel

Verwandte Beiträge