Qwen3.6 mit llama-server: Leerzeichen in chat-template-kwargs brechen preserve_thinking

Warum es zählt

Wer Qwen3.6 über llama-server mit aktiviertem Thinking-Modus betreibt, sollte seine models.ini prüfen – fehlerhafte JSON-Formatierung in chat-template-kwargs deaktiviert lautlos das Reasoning, ohne Fehlermeldung.

— Lumeric Redaktion

Nutzer CaptBrick berichtet auf r/LocalLLaMA von einem subtilen Konfigurationsproblem beim Einsatz von Qwen3.6 über llama-server v9102 (Build 7d442abf5) auf einer RTX 4090. Der Parameter preserve_thinking in der Datei models.ini wurde trotz expliziter Aktivierung nicht korrekt ausgewertet – als Ursache stellten sich überflüssige Leerzeichen innerhalb des JSON-Strings heraus. Die Schreibweise { "preserve_thinking": true } (mit Leerzeichen nach der öffnenden Klammer) wird vom Parser nicht erkannt, während {"preserve_thinking": true} (ohne Leerzeichen) funktioniert. Das Verhalten ist besonders tückisch, da keine Fehlermeldung ausgegeben wird und der Thinking-Modus lautlos deaktiviert bleibt. Als einfacher Smoke-Test empfiehlt der Autor, das Modell eine geheime Zahl zwischen 1 und 100 wählen zu lassen und beim Raten zu prüfen, ob das Reasoning konsistent bleibt – ändert sich die Zahl, ist der Thinking-Output defekt. Es handelt sich vermutlich um einen Parsing-Quirk im INI-zu-JSON-Prozessor von llama-server, nicht um einen Fehler in Qwen3.6 selbst.

Was wir noch wissen

llama-server Version v9102, Commit 7d442abf5, getestet auf RTX 4090
Fehlerhafte Config: chat-template-kwargs = { "preserve_thinking": true } (Leerzeichen nach {)
Funktionierende Config: chat-template-kwargs = {"preserve_thinking": true} (kein Leerzeichen)
Kein Fehler-Log: preserve_thinking wird lautlos ignoriert, wenn Parsing fehlschlägt
Test: Modell soll geheime Zahl (1–100) halten – wechselnde Zahl zeigt defektes Reasoning an

Quelle lesenreddit.com

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6 mit llama-server: Leerzeichen in chat-template-kwargs brechen preserve_thinking

ToolsQwen Llama

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

llama-server Version v9102, Commit 7d442abf5, getestet auf RTX 4090
Fehlerhafte Config: chat-template-kwargs = { "preserve_thinking": true } (Leerzeichen nach {)
Funktionierende Config: chat-template-kwargs = {"preserve_thinking": true} (kein Leerzeichen)
Kein Fehler-Log: preserve_thinking wird lautlos ignoriert, wenn Parsing fehlschlägt
Test: Modell soll geheime Zahl (1–100) halten – wechselnde Zahl zeigt defektes Reasoning an

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6 mit llama-server: Leerzeichen in chat-template-kwargs brechen preserve_thinking

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6 mit llama-server: Leerzeichen in chat-template-kwargs brechen preserve_thinking

Frag die KI zum Artikel

Verwandte Beiträge