Nutzer fragt: Funktioniert preserve_thinking von llama.cpp mit OpenWebUI?
Der Reddit-Nutzer sterby92 setzt Qwen3.6-35B mit llama.cpp als Backend und OpenWebUI als Frontend ein. Dabei fällt auf, dass das Modell einen einfachen Zahlenratetest in OpenWebUI nicht besteht – denselben Test löst es in der eingebauten llama.cpp-Weboberfläche problemlos. Die Vermutung: OpenWebUI übergibt den Parameter preserve_thinking nicht an llama.cpp, der dafür sorgt, dass die internen Denk-Tokens (Chain-of-Thought) beim Reasoning-Modus von Qwen3-Modellen erhalten bleiben und korrekt verarbeitet werden. Ohne diesen Parameter kann das Modell seinen eigenen Denkprozess nicht vollständig nutzen, was zu schlechteren Ergebnissen führt. Der Nutzer erwägt, ein GitHub-Issue zu eröffnen oder einen Pull Request einzureichen. Das Problem ist typisch für die Integration von llama.cpp-spezifischen Parametern in generische Frontend-Lösungen, die nicht jeden Backend-Parameter automatisch durchreichen.
- Betroffenes Modell: Qwen3.6-35B, betrieben via llama.cpp mit OpenWebUI als Frontend
- Symptom: Zahlenratespiel schlägt in OpenWebUI fehl, funktioniert in der llama.cpp-eigenen Web-UI korrekt
- Verdächtigter Auslöser: preserve_thinking-Parameter wird von OpenWebUI nicht weitergegeben
- Mögliche nächste Schritte laut Nutzer: GitHub-Issue öffnen oder Pull Request erstellen
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com3w
Qwen 3.6: Preserve-Thinking-Flag im Community-Check
- MEINUNGreddit.com1w
Pi-Client drosselt Qwen 35B A3B Thinking-Verbosity ohne Modell-Reload
- MEINUNGreddit.com2w
Qwen3.6 mit llama-server: Leerzeichen in chat-template-kwargs brechen preserve_thinking
- MEINUNGreddit.com3w
Qwen 3.6: Unterschied zwischen General und Reasoning im Non-Thinking-Modus
Nutzer fragt: Funktioniert preserve_thinking von llama.cpp mit OpenWebUI?
Der Reddit-Nutzer sterby92 setzt Qwen3.6-35B mit llama.cpp als Backend und OpenWebUI als Frontend ein. Dabei fällt auf, dass das Modell einen einfachen Zahlenratetest in OpenWebUI nicht besteht – denselben Test löst es in der eingebauten llama.cpp-Weboberfläche problemlos. Die Vermutung: OpenWebUI übergibt den Parameter preserve_thinking nicht an llama.cpp, der dafür sorgt, dass die internen Denk-Tokens (Chain-of-Thought) beim Reasoning-Modus von Qwen3-Modellen erhalten bleiben und korrekt verarbeitet werden. Ohne diesen Parameter kann das Modell seinen eigenen Denkprozess nicht vollständig nutzen, was zu schlechteren Ergebnissen führt. Der Nutzer erwägt, ein GitHub-Issue zu eröffnen oder einen Pull Request einzureichen. Das Problem ist typisch für die Integration von llama.cpp-spezifischen Parametern in generische Frontend-Lösungen, die nicht jeden Backend-Parameter automatisch durchreichen.
- Betroffenes Modell: Qwen3.6-35B, betrieben via llama.cpp mit OpenWebUI als Frontend
- Symptom: Zahlenratespiel schlägt in OpenWebUI fehl, funktioniert in der llama.cpp-eigenen Web-UI korrekt
- Verdächtigter Auslöser: preserve_thinking-Parameter wird von OpenWebUI nicht weitergegeben
- Mögliche nächste Schritte laut Nutzer: GitHub-Issue öffnen oder Pull Request erstellen
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com3w
Qwen 3.6: Preserve-Thinking-Flag im Community-Check
- MEINUNGreddit.com1w
Pi-Client drosselt Qwen 35B A3B Thinking-Verbosity ohne Modell-Reload
- MEINUNGreddit.com2w
Qwen3.6 mit llama-server: Leerzeichen in chat-template-kwargs brechen preserve_thinking
- MEINUNGreddit.com3w
Qwen 3.6: Unterschied zwischen General und Reasoning im Non-Thinking-Modus