Pi-Client drosselt Qwen 35B A3B Thinking-Verbosity ohne Modell-Reload
Der Reddit-Nutzer pilibitti betreibt das Mixture-of-Experts-Modell Qwen 35B A3B über llama-server mit einem Reasoning-Budget von -1 (unbegrenzt). In diesem Modus denkt das Modell in allen getesteten Clients nahezu endlos, bevor es antwortet. Einzige Ausnahme: der Pi-Coding-Agent, der das Modell zu minimalem, aber weiterhin akkuratem Thinking bringt – ohne Abschneiden, da alle Thinking-Blöcke sauber enden. Weder das Kopieren des Pi-System-Prompts noch das Aktivieren von Thinking-Level-Controls erklärt das Verhalten – llama-server erkennt Qwen hier nicht als Thinking-fähiges Modell, weshalb diese Regler gar nicht greifen sollten. Pi selbst meldet beim Versuch der Thinking-Steuerung: „Current model does not support thinking". Die Diskussion kreist darum, ob Pi unter der Haube spezielle Token injiziert, Sampler-Parameter manipuliert oder serverseitige Hooks nutzt. Als Bonusfrage wird aufgeworfen, wie manche Clients Thinking on-the-fly ein- und ausschalten, ohne das Modell neu zu laden.
- Reasoning-Budget in llama-server auf -1 (unlimited) gesetzt – führt bei allen anderen Clients zu endlosem Thinking
- Pi-System-Prompt allein reproduziert das Verhalten in anderen Clients nicht
- llama-server advertised Qwen 35B A3B nicht als Thinking-fähiges Modell, Thinking-Knobs greifen daher nicht
- Pi meldet 'Current model does not support thinking', steuert Verbosity aber dennoch effektiv
- Offene Frage: Sampler-Trick, spezielle Token-Injection oder Server-Level-Hook?
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Pi-Client drosselt Qwen 35B A3B Thinking-Verbosity ohne Modell-Reload
Der Reddit-Nutzer pilibitti betreibt das Mixture-of-Experts-Modell Qwen 35B A3B über llama-server mit einem Reasoning-Budget von -1 (unbegrenzt). In diesem Modus denkt das Modell in allen getesteten Clients nahezu endlos, bevor es antwortet. Einzige Ausnahme: der Pi-Coding-Agent, der das Modell zu minimalem, aber weiterhin akkuratem Thinking bringt – ohne Abschneiden, da alle Thinking-Blöcke sauber enden. Weder das Kopieren des Pi-System-Prompts noch das Aktivieren von Thinking-Level-Controls erklärt das Verhalten – llama-server erkennt Qwen hier nicht als Thinking-fähiges Modell, weshalb diese Regler gar nicht greifen sollten. Pi selbst meldet beim Versuch der Thinking-Steuerung: „Current model does not support thinking". Die Diskussion kreist darum, ob Pi unter der Haube spezielle Token injiziert, Sampler-Parameter manipuliert oder serverseitige Hooks nutzt. Als Bonusfrage wird aufgeworfen, wie manche Clients Thinking on-the-fly ein- und ausschalten, ohne das Modell neu zu laden.
- Reasoning-Budget in llama-server auf -1 (unlimited) gesetzt – führt bei allen anderen Clients zu endlosem Thinking
- Pi-System-Prompt allein reproduziert das Verhalten in anderen Clients nicht
- llama-server advertised Qwen 35B A3B nicht als Thinking-fähiges Modell, Thinking-Knobs greifen daher nicht
- Pi meldet 'Current model does not support thinking', steuert Verbosity aber dennoch effektiv
- Offene Frage: Sampler-Trick, spezielle Token-Injection oder Server-Level-Hook?
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.