Pi-Client drosselt Qwen 35B A3B Thinking-Verbosity ohne Modell-Reload

CompaniesAMD

Warum es zählt

Wer lokale Reasoning-Modelle wie Qwen 35B A3B effizient betreiben will, muss verstehen, wie Clients Thinking-Verbosity steuern – offenbar jenseits von System-Prompt und llama-server-Thinking-Knobs, möglicherweise über Token-Injection oder Sampler-Tricks.

— Lumeric Redaktion

Der Reddit-Nutzer pilibitti betreibt das Mixture-of-Experts-Modell Qwen 35B A3B über llama-server mit einem Reasoning-Budget von -1 (unbegrenzt). In diesem Modus denkt das Modell in allen getesteten Clients nahezu endlos, bevor es antwortet. Einzige Ausnahme: der Pi-Coding-Agent, der das Modell zu minimalem, aber weiterhin akkuratem Thinking bringt – ohne Abschneiden, da alle Thinking-Blöcke sauber enden. Weder das Kopieren des Pi-System-Prompts noch das Aktivieren von Thinking-Level-Controls erklärt das Verhalten – llama-server erkennt Qwen hier nicht als Thinking-fähiges Modell, weshalb diese Regler gar nicht greifen sollten. Pi selbst meldet beim Versuch der Thinking-Steuerung: „Current model does not support thinking". Die Diskussion kreist darum, ob Pi unter der Haube spezielle Token injiziert, Sampler-Parameter manipuliert oder serverseitige Hooks nutzt. Als Bonusfrage wird aufgeworfen, wie manche Clients Thinking on-the-fly ein- und ausschalten, ohne das Modell neu zu laden.

Was wir noch wissen

Reasoning-Budget in llama-server auf -1 (unlimited) gesetzt – führt bei allen anderen Clients zu endlosem Thinking
Pi-System-Prompt allein reproduziert das Verhalten in anderen Clients nicht
llama-server advertised Qwen 35B A3B nicht als Thinking-fähiges Modell, Thinking-Knobs greifen daher nicht
Pi meldet 'Current model does not support thinking', steuert Verbosity aber dennoch effektiv
Offene Frage: Sampler-Trick, spezielle Token-Injection oder Server-Level-Hook?

Quelle lesenreddit.com

Inferenz Infra Open Source Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Pi-Client drosselt Qwen 35B A3B Thinking-Verbosity ohne Modell-Reload

ToolsQwen Llama

CompaniesAMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Reasoning-Budget in llama-server auf -1 (unlimited) gesetzt – führt bei allen anderen Clients zu endlosem Thinking
Pi-System-Prompt allein reproduziert das Verhalten in anderen Clients nicht
llama-server advertised Qwen 35B A3B nicht als Thinking-fähiges Modell, Thinking-Knobs greifen daher nicht
Pi meldet 'Current model does not support thinking', steuert Verbosity aber dennoch effektiv
Offene Frage: Sampler-Trick, spezielle Token-Injection oder Server-Level-Hook?

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Pi-Client drosselt Qwen 35B A3B Thinking-Verbosity ohne Modell-Reload

Frag die KI zum Artikel

Verwandte Beiträge

Pi-Client drosselt Qwen 35B A3B Thinking-Verbosity ohne Modell-Reload

Frag die KI zum Artikel

Verwandte Beiträge