Tampermonkey-Skript ergänzt llama.cpp Web-Chat um Qwen3-Reasoning-Toggle

Warum es zählt

Wer Qwen3-Modelle lokal über llama.cpp betreibt, kann mit diesem Skript das `enable_thinking`-Flag und `reasoning_budget` direkt aus dem Browser steuern, ohne die llama.cpp-Quelle zu patchen oder neu zu bauen.

— Lumeric Redaktion

Der Reddit-Nutzer Eaman hat ein Tampermonkey-Userscript (Version 3.1) veröffentlicht, das dem llama.cpp Web-Chat-Interface unter `localhost:8080` einen visuellen Toggle-Button hinzufügt. Das Skript interceptet `window.fetch`-Aufrufe an `/v1/chat/completions` und modifiziert den Request-Body on-the-fly: Im Reasoning-Modus wird `chat_template_kwargs.enable_thinking = true` gesetzt, im deaktivierten Modus `enable_thinking = false` und `reasoning_budget = 0`. Der Button-State wird im `localStorage` persistiert und überlebt damit Browser-Neustarts. Optisch lehnt sich der Button an die nativen UI-Elemente von llama.cpp an (weißer Hintergrund für „🧠 ON", gedämpftes Dunkelgrau für „⚡ OFF"). Der Ansatz umgeht die Notwendigkeit, llama.cpp täglich neu zu kompilieren, wenn man Reasoning-Toggles wie in LM Studio benötigt. Das Skript richtet sich explizit an Nutzer von Qwen3-Modellen, die lokal über llama.cpp laufen.

Was wir noch wissen

Skript-Name: 'QWEN3.6 reasoning toggle', Version 3.1, Autor: Eaman
Greift per Fetch-Intercept in /v1/chat/completions-Requests ein und patcht chat_template_kwargs
Setzt bei deaktiviertem Reasoning zusätzlich reasoning_budget = 0
Button-State wird via localStorage unter dem Key 'qwen_reasoning' gespeichert
Funktioniert auf http://localhost:8080/* und http://127.0.0.1:8080/* (Standard-llama.cpp-Port)

Quelle lesenreddit.com

Open Source Inferenz Infra Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Tampermonkey-Skript ergänzt llama.cpp Web-Chat um Qwen3-Reasoning-Toggle

ToolsLM Studio Qwen Llama Cursor

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Skript-Name: 'QWEN3.6 reasoning toggle', Version 3.1, Autor: Eaman
Greift per Fetch-Intercept in /v1/chat/completions-Requests ein und patcht chat_template_kwargs
Setzt bei deaktiviertem Reasoning zusätzlich reasoning_budget = 0
Button-State wird via localStorage unter dem Key 'qwen_reasoning' gespeichert
Funktioniert auf http://localhost:8080/* und http://127.0.0.1:8080/* (Standard-llama.cpp-Port)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Tampermonkey-Skript ergänzt llama.cpp Web-Chat um Qwen3-Reasoning-Toggle

Frag die KI zum Artikel

Verwandte Beiträge

Tampermonkey-Skript ergänzt llama.cpp Web-Chat um Qwen3-Reasoning-Toggle

Frag die KI zum Artikel

Verwandte Beiträge