Tampermonkey-Skript ergänzt llama.cpp Web-Chat um Qwen3-Reasoning-Toggle
Der Reddit-Nutzer Eaman hat ein Tampermonkey-Userscript (Version 3.1) veröffentlicht, das dem llama.cpp Web-Chat-Interface unter `localhost:8080` einen visuellen Toggle-Button hinzufügt. Das Skript interceptet `window.fetch`-Aufrufe an `/v1/chat/completions` und modifiziert den Request-Body on-the-fly: Im Reasoning-Modus wird `chat_template_kwargs.enable_thinking = true` gesetzt, im deaktivierten Modus `enable_thinking = false` und `reasoning_budget = 0`. Der Button-State wird im `localStorage` persistiert und überlebt damit Browser-Neustarts. Optisch lehnt sich der Button an die nativen UI-Elemente von llama.cpp an (weißer Hintergrund für „🧠 ON", gedämpftes Dunkelgrau für „⚡ OFF"). Der Ansatz umgeht die Notwendigkeit, llama.cpp täglich neu zu kompilieren, wenn man Reasoning-Toggles wie in LM Studio benötigt. Das Skript richtet sich explizit an Nutzer von Qwen3-Modellen, die lokal über llama.cpp laufen.
- Skript-Name: 'QWEN3.6 reasoning toggle', Version 3.1, Autor: Eaman
- Greift per Fetch-Intercept in /v1/chat/completions-Requests ein und patcht chat_template_kwargs
- Setzt bei deaktiviertem Reasoning zusätzlich reasoning_budget = 0
- Button-State wird via localStorage unter dem Key 'qwen_reasoning' gespeichert
- Funktioniert auf http://localhost:8080/* und http://127.0.0.1:8080/* (Standard-llama.cpp-Port)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Tampermonkey-Skript ergänzt llama.cpp Web-Chat um Qwen3-Reasoning-Toggle
Der Reddit-Nutzer Eaman hat ein Tampermonkey-Userscript (Version 3.1) veröffentlicht, das dem llama.cpp Web-Chat-Interface unter `localhost:8080` einen visuellen Toggle-Button hinzufügt. Das Skript interceptet `window.fetch`-Aufrufe an `/v1/chat/completions` und modifiziert den Request-Body on-the-fly: Im Reasoning-Modus wird `chat_template_kwargs.enable_thinking = true` gesetzt, im deaktivierten Modus `enable_thinking = false` und `reasoning_budget = 0`. Der Button-State wird im `localStorage` persistiert und überlebt damit Browser-Neustarts. Optisch lehnt sich der Button an die nativen UI-Elemente von llama.cpp an (weißer Hintergrund für „🧠 ON", gedämpftes Dunkelgrau für „⚡ OFF"). Der Ansatz umgeht die Notwendigkeit, llama.cpp täglich neu zu kompilieren, wenn man Reasoning-Toggles wie in LM Studio benötigt. Das Skript richtet sich explizit an Nutzer von Qwen3-Modellen, die lokal über llama.cpp laufen.
- Skript-Name: 'QWEN3.6 reasoning toggle', Version 3.1, Autor: Eaman
- Greift per Fetch-Intercept in /v1/chat/completions-Requests ein und patcht chat_template_kwargs
- Setzt bei deaktiviertem Reasoning zusätzlich reasoning_budget = 0
- Button-State wird via localStorage unter dem Key 'qwen_reasoning' gespeichert
- Funktioniert auf http://localhost:8080/* und http://127.0.0.1:8080/* (Standard-llama.cpp-Port)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.