llama.cpp UI: Thinking-Mode-Toggle mit Reasoning-Effort-Stufen

Warum es zählt

Nutzer lokaler Modelle mit Reasoning-Fähigkeiten können den Denkaufwand künftig direkt im Chat-Interface steuern – ohne Umweg über API-Parameter oder Konfigurationsdateien.

— Lumeric Redaktion

Pull Request #23434 im ggml-org/llama.cpp-Repository führt einen Thinking-Mode-Toggle in die Chat-UI ein. Nutzer können damit Schritt-für-Schritt-Reasoning für unterstützte Modelle direkt im Interface ein- und ausschalten oder auf bestimmte Effort-Stufen begrenzen. Ergänzend werden Verbesserungen an der „Chat Form Add Action"-UI mitgeliefert. Der PR wurde von Contributor allozaur eingereicht und von /u/jacek2023 auf r/LocalLLaMA vorgestellt, inklusive Demo-Video. Das Feature richtet sich an Nutzer, die Thinking-fähige Modelle (z. B. QwQ, DeepSeek-R1 oder ähnliche) lokal über llama.cpp betreiben und den Compute-Aufwand situativ anpassen möchten.

Was wir noch wissen

PR #23434 von Contributor allozaur im ggml-org/llama.cpp-Repository
Toggle ermöglicht drei Zustände: Thinking aktiviert, deaktiviert oder auf Effort-Level begrenzt
Zusätzlich: Verbesserungen an der Chat-Form-Add-Action-UI
Demo-Video im Reddit-Post verlinkt
Vorgestellt von /u/jacek2023 auf r/LocalLLaMA am 2026-06-02

Quelle lesenreddit.com

Open Source Inferenz Infra Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp UI: Thinking-Mode-Toggle mit Reasoning-Effort-Stufen

ToolsDeepSeek Llama

CompaniesDeepSeek

Warum es zählt

Nutzer lokaler Modelle mit Reasoning-Fähigkeiten können den Denkaufwand künftig direkt im Chat-Interface steuern – ohne Umweg über API-Parameter oder Konfigurationsdateien.

— Lumeric Redaktion

Was wir noch wissen

PR #23434 von Contributor allozaur im ggml-org/llama.cpp-Repository
Toggle ermöglicht drei Zustände: Thinking aktiviert, deaktiviert oder auf Effort-Level begrenzt
Zusätzlich: Verbesserungen an der Chat-Form-Add-Action-UI
Demo-Video im Reddit-Post verlinkt
Vorgestellt von /u/jacek2023 auf r/LocalLLaMA am 2026-06-02

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp UI: Thinking-Mode-Toggle mit Reasoning-Effort-Stufen

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp UI: Thinking-Mode-Toggle mit Reasoning-Effort-Stufen

Frag die KI zum Artikel

Verwandte Beiträge