Warum generieren Thinking-Modelle mehr Tokens als ihre finale Antwort?

Warum es zählt

Wer lokale LLMs für Batch-Kategorisierung nutzt, muss verstehen, dass Thinking-Tokens zwar den Kontext vollständig verarbeiten, das Output-Limit aber separat greift – ein naiver Ersatz für Vector-DB-Pipelines scheitert ohne explizite Output-Length-Steuerung.

— Lumeric Redaktion

Ein Nutzer auf r/LocalLLaMA wollte eine Liste von 1000 Items per lokalem LLM kategorisieren – als Alternative zu einer klassischen Vector-DB- und Embedding-Clustering-Pipeline. Dabei fiel ihm auf: Das Modell schrieb im Thinking-Block scheinbar alle Input-Tokens plus umfangreiche Reasoning-Ketten nieder, lieferte in der finalen Antwort aber stets nur rund 100 Items zurück. Die Diskussion beleuchtet einen grundlegenden Unterschied zwischen Thinking-Tokens und Response-Tokens: Thinking-Output unterliegt oft einem separaten, großzügigeren Token-Budget, das vom Modell intern genutzt wird, während die eigentliche Antwort durch max_new_tokens oder ähnliche Parameter begrenzt ist. Zusätzlich neigen viele Modelle dazu, lange Aufgaben in der Ausgabe zu kürzen, selbst wenn sie den vollständigen Kontext intern verarbeitet haben. Die Beobachtung des Nutzers, dass „die Funktion eigentlich schon in den meisten Modellen steckt", bezieht sich auf implizites Chain-of-Thought-Verhalten, das kein spezialisiertes Modell erfordert – die saubere Nutzung für strukturierte Massenausgaben bleibt aber eine Konfigurationsfrage.

Was wir noch wissen

Aufgabe: Kategorisierung von 1000 Items ohne Vector-DB/Embeddings/Clustering
Modell lieferte im Thinking-Block scheinbar den vollständigen Input + Reasoning
Finale Antwort war stets auf ca. 100 Items begrenzt
Nutzer stellt fest: Thinking-Verhalten ist in den meisten Modellen bereits vorhanden, kein Spezialmodell nötig
Kernfrage: warum divergieren Thinking-Token-Budget und Response-Token-Limit so stark?

Quelle lesenreddit.com

Foundation Modelle Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Warum generieren Thinking-Modelle mehr Tokens als ihre finale Antwort?

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Aufgabe: Kategorisierung von 1000 Items ohne Vector-DB/Embeddings/Clustering
Modell lieferte im Thinking-Block scheinbar den vollständigen Input + Reasoning
Finale Antwort war stets auf ca. 100 Items begrenzt
Nutzer stellt fest: Thinking-Verhalten ist in den meisten Modellen bereits vorhanden, kein Spezialmodell nötig
Kernfrage: warum divergieren Thinking-Token-Budget und Response-Token-Limit so stark?

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Warum generieren Thinking-Modelle mehr Tokens als ihre finale Antwort?

Frag die KI zum Artikel

Verwandte Beiträge

Warum generieren Thinking-Modelle mehr Tokens als ihre finale Antwort?

Frag die KI zum Artikel

Verwandte Beiträge