Wie klein kann das Orchestrierungsmodell in einem ReAct-Agent sein?
Der Reddit-Nutzer /u/HomoAgens1 beschreibt einen lokalen ReAct-Agenten auf llama.cpp-Basis und stellt die Frage, wie klein das reine Orchestrierungsmodell sein kann, wenn schwere Code-Generierung bereits an ein dediziertes Coding-Modell ausgelagert wird. Sein aktueller Sweet Spot ist Qwen3.6-35B-A3B, ein Mixture-of-Experts-Modell mit nur ~3B aktiven Parametern, das auf einer 12-GB-Karte mit 30 Expert-Offload mit 40 Token/s läuft. Kleinere Modelle scheitern nicht am Reasoning, sondern an der Tool-Call-Disziplin: Sie erfinden Parameter, die nicht im Schema stehen, generalisieren Argumente fälschlicherweise von anderen Tools oder versuchen, nicht-existente „Conclusion"-Tools aufzurufen. Als Gegenmaßnahmen hat der Entwickler zwei Strategien erprobt: erstens die explizite Darstellung exakter Tool-Signaturen im System-Prompt (inklusive Default-Werten), zweitens einen Repetitions-Watchdog, der nach N identischen Fehlschlägen einen „Strategie-Wechsel"-Hint injiziert. Beide Maßnahmen helfen, werden aber als unvollständige Lösungen eingestuft. Das zugehörige Repo „pragma" ist auf GitHub öffentlich verfügbar.
- Qwen3.6-35B-A3B (MoE, ~3B aktive Parameter) läuft auf 12-GB-GPU mit 30 Expert-Offload bei 40 t/s.
- Fehlertyp Nr. 1: Übergabe nicht-existenter Parameter wie overwrite=true an Tools ohne diesen Parameter.
- Fehlertyp Nr. 2: Modell erfindet Tool-Argumente durch Generalisierung aus anderen Tool-Schemas.
- Gegenmaßnahme: Exakte Tool-Signatur im System-Prompt (Name, Argumente, Defaults) reduziert Fehler subjektiv stark.
- Repetitions-Watchdog fingerprinted fehlgeschlagene (Tool, Args)-Paare und injiziert nach N Wiederholungen einen Strategiewechsel-Hinweis.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com3d
ReAct-Agent mit Qwen 3.5 9B und Gemma 4 via LangGraph: Stabilitätsprobleme in Tool-Loops
- MEINUNGreddit.com1w
Looping-Problem bei lokalen LLMs: Qwen 3.6 35B erzeugt endlose Token-Schleifen
- MEINUNGreddit.com3d
Community-Test: Qwen3.6 35B A3B als bestes Modell für lokale Agentic-Nutzung?
Wie klein kann das Orchestrierungsmodell in einem ReAct-Agent sein?
Der Reddit-Nutzer /u/HomoAgens1 beschreibt einen lokalen ReAct-Agenten auf llama.cpp-Basis und stellt die Frage, wie klein das reine Orchestrierungsmodell sein kann, wenn schwere Code-Generierung bereits an ein dediziertes Coding-Modell ausgelagert wird. Sein aktueller Sweet Spot ist Qwen3.6-35B-A3B, ein Mixture-of-Experts-Modell mit nur ~3B aktiven Parametern, das auf einer 12-GB-Karte mit 30 Expert-Offload mit 40 Token/s läuft. Kleinere Modelle scheitern nicht am Reasoning, sondern an der Tool-Call-Disziplin: Sie erfinden Parameter, die nicht im Schema stehen, generalisieren Argumente fälschlicherweise von anderen Tools oder versuchen, nicht-existente „Conclusion"-Tools aufzurufen. Als Gegenmaßnahmen hat der Entwickler zwei Strategien erprobt: erstens die explizite Darstellung exakter Tool-Signaturen im System-Prompt (inklusive Default-Werten), zweitens einen Repetitions-Watchdog, der nach N identischen Fehlschlägen einen „Strategie-Wechsel"-Hint injiziert. Beide Maßnahmen helfen, werden aber als unvollständige Lösungen eingestuft. Das zugehörige Repo „pragma" ist auf GitHub öffentlich verfügbar.
- Qwen3.6-35B-A3B (MoE, ~3B aktive Parameter) läuft auf 12-GB-GPU mit 30 Expert-Offload bei 40 t/s.
- Fehlertyp Nr. 1: Übergabe nicht-existenter Parameter wie overwrite=true an Tools ohne diesen Parameter.
- Fehlertyp Nr. 2: Modell erfindet Tool-Argumente durch Generalisierung aus anderen Tool-Schemas.
- Gegenmaßnahme: Exakte Tool-Signatur im System-Prompt (Name, Argumente, Defaults) reduziert Fehler subjektiv stark.
- Repetitions-Watchdog fingerprinted fehlgeschlagene (Tool, Args)-Paare und injiziert nach N Wiederholungen einen Strategiewechsel-Hinweis.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com3d
ReAct-Agent mit Qwen 3.5 9B und Gemma 4 via LangGraph: Stabilitätsprobleme in Tool-Loops
- MEINUNGreddit.com1w
Looping-Problem bei lokalen LLMs: Qwen 3.6 35B erzeugt endlose Token-Schleifen
- MEINUNGreddit.com3d
Community-Test: Qwen3.6 35B A3B als bestes Modell für lokale Agentic-Nutzung?