Wie klein kann das Orchestrierungsmodell in einem ReAct-Agent sein?

Warum es zählt

Wer lokale Agenten baut, kann Orchestrierung und Code-Generierung auf separate Modelle aufteilen; der praktische Befund zeigt, dass Qwen3.6-35B-A3B (~3B aktive Parameter) aktuell die untere Grenze für zuverlässige Tool-Calls darstellt – kleinere Modelle erfinden Parameter oder rufen nicht-existente Tools auf.

— Lumeric Redaktion

Der Reddit-Nutzer /u/HomoAgens1 beschreibt einen lokalen ReAct-Agenten auf llama.cpp-Basis und stellt die Frage, wie klein das reine Orchestrierungsmodell sein kann, wenn schwere Code-Generierung bereits an ein dediziertes Coding-Modell ausgelagert wird. Sein aktueller Sweet Spot ist Qwen3.6-35B-A3B, ein Mixture-of-Experts-Modell mit nur ~3B aktiven Parametern, das auf einer 12-GB-Karte mit 30 Expert-Offload mit 40 Token/s läuft. Kleinere Modelle scheitern nicht am Reasoning, sondern an der Tool-Call-Disziplin: Sie erfinden Parameter, die nicht im Schema stehen, generalisieren Argumente fälschlicherweise von anderen Tools oder versuchen, nicht-existente „Conclusion"-Tools aufzurufen. Als Gegenmaßnahmen hat der Entwickler zwei Strategien erprobt: erstens die explizite Darstellung exakter Tool-Signaturen im System-Prompt (inklusive Default-Werten), zweitens einen Repetitions-Watchdog, der nach N identischen Fehlschlägen einen „Strategie-Wechsel"-Hint injiziert. Beide Maßnahmen helfen, werden aber als unvollständige Lösungen eingestuft. Das zugehörige Repo „pragma" ist auf GitHub öffentlich verfügbar.

Was wir noch wissen

Qwen3.6-35B-A3B (MoE, ~3B aktive Parameter) läuft auf 12-GB-GPU mit 30 Expert-Offload bei 40 t/s.
Fehlertyp Nr. 1: Übergabe nicht-existenter Parameter wie overwrite=true an Tools ohne diesen Parameter.
Fehlertyp Nr. 2: Modell erfindet Tool-Argumente durch Generalisierung aus anderen Tool-Schemas.
Gegenmaßnahme: Exakte Tool-Signatur im System-Prompt (Name, Argumente, Defaults) reduziert Fehler subjektiv stark.
Repetitions-Watchdog fingerprinted fehlgeschlagene (Tool, Args)-Paare und injiziert nach N Wiederholungen einen Strategiewechsel-Hinweis.

Quelle lesenreddit.com

Agents Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Wie klein kann das Orchestrierungsmodell in einem ReAct-Agent sein?

ToolsQwen Llama

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Qwen3.6-35B-A3B (MoE, ~3B aktive Parameter) läuft auf 12-GB-GPU mit 30 Expert-Offload bei 40 t/s.
Fehlertyp Nr. 1: Übergabe nicht-existenter Parameter wie overwrite=true an Tools ohne diesen Parameter.
Fehlertyp Nr. 2: Modell erfindet Tool-Argumente durch Generalisierung aus anderen Tool-Schemas.
Gegenmaßnahme: Exakte Tool-Signatur im System-Prompt (Name, Argumente, Defaults) reduziert Fehler subjektiv stark.
Repetitions-Watchdog fingerprinted fehlgeschlagene (Tool, Args)-Paare und injiziert nach N Wiederholungen einen Strategiewechsel-Hinweis.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Wie klein kann das Orchestrierungsmodell in einem ReAct-Agent sein?

Frag die KI zum Artikel

Verwandte Beiträge

Wie klein kann das Orchestrierungsmodell in einem ReAct-Agent sein?

Frag die KI zum Artikel

Verwandte Beiträge