Strukturierte Workflows mit kleinen lokalen Modellen: Erfahrungsbericht aus 28 Tagen Agent-Entwicklung
Der Reddit-Nutzer DeltaSqueezer dokumentiert seine 28-tägige Entwicklungsreise mit einem selbst geschriebenen Agenten-Loop, der vollständig lokal auf einem Qwen3.5 9B Modell läuft. Ausgangspunkt war ein einfacher Loop mit wenigen Tools, der sich als überraschend leistungsfähig erwies. Im Laufe der Entwicklung stellte sich heraus, dass der Mensch als Reviewer und Approver zum eigentlichen Flaschenhals wird – der Agent wartet oft auf Freigaben, während die GPU idle ist. Um die Kontextbeschränkungen des 9B-Modells zu umgehen, implementierte der Entwickler ein Map-Reduce-Muster: Große Datenmengen werden in kleinere Chunks aufgeteilt, die parallel verarbeitet werden, um die GPU-Auslastung zu maximieren. Structured Outputs reduzieren dabei die Variabilität der LLM-Antworten und vereinfachen den Reduce-Schritt. Ergänzend wurde eine Datenbank zur Überwachung und Nachverfolgung der Workflows eingebunden. Das Fazit des Autors: Gut strukturierte Workflows erlauben es, auch kleinen lokalen Modellen anspruchsvolle, datenintensive Aufgaben zuzutrauen.
- Modell: Qwen3.5 9B, vollständig lokal betrieben
- Map-Reduce-Pattern zur Umgehung von Kontextlimits und GPU-Auslastungsmaximierung
- Structured Outputs reduzieren LLM-Variabilität und erleichtern den Reduce-Schritt
- Workflow-Datenbank zur Überwachung und Nachverfolgung integriert
- Entwickler identifiziert den menschlichen Reviewer als Haupt-Bottleneck im Agenten-Loop
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Strukturierte Workflows mit kleinen lokalen Modellen: Erfahrungsbericht aus 28 Tagen Agent-Entwicklung
Der Reddit-Nutzer DeltaSqueezer dokumentiert seine 28-tägige Entwicklungsreise mit einem selbst geschriebenen Agenten-Loop, der vollständig lokal auf einem Qwen3.5 9B Modell läuft. Ausgangspunkt war ein einfacher Loop mit wenigen Tools, der sich als überraschend leistungsfähig erwies. Im Laufe der Entwicklung stellte sich heraus, dass der Mensch als Reviewer und Approver zum eigentlichen Flaschenhals wird – der Agent wartet oft auf Freigaben, während die GPU idle ist. Um die Kontextbeschränkungen des 9B-Modells zu umgehen, implementierte der Entwickler ein Map-Reduce-Muster: Große Datenmengen werden in kleinere Chunks aufgeteilt, die parallel verarbeitet werden, um die GPU-Auslastung zu maximieren. Structured Outputs reduzieren dabei die Variabilität der LLM-Antworten und vereinfachen den Reduce-Schritt. Ergänzend wurde eine Datenbank zur Überwachung und Nachverfolgung der Workflows eingebunden. Das Fazit des Autors: Gut strukturierte Workflows erlauben es, auch kleinen lokalen Modellen anspruchsvolle, datenintensive Aufgaben zuzutrauen.
- Modell: Qwen3.5 9B, vollständig lokal betrieben
- Map-Reduce-Pattern zur Umgehung von Kontextlimits und GPU-Auslastungsmaximierung
- Structured Outputs reduzieren LLM-Variabilität und erleichtern den Reduce-Schritt
- Workflow-Datenbank zur Überwachung und Nachverfolgung integriert
- Entwickler identifiziert den menschlichen Reviewer als Haupt-Bottleneck im Agenten-Loop
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.