Frontier-Modell Opus 4.6 senkt LLM-Kosten durch Triager-Architektur

Warum es zählt

Die Kombination aus Triager-Pattern (billiges Modell filtert, teures Modell denkt) und Pull-statt-Push-Kontext via SQL-Interface kann LLM-Kosten in agentenbasierten Pipelines halbieren oder mehr – relevant für jedes Team mit hohem Analyse-Volumen.

— Lumeric Redaktion

Mendral analysiert wöchentlich tausende CI-Failures mit einem LLM-gestützten Agentensystem. Nach dem Wechsel von Sonnet 4.0 auf Claude Opus 4.6 als Hauptmodell sanken die Gesamtkosten, weil eine vorgelagerte Haiku-Stufe 80 % aller Fehler als bereits bekannte Duplikate klassifiziert und stoppt. In einer Stichprobe von ~4.000 CI-Failures waren 3.187 Wiederholungen bekannter Probleme; nur 818 waren neue Ereignisse, die eine vollständige Untersuchung rechtfertigten. Der Haiku-Triager nutzt zwei Suchwerkzeuge – exaktes String-Matching und semantische Suche via pgvector –, um semantisch ähnliche, aber textuell unterschiedliche Fehlermuster zu erkennen. Opus übernimmt die Orchestrierung: Es bildet Hypothesen und beauftragt Haiku-Sub-Agenten mit konkreten Teilaufgaben. Sub-Agenten dürfen keine eigenen Sub-Agenten spawnen, um unkontrolliertes Fan-out zu verhindern. Logs werden nicht in den Prompt gepusht, sondern per SQL-Interface gegen ClickHouse abgefragt, was Bias durch vorselektierte Log-Zeilen vermeidet. Haiku verarbeitet ca. 65 % aller Input-Tokens, macht aber nur 36 % der LLM-Ausgaben aus – das teure Modell denkt, das günstige liest.

Was wir noch wissen

~4.000 CI-Failures analysiert: 3.187 Duplikate (80 %), 818 neue Probleme (20 %)
Triager-Match mit Haiku kostet ca. 25× weniger als eine vollständige Opus-Untersuchung
Semantische Suche via pgvector erkennt gleiche Root-Causes trotz unterschiedlicher Fehlertexte
Opus spawnt Haiku-Sub-Agenten mit präzisen Prompts; max. 1 Ebene tief, kein rekursives Fan-out
Ohne die Modell-Hierarchie würde die Tageskostenrechnung laut Mendral mehr als doppelt so hoch ausfallen

Quelle lesenmendral.com

Agents Inferenz Infra Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Frontier-Modell Opus 4.6 senkt LLM-Kosten durch Triager-Architektur

ToolsClaude ClickHouse

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

~4.000 CI-Failures analysiert: 3.187 Duplikate (80 %), 818 neue Probleme (20 %)
Triager-Match mit Haiku kostet ca. 25× weniger als eine vollständige Opus-Untersuchung
Semantische Suche via pgvector erkennt gleiche Root-Causes trotz unterschiedlicher Fehlertexte
Opus spawnt Haiku-Sub-Agenten mit präzisen Prompts; max. 1 Ebene tief, kein rekursives Fan-out
Ohne die Modell-Hierarchie würde die Tageskostenrechnung laut Mendral mehr als doppelt so hoch ausfallen

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Frontier-Modell Opus 4.6 senkt LLM-Kosten durch Triager-Architektur

Frag die KI zum Artikel

Verwandte Beiträge

Frontier-Modell Opus 4.6 senkt LLM-Kosten durch Triager-Architektur

Frag die KI zum Artikel

Verwandte Beiträge