Frontier-Modell Opus 4.6 senkt LLM-Kosten durch Triager-Architektur
Mendral analysiert wöchentlich tausende CI-Failures mit einem LLM-gestützten Agentensystem. Nach dem Wechsel von Sonnet 4.0 auf Claude Opus 4.6 als Hauptmodell sanken die Gesamtkosten, weil eine vorgelagerte Haiku-Stufe 80 % aller Fehler als bereits bekannte Duplikate klassifiziert und stoppt. In einer Stichprobe von ~4.000 CI-Failures waren 3.187 Wiederholungen bekannter Probleme; nur 818 waren neue Ereignisse, die eine vollständige Untersuchung rechtfertigten. Der Haiku-Triager nutzt zwei Suchwerkzeuge – exaktes String-Matching und semantische Suche via pgvector –, um semantisch ähnliche, aber textuell unterschiedliche Fehlermuster zu erkennen. Opus übernimmt die Orchestrierung: Es bildet Hypothesen und beauftragt Haiku-Sub-Agenten mit konkreten Teilaufgaben. Sub-Agenten dürfen keine eigenen Sub-Agenten spawnen, um unkontrolliertes Fan-out zu verhindern. Logs werden nicht in den Prompt gepusht, sondern per SQL-Interface gegen ClickHouse abgefragt, was Bias durch vorselektierte Log-Zeilen vermeidet. Haiku verarbeitet ca. 65 % aller Input-Tokens, macht aber nur 36 % der LLM-Ausgaben aus – das teure Modell denkt, das günstige liest.
- ~4.000 CI-Failures analysiert: 3.187 Duplikate (80 %), 818 neue Probleme (20 %)
- Triager-Match mit Haiku kostet ca. 25× weniger als eine vollständige Opus-Untersuchung
- Semantische Suche via pgvector erkennt gleiche Root-Causes trotz unterschiedlicher Fehlertexte
- Opus spawnt Haiku-Sub-Agenten mit präzisen Prompts; max. 1 Ebene tief, kein rekursives Fan-out
- Ohne die Modell-Hierarchie würde die Tageskostenrechnung laut Mendral mehr als doppelt so hoch ausfallen
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGtowardsdatascience.com0mo
Agentic AI: Fünf Strategien zur Token-Kostenreduktion in Produktion
- FORSCHUNGarxiv.org3w
Poodle: LLMs gezielt durch kleinere Modelle ersetzen
- FORSCHUNGarxiv.org2w
AgentSlimming: Plug-and-Play-Komprimierung für Multi-Agent-Workflows spart 78,9 % Token
- FORSCHUNGarxiv.org2d
VineLM: Trie-basiertes Laufzeit-Routing für agentische LLM-Workflows
Frontier-Modell Opus 4.6 senkt LLM-Kosten durch Triager-Architektur
Mendral analysiert wöchentlich tausende CI-Failures mit einem LLM-gestützten Agentensystem. Nach dem Wechsel von Sonnet 4.0 auf Claude Opus 4.6 als Hauptmodell sanken die Gesamtkosten, weil eine vorgelagerte Haiku-Stufe 80 % aller Fehler als bereits bekannte Duplikate klassifiziert und stoppt. In einer Stichprobe von ~4.000 CI-Failures waren 3.187 Wiederholungen bekannter Probleme; nur 818 waren neue Ereignisse, die eine vollständige Untersuchung rechtfertigten. Der Haiku-Triager nutzt zwei Suchwerkzeuge – exaktes String-Matching und semantische Suche via pgvector –, um semantisch ähnliche, aber textuell unterschiedliche Fehlermuster zu erkennen. Opus übernimmt die Orchestrierung: Es bildet Hypothesen und beauftragt Haiku-Sub-Agenten mit konkreten Teilaufgaben. Sub-Agenten dürfen keine eigenen Sub-Agenten spawnen, um unkontrolliertes Fan-out zu verhindern. Logs werden nicht in den Prompt gepusht, sondern per SQL-Interface gegen ClickHouse abgefragt, was Bias durch vorselektierte Log-Zeilen vermeidet. Haiku verarbeitet ca. 65 % aller Input-Tokens, macht aber nur 36 % der LLM-Ausgaben aus – das teure Modell denkt, das günstige liest.
- ~4.000 CI-Failures analysiert: 3.187 Duplikate (80 %), 818 neue Probleme (20 %)
- Triager-Match mit Haiku kostet ca. 25× weniger als eine vollständige Opus-Untersuchung
- Semantische Suche via pgvector erkennt gleiche Root-Causes trotz unterschiedlicher Fehlertexte
- Opus spawnt Haiku-Sub-Agenten mit präzisen Prompts; max. 1 Ebene tief, kein rekursives Fan-out
- Ohne die Modell-Hierarchie würde die Tageskostenrechnung laut Mendral mehr als doppelt so hoch ausfallen
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGtowardsdatascience.com0mo
Agentic AI: Fünf Strategien zur Token-Kostenreduktion in Produktion
- FORSCHUNGarxiv.org3w
Poodle: LLMs gezielt durch kleinere Modelle ersetzen
- FORSCHUNGarxiv.org2w
AgentSlimming: Plug-and-Play-Komprimierung für Multi-Agent-Workflows spart 78,9 % Token
- FORSCHUNGarxiv.org2d
VineLM: Trie-basiertes Laufzeit-Routing für agentische LLM-Workflows