Agent Execution Tax: Neue Metrik entlarvt versteckte Kosten bei Browser-Agenten
Der Reddit-Nutzer ogandrea präsentiert Ergebnisse aus einem selbst durchgeführten Benchmark mit 720 Browser-Agenten-Tasks auf dem WebVoyager-Benchmark. Getestet wurden vier Modelle, darunter Gemini 2.5 Flash und drei Open-Weight-Modelle: MiniMax M2.5, GLM-5 und Kimi K2.5. Kernthese: Der bloße Token-Preis ist als Beschaffungsmetrik für Agenten-Szenarien ungeeignet, weil Retry-Loops – ausgelöst durch Parse-Fehler oder unzuverlässige Ausgaben – die Gesamtkosten verzerren. Das Modell mit dem scheinbar günstigsten Token-Preis zahlte eine „Agent Execution Tax" von 22,9 % (Anteil verschwendeter Inferenz), was es effektiv 2,3× teurer pro erfolgreich abgeschlossenem Task machte als MiniMax M2.5. Kimi K2.5 erzielte über 852 API-Aufrufe hinweg 0 % Parse-Retries, während Gemini 2.5 Flash bei 18,6 % lag. GLM-5 erreichte mit 57,1 % die höchste Gesamtgenauigkeit und zeigte besondere Stärken bei strukturierten Daten. Der Autor sieht die Open-Weight-Modelle nicht wegen gestiegener Intelligenz, sondern aufgrund höherer Aufruf-Zuverlässigkeit als Gewinner dieser Agenten-Generation.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGhuggingface.co0mo
AI-Evaluierungen werden zum neuen Compute-Engpass
- BENCHMARKthe-decoder.com1w
Gemini 3.5 Flash kostet 5,5× mehr als Vorgänger – Branchentrend zu höheren Preisen
- FORSCHUNGarxiv.org1w
Skim: Spekulative Ausführung macht Web-Agenten 1,9× günstiger
- FORSCHUNGarxiv.org13h
RAMP: Produktionsnahes Evaluierungsframework entlarvt Schwächen von LLM-Agenten
Agent Execution Tax: Neue Metrik entlarvt versteckte Kosten bei Browser-Agenten
Der Reddit-Nutzer ogandrea präsentiert Ergebnisse aus einem selbst durchgeführten Benchmark mit 720 Browser-Agenten-Tasks auf dem WebVoyager-Benchmark. Getestet wurden vier Modelle, darunter Gemini 2.5 Flash und drei Open-Weight-Modelle: MiniMax M2.5, GLM-5 und Kimi K2.5. Kernthese: Der bloße Token-Preis ist als Beschaffungsmetrik für Agenten-Szenarien ungeeignet, weil Retry-Loops – ausgelöst durch Parse-Fehler oder unzuverlässige Ausgaben – die Gesamtkosten verzerren. Das Modell mit dem scheinbar günstigsten Token-Preis zahlte eine „Agent Execution Tax" von 22,9 % (Anteil verschwendeter Inferenz), was es effektiv 2,3× teurer pro erfolgreich abgeschlossenem Task machte als MiniMax M2.5. Kimi K2.5 erzielte über 852 API-Aufrufe hinweg 0 % Parse-Retries, während Gemini 2.5 Flash bei 18,6 % lag. GLM-5 erreichte mit 57,1 % die höchste Gesamtgenauigkeit und zeigte besondere Stärken bei strukturierten Daten. Der Autor sieht die Open-Weight-Modelle nicht wegen gestiegener Intelligenz, sondern aufgrund höherer Aufruf-Zuverlässigkeit als Gewinner dieser Agenten-Generation.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGhuggingface.co0mo
AI-Evaluierungen werden zum neuen Compute-Engpass
- BENCHMARKthe-decoder.com1w
Gemini 3.5 Flash kostet 5,5× mehr als Vorgänger – Branchentrend zu höheren Preisen
- FORSCHUNGarxiv.org1w
Skim: Spekulative Ausführung macht Web-Agenten 1,9× günstiger
- FORSCHUNGarxiv.org13h
RAMP: Produktionsnahes Evaluierungsframework entlarvt Schwächen von LLM-Agenten