Agent Execution Tax: Neue Metrik entlarvt versteckte Kosten bei Browser-Agenten

Warum es zählt

Token-Preise täuschen bei Agenten-Workloads, da Retry-Loops die Gesamtkosten massiv treiben. Open-Weight-Modelle wie Kimi K2.5 (0 % Parse-Retries) und GLM-5 (57,1 % Genauigkeit) zeigen, dass Zuverlässigkeit pro Call entscheidender ist als Rohgenauigkeit.

— Lumeric Redaktion

Der Reddit-Nutzer ogandrea präsentiert Ergebnisse aus einem selbst durchgeführten Benchmark mit 720 Browser-Agenten-Tasks auf dem WebVoyager-Benchmark. Getestet wurden vier Modelle, darunter Gemini 2.5 Flash und drei Open-Weight-Modelle: MiniMax M2.5, GLM-5 und Kimi K2.5. Kernthese: Der bloße Token-Preis ist als Beschaffungsmetrik für Agenten-Szenarien ungeeignet, weil Retry-Loops – ausgelöst durch Parse-Fehler oder unzuverlässige Ausgaben – die Gesamtkosten verzerren. Das Modell mit dem scheinbar günstigsten Token-Preis zahlte eine „Agent Execution Tax" von 22,9 % (Anteil verschwendeter Inferenz), was es effektiv 2,3× teurer pro erfolgreich abgeschlossenem Task machte als MiniMax M2.5. Kimi K2.5 erzielte über 852 API-Aufrufe hinweg 0 % Parse-Retries, während Gemini 2.5 Flash bei 18,6 % lag. GLM-5 erreichte mit 57,1 % die höchste Gesamtgenauigkeit und zeigte besondere Stärken bei strukturierten Daten. Der Autor sieht die Open-Weight-Modelle nicht wegen gestiegener Intelligenz, sondern aufgrund höherer Aufruf-Zuverlässigkeit als Gewinner dieser Agenten-Generation.

Quelle lesenreddit.com

WebVoyager (720 Tasks, Erfolgskosten-Vergleich) · Spitzenwert

MiniMax M2.5

Evals Benchmarks Agents Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Agent Execution Tax: Neue Metrik entlarvt versteckte Kosten bei Browser-Agenten

ToolsGemini

Warum es zählt

— Lumeric Redaktion

WebVoyager (720 Tasks, Erfolgskosten-Vergleich) · Spitzenwert

MiniMax M2.5

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Agent Execution Tax: Neue Metrik entlarvt versteckte Kosten bei Browser-Agenten

Frag die KI zum Artikel

Verwandte Beiträge

Agent Execution Tax: Neue Metrik entlarvt versteckte Kosten bei Browser-Agenten

Frag die KI zum Artikel

Verwandte Beiträge