Microsoft Research veröffentlicht Webwright: Web-Agent-Framework erreicht 60,1 % auf Odysseys

ToolsGPT

Warum es zählt

Webwright zeigt, dass ein schlankes Open-Source-Framework (~1.000 Zeilen Code) die Benchmark-Performance eines Web-Agents nahezu verdoppeln kann – relevant für Builder, die robuste, wiederverwendbare Automatisierungspipelines auf GPT-5.4-Basis entwickeln wollen.

— Lumeric Redaktion

Microsoft Research hat Webwright als Open-Source-Framework veröffentlicht, das die Automatisierung von Web-Aufgaben neu ansetzt: Statt flüchtiger Click-Traces generiert es wiederverwendbare Playwright-Skripte, die eine deterministischere Ausführung ermöglichen. Das Framework besteht aus einem einzigen Agenten-Loop über drei Module und umfasst rund 1.000 Zeilen Code – ein bewusst schlankes Design. Mit GPT-5.4 als Backbone erreicht Webwright 60,1 % auf dem anspruchsvollen Odysseys-Benchmark für long-horizon Web-Aufgaben, was eine Steigerung von 33,5 % des Basis-Modells bedeutet. Auf Online-Mind2Web erzielt das Framework 86,7 % – den höchsten AutoEval-Score unter allen quelloffenen Harness-Rezepten. Die Veröffentlichung als Open-Source-Projekt richtet sich an Entwickler, die Web-Agent-Harnesses aufbauen oder evaluieren wollen.

Was wir noch wissen

Webwright nutzt wiederverwendbare Playwright-Skripte statt einmaliger Click-Traces für stabilere Web-Automatisierung.
Das Framework besteht aus einem einzigen Agenten-Loop über drei Module bei ~1.000 Zeilen Code.
86,7 % auf Online-Mind2Web ist der höchste AutoEval-Score unter allen open-source Harness-Rezepten.
Webwright ist als Open-Source-Projekt veröffentlicht und damit direkt für eigene Evaluierungen adaptierbar.

Quelle lesenmarktechpost.com

Odysseys (long-horizon) · Spitzenwert

60.1%

Webwright (GPT-5.4)

Agents Developer Tooling Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Microsoft Research veröffentlicht Webwright: Web-Agent-Framework erreicht 60,1 % auf Odysseys

ToolsGPT

CompaniesMicrosoft AI

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Webwright nutzt wiederverwendbare Playwright-Skripte statt einmaliger Click-Traces für stabilere Web-Automatisierung.
Das Framework besteht aus einem einzigen Agenten-Loop über drei Module bei ~1.000 Zeilen Code.
86,7 % auf Online-Mind2Web ist der höchste AutoEval-Score unter allen open-source Harness-Rezepten.
Webwright ist als Open-Source-Projekt veröffentlicht und damit direkt für eigene Evaluierungen adaptierbar.

Odysseys (long-horizon) · Spitzenwert

60.1%

Webwright (GPT-5.4)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Microsoft Research veröffentlicht Webwright: Web-Agent-Framework erreicht 60,1 % auf Odysseys

Frag die KI zum Artikel

Verwandte Beiträge

Microsoft Research veröffentlicht Webwright: Web-Agent-Framework erreicht 60,1 % auf Odysseys

Frag die KI zum Artikel

Verwandte Beiträge