Googles OS-per-Agent-Demo: Narayanan-Team deckt methodische Lücken auf

Warum es zählt

Ohne veröffentlichte Prompts, Logs und Ähnlichkeitsanalysen lässt sich Googles Antigravity-Demo nicht unabhängig verifizieren. Die Autoren fordern neue methodische Standards für sogenannte „Open-World Evaluations", die Benchmark-Tests bei Langzeit-Agenten-Aufgaben ersetzen sollen.

— Lumeric Redaktion

Auf Googles I/O-Entwicklerkonferenz präsentierte das Unternehmen Gemini 3.5 Flash zusammen mit dem Agenten-Framework Antigravity 2.0. Als Demonstration behauptete Google, ein Team von einigen Dutzend Subagenten habe ausgehend von einem einzigen Prompt ein vollständiges Betriebssystem gebaut – für rund 916 $ in API-Kosten. Ein Team aus Forschern um Arvind Narayanan, Sayash Kapoor und Rishi Bommasani (AI Snake Oil) analysiert nun die Behauptungen kritisch. Ihr zentraler Befund: Der „Single Prompt" umfasste laut Googles eigenem Blogpost am Ende viele tausend Zeilen – wie viele Iterationen zur Prompt-Erstellung nötig waren, bleibt offen. Das eingesetzte Scaffold mit spezialisierten Rollen, Delegations-Logik und einem Anti-Cheat-Agenten könnte auf die konkrete Aufgabe „zugeschnitten" (overfit) sein, ohne auf andere Software-Engineering-Aufgaben generalisierbar zu sein. Besonders kritisch: Google prüfte nicht, ob die Agenten existierenden Open-Source-Code kopierten – dabei weist der Blogpost selbst darauf hin, dass Toy-Betriebssysteme typische Uni-Projekte sind und öffentliche Implementierungen leicht auffindbar sind. Logs, Prompts und Quellcode wurden nicht veröffentlicht, eine unabhängige Nachprüfung ist daher unmöglich. Die Forscher plädieren dennoch nicht dafür, solche „Open-World Evaluations" generell abzulehnen – sie sehen sie als wichtige Ergänzung zu Benchmarks, fordern aber methodische Normen und unabhängige Evaluatoren aus Wissenschaft, NGOs und Behörden.

Quelle lesennormaltech.ai

$916,92 / 2,6B Token

Kosten und Token-Budget laut Google-Blogpost

Agents Evals Benchmarks Foundation Modelle