
Googles OS-per-Agent-Demo: Narayanan-Team deckt methodische Lücken auf
Auf Googles I/O-Entwicklerkonferenz präsentierte das Unternehmen Gemini 3.5 Flash zusammen mit dem Agenten-Framework Antigravity 2.0. Als Demonstration behauptete Google, ein Team von einigen Dutzend Subagenten habe ausgehend von einem einzigen Prompt ein vollständiges Betriebssystem gebaut – für rund 916 $ in API-Kosten. Ein Team aus Forschern um Arvind Narayanan, Sayash Kapoor und Rishi Bommasani (AI Snake Oil) analysiert nun die Behauptungen kritisch. Ihr zentraler Befund: Der „Single Prompt" umfasste laut Googles eigenem Blogpost am Ende viele tausend Zeilen – wie viele Iterationen zur Prompt-Erstellung nötig waren, bleibt offen. Das eingesetzte Scaffold mit spezialisierten Rollen, Delegations-Logik und einem Anti-Cheat-Agenten könnte auf die konkrete Aufgabe „zugeschnitten" (overfit) sein, ohne auf andere Software-Engineering-Aufgaben generalisierbar zu sein. Besonders kritisch: Google prüfte nicht, ob die Agenten existierenden Open-Source-Code kopierten – dabei weist der Blogpost selbst darauf hin, dass Toy-Betriebssysteme typische Uni-Projekte sind und öffentliche Implementierungen leicht auffindbar sind. Logs, Prompts und Quellcode wurden nicht veröffentlicht, eine unabhängige Nachprüfung ist daher unmöglich. Die Forscher plädieren dennoch nicht dafür, solche „Open-World Evaluations" generell abzulehnen – sie sehen sie als wichtige Ergänzung zu Benchmarks, fordern aber methodische Normen und unabhängige Evaluatoren aus Wissenschaft, NGOs und Behörden.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGarxiv.org2w
Position Paper: Autonome KI-Wissenschaftler noch nicht reif für eigenständige Forschung
- MEINUNGinterconnects.ai2d
Lambert: Open-Source-Modelle fehlt der Agenten-Durchbruch wie Opus 4.5
- FORSCHUNGarxiv.org2w
KI-Agenten unter sich: Empirische Analyse des Softwarediskurses auf MoltBook
- FORSCHUNGarxiv.org1d
Unified Framework für LLM-Agenten-Evaluation gefordert

Googles OS-per-Agent-Demo: Narayanan-Team deckt methodische Lücken auf
Auf Googles I/O-Entwicklerkonferenz präsentierte das Unternehmen Gemini 3.5 Flash zusammen mit dem Agenten-Framework Antigravity 2.0. Als Demonstration behauptete Google, ein Team von einigen Dutzend Subagenten habe ausgehend von einem einzigen Prompt ein vollständiges Betriebssystem gebaut – für rund 916 $ in API-Kosten. Ein Team aus Forschern um Arvind Narayanan, Sayash Kapoor und Rishi Bommasani (AI Snake Oil) analysiert nun die Behauptungen kritisch. Ihr zentraler Befund: Der „Single Prompt" umfasste laut Googles eigenem Blogpost am Ende viele tausend Zeilen – wie viele Iterationen zur Prompt-Erstellung nötig waren, bleibt offen. Das eingesetzte Scaffold mit spezialisierten Rollen, Delegations-Logik und einem Anti-Cheat-Agenten könnte auf die konkrete Aufgabe „zugeschnitten" (overfit) sein, ohne auf andere Software-Engineering-Aufgaben generalisierbar zu sein. Besonders kritisch: Google prüfte nicht, ob die Agenten existierenden Open-Source-Code kopierten – dabei weist der Blogpost selbst darauf hin, dass Toy-Betriebssysteme typische Uni-Projekte sind und öffentliche Implementierungen leicht auffindbar sind. Logs, Prompts und Quellcode wurden nicht veröffentlicht, eine unabhängige Nachprüfung ist daher unmöglich. Die Forscher plädieren dennoch nicht dafür, solche „Open-World Evaluations" generell abzulehnen – sie sehen sie als wichtige Ergänzung zu Benchmarks, fordern aber methodische Normen und unabhängige Evaluatoren aus Wissenschaft, NGOs und Behörden.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGarxiv.org2w
Position Paper: Autonome KI-Wissenschaftler noch nicht reif für eigenständige Forschung
- MEINUNGinterconnects.ai2d
Lambert: Open-Source-Modelle fehlt der Agenten-Durchbruch wie Opus 4.5
- FORSCHUNGarxiv.org2w
KI-Agenten unter sich: Empirische Analyse des Softwarediskurses auf MoltBook
- FORSCHUNGarxiv.org1d
Unified Framework für LLM-Agenten-Evaluation gefordert