Claude Code spielt OSU! per reiner Vision – 50 ms pro Aktion

Warum es zählt

Das Experiment zeigt, dass Claude Code über reines Sehen (kein DOM/Accessibility-Tree) schnell genug reagieren kann, um Echtzeit-UI-Interaktionen zu steuern – ein Proof of Concept für agentisches Screen-Control ohne spezielle API-Hooks.

— Lumeric Redaktion

Der Reddit-Nutzer undoing8 demonstriert in r/LocalLLaMA, wie Claude Code in Kombination mit einem UI-Interaktionsmodell das Rhythmus-Spiel OSU! steuert – und zwar ausschließlich auf Basis von Computer Vision, ohne Zugriff auf einen Accessibility-Tree oder andere strukturierte UI-Metadaten. Die Reaktionszeit beträgt laut Post 50 Millisekunden pro Aktion. Das Experiment ist ein anschauliches Beispiel für agentisches Screen-Control: Das Modell sieht einen Screenshot, leitet daraus die nächste Eingabe ab und führt sie aus – rein pixelbasiert. OSU! ist als Benchmark besonders interessant, weil das Spiel präzises Timing und schnelle Cursorbewegungen verlangt. Der Beitrag liefert keinen vollständigen technischen Bericht, verdeutlicht aber, dass Latenz und reine Vision-Pipelines für Echtzeit-UI-Agenten inzwischen praktisch einsetzbar sind.

Was wir noch wissen

Kein Accessibility-Tree verwendet – reines pixelbasiertes Sehen (Pure Vision)
50 ms Aktionslatenz pro Schritt laut Beitrag
Genutzte Kombination: Claude Code + separates UI-Interaktionsmodell
OSU! als Testbed: Rhythmusspiel mit hohen Anforderungen an Timing und Präzision
Veröffentlicht als Community-Demo auf r/LocalLLaMA, kein offizielles Anthropic-Release

Quelle lesenreddit.com

Agents Multimodal Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Claude Code spielt OSU! per reiner Vision – 50 ms pro Aktion

ToolsClaude Claude Code

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Kein Accessibility-Tree verwendet – reines pixelbasiertes Sehen (Pure Vision)
50 ms Aktionslatenz pro Schritt laut Beitrag
Genutzte Kombination: Claude Code + separates UI-Interaktionsmodell
OSU! als Testbed: Rhythmusspiel mit hohen Anforderungen an Timing und Präzision
Veröffentlicht als Community-Demo auf r/LocalLLaMA, kein offizielles Anthropic-Release

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Claude Code spielt OSU! per reiner Vision – 50 ms pro Aktion

Frag die KI zum Artikel

Verwandte Beiträge

Claude Code spielt OSU! per reiner Vision – 50 ms pro Aktion

Frag die KI zum Artikel

Verwandte Beiträge