Claude Code spielt OSU! per reiner Vision – 50 ms pro Aktion
Der Reddit-Nutzer undoing8 demonstriert in r/LocalLLaMA, wie Claude Code in Kombination mit einem UI-Interaktionsmodell das Rhythmus-Spiel OSU! steuert – und zwar ausschließlich auf Basis von Computer Vision, ohne Zugriff auf einen Accessibility-Tree oder andere strukturierte UI-Metadaten. Die Reaktionszeit beträgt laut Post 50 Millisekunden pro Aktion. Das Experiment ist ein anschauliches Beispiel für agentisches Screen-Control: Das Modell sieht einen Screenshot, leitet daraus die nächste Eingabe ab und führt sie aus – rein pixelbasiert. OSU! ist als Benchmark besonders interessant, weil das Spiel präzises Timing und schnelle Cursorbewegungen verlangt. Der Beitrag liefert keinen vollständigen technischen Bericht, verdeutlicht aber, dass Latenz und reine Vision-Pipelines für Echtzeit-UI-Agenten inzwischen praktisch einsetzbar sind.
- Kein Accessibility-Tree verwendet – reines pixelbasiertes Sehen (Pure Vision)
- 50 ms Aktionslatenz pro Schritt laut Beitrag
- Genutzte Kombination: Claude Code + separates UI-Interaktionsmodell
- OSU! als Testbed: Rhythmusspiel mit hohen Anforderungen an Timing und Präzision
- Veröffentlicht als Community-Demo auf r/LocalLLaMA, kein offizielles Anthropic-Release
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Claude Code spielt OSU! per reiner Vision – 50 ms pro Aktion
Der Reddit-Nutzer undoing8 demonstriert in r/LocalLLaMA, wie Claude Code in Kombination mit einem UI-Interaktionsmodell das Rhythmus-Spiel OSU! steuert – und zwar ausschließlich auf Basis von Computer Vision, ohne Zugriff auf einen Accessibility-Tree oder andere strukturierte UI-Metadaten. Die Reaktionszeit beträgt laut Post 50 Millisekunden pro Aktion. Das Experiment ist ein anschauliches Beispiel für agentisches Screen-Control: Das Modell sieht einen Screenshot, leitet daraus die nächste Eingabe ab und führt sie aus – rein pixelbasiert. OSU! ist als Benchmark besonders interessant, weil das Spiel präzises Timing und schnelle Cursorbewegungen verlangt. Der Beitrag liefert keinen vollständigen technischen Bericht, verdeutlicht aber, dass Latenz und reine Vision-Pipelines für Echtzeit-UI-Agenten inzwischen praktisch einsetzbar sind.
- Kein Accessibility-Tree verwendet – reines pixelbasiertes Sehen (Pure Vision)
- 50 ms Aktionslatenz pro Schritt laut Beitrag
- Genutzte Kombination: Claude Code + separates UI-Interaktionsmodell
- OSU! als Testbed: Rhythmusspiel mit hohen Anforderungen an Timing und Präzision
- Veröffentlicht als Community-Demo auf r/LocalLLaMA, kein offizielles Anthropic-Release
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.