inclusionAI veröffentlicht VISTA-9B/4B: GUI-Grounding-Modelle auf Qwen3.5-Basis
CompaniesHugging Face
Warum es zählt
Für Entwickler von GUI-Agenten bieten die Modelle eine spezialisierte, open-weight Lösung für Screen-Grounding ohne großen Backbone. Die VISTA-Trainingsmethode verbessert die Lokalisierung unter geometrisch variierenden Screenshots, was Robustheit in realen UI-Automatisierungsszenarien erhöht.
— Lumeric Redaktion
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org3w
DRS-GUI: Trainingsfreies dynamisches Region-Search-Framework für GUI-Grounding
- FORSCHUNGarxiv.org1w
DragOn: Benchmark und Datensatz für Drag-Interaktionen in GUI-Agenten
- FORSCHUNGarxiv.org1w
VISTA-Framework verbessert VLA-Training mit UMI-Roboterdaten
- FORSCHUNGarxiv.org1w
FOCUS: 7B-Modell übertrifft 72B-Modelle bei In-Context-Objektlokalisierung
inclusionAI veröffentlicht VISTA-9B/4B: GUI-Grounding-Modelle auf Qwen3.5-Basis
CompaniesHugging Face
Warum es zählt
Für Entwickler von GUI-Agenten bieten die Modelle eine spezialisierte, open-weight Lösung für Screen-Grounding ohne großen Backbone. Die VISTA-Trainingsmethode verbessert die Lokalisierung unter geometrisch variierenden Screenshots, was Robustheit in realen UI-Automatisierungsszenarien erhöht.
— Lumeric Redaktion
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org3w
DRS-GUI: Trainingsfreies dynamisches Region-Search-Framework für GUI-Grounding
- FORSCHUNGarxiv.org1w
DragOn: Benchmark und Datensatz für Drag-Interaktionen in GUI-Agenten
- FORSCHUNGarxiv.org1w
VISTA-Framework verbessert VLA-Training mit UMI-Roboterdaten
- FORSCHUNGarxiv.org1w
FOCUS: 7B-Modell übertrifft 72B-Modelle bei In-Context-Objektlokalisierung