wird geladen

inclusionAI veröffentlicht VISTA-9B/4B: GUI-Grounding-Modelle auf Qwen3.5-Basis · Lumeric

Feed
Digest
Lounge
Stash
Profil

Beitrag

LAUNCH

reddit.com· r/LocalLLaMA5h

inclusionAI veröffentlicht VISTA-9B/4B: GUI-Grounding-Modelle auf Qwen3.5-Basis

ToolsQwen Hugging Face

CompaniesHugging Face

Warum es zählt

Für Entwickler von GUI-Agenten bieten die Modelle eine spezialisierte, open-weight Lösung für Screen-Grounding ohne großen Backbone. Die VISTA-Trainingsmethode verbessert die Lokalisierung unter geometrisch variierenden Screenshots, was Robustheit in realen UI-Automatisierungsszenarien erhöht.

— Lumeric Redaktion

Quelle lesenreddit.com

Agents Multimodal Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

FORSCHUNGarxiv.org3w
DRS-GUI: Trainingsfreies dynamisches Region-Search-Framework für GUI-Grounding
FORSCHUNGarxiv.org1w
DragOn: Benchmark und Datensatz für Drag-Interaktionen in GUI-Agenten
FORSCHUNGarxiv.org1w
VISTA-Framework verbessert VLA-Training mit UMI-Roboterdaten
FORSCHUNGarxiv.org1w
FOCUS: 7B-Modell übertrifft 72B-Modelle bei In-Context-Objektlokalisierung

LAUNCH

reddit.com· r/LocalLLaMA5h

inclusionAI veröffentlicht VISTA-9B/4B: GUI-Grounding-Modelle auf Qwen3.5-Basis

ToolsQwen Hugging Face

CompaniesHugging Face

Warum es zählt

Für Entwickler von GUI-Agenten bieten die Modelle eine spezialisierte, open-weight Lösung für Screen-Grounding ohne großen Backbone. Die VISTA-Trainingsmethode verbessert die Lokalisierung unter geometrisch variierenden Screenshots, was Robustheit in realen UI-Automatisierungsszenarien erhöht.

— Lumeric Redaktion

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Quelle lesenreddit.com

Themen

Agents Multimodal Open Source

Reaktion

Speichern

Verwandte Beiträge

FORSCHUNGarxiv.org3w
DRS-GUI: Trainingsfreies dynamisches Region-Search-Framework für GUI-Grounding
FORSCHUNGarxiv.org1w
DragOn: Benchmark und Datensatz für Drag-Interaktionen in GUI-Agenten
FORSCHUNGarxiv.org1w
VISTA-Framework verbessert VLA-Training mit UMI-Roboterdaten
FORSCHUNGarxiv.org1w
FOCUS: 7B-Modell übertrifft 72B-Modelle bei In-Context-Objektlokalisierung