★ Begriff· Multimodal
VLM — Vision Language Model
Multimodal-Modell-Klasse mit Schwerpunkt Bild + Text. Beispiele: Llama 3.2 Vision, Qwen2-VL, InternVL. Anwendungen: OCR, Bildbeschreibung, UI-Verständnis für Computer-Use-Agents.
Verwandte Tools
Auch bekannt als
vlm · vision language model · vision-language model
Aktivität
23
Mentions in den letzten 7 Tagen
4 Wochen
⚡neu · 23×
Zuletzt erwähnt in
- Qwen veröffentlicht Q-Judger: VLM zur automatisierten Bildqualitätsbewertung2026-05-28
- Fast-dDrive: Block-Diffusion-VLM für effizienteres autonomes Fahren2026-05-28
- GEM: Tiefenkarten-Generierung verbessert Robotik-KI in Vision-Language-Modell2026-05-28
- VLMs halluzinieren bei OCR antiker griechischer Texte statt zu lesen2026-05-28
- MIRAGE: Prompt-Injection-Angriffe auf mobile GUI-Agenten via nutzergenerierte Inhalte2026-05-28