★ Begriff· Multimodal
Multimodal
Modell, das mehrere Modalitäten gleichzeitig verarbeiten kann — Text + Bild + Audio + Video. GPT-5, Claude 3.5+, Gemini 2.5 sind multimodal. Ermöglicht Anwendungen wie Bild-Frage-Antwort, Video-Verständnis.
Verwandte Tools
Auch bekannt als
multimodal model · multimodale ki
Aktivität
74
Mentions in den letzten 7 Tagen
4 Wochen
⚡neu · 74×
Zuletzt erwähnt in
- Affordance-Grounding verbessert kreatives Problemlösen in Large Multimodal Models2026-05-28
- UniMaia: Schach-KI via Sprachsteuerung für menschliches Spielverhalten2026-05-28
- Explizite Image-Tool-Interaktion reduziert Multimodal-Jailbreaks um ~30 %2026-05-28
- ROVER: Leichtgewichtiges Plugin für visuelles Multi-Bild-Reasoning in MLLMs2026-05-28
- SMILE-Next: LLM-Framework zur Erkennung und Analyse von Lachen2026-05-28