DeepSeek stellt „Thinking with Visual Primitives"-Framework vor
DeepSeek hat zusammen mit Peking University und Tsinghua University ein multimodales Reasoning-Framework veröffentlicht, das räumliche Token (Koordinaten, Bounding Boxes) als grundlegende Gedankeneinheiten während des Chain-of-Thought-Prozesses nutzt.
- Kooperation mit Peking University und Tsinghua University an der Entwicklung beteiligt
- Räumliche Tokens (Koordinaten, Bounding Boxes) als minimale Gedankeneinheiten im Reasoning-Prozess
- Framework ermöglicht dem Modell, während des Denkens auf spezifische Bildpositionen zu verweisen
- Open-Source-Repository wurde kurz nach Veröffentlichung von DeepSeek entfernt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
Visual Para-Thinker: Paralleles Reasoning-Framework für multimodale LLMs
- FORSCHUNGyoutube.com6d
DeepSeek revolutioniert KI-basiertes Bildverstehen
- FORSCHUNGhuggingface.co3w
Perceptual Flow Network verbessert visuelles Reasoning in Vision-Language-Modellen
- FORSCHUNGarxiv.org2w
Knowledge Distillation bringt 3D-Spatial-Reasoning in 2,29B-Modell mit 8,7× weniger Latenz
DeepSeek stellt „Thinking with Visual Primitives"-Framework vor
DeepSeek hat zusammen mit Peking University und Tsinghua University ein multimodales Reasoning-Framework veröffentlicht, das räumliche Token (Koordinaten, Bounding Boxes) als grundlegende Gedankeneinheiten während des Chain-of-Thought-Prozesses nutzt.
- Kooperation mit Peking University und Tsinghua University an der Entwicklung beteiligt
- Räumliche Tokens (Koordinaten, Bounding Boxes) als minimale Gedankeneinheiten im Reasoning-Prozess
- Framework ermöglicht dem Modell, während des Denkens auf spezifische Bildpositionen zu verweisen
- Open-Source-Repository wurde kurz nach Veröffentlichung von DeepSeek entfernt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
Visual Para-Thinker: Paralleles Reasoning-Framework für multimodale LLMs
- FORSCHUNGyoutube.com6d
DeepSeek revolutioniert KI-basiertes Bildverstehen
- FORSCHUNGhuggingface.co3w
Perceptual Flow Network verbessert visuelles Reasoning in Vision-Language-Modellen
- FORSCHUNGarxiv.org2w
Knowledge Distillation bringt 3D-Spatial-Reasoning in 2,29B-Modell mit 8,7× weniger Latenz