DeepSeek stellt „Thinking with Visual Primitives"-Framework vor

Warum es zählt

Das Framework ermöglicht es Modellen, während des Denkens auf spezifische Bildregionen zu „zeigen", was multimodale Reasoning-Fähigkeiten verbessert. Dies könnte visuell-räumliche Aufgaben präziser machen, besonders für visuelle Verständnisaufgaben und komplexe räumliche Analysen.

— Lumeric Redaktion

Was wir noch wissen

Kooperation mit Peking University und Tsinghua University an der Entwicklung beteiligt
Räumliche Tokens (Koordinaten, Bounding Boxes) als minimale Gedankeneinheiten im Reasoning-Prozess
Framework ermöglicht dem Modell, während des Denkens auf spezifische Bildpositionen zu verweisen
Open-Source-Repository wurde kurz nach Veröffentlichung von DeepSeek entfernt

Quelle lesenreddit.com

Multimodal Open Source Post Training

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DeepSeek stellt „Thinking with Visual Primitives"-Framework vor

ToolsDeepSeek

CompaniesDeepSeek

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Kooperation mit Peking University und Tsinghua University an der Entwicklung beteiligt
Räumliche Tokens (Koordinaten, Bounding Boxes) als minimale Gedankeneinheiten im Reasoning-Prozess
Framework ermöglicht dem Modell, während des Denkens auf spezifische Bildpositionen zu verweisen
Open-Source-Repository wurde kurz nach Veröffentlichung von DeepSeek entfernt

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

DeepSeek stellt „Thinking with Visual Primitives"-Framework vor

Frag die KI zum Artikel

Verwandte Beiträge

DeepSeek stellt „Thinking with Visual Primitives"-Framework vor

Frag die KI zum Artikel

Verwandte Beiträge