Thinking Machines: Interaktive Modelle vereinen Sprache, Vision, Audio und Tool-Nutzung

Warum es zählt

Wenn das Modell selbst zur Schnittstelle wird und Modalitäten kontinuierlich integriert statt sequenziell zu verarbeiten, ändert sich das Grundprinzip, wie AI-Systeme für kollaborative Anwendungen gebaut werden müssen.

— Lumeric Redaktion

Der Artikel von TheSequence beschäftigt sich mit dem Ansatz von Thinking Machines, sogenannte „Interactive Models" zu entwickeln. Diese gehen über das klassische LLM-Paradigma – Tokens aneinanderreihen, nächstes Token vorhersagen, wiederholen – deutlich hinaus. Statt eines starren Frage-Antwort-Austauschs sollen Echtzeit-Konversation, visuelle und auditive Eingaben sowie die Nutzung externer Tools in einem einzigen, kontinuierlich gelernten System zusammenwachsen. Der Autor betont, dass Kollaboration von Natur aus temporal ist und sich nicht einfach in einen seriellen Textstrom pressen lässt. Die Arbeit von Thinking Machines wird als früh, aber bemerkenswert eingestuft. Der vollständige Essay ist nur für zahlende Abonnenten zugänglich, weshalb technische Details und konkrete Architekturangaben im frei verfügbaren Auszug fehlen.

Was wir noch wissen

Thinking Machines verbindet Modalitäten (Text, Vision, Audio, Tools) in einem einzigen gelernten System statt in getrennten Pipelines.
Der Autor kritisiert das klassische LLM-Paradigma als 'peinlich simpel' für kollaborative Anwendungsfälle.
Kollaboration wird als temporales Problem gerahmt, das serielle Textverarbeitung grundsätzlich überfordert.
Der Ansatz befindet sich laut Autor noch in einer frühen Phase, wird aber als beeindruckend eingestuft.
Der vollständige Essay ist hinter einer Paywall; technische Details sind im frei verfügbaren Auszug nicht enthalten.

Quelle lesenthesequence.substack.com

Foundation Modelle Multimodal Agents

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Thinking Machines: Interaktive Modelle vereinen Sprache, Vision, Audio und Tool-Nutzung

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Thinking Machines verbindet Modalitäten (Text, Vision, Audio, Tools) in einem einzigen gelernten System statt in getrennten Pipelines.
Der Autor kritisiert das klassische LLM-Paradigma als 'peinlich simpel' für kollaborative Anwendungsfälle.
Kollaboration wird als temporales Problem gerahmt, das serielle Textverarbeitung grundsätzlich überfordert.
Der Ansatz befindet sich laut Autor noch in einer frühen Phase, wird aber als beeindruckend eingestuft.
Der vollständige Essay ist hinter einer Paywall; technische Details sind im frei verfügbaren Auszug nicht enthalten.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Thinking Machines: Interaktive Modelle vereinen Sprache, Vision, Audio und Tool-Nutzung

Frag die KI zum Artikel

Verwandte Beiträge

Thinking Machines: Interaktive Modelle vereinen Sprache, Vision, Audio und Tool-Nutzung

Frag die KI zum Artikel

Verwandte Beiträge