
Thinking Machines: Interaktive Modelle vereinen Sprache, Vision, Audio und Tool-Nutzung
Der Artikel von TheSequence beschäftigt sich mit dem Ansatz von Thinking Machines, sogenannte „Interactive Models" zu entwickeln. Diese gehen über das klassische LLM-Paradigma – Tokens aneinanderreihen, nächstes Token vorhersagen, wiederholen – deutlich hinaus. Statt eines starren Frage-Antwort-Austauschs sollen Echtzeit-Konversation, visuelle und auditive Eingaben sowie die Nutzung externer Tools in einem einzigen, kontinuierlich gelernten System zusammenwachsen. Der Autor betont, dass Kollaboration von Natur aus temporal ist und sich nicht einfach in einen seriellen Textstrom pressen lässt. Die Arbeit von Thinking Machines wird als früh, aber bemerkenswert eingestuft. Der vollständige Essay ist nur für zahlende Abonnenten zugänglich, weshalb technische Details und konkrete Architekturangaben im frei verfügbaren Auszug fehlen.
- Thinking Machines verbindet Modalitäten (Text, Vision, Audio, Tools) in einem einzigen gelernten System statt in getrennten Pipelines.
- Der Autor kritisiert das klassische LLM-Paradigma als 'peinlich simpel' für kollaborative Anwendungsfälle.
- Kollaboration wird als temporales Problem gerahmt, das serielle Textverarbeitung grundsätzlich überfordert.
- Der Ansatz befindet sich laut Autor noch in einer frühen Phase, wird aber als beeindruckend eingestuft.
- Der vollständige Essay ist hinter einer Paywall; technische Details sind im frei verfügbaren Auszug nicht enthalten.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

Thinking Machines: Interaktive Modelle vereinen Sprache, Vision, Audio und Tool-Nutzung
Der Artikel von TheSequence beschäftigt sich mit dem Ansatz von Thinking Machines, sogenannte „Interactive Models" zu entwickeln. Diese gehen über das klassische LLM-Paradigma – Tokens aneinanderreihen, nächstes Token vorhersagen, wiederholen – deutlich hinaus. Statt eines starren Frage-Antwort-Austauschs sollen Echtzeit-Konversation, visuelle und auditive Eingaben sowie die Nutzung externer Tools in einem einzigen, kontinuierlich gelernten System zusammenwachsen. Der Autor betont, dass Kollaboration von Natur aus temporal ist und sich nicht einfach in einen seriellen Textstrom pressen lässt. Die Arbeit von Thinking Machines wird als früh, aber bemerkenswert eingestuft. Der vollständige Essay ist nur für zahlende Abonnenten zugänglich, weshalb technische Details und konkrete Architekturangaben im frei verfügbaren Auszug fehlen.
- Thinking Machines verbindet Modalitäten (Text, Vision, Audio, Tools) in einem einzigen gelernten System statt in getrennten Pipelines.
- Der Autor kritisiert das klassische LLM-Paradigma als 'peinlich simpel' für kollaborative Anwendungsfälle.
- Kollaboration wird als temporales Problem gerahmt, das serielle Textverarbeitung grundsätzlich überfordert.
- Der Ansatz befindet sich laut Autor noch in einer frühen Phase, wird aber als beeindruckend eingestuft.
- Der vollständige Essay ist hinter einer Paywall; technische Details sind im frei verfügbaren Auszug nicht enthalten.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.