Thinking Machines TML-Interaction-Small: 276B-MoE-Modell advances Realtime-Voice-SOTA

Warum es zählt

Das Modell verarbeitet Audio, Video und Text mit unter 200ms Latenz durch encoder-freies Early Fusion und ermöglicht erstmals echte visuelle Proaktivität sowie Simultanübersetzung – ein grundlegender Paradigmenwechsel weg von turn-basierten Systemen hin zu kontinuierlicher Interaktion.

— Lumeric Redaktion

Thinking Machines Lab – das philippinische AI-Lab, das in den vergangenen rund zwölf Monaten nur selten öffentlich aufgetreten ist – hat mit TML-Interaction-Small ein natives Interaktionsmodell vorgestellt. Das Modell basiert auf einer Mixture-of-Experts-Architektur mit 276 Milliarden Gesamtparametern, von denen bei jedem Forward-Pass 12 Milliarden aktiv sind. Kern der technischen Innovation ist encoder-freies Early Fusion: Audio- und Bilddaten werden gemeinsam mit Text in weniger als 200 ms verarbeitet, ähnlich wie bei Metas Chameleon-Ansatz. Das Modell schlägt GPT-Realtime-2 und Gemini 3.1-Flash auf Standard-Benchmarks wie BigBench Audio und IFEval. Weil diese Benchmarks die angestrebte Interaktivitätsstufe nicht abbilden, entwickelte das Team zwei neue interne Evals: TimeSpeak (zeitgesteuertes Sprachinitiieren) und CueSpeak (sprachliches Reagieren auf visuelle oder kontextuelle Cues). Weitere neue Benchmarks – RepCount-A für kontinuierliches visuelles Zählen und ProactiveVideoQA für zeitpräzise Video-Fragen – messen Fähigkeiten wie das Zählen von Liegestützen oder das Erkennen von Haltungsveränderungen in Echtzeit. Mitgründer John Schulman, Soumith Chintala und Charles Hillee rahmten den Launch als Lösung eines Bandbreitenproblems zwischen Mensch und KI: Das Modell soll gleichzeitig zuhören, sprechen, beobachten, denken und suchen, ohne explizite Zustandsgrenzen. Als Inference-Backend wird laut Community-Beobachtungen SGLang eingesetzt.

Quelle lesenlatent.space

276B-A12B MoE

Parameter gesamt / aktiv bei TML-Interaction-Small

Foundation Modelle Voice Multimodal

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Thinking Machines TML-Interaction-Small: 276B-MoE-Modell advances Realtime-Voice-SOTA

ToolsGPT Gemini

CompaniesMeta AI

Warum es zählt

— Lumeric Redaktion

276B-A12B MoE

Parameter gesamt / aktiv bei TML-Interaction-Small

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Thinking Machines TML-Interaction-Small: 276B-MoE-Modell advances Realtime-Voice-SOTA

Frag die KI zum Artikel

Verwandte Beiträge

Thinking Machines TML-Interaction-Small: 276B-MoE-Modell advances Realtime-Voice-SOTA

Frag die KI zum Artikel

Verwandte Beiträge