Thinking Machines TML-Interaction-Small: 276B-MoE-Modell advances Realtime-Voice-SOTA
Thinking Machines Lab – das philippinische AI-Lab, das in den vergangenen rund zwölf Monaten nur selten öffentlich aufgetreten ist – hat mit TML-Interaction-Small ein natives Interaktionsmodell vorgestellt. Das Modell basiert auf einer Mixture-of-Experts-Architektur mit 276 Milliarden Gesamtparametern, von denen bei jedem Forward-Pass 12 Milliarden aktiv sind. Kern der technischen Innovation ist encoder-freies Early Fusion: Audio- und Bilddaten werden gemeinsam mit Text in weniger als 200 ms verarbeitet, ähnlich wie bei Metas Chameleon-Ansatz. Das Modell schlägt GPT-Realtime-2 und Gemini 3.1-Flash auf Standard-Benchmarks wie BigBench Audio und IFEval. Weil diese Benchmarks die angestrebte Interaktivitätsstufe nicht abbilden, entwickelte das Team zwei neue interne Evals: TimeSpeak (zeitgesteuertes Sprachinitiieren) und CueSpeak (sprachliches Reagieren auf visuelle oder kontextuelle Cues). Weitere neue Benchmarks – RepCount-A für kontinuierliches visuelles Zählen und ProactiveVideoQA für zeitpräzise Video-Fragen – messen Fähigkeiten wie das Zählen von Liegestützen oder das Erkennen von Haltungsveränderungen in Echtzeit. Mitgründer John Schulman, Soumith Chintala und Charles Hillee rahmten den Launch als Lösung eines Bandbreitenproblems zwischen Mensch und KI: Das Modell soll gleichzeitig zuhören, sprechen, beobachten, denken und suchen, ohne explizite Zustandsgrenzen. Als Inference-Backend wird laut Community-Beobachtungen SGLang eingesetzt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Thinking Machines TML-Interaction-Small: 276B-MoE-Modell advances Realtime-Voice-SOTA
Thinking Machines Lab – das philippinische AI-Lab, das in den vergangenen rund zwölf Monaten nur selten öffentlich aufgetreten ist – hat mit TML-Interaction-Small ein natives Interaktionsmodell vorgestellt. Das Modell basiert auf einer Mixture-of-Experts-Architektur mit 276 Milliarden Gesamtparametern, von denen bei jedem Forward-Pass 12 Milliarden aktiv sind. Kern der technischen Innovation ist encoder-freies Early Fusion: Audio- und Bilddaten werden gemeinsam mit Text in weniger als 200 ms verarbeitet, ähnlich wie bei Metas Chameleon-Ansatz. Das Modell schlägt GPT-Realtime-2 und Gemini 3.1-Flash auf Standard-Benchmarks wie BigBench Audio und IFEval. Weil diese Benchmarks die angestrebte Interaktivitätsstufe nicht abbilden, entwickelte das Team zwei neue interne Evals: TimeSpeak (zeitgesteuertes Sprachinitiieren) und CueSpeak (sprachliches Reagieren auf visuelle oder kontextuelle Cues). Weitere neue Benchmarks – RepCount-A für kontinuierliches visuelles Zählen und ProactiveVideoQA für zeitpräzise Video-Fragen – messen Fähigkeiten wie das Zählen von Liegestützen oder das Erkennen von Haltungsveränderungen in Echtzeit. Mitgründer John Schulman, Soumith Chintala und Charles Hillee rahmten den Launch als Lösung eines Bandbreitenproblems zwischen Mensch und KI: Das Modell soll gleichzeitig zuhören, sprechen, beobachten, denken und suchen, ohne explizite Zustandsgrenzen. Als Inference-Backend wird laut Community-Beobachtungen SGLang eingesetzt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.