Together AI
Together AI positioniert sich als «AI Native Cloud» — von Infra bis Fine-Tuning
Aktueller Stand
Together AI adressiert primär AI-Builder-Teams und Platform-Engineers, die Modelle trainieren, fine-tunen und inferieren wollen, ohne eigene GPU-Infrastruktur zu betreiben. Das Angebot reicht von serverloser Inferenz über Dedicated-Deployments bis zu Fine-Tuning auf Modellen mit bis zu 397 Milliarden Parametern. Preislich differenziert sich Together AI über Cached-Input-Pricing bei langen Kontexten sowie á-la-carte-Konfigurierbarkeit auf Cluster-Ebene — beides richtet sich gegen die rigide Ressourcenzuteilung klassischer Hyperscaler.
Der Wettbewerb mit Fireside-Anbietern wie Replicate, Modal oder Anyscale bleibt eng; Together AIs Argument ist die Vollständigkeit des Stacks: Trainingsdaten, Training, Deployment und Sicherheitsmanagement unter einem Dach. Die jüngst lancierte Kategoriestrategie «AI Native Cloud» unterstreicht diesen Plattformanspruch — vorläufig noch mehr Positionierung als messbare Marktgrösse.
Wichtigste Updates
Kategoriedefinition «AI Native Cloud»: Together AI hat den Begriff «AI Native Cloud» als eigenständige Infrastrukturkategorie eingeführt und sich darin explizit als Plattformpartner für den gesamten Modell-Lebenszyklus positioniert. Das Konzept zielt auf Teams, die auf Standard-Cloud-Infrastruktur aufsetzen und dabei laut Together AI strukturelle Nachteile bei Iterationsgeschwindigkeit und Kosteneffizienz in Kauf nehmen. Die Strategie ist noch Ankündigung, nicht Zertifikat — doch die Konsequenz ist eine klare Abgrenzung gegenüber AWS, GCP und Azure.
DeepSeek-V4 Pro mit 512K-Kontext: Mit dem Launch von DeepSeek-V4 Pro stellt Together AI eines der aktuell leistungsfähigsten Open-Weight-Modelle über seine Inferenz-API bereit. Der 512K-Kontextfenster kombiniert mit steuerbaren Reasoning-Modi und Cached-Input-Pricing ist konkret für Code-Agenten- und Document-Intelligence-Pipelines relevant, wo lange, repetitive Kontexte die Kosten dominieren.
Kooperation mit Adaption für Fine-Tuning-Workflows: Die Partnerschaft mit Adaption verbindet Trainingsdaten-Optimierung (Adaptive Data) direkt mit Together Fine-Tuning. Teams können Datenpipeline und Training in einem Workflow zusammenführen, erhalten automatische Hyperparameter-Vorschläge und müssen keine eigene Infrastruktur aufsetzen — relevant für Unternehmen ohne dedizierte MLOps-Ressourcen.
Sicherheitsreaktion auf CVE-2026-31431: Together AI hat eine kritische Linux-Kernel-Lücke (Privilege-Escalation, cross-tenant-relevant) flottenweit innerhalb von Stunden ohne Reboot geschlossen. Das veröffentlichte Playbook — Modul entladen, aus Modulpfad entfernen — ist ein seltenes Beispiel operativer Transparenz in der Cloud-AI-Infrastruktur und dürfte sicherheitssensiblen Enterprise-Kunden als Referenz dienen.
Parcae: Effizienzforschung mit Looped-LM: Together AIs eigenes Research zeigt mit dem Modell Parcae, dass ein 770M-Parameter-Modell durch erhöhte Rekurrenz die Qualität eines 1,3B-Modells erreichen kann — ein recheneffizienter Ansatz, der für ressourcenlimitierte Deployments und Edge-Szenarien praktische Implikationen hat.
Was zu erwarten
Aus den Quell-Posts lassen sich zwei Richtungen ableiten. Erstens wird die Adaption-Partnerschaft den Fine-Tuning-Workflow weiter ausbauen; der direkte Deploy-Pfad nach dem Training ist bereits angelegt, weitere Integrationen in den Post-Training-Stack sind naheliegend, wurden aber noch nicht konkret angekündigt. Zweitens deutet die Architektur-Dokumentation zum Multi-Tenant-GPU-Cluster-Design darauf hin, dass Together AI sein Cluster-Management-Angebot für Platform-Engineers weiter formalisieren will. Das EinsteinArena-Projekt mit KI-Agenten auf offenen Mathematikproblemen legt zudem nahe, dass agentenbasierte Anwendungsfälle im eigenen Research an Gewicht gewinnen — ein möglicher Hinweis auf kommende Produkt-Features, jedoch ohne gesicherte Roadmap-Ankündigung.