Donnerstag25. Juni

Agenteninfrastruktur und Chip-Souveränität dominieren den Tag: OpenAIs Jalapeño-Chip, Grab's Kubernetes-Agent-Sicherheitsplattform und Databricks' Omnigent zeigen, wie die nächste Infrastrukturschicht entsteht. Dazu: Mistral OCR 4, Google Gemini Computer Use und ein Open-Source-RL-Stack für selbstgehostetes Post-Training.

Lead-Story

OpenAI stellt Jalapeño-Chip vor – Meta-Harness-Trend wächst

Briefing

Die Infrastrukturschicht für KI-Agenten verdichtet sich spürbar – und die Woche zeigt, wie unterschiedlich die Ansätze dabei sind. Mit Jalapeño, seinem ersten eigenen Inferenz-Chip, gebaut gemeinsam mit Broadcom, sendet OpenAI ein klares Signal: Frontier-Labs wollen mehr vom Stack besitzen – Chips, Kernel, Speicher, Netzwerk, Scheduling. Die Community schätzt die technischen Parameter inoffiziell auf eine TPU-ähnliche Architektur mit rund 216 GB HBM3E und ~7,1–7,4 TB/s Bandbreite. Bemerkenswert ist der berichtete Designzyklus von nur neun Monaten von der Spezifikation bis zum Tapeout – angeblich beschleunigt durch OpenAIs eigene Modelle. Parallel dazu kündigte Qualcomm die Übernahme von Modular an, während Mojo-Open-Sourcing laut Ankündigung auf Kurs bleibt. Die Botschaft des Tages: Vertikal integrierte Inferenz-Stacks jenseits von NVIDIA/CUDA sind kein Fernziel mehr, sondern Gegenwartsarbeit. Dass Cerebras-Aktien nach Earnings fast 20 % einbrachen – trotz eines Umsatzwachstums von 94 % auf 193 Mio. Dollar – zeigt, wie empfindlich der Markt auf Margenguidance reagiert: Der Chipentwickler muss eigene Hardware temporär von einem Großkunden zurückmieten, um früher Kapazitäten bereitzustellen, was die prognostizierte Jahresmarge auf 38–41 % drückt.

Auf der Agenten-Ebene entsteht währenddessen ein Rennen um offene Harness-Architekturen. Databricks-Gründer Matei Zaharia und Reynold Xin stellen Omnigent vor – ein Open-Source-Meta-Harness, das Agent-Sessions, Berechtigungen, Kostenkontrollen und Kollaboration über Claude Code, Codex, Cursor und eigene Agenten hinweg vereinheitlicht. Zaharia argumentiert, dass Coding-Agenten und Enterprise-Agenten dieselben Grundprobleme haben: Portabilität, Sicherheit, Session-History und ein gemeinsames API oberhalb jedes einzelnen Harness. Ob Omnigent dieselbe strukturelle Unvermeidbarkeit wie MCP entwickeln wird, ist offen – doch wie das Latent-Space-Roundup treffend beobachtet, wird die zugrunde liegende Architektur wahrscheinlich gewinnen, weil sie gerade unabhängig voneinander bei tausenden KI-nativer Shops neu erfunden wird. Grab geht noch einen Schritt weiter und löst das Sicherheitsproblem auf Infrastrukturebene: Die Kubernetes-native Plattform Palana isoliert jeden Agenten in einem eigenen Namespace mit restriktivem RBAC, leitet sämtlichen ausgehenden HTTP-Verkehr durch einen Envoy-Proxy mit Open Policy Agent und ersetzt echte Credentials dynamisch – sodass kein Rohgeheimnis je in den Container-Speicher oder die Logs geschrieben wird. Das ist ein konkretes Referenzdesign für Teams, die Agenten in Produktionsumgebungen betreiben, ohne den Agenten-Code selbst anzupassen.

Den Abschluss des Infrastrukturbilds liefern zwei Releases auf der Modell- und Trainingsseite. Google DeepMind integriert Computer Use nativ in Gemini 3.5 Flash – bisher war die Funktion nur als eigenständiges Gemini-2.5-Modell verfügbar. Entwickler können jetzt über die Gemini API und die Gemini Enterprise Agent Platform Agenten bauen, die Browser-, Mobil- und Desktop-Umgebungen sehen, schlussfolgern und bedienen. Zwei optionale Sicherheitssysteme adressieren Prompt-Injection: explizite Nutzerbestätigung für sensible Aktionen und automatisches Stoppen bei erkannten Injection-Versuchen. Ergänzend dazu hat Google GKE Labs mit OpenRL ein experimentelles Open-Source-Framework für selbst-gehostetes LLM Post-Training veröffentlicht, das RL-Infrastruktur von KI-Forschungslogik entkoppelt – Teams können ihren RL-Loop lokal entwickeln und gegen Trainings-APIs auf einem Kubernetes-Cluster zeigen. Parallel positioniert sich Mistral mit OCR 4 als führende Lösung für dokumentenbasierte Textextraktion: Das Modell unterstützt 170 Sprachen, klassifiziert Dokumentblöcke semantisch, liefert Konfidenzscores und wurde in einem Blindtest mit über 600 Dokumenten in 72 % der Fälle gegenüber Konkurrenten bevorzugt. Es kostet 4 Dollar pro 1.000 Seiten, im Batch-Modus 2 Dollar.

Der übergreifende Souveränitätsdiskurs findet seinen schärfsten Ausdruck in Yann LeCuns Keynote bei der UN Open Source Week. LeCun argumentiert, proprietäre KI sei für die meisten Länder sowohl zu teuer als auch zu zentralisiert, um darauf zu vertrauen. Sein Projekt Tapestry soll eine föderierte Alternative schaffen: Institutionen und Länder tragen zum Training eines globalen KI-Modells bei, indem sie ausschließlich Parametervektoren austauschen – nicht die Rohdaten selbst. IBM, NVIDIA, AMD und Intel sind bereits als frühe Unterstützer genannt, ebenso Länder aus Europa, dem Nahen Osten und Asien. Nationale Delegierte aus Marokko, Sierra Leone und Jamaika schlossen sich der Forderung an. Der Rahmen ist bewusst bottom-up gehalten: GitHub-Repository, kein Genehmigungsverfahren. Das fügt sich in ein breiteres Muster: Ob Jalapeño, OpenRL oder Omnigent – die Woche zeigt, dass die nächste Infrastrukturschicht gleichzeitig von oben (Hyperscalern) und von unten (Open-Source-Communitys) gebaut wird.

Dass Engineering-Jobs laut SignalFire-Daten trotz KI am resilientesten bleiben, überrascht vor diesem Hintergrund wenig. Die Venture-Firma analysierte die Karrieren von Millionen Beschäftigten und stellte fest, dass Engineering in 2025 die widerstandsfähigste Jobfunktion war: Während die Gesamteinstellungen bei großen Tech-Konzernen gegenüber 2019 um 25 % fielen, sanken Engineering-Stellen nur um 11 %. Bei Frühphasen-Startups wurden sogar 7 % mehr Ingenieure eingestellt als 2019. SignalFire deutet das als Jevons-Paradox: KI-gestützte Produktivitätswerkzeuge erhöhen die Effizienz, aber die anfallende Arbeit wächst mindestens ebenso schnell. NeetCode, der bekannte Entwickler und Gründer, unterstreicht die These aus anderer Perspektive: Tiefes Fachwissen bilde das Urteilsvermögen, das wertvoll bleibt, egal wie sich die Werkzeuge verändern – denn KI verbilligt Code und Designs, nicht jedoch das Abwägen von Tradeoffs.

Themen heute

Google DeepMind integriert Computer Use nativ in Gemini 3.5 Flash

Grab entwickelt Palana: sichere Kubernetes-Plattform für autonome AI-Agenten

Databricks-Gründer: Omnigent, LTAP und das offene Frontier-Ökosystem

Frühere Briefings

Donnerstag25. Juni

Frag das Briefing