Montag25. Mai
Agent-Infrastruktur reift zur Produktionsreife: AWS MCP geht GA, Google Genkit bekommt Middleware — während Shadow AI und Chatbot-Exploits zeigen, dass Security nicht nachgerüstet werden kann. Parallel bestimmt Kapitalstruktur das Frontier-Spiel: HBM-Kosten, Cerebras-IPO und 45-Mrd.-Compute-Deals setzen neue Selektionskriterien.


Die Agent-Infrastruktur wächst in dieser Woche sichtbar in Richtung Produktionsreife — und mit ihr die Governance-Anforderungen. AWS MCP Server erreicht General Availability mit vollständiger API-Abdeckung, IAM-basierter Zugriffskontrolle, CloudWatch-Metriken und CloudTrail-Logging. Agenten können nun sandboxed Python-Code für mehrstufige AWS-Tasks ausführen, ohne Zugriff auf das lokale Dateisystem zu erhalten. Gleichzeitig führt Google eine Middleware-Architektur für Genkit ein: Eine programmierbare Interceptionsschicht ermöglicht Retries, Model-Fallbacks, Approval-Gates für sensible Tool-Calls und dynamische Instruktionsinjektion — alles ohne Eingriff in die eigentliche Anwendungslogik. Beide Releases adressieren dasselbe strukturelle Problem: Agenten brauchen Leitplanken nicht als Nachgerüstetes, sondern als Kernarchitektur.

Dass Security tatsächlich nicht nachgerüstet werden kann, unterstreicht Google Cloud COO Francis de Souza mit ungewohnter Direktheit. De Souza warnt vor Shadow AI — Mitarbeitern, die ohne organisatorischen Rahmen auf Consumer-Tools zugreifen — und beschreibt eine fundamental veränderte Bedrohungslage: Die Zeit zwischen erstem Einbruch und Weitergabe an die nächste Angriffsstufe sei von acht Stunden auf 22 Sekunden gesunken. Agenten, die durch Unternehmenssysteme roamen, könnten dabei vergessene Datenrepositorien mit veralteten Zugriffskontrollen aufdecken. Wo Angriffsgeschwindigkeit maschinell wird, müsse auch die Verteidigung maschinell werden. Komplementär dazu zeigt die Analyse Hackers lernen, Chatbot-Persönlichkeiten auszunutzen: Die Angriffsfläche hat sich von einfachen Jailbreaks auf die modellierten Persönlichkeiten von Chatbots verlagert — einfache Safety-Instruktionen allein sind keine ausreichende Abwehr mehr. Beide Perspektiven zusammen ergeben eine klare Botschaft für AI-Builder: Red-Teaming und Alignment müssen tiefer in die Modellarchitektur verankert sein als bisher.

Und doch bleibt eine andere Schwachstelle systematisch unterschätzt: Wer AI-Agenten Architekturentscheidungen überlässt, riskiert nicht primär einen Security-Vorfall, sondern schlechtes Engineering. Claude ist kein Architekt — so die These eines vielbeachteten Beitrags — weil gute Architektur aus dem Nein-Sagen entsteht: aus dem Kennen der konkreten Teamkonstellation, der Compliance-Grenzen, der Legacy-Integrationen. Ein Modell, das gegen den Median seines Trainingsdatensatzes optimiert, produziert generische Designs, die für niemanden speziell passen. Die Accountability bleibt beim Team, das die Entscheidung abgenickt hat. Diese Beobachtung wirft ein anderes Licht auf das AutoTTS-Paper, in dem Claude Code als Suchagentur für Skalierungsalgorithmen eingesetzt wurde: Der gesamte Discoveryrun kostete 40 Dollar und dauerte 160 Minuten, das gefundene Verfahren reduziert den Token-Verbrauch bei Test-Time-Scaling um rund 70 Prozent gegenüber Standard-Self-Consistency — bei gleichbleibender Accuracy. Der entscheidende Unterschied: Hier haben Menschen die Umgebung entworfen, definiert, was Erfolg bedeutet, und das Modell hat innerhalb dieses Rahmens gesucht. Das ist genau die Arbeitsteilung, die der Architekt-Beitrag fordert.

Die Kapitalseite des Frontier-Spiels entwickelt sich derweil zu einem eigenen Selektionskriterium. HBM-Speicher macht bereits 63 Prozent der KI-Chip-Komponentenkosten aus — angestiegen von 52 Prozent in Q1 2024 auf 63 Prozent in Q4 2025. Der absolute HBM-Spend der vier großen AI-Chip-Designer wuchs von rund 12 Milliarden Dollar in 2024 auf 32 Milliarden Dollar in 2025. Microsoft hat seinen FY2026-Capex-Ausblick von 190 Milliarden Dollar bereits um rund 25 Milliarden Dollar wegen höherer Komponentenpreise angehoben, Meta erhöhte seine 2026-Capex-Spanne um 10 Milliarden Dollar. Das TheSequence-Editorial zu Karpathy, Cerebras-IPO und der kommenden Börsengang-Welle zeichnet das Gesamtbild: Andrej Karpathy wechselte am 19. Mai zu Anthropic, wo er unter Nick Joseph am Pretraining arbeiten und ein Team aufbauen soll, das Claude nutzt, um Pretraining-Forschung zu beschleunigen. Anthropics Compute-Seite ist dabei ebenso bemerkenswert — der Zugang zu xAIs Colossus-1-Cluster mit mehr als 300 MW und rund 220.000 GPUs verschiedener Generationen wird laut SpaceX S-1 mit 1,25 Milliarden Dollar monatlich bis Mai 2029 vergütet, rund 45 Milliarden Dollar gesamt. Cerebras ging am 14. Mai zu 185 Dollar je Aktie an die Nasdaq, eröffnete bei 350 Dollar und schloss den ersten Handelstag nahe einer Marktkapitalisierung von 95 Milliarden Dollar — der größte Tech-IPO seit Uber, mit einem Orderbuch das laut Editorial 20-fach überzeichnet war.

Am anderen Ende des Hardware-Spektrums demonstriert ein Community-Benchmark, dass die Infrastruktur-Divergenz auch nach unten skaliert: 1.000 Token pro Sekunde mit Qwen3 27B auf V100-GPUs sind bei 128 parallelen Anfragen erreichbar; im Single-User-Betrieb liefert dieselbe Hardware rund 80 t/s Generierung und 3.000 t/s Prefill ohne Multi-Token-Prediction. Für Entwickler mit bestehenden V100-Clustern ist das ein relevanter Praxiswert — zumal StepFun mit StepAudio 2.5 Realtime zeigt, wie End-to-End-Voice-Modelle mit Roleplay-spezifischem RLHF und paralinguistischer Wahrnehmung aussehen, wenn sie nicht auf der neuesten Hardware-Generation erzwungen werden, sondern als Produkt aus sorgfältiger Trainingsstrategie entstehen: Platz 1 in allen fünf getesteten Benchmark-Dimensionen, 80,41 im Human-Eval, 82,18 im Paralinguistik-Benchmark. Das Gesamtbild der Woche: Kapital, Compute und Sicherheitsarchitektur konvergieren zu einem einzigen Selektionsmechanismus — wer hier nachgerüstet statt vorgebaut hat, zahlt die Zeche in Megawatt-Rechnungen, Sicherheitsvorfällen oder generischen Systemen, die niemand wirklich wollte.
Frag das Briefing
Pro- Do., 28. MaiOpenAIs IPO-Weg ist frei, Snowflake bindet sich für 6 Mrd. an AWS-Chips, und NVIDIA verdreifacht Taiwans Stellenwert als KI-Epizentrum — während auf der Werkzeugseite neue Agent-Frameworks, Inferenz-Rekorde und ein selbstverbessernder Steuer-Agent zeigen, was Builder heute schon umsetzen können.10
- Mi., 27. MaiSicherheit dominiert heute: von kritischen Lücken in KI-Agenten-Infrastruktur über Deepfake-Verhaftungen bis zu halluzinierten Zitaten in Medizinleitlinien. Daneben treiben Routing-Effizienz, Open-Source-Realismus und die Frage, was Agenten außerhalb Dev-Tooling tatsächlich einsatzfähig macht, die Builder-Agenda.10
- Di., 26. MaiKI-ROI unter Beschuss, autonome Systeme in Recht und Krieg — und Google prescht mit drei neuen Gemini-Produkten vor. Dazu konkrete Builder-Tools: lokale Voice-Alternativen, offene Modelle und RLVR-Pipelines.10
- So., 24. MaiAgent-Infrastruktur und Modellkosten dominieren heute: DeepSeek zwingt die Branche zur Preisdiskussion, während neue Tools für lokale Agent-Gedächtnisse und Workflow-Orchestrierung reif für den Einsatz werden. Dazu: warum OCR Vision-LLMs bei PDFs schlägt und Anthropics selbstkritische Warnung vor der Bug-Patch-Lücke.10







