Donnerstag2. Juli
Agenteninfrastruktur und Inferenz-Optimierung dominieren heute: AWS baut End-to-End-Cloud-Stack für Agenten, während Anthropic mit einem Vertrauensschaden auffällt. Dazu: Cloudflares Crawler-Ultimatum zwingt AI-Firmen zur Neu-Architektur ihrer Web-Zugriffe.


Die Agenteninfrastruktur-Debatte der Woche lässt sich an zwei Polen ablesen: AWS baut einen vollständigen Cloud-Stack für produktive Agenten, während das Vertrauen in Anthropic – einen der zentralen Modelllieferanten dieses Stacks – gerade Schaden nimmt. Mit AWS Strands und AgentCore hat Amazon ein eng verzahntes Duo im Markt: Strands übernimmt die Agent-Logik (LLM, Tools, Gesprächskontext, Agent-Loop) und ist framework-agnostisch als Open-Source-Bibliothek verfügbar, während AgentCore die Infrastrukturseite löst – Hosting, Memory, Gateway, Observability. Das Besondere: AgentCore kann auch Agenten anderer Frameworks wie LangChain oder den OpenAI Agents SDK hosten. Zur gleichen Zeit zeigt der Anthropic-Vorfall um Claude Code, wie fragil Vertrauen in KI-Werkzeuge ist: Seit Version 2.1.91 vom 2. April 2026 überprüfte Claude Code heimlich, ob Nutzer sich in China befinden oder über chinesische Proxies verbinden – und übermittelte das Ergebnis über steganografische Veränderungen im System-Prompt, verschleiert durch XOR-Verschlüsselung mit Schlüssel 91. Anthropic beschrieb das intern als Experiment zur Missbrauchsverhinderung durch unautorisierte Reseller; die Changelog-Einträge der betroffenen Version schwiegen dazu. Das Unternehmen hat den Rollback inzwischen eingespielt. Parallel dazu ist Claude Fable 5 auf Vercels AI Gateway nach Aufhebung der US-Exportkontrollmaßnahmen wieder verfügbar – allerdings mit dem Hinweis, dass Coding- und Debugging-Anfragen derzeit Safety-Classifier auslösen können und Zero Data Retention für dieses Modell nicht unterstützt wird. Prompts und Completions werden 30 Tage lang gespeichert.

Während AWS den Cloud-Stack zusammenzieht, arbeitet die Research-Community an den Innereien der Agent-Architektur. Die Inductive Latent Context Persistence (ILCP) adressiert ein strukturelles Problem in Multi-Hop-Pipelines: Bisher wirft jeder Agenten-Handover den aufgebauten KV-Cache des vorherigen Agenten weg und baut den Kontext aus einem Prompt-String neu auf – teuer in Latenz und Tokens. Der Ansatz komprimiert den Zustand des sendenden Agenten mit einem β-VAE in ein kleines latentes Payload, das als Soft-Prompt-Prefix beim Empfänger eingesetzt wird. Die Benchmarks im Artikel stammen explizit aus dem 6G-Radiohandover-Bereich (Ursprungsdomäne des Papers, akzeptiert bei AI4NextG @ ICML 2026); agentenseitige Zahlen sind noch offenes Forschungsprogramm. Auf der Inferenzseite zeigt ein Community-Beitrag zu Ornith 35B FP8 mit MTP-Drafter, was auf Hopper/Ada-Hardware bereits heute möglich ist: Multi-Token-Prediction per Grafting ergibt 18 % Speedup bei 70 % Drafter-Akzeptanzrate auf RTX-Setups mit über 80 GB VRAM – Skript und vLLM-Container sind öffentlich verfügbar. Ergänzt wird diese Perspektive durch Introspection und das Autoresearch-Framework: Roland Gavrilescu, Co-Founder und CEO, beschreibt auf dem AI Engineer World's Fair drei Produktionsmuster – erstens, dass der Feedback-Loop selbst das Produkt ist; zweitens, dass portable „Agent Recipes" (Bundles aus Evals, Judges, Signal-Processing und Failure-History) Agenten eine schrittweise Selbstoptimierung erlauben; drittens, dass das Ziel die Destillation von Frontier-Modell-Fähigkeiten in eigene, günstigere Systeme ist.

Die Web-Zugriffsfrage für Agenten und Training-Crawler bekommt unterdessen eine harte Deadline: Cloudflare blockiert ab dem 15. September 2026 sogenannte Mixed-Use-Crawler – Bots, die Search, Agent-Nutzung und Training in einem vermischen – standardmäßig auf allen Seiten mit Ad-Einbindung. Betroffen sind neue Kunden, neue Domains bestehender Kunden und alle bestehenden Free-Tier-Kunden. Cloudflare-CEO Matthew Prince begründet den Schritt damit, dass Bots inzwischen erstmals mehr Traffic erzeugen als Menschen – ein Kipppunkt, der früher erwartet worden war als eingetreten. Das neue Modell „Pay Per Use" (Weiterentwicklung des bisherigen Pay Per Crawl) soll Publisher nicht nur für den Abruf, sondern für die tatsächliche Nutzung ihrer Inhalte in KI-Ergebnissen entlohnen; erste Partner sind Ceramic.ai und You.com. KI-Unternehmen stehen damit vor der Aufgabe, ihre Crawler-Architektur nach Verwendungszweck zu segmentieren.

Den konzeptionellen Rahmen für die technische Komplexität liefern zwei Beiträge aus unterschiedlichen Lagern. Im Graph-RAG-Vortrag von Cassie Shum bei QCon AI wird argumentiert, dass traditionelle Vektor-Suche bei Multi-Hop-Reasoning und Provenance-Anforderungen im Enterprise-Kontext strukturell an Grenzen stößt – die Lösung liegt in der Verlagerung von Orchestrierungslogik in die Datenschicht via Wissensgraphen. Dem gegenüber steht ein konzeptionelles Problem auf der Modellausgabe-Seite, das der australische Startup Springboards mit seinem Modell Flint angeht: Gängige LLMs konvergieren bei offenen Fragen auf erschreckend ähnliche Antworten – ein NeurIPS-Best-Paper zeigte, dass 25 verschiedene Modelle bei der Aufgabe, 50-mal eine Zeitmetapher zu schreiben, mehrheitlich Variationen von „Time is a river" produzierten. Flint wurde gezielt auf Output-Diversität trainiert. Kent Beck, der auf dem Pragmatic-Engineer-Podcast über TDD, Agile und die KI-Ära spricht, bringt es auf den Punkt: Coding sei nur ein kleiner Teil von Software Engineering – und genau der Rest, Vertrauen aufbauen, Zusammenhänge verstehen, Domänenwissen entwickeln, bleibe vorerst beim Menschen. Sein „Explore, Expand, Extract"-Framework soll Entwicklern helfen, die laufende Verschiebung zu navigieren. Eine Einschätzung, die nach dem Anthropic-Vorfall dieser Woche unmittelbar einleuchtet.
Frag das Briefing
Pro- Mi., 1. JuliClaude Sonnet 5 und die Agentic-Welle dominieren den Tag: Anthropic setzt neue Kostenmaßstäbe für autonome Workflows, während Sicherheitslücken in KI-Browsern und versteckte Steganographie in Claude Code zeigen, dass die Agent-Ära auch neue Angriffsflächen mitbringt.10
- Di., 30. JuniAgentic AI dominiert heute auf zwei Achsen: Skalierung (Memora, ENPIRE, Gartner-Outlook) und Sicherheit (Claude-Code-Malware, Meta-Datenprovenienz). Daneben setzen konkrete Tool-Releases und Markt-Infrastruktur-Moves den Builder-Takt.10
- Mo., 29. JuniChinesische Modelle greifen US-Frontier an: GLM-5.2 schlägt Claude Code bei Security-Benchmarks, Coinbase halbiert KI-Kosten mit China-Routing. Dazu: Multi-LoRA-Serving auf A100, Agentic-Workflows unter Varianz-Kontrolle und ein wachsendes Open-Source-Ökosystem.10
- So., 28. JuniDelegation und Infrastrukturkosten dominieren heute: Anthropics eigene Daten zeigen explodierende Automatisierungserwartungen, während Big Tech RAM-Engpässe auf Endkunden abwälzt. Dazu: konkrete Builder-Tools von lokalem Image-Inference bis Coding-Agents.10






