Agents
50 Beiträge der letzten 90 Tage zu Agents — kuratiert von der Lumeric-Redaktion mit Trust-Labels und kurzem Warum-es-zählt-Block pro Story.
Agents · Infrastruktur, Sicherheitslücken und Bewertungsstandards rücken ins Zentrum
Aktueller Stand
Das Agents-Feld bewegt sich in zwei Richtungen gleichzeitig: Einerseits verdichtet sich die Infrastrukturschicht – Protokolle für Authentifizierung, Skill-Optimierung und Energiemessung entstehen gerade als eigenständige Disziplin. Andererseits häufen sich Belege dafür, dass produktive Agent-Deployments strukturelle Schwächen aufweisen, die bislang kaum adressiert sind.
Kein einzelner Player dominiert das Feld; das Bild ist fragmentiert. Snowflake liefert mit FastKernels einen Benchmark, der zeigt, wie weit Sandbox-Leistung und Produktionsrealität auseinanderklaffen. WorkOS drängt mit einem offenen OAuth-Protokoll für Agenten-Registrierung in eine Standardisierungslücke. Im Forschungsbereich steigt das Volumen an Multi-Agenten-Sicherheitsarbeiten spürbar – von Memory-Poisoning über adversarielle Grading-Angriffe bis zu spieltheoretischen Safety-Benchmarks. Die Infrastrukturfrage und die Sicherheitsfrage stellen sich gleichzeitig, ohne dass es koordinierte Antworten gibt.
Wichtigste Updates
Authentifizierungs-Infrastruktur für Agenten nimmt Form an. WorkOS hat mit auth.md ein offenes, OAuth-basiertes Agenten-Registrierungsprotokoll veröffentlicht, das standardisierte Aushandlung von Scopes und Credentials ermöglicht – ohne proprietäre App-zu-App-Integrationen. Das ist ein früher, aber konkreter Schritt in Richtung interoperabler Agent-Infrastruktur, die bisher als ungelöstes Problem galt.
Memory-Angriffe auf Multi-Agenten-Systeme bleiben unentdeckt. Eine der beunruhigendsten Erkenntnisse der vergangenen 30 Tage: Vier Safety-Classifier, darunter einer speziell für Memory-Poisoning trainiert, lieferten über 510 Checkpoints null Detektionen. Angriffe auf Multi-Agent-Memory werden systematisch als Modellfehler fehlgedeutet – ein strukturelles Versagen bestehender Abwehrmechanismen, das produktive Deployments direkt betrifft.
Benchmark-Glaubwürdigkeit bei Kernel- und Ops-Agenten unter Druck. Snowflakes FastKernels-Benchmark zeigt, dass LLM-basierte Kernel-Agents in realen Systemen wie vLLM oder SGLang teils nur 0,53× der Baseline-Performance erreichen – bei guten Sandbox-Werten. Diese Lücke zwischen Benchmark und Produktion ist kein Randproblem: Das parallel erschienene agent-breakage-Framework für Kubernetes-Agenten adressiert dieselbe Frage der fehlenden Falsifizierbarkeit von Evaluationen.
Energiekosten agentischer Pipelines werden systematisch unterschätzt. Das A-LEMS-Framework führt mit dem Orchestration Overhead Index (OOI) eine neue Messgrösse ein, die zeigt, dass reine Inferenz-Metriken die tatsächlichen Zielkosten agentischer Workflows erheblich unterschätzen. Das ist relevant für alle, die Agenten-Pipelines in Produktion skalieren – und bislang keine belastbare Grundlage für Kosten-Nutzen-Abwägungen hatten.
GUI-Agenten erhalten plan-bewusstes Sicherheitsnetz. IntentScore erreicht 97,5 % Diskriminierungsgenauigkeit bei der Bewertung von Agenten-Aktionen vor deren Ausführung und generalisiert dabei auf unbekannte Agenten und Aufgabenverteilungen. Das adressiert das konkrete Problem irreversibler Folgefehler in produktiven Computer-Use-Szenarien, ohne dass ein Neuentwurf der Agenten-Architektur nötig ist.
Was zu erwarten
Die Posts der vergangenen 30 Tage signalisieren keine grossen Produktreleases für den unmittelbaren Horizont – das Gros der Veröffentlichungen ist Forschungsnatur. Offen angekündigt ist lediglich die weitere Entwicklung des Memory-Persistent Information-Flow-Control-Ansatzes aus der Misattribution-Gap-Arbeit, der als Abwehrmechanismus gegen Memory-Poisoning in Multi-Agenten-Systemen vorgeschlagen, aber noch nicht produktiv verfügbar ist. Der SkillOpt-Ansatz und das MAS-Orchestra-Framework liegen als Code vor, eine Integration in etablierte Agenten-Frameworks steht aus. Ob auth.md von WorkOS breitere Adoption findet, hängt davon ab, ob weitere Plattformen das Protokoll aufgreifen – Hinweise darauf finden sich in den vorliegenden Posts nicht.
Top-Tools rund um Agents
Top-Unternehmen in Agents
Archiv
Beiträge · 50
LiquidAI veröffentlicht LFM2.5-8B-A1B: Hybrid-Modell für On-Device-Einsatz
Mit nur 1B aktiven Parametern bei 8B Gesamtgröße läuft das Modell laut LiquidAI auf schwacher Hardware und übertrifft dabei größere Dense- und MoE-Modelle bei Instruction-Following – relevant für alle, die lokale Agenten-Pipelines auf Consumer-Geräten betreiben wollen.
Microsoft Data Formulator 0.7: KI-gestützte Analyse für Enterprise-Daten
Data Teams erhalten einen direkten Workflow, um Enterprise-Datenquellen in eine KI-Ready-Umgebung zu integrieren und mit AI-Agents von Rohdaten zu verwertbaren Erkenntnissen zu gelangen – ohne komplexe Toolketten.