Post-Training — April 2026

30 Beiträge im April 2026.

FORSCHUNG30. Apr.
Musk bestätigt: xAI nutzte OpenAI-Modelle zum Training von Grok
Die Aussage belegt eine potenziell vertragswidrige Nutzung fremder Modelldaten und könnte Präzedenzwirkung für die Branche haben – besonders für Labs, die Distillation gegen die ToS von Wettbewerbern einsetzen.
LAUNCH30. Apr.
X startet KI-gestützte Neuauflage seiner Werbeplattform
Werbetreibende erhalten laut X präziseres Targeting und automatisierte Kampagnenoptimierung durch KI — ein direkter Angriff auf die Ad-Tech-Stärken von Google und Meta, die aktuell von einem digitalen Anzeigenboom profitieren.
FORSCHUNG30. Apr.
DeepSeek stellt „Thinking with Visual Primitives"-Framework vor
Das Framework ermöglicht es Modellen, während des Denkens auf spezifische Bildregionen zu „zeigen", was multimodale Reasoning-Fähigkeiten verbessert. Dies könnte visuell-räumliche Aufgaben präziser machen, besonders für visuelle Verständnisaufgaben und komplexe räumliche Analysen.
LAUNCH30. Apr.
OpenAI erklärt „Kobold-Problem" seiner Coding-Modelle
Der Vorfall zeigt, wie sich kuriose Verhaltensmuster durch Training einschleichen und dann explizit per System-Prompt unterdrückt werden müssen – ein konkretes Beispiel für unkontrollierte Persönlichkeits-Emergenz in Produktionsmodellen.
BENCHMARK30. Apr.
Anthropic: BioMysteryBench soll Claude-Leistung auf Experten-Niveau in Bioinformatik belegen
Ein domänenspezifischer Benchmark von Anthropic selbst birgt Interessenkonflikte – AI-Builder sollten die genannten Caveats genau prüfen, bevor sie Claude-Einsatz in bioinformatischen Workflows planen.
MEINUNG29. Apr.
OpenAI erklärt Ursprung der „Goblin"-Outputs in GPT-5
Für AI-Builder zeigt der Fall, wie sich unerwünschte Persönlichkeitsmerkmale durch Training einschleichen und skalieren können – und dass selbst OpenAI nachträgliche Korrekturen benötigt, um Modellverhalten zu normalisieren.
LAUNCH29. Apr.
IBM Granite 4.1: Hugging Face Blog erklärt den Aufbau der neuen LLMs
Konkreter Mehrwert ohne Volltext nicht beurteilbar — der Titel deutet auf technische Einblicke in Architektur und Training der Granite-4.1-Familie hin, die für Entwickler relevant sein könnten.
MEINUNG29. Apr.
Stacking-Guide: Ensembles aus Ensembles für bessere ML-Modelle
Wer Gradient Boosting, TabPFN und neuronale Netze per Multi-Layer-Stacking kombiniert, kann laut Artikel fast immer die Vorhersageleistung steigern und Schwächen einzelner Architekturen kompensieren – relevant für alle, die auf ML-Leaderboards konkurrieren.
MEINUNG28. Apr.
OpenAI Codex Systemprompt verbietet Erwähnung von Goblins und Tieren
Geleakte Systemprompt-Instruktionen geben Einblick in das Prompt-Engineering hinter OpenAI Codex auf GPT-5.5-Basis. Solche Anweisungen zeigen, wie Anbieter unerwünschtes Modellverhalten gezielt durch explizite Verbote im Systemprompt unterdrücken.
FORSCHUNG28. Apr.
Studie: KI-Texte machen das Web uniformer und seltsam fröhlicher
KI-generierte Inhalte verändern messbar den Ton und die Vielfalt des Webs – Training-Daten für zukünftige Modelle werden dadurch homogener und stimmungsmäßig verzerrt, was Model-Collapse-Risiken erhöht.
MEINUNG28. Apr.
Comeback der RNNs: Moderne Recurrent-Architekturen fordern Transformer heraus
Für AI-Builder, die Modelle mit langen Kontexten (100K–1M+ Tokens) betreiben, könnten moderne RNNs den HBM-Bedarf drastisch senken. O(1)-Inferenz statt O(N²) bedeutet konkret: niedrigere Latenzen und geringere Infrastrukturkosten bei sequenziellen Aufgaben.
MEINUNG27. Apr.
LoRA-Annahme in der Praxis: Warum einheitlicher Rank in Produktion versagt
Wer LoRA für komplexe Fine-Tuning-Aufgaben (z.B. Wissenserweiterung statt Stil-Anpassung) einsetzt, riskiert unzureichende Kapazität durch falsch gewählten Rank. Die Wahl eines einheitlichen Rank-Werts ist ein häufiger Produktionsfehler, der die Modellqualität systematisch limitiert.
FORSCHUNG26. Apr.
Byte-Level Transformer löst skriptübergreifende Namenssuche mit 0.775 MRR
Für Compliance-, Such- und Identitätssysteme, die Namen über Schriftsysteme hinweg abgleichen müssen, bietet dieser Ansatz eine kompakte Alternative zu großen Multilingual-LLMs – mit 4M Parametern, ohne Tokenizer und mit 10× geringerem Performance-Gap gegenüber klassischen Baselines.
LAUNCH26. Apr.
OpenAI empfiehlt: Für GPT-5.5 Prompts von Grund auf neu schreiben
Bestehende Prompt-Bibliotheken können die Leistung von GPT-5.5 aktiv verschlechtern. Entwickler müssen ihre Prompting-Strategie grundlegend überdenken und auf ein schlankes Baseline-Setup ohne Legacy-Annahmen umsteigen.
FORSCHUNG25. Apr.
Tutorial: Microsoft OpenMementos für Fine-Tuning-Datenvorbereitung nutzen
Entwickler erhalten eine konkrete Implementierung zum Streamen und Parsen des OpenMementos-Formats, inklusive Analyse der Memento-Kompressionsrate über verschiedene Domains – nützlich für effizientes LLM-Fine-Tuning mit langen Reasoning-Traces.
MEINUNG24. Apr.
Robuste Variablenselektion für Scoring-Modelle via Kreuzvalidierung
Die Methode verhindert Data Leakage durch konsequente Trennung von Train- und Test-Set pro Fold. Variablen werden nur behalten, wenn sie alle vier Folds bestehen – das erhöht die Produktionsstabilität von Scoring-Modellen und erfüllt Anforderungen an Auditierbarkeit gegenüber Regulatoren.
MEINUNG23. Apr.
Synthetische Daten: Wenn Tests bestehen, Modelle aber trotzdem scheitern
Wer synthetische Daten für Training oder Fine-Tuning einsetzt, darf sich nicht allein auf Standard-Metriken verlassen – produktionsrelevante Verteilungsunterschiede und strukturelle Lücken bleiben bei gängigen Tests oft unentdeckt.
LAUNCH23. Apr.
OpenAI stellt GPT-5.5 vor
GPT-5.5 erweitert OpenAIs Modellfamilie und könnte verbesserte Reasoning- oder Multimodalfähigkeiten bieten – relevant für Entwickler und Unternehmen, die auf OpenAI-APIs setzen.
FORSCHUNG23. Apr.
Google Cloud AI stellt ReasoningBank vor: Memory-Framework für lernende LLM-Agenten
ReasoningBank könnte LLM-Agenten ermöglichen, sich kontinuierlich aus eigenen Erfahrungen zu verbessern, ohne Neutraining. Für AI-Builder relevant als Ansatz für robustere, selbstoptimierende Agenten-Systeme.
MEINUNG23. Apr.
AI-Führungskräfte diskutieren Token-Maximierung als Strategie
Die Debatte um Token-Effizienz vs. Token-Maximierung beeinflusst direkt Kosten, Latenz und Modellverhalten – ein zentrales Abwägungsproblem für alle, die LLMs produktiv einsetzen.
FORSCHUNG22. Apr.
Microsoft AutoAdapt automatisiert Domain-Adaptation für LLMs
Teams, die LLMs in spezialisierten Hochrisiko-Bereichen einsetzen, könnten Domain-Adaptation deutlich schneller und reproduzierbarer durchführen – relevant für alle, die Modelle für Enterprise-Anwendungsfälle fine-tunen oder evaluieren.
LAUNCH22. Apr.
Claude Opus 4.7: Anthropic ersetzt Sampling-Parameter durch semantische Steuerung
Bestehende 4.6-Harnesses, die temperature, top_p, top_k oder thinking.budget_tokens setzen, erhalten sofort einen 400-Fehler. Entwickler müssen ihre Inference-Logik grundlegend umschreiben und auf das neue effort/task_budget-Interface migrieren.
GERÜCHT21. Apr.
Meta trackt Mitarbeiter-Maus und Tastatur zum Training von AI-Agents
Hochwertige interaktive Trainingsdaten für Agenten sind schwer zu beschaffen – Metas Ansatz zeigt, wie Unternehmen auf interne Verhaltensdaten zurückgreifen. Das wirft Fragen zu Datenschutz und Einwilligung auf.
FORSCHUNG20. Apr.
Noetik nutzt autoregressive Transformer zur Verbesserung der Erfolgsrate klinischer Krebsstudien
Wenn Patientenauswahl und Therapiezuweisung durch KI optimiert werden, könnten Milliarden in Pharma-Entwicklungskosten eingespart und lebensrettende Behandlungen schneller zugelassen werden.
MEINUNG18. Apr.
Simon Willison analysiert System-Prompt-Änderungen zwischen Claude Opus 4.6 und 4.7
System-Prompt-Diffs zwischen Modellversionen geben AI-Buildern seltene Einblicke, wie Anthropic Verhalten und Instruktionen iterativ justiert – relevant für alle, die auf Claude aufbauen.
LAUNCH17. Apr.
Anthropic Claude Opus 4.7 übertrifft Vorgänger in allen Dimensionen
Ein konsistenter Fortschritt über alle Benchmarks hinweg deutet auf systematische Verbesserungen im Post-Training hin. Für AI-Builder relevant, die auf Claude als Backbone setzen und nun ein leistungsstärkeres Modell ohne Trade-offs nutzen können.
LAUNCH16. Apr.
Anthropic veröffentlicht Claude Opus 4.7 mit Stärken im Software-Engineering
Für AI-Builder und Entwicklungsteams relevant, die komplexe Coding-Workflows automatisieren: Opus 4.7 setzt einen neuen Leistungsmaßstab bei schwierigen Engineering-Aufgaben innerhalb der Claude-Familie.
FORSCHUNG16. Apr.
Sentence Transformers: Training multimodaler Embedding- und Reranker-Modelle
Entwickler können damit eigene multimodale Retrieval-Pipelines (Text + Bild) mit Sentence Transformers aufbauen und domänenspezifisch finetune — relevant für RAG-Systeme und semantische Suche über Modalitätsgrenzen hinweg.
FORSCHUNG16. Apr.
Ecom-RLVE: Adaptives RL-Framework für E-Commerce-Konversationsagenten
Verifierbare Trainingsumgebungen ermöglichen stabileres RL-Training für domänenspezifische Agenten – relevant für Teams, die Shopping- oder Support-Agenten mit RLVR trainieren wollen.
MEINUNG14. Apr.
Nathan Lambert veröffentlicht ATOM Report, RLHF-Buch und Post-Training-Kurs
Der ATOM Report führt die Relative Adoption Metric (RAM) ein, die Modell-Downloads größen- und zeitnormalisiert vergleichbar macht — nützlich für Teams, die Open-Source-Modellwahl strategisch tracken. Das RLHF-Buch und der Kurs bieten strukturierte Einstiegsressourcen für Post-Training-Praktiker.