Topic

Interpretierbarkeit

50 Beiträge der letzten 90 Tage zu Interpretierbarkeit — kuratiert von der Lumeric-Redaktion mit Trust-Labels und kurzem Warum-es-zählt-Block pro Story.

State of Interpretierbarkeit

★ verifiziert

Interpretierbarkeit · Mechanistische Methoden treffen auf wachsenden Produktdruck

Aktueller Stand

Interpretierbarkeit ist kein einheitliches Feld mehr – es zerfällt in mindestens drei Strömungen, die wenig miteinander kommunizieren: mechanistic interpretability (Aktivierungspfade, Schaltkreisanalyse), post-hoc-Erklärbarkeit (SHAP, kontrafaktische Methoden) und ante-hoc-Design (intrinsisch interpretierbare Architekturen). Forschungsseitig dominieren akademische Gruppen ohne klare industrielle Führung; Anthropic ist durch den Prompt-Injection-Verdacht in die Kritik geraten, was das Thema Systemtransparenz schlagartig praxisrelevant macht.

Der Grossteil der publizierten Arbeiten bewegt sich auf Spezialdomänen – Medizin, Cybersecurity, physikalische Simulation – und liefert anwendungsnahe, aber schwer verallgemeinerbare Befunde. Grundlegende Fragen wie die Stabilitätsbeziehung zwischen Vorhersagerobustheit und Erklärbarkeitsrobustheit bleiben offen. Der Produktionsdruck steigt, die methodische Kohärenz hält nicht Schritt.

Wichtigste Updates

Die vielleicht methodisch folgenreichste Arbeit der vergangenen 30 Tage ist CoAx: Das Framework zur Conditional Co-Ablation zeigt, dass gängige Single-Unit-Ablation bei Transformer-Schaltkreisanalysen systematisch verzerrte Attributions-Scores liefert, weil Self-Repair-Mechanismen primäre Effekte maskieren. Wer Komponenten pruned oder Fähigkeiten attribuiert, hat bisher mit einem blinden Fleck gearbeitet – CoAx legt diese Backup-Pfade offen. Das untergräbt einen Teil der bisherigen mechanistic-interpretability-Literatur methodisch.

Ebenfalls bemerkenswert ist WARP: Die Technik rekonstruiert Trainings-Datenmischungen direkt aus Modellgewichten, ohne Zugang zu Trainingsdaten. Das verschiebt den Begriff der Modelltransparenz – veröffentlichte Gewichte enthalten demnach mehr Information über Herkunft und Zusammensetzung eines Modells, als Anbieter typischerweise kommunizieren. Für Compliance- und Audit-Zwecke ist das relevant, für Anbieter, die Datenrezepte als proprietär behandeln, potenziell unkomfortabel.

Ein weiterer Strang betrifft die Schwäche von Erklärbarkeitsmethoden unter adversarialem Druck: Eine Studie zu Cybersecurity-Klassifikatoren weist nach, dass Vorhersagerobustheit und Erklärbarkeitsstabilität unabhängige Qualitätsachsen sind. Teams, die nur auf Prediction-Robustheit optimieren, erhalten SHAP-Attributionsdrift, die Analysten bei der Alert-Triage in die Irre führt. Das ist ein konkreter operativer Befund, kein theoretischer.

Auf Architekturebene zeigt RadiomicNet, dass kompakte, domänenwissensbasierte Modelle mit 3,27 Millionen Parametern State-of-the-Art-Segmentierung mit ante-hoc-Interpretierbarkeit und messbarem Kalibrierungsgewinn (ECE 0,142 → 0,118) kombinieren – ein Gegenbeispiel zur verbreiteten Annahme, Interpretierbarkeit koste Leistung.

Schliesslich liefert die Analyse von Diffusion Language Models erste Evidenz, dass DLMs interne Zeitschrittrepräsentationen kodieren – ein Befund, der gezielteres Steering dieser Modellklasse ermöglichen soll und zeigt, dass mechanistic interpretability nicht auf autoregressive Transformer beschränkt bleiben muss.

Was zu erwarten

Konkrete angekündigte Releases oder terminierte Publikationen lassen sich aus den vorliegenden Posts nicht ableiten – die Arbeiten sind mehrheitlich Paper-Releases ohne explizite Roadmap-Signale. Offen bleibt, ob die emtrees-Software zu ADTC in einer erweiterten Version erscheint; das Paper erwähnt eine laufende Evaluation auf realen Datensätzen, ohne Zeitangabe. Der Prompt-Injection-Verdacht gegen Anthropic steht als unbewiesener Vorwurf im Raum – sollte Anthropic reagieren oder eine Stellungnahme veröffentlichen, dürfte das die Debatte um Systemprompt-Transparenz weiter konkretisieren. Ansonsten: Die methodische Fragmentierung des Feldes lässt keine Konsolidierungsbewegung erkennen, die sich aus den vorliegenden Signalen ableiten liesse.

Kuratiert von Gregor Scheiwiller · 6. Juli 2026 · Methodologie

Top-Tools rund um Interpretierbarkeit

Qwen40×Grok27×GPT26×Modal21×Llama18×Claude16×

Top-Unternehmen in Interpretierbarkeit

xAI24×Meta AI19×Anthropic7×Perplexity7×DeepSeek

Archiv

Juni 2026 Mai 2026 April 2026

Beiträge · 50

FORSCHUNGr/LocalLLaMAheute

Anthropics J-Space-Forschung auf Qwen3-8B übertragen: Stilles Reasoning sichtbar machen

Die Technik erlaubt es, unerwünschte Ausgabe-Tendenzen (z.B. Fließtext statt JSON) bereits im Aktivierungsraum abzufangen, bevor sie als Text erscheinen. Das eröffnet neue Möglichkeiten für robustere Agent-Loops und gezielte LoRA-Finetuning-Daten aus abgefangenen Fehlern.

FORSCHUNGr/LocalLLaMAheute

J-Space Halluzinations-Signal von Anthropic auf Qwen3-4B über 7 Datensätze getestet

J-Space-Rauschen eignet sich als Router für Long-Tail-Fakten (PopQA: 100 % Präzision bei 5 % Review-Budget), ist aber inkompatibel mit Reasoning-Tasks und adversariellen Prompts. Schwellwerte sind nicht zwischen Task-Typen übertragbar — Deployment erfordert aufgabenspezifische Kalibrierung.

LAUNCH

Interpretierbarkeit · Mechanistische Methoden treffen auf wachsenden Produktdruck

Aktueller Stand

Wichtigste Updates

Was zu erwarten

Top-Tools rund um Interpretierbarkeit

Top-Unternehmen in Interpretierbarkeit

Archiv

Beiträge · 50

Anthropics J-Space-Forschung auf Qwen3-8B übertragen: Stilles Reasoning sichtbar machen

J-Space Halluzinations-Signal von Anthropic auf Qwen3-4B über 7 Datensätze getestet

Jacobian-Lens Visualizer und Live-Steerer für GGUF-Modelle auf llama.cpp

Community-Tool nutzt Anthropics Jacobian-Lens zur Modell-Verhaltenssteuerung

Closed-Source-LLM-Tokenizer per Chat-API rekonstruieren

Google DeepMind erklärt innere Gedankenprozesse von KI

Anthropic entdeckt verborgenen Denkraum in Claude-Modellen

EPFL NEVO-Projekt: KI generiert Videos zur gezielten Aktivierung von Hirnregionen

Warum kleine Stichproben große Scheinkorrelationen erzeugen

Granger Causal Networks für direkte und indirekte Feedback-Analyse in VAR-Modellen

Anthropic-Studie: Verbalisierbare Repräsentationen als globaler Workspace in Sprachmodellen

Jacobian-Lens-Router erkennt Halluzinationen in lokalen Modellen

Anthropic macht Claudes internen Arbeitspeicher mit J-Lens lesbar

Studie schätzt Kapazität von GPT-Modellen auf 3,6 Bits pro Parameter

Anthropic entdeckt internen Global Workspace in LLMs – J-Space-Code veröffentlicht

Reddit-Diskussion: Mögliche Prompt-Injection durch Anthropic in Claude

Thermo-NN: Architektursuche via thermodynamischer Informationskosten statt FLOPs

Aktivierungspfade lokaler LLMs visuell kartiert: Gemma 4 vs. Qwen 3.6

Community-Diskussion: Visualisierung von Agent-Ausführung und Attention-Heatmaps

Claude Code soll Anfragen steganografisch markieren

Qwen-Team stellt HydraHead vor: Hybride Attention auf Head-Ebene

Norm-preserving Abliteration auf Qwen3.6-35B-A3B: 0% Refusal, Benchmarks unverändert

Ai2 analysiert Token-Level-Unterschiede zwischen OLMo 3 und OLMo Hybrid

Microsoft erforscht Gehirn mit generativem Kausal-Testing via KI

Colony: LLM-Attention-Mechanismus als Agenten-Simulation visualisiert

Faktenabruf-Schaltkreis in Gemma-2B und Gemma-12B-IT analysiert

5 Prinzipien zum Verhalten von LLMs: Populationen, Tokenisierung und Sycophancy

Pangram-CEO: Sprachmodelle verraten sich durch uniforme Argumentationsmuster

Apostate: Neuer Ablation-Operator entfernt Refusal bei minimalem KL-Schaden

Claude Code: Extended Thinking zeigt nur Zusammenfassung, nicht echtes Reasoning

Attention Algebra: Text-zu-Spektrogramm-Grammatik für interne Sprachstruktur

Schmidhuber: Münchner Labor 1991 legte Grundlagen moderner LLMs

MIT Technology Review: Die unvermeidliche Schwäche von Metriken

„In the Weights": Website zeigt, wie gut KI-Modelle Personen kennen

Microsoft-Forscher baut neuronales Netz aus Ziegen in Age of Empires II

Claude weiß mehr als es zugibt – Studie zu verstecktem Modellwissen

Google DeepMind veröffentlicht AI Control Roadmap für sichere Agenten-Systeme

Community-Diskussion: LLMs als Figuren in Fiktion – Steuerung via Mech. Interpretierbarkeit

Microsoft Project Ire erkennt neue LOTUSLITE-Malware per Reverse Engineering

Residual Connections: Jahrzehntealte Architektur und ihre Grenzen

Bayesian Networks und Markov Networks: Einführung in strukturierte Unsicherheit

Sequential Fitting: Neues Konzept erklärt Spectral Bias neuronaler Netze

DeepMind-KI entwickelt unbekannte neue Denkmethode

Bayesianisches Denken anhand des Films Knives Out erklärt

Community-Challenge: LLM-Analyse eines „beschädigten" KI-Modells

Googles AI Overview scheitert an grundlegenden Rechtschreibaufgaben

Gebaut, aber nie genutzt: Warum Data-Science-Modelle in der Praxis scheitern

Sapient HRM-Text: Latent-Space-Reasoning als Alternative zu Chain-of-Thought

Engram-Modul in AR-Bildgenerierung kein echter Inhalts-Retriever

KI-Modelle: Warum hohe Konfidenz oft keine hohe Genauigkeit bedeutet