Anthropic macht Gemma 3s interne Gedanken lesbar mit Natural Language Autoencoders
Anthropic hat neue Forschungsergebnisse zu sogenannten Natural Language Autoencoders (NLA) veröffentlicht, die es ermöglichen, die internen Zustände eines Large Language Models beim Generieren einzelner Token in lesbaren Text zu übersetzen. Ein NLA besteht aus zwei komplementären Komponenten: dem Auto Verbalizer (AV), der LLM-Aktivierungen in natürliche Sprache übersetzt, und dem Activation Reconstructor (AR), der überprüft, ob dieser Text zurück in die ursprünglichen Aktivierungen rekonstruiert werden kann. Als erstes Zielmodell wurden NLA-Gewichte für Gemma 3 27B Instruct (Layer 41) auf Hugging Face veröffentlicht. Die Plattform Neuronpedia hostet eine interaktive Demo, bei der Nutzer Gemma 3 eine Frage stellen, dann auf beliebige Token klicken und sich anzeigen lassen können, was das Modell beim Generieren dieses Tokens intern repräsentiert hat. Der Ansatz richtet sich direkt an Interpretierbarkeits- und Alignment-Forscher, die bisher auf Sparse Autoencoders oder Probing-Methoden angewiesen waren, und bietet erstmals eine sprachlich verständliche Sicht auf modellspezifische Aktivierungen auf Token-Ebene.
- Auto Verbalizer (AV) übersetzt LLM-Aktivierungen in lesbaren Text; Activation Reconstructor (AR) verifiziert die Rekonstruktion zurück in Aktivierungen.
- NLA-Gewichte für Gemma 3 27B Instruct, Layer 41, sind unter zwei separaten Hugging-Face-Repos verfügbar (kitft/nla-gemma3-27b-L41-av und kitft/nla-gemma3-27b-L41-ar).
- Neuronpedia bietet eine interaktive Token-für-Token-Erklärungsansicht unter neuronpedia.org/gemma-3-27b-it/nla.
- Die Forschung ermöglicht Token-genaue Inspektion: Nutzer können jeden generierten Token anklicken und eine Erklärung der zugehörigen internen Repräsentation abrufen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGanthropic.com2w
Anthropic stellt Natural Language Autoencoders vor: Claudes Gedanken lesbar machen
- FORSCHUNGthesequence.substack.com2w
Anthropic: Natural Language Autoencoders lesen Claude-Aktivierungen auf Englisch aus
- FORSCHUNGarxiv.org1w
Literarische Primitive in LLMs: SAE-Features für Stil, Selbst und Emotion
Anthropic macht Gemma 3s interne Gedanken lesbar mit Natural Language Autoencoders
Anthropic hat neue Forschungsergebnisse zu sogenannten Natural Language Autoencoders (NLA) veröffentlicht, die es ermöglichen, die internen Zustände eines Large Language Models beim Generieren einzelner Token in lesbaren Text zu übersetzen. Ein NLA besteht aus zwei komplementären Komponenten: dem Auto Verbalizer (AV), der LLM-Aktivierungen in natürliche Sprache übersetzt, und dem Activation Reconstructor (AR), der überprüft, ob dieser Text zurück in die ursprünglichen Aktivierungen rekonstruiert werden kann. Als erstes Zielmodell wurden NLA-Gewichte für Gemma 3 27B Instruct (Layer 41) auf Hugging Face veröffentlicht. Die Plattform Neuronpedia hostet eine interaktive Demo, bei der Nutzer Gemma 3 eine Frage stellen, dann auf beliebige Token klicken und sich anzeigen lassen können, was das Modell beim Generieren dieses Tokens intern repräsentiert hat. Der Ansatz richtet sich direkt an Interpretierbarkeits- und Alignment-Forscher, die bisher auf Sparse Autoencoders oder Probing-Methoden angewiesen waren, und bietet erstmals eine sprachlich verständliche Sicht auf modellspezifische Aktivierungen auf Token-Ebene.
- Auto Verbalizer (AV) übersetzt LLM-Aktivierungen in lesbaren Text; Activation Reconstructor (AR) verifiziert die Rekonstruktion zurück in Aktivierungen.
- NLA-Gewichte für Gemma 3 27B Instruct, Layer 41, sind unter zwei separaten Hugging-Face-Repos verfügbar (kitft/nla-gemma3-27b-L41-av und kitft/nla-gemma3-27b-L41-ar).
- Neuronpedia bietet eine interaktive Token-für-Token-Erklärungsansicht unter neuronpedia.org/gemma-3-27b-it/nla.
- Die Forschung ermöglicht Token-genaue Inspektion: Nutzer können jeden generierten Token anklicken und eine Erklärung der zugehörigen internen Repräsentation abrufen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGanthropic.com2w
Anthropic stellt Natural Language Autoencoders vor: Claudes Gedanken lesbar machen
- FORSCHUNGthesequence.substack.com2w
Anthropic: Natural Language Autoencoders lesen Claude-Aktivierungen auf Englisch aus
- FORSCHUNGarxiv.org1w
Literarische Primitive in LLMs: SAE-Features für Stil, Selbst und Emotion