Scaling-Gesetze für mechanistische Interpretierbarkeit halten bis 405B
Neue Arbeit von Anthropic weitet die Circuits-Analyse auf Frontier-Skala aus. Feature-Sparsity-Muster bleiben über drei Größenordnungen hinweg stabil.
94 %
der Features bleiben bei 405B monosemantisch
Warum es zählt
Wenn Interpretierbarkeit skaliert, wird Alignment-Auditing auch für produktive Modelle machbar — nicht nur für Forschungs-Skalen. Erster konkreter Beleg, dass der Ansatz über 70B hinaus trägt.
— Lumeric Redaktion
InterpretierbarkeitAnthropicScaling
Lumeric AI fragen
QUELLEN-GESTÜTZT