Scaling-Gesetze für mechanistische Interpretierbarkeit halten bis 405B

Neue Arbeit von Anthropic weitet die Circuits-Analyse auf Frontier-Skala aus. Feature-Sparsity-Muster bleiben über drei Größenordnungen hinweg stabil.

94 %

der Features bleiben bei 405B monosemantisch

Warum es zählt

Wenn Interpretierbarkeit skaliert, wird Alignment-Auditing auch für produktive Modelle machbar — nicht nur für Forschungs-Skalen. Erster konkreter Beleg, dass der Ansatz über 70B hinaus trägt.

— Lumeric Redaktion

InterpretierbarkeitAnthropicScaling

Lumeric AI fragen

QUELLEN-GESTÜTZT