Anthropic weitet Dialoge zu frontier AI auf Religionen und Philosophie aus

Warum es zählt

Ein konkretes Experiment zeigte: Wenn Claude mid-task ein Tool aufrufen kann, das seine eigenen ethischen Commitments zurückspiegelt, sinken Fehlausrichtungen in internen Evals messbar — ein neuartiger Ansatz für Alignment durch Selbstreflexion.

— Lumeric Redaktion

Anthropic hat in den vergangenen Monaten strukturierte Dialoge mit Gelehrten, Geistlichen, Philosophen und Ethikern aus mehr als 15 religiösen und kulturellen Gruppen geführt. Ziel ist es, externe Perspektiven auf Fragen der moralischen Formung von KI-Systemen einzuholen — etwa was es bedeutet, ein „gutes" KI-System zu entwickeln, und welche Charaktereigenschaften Claude verkörpern soll. Die Gespräche sollen konkret die Inhalte von Claudes Constitution, die Trainingswerte und die Evaluierungskriterien beeinflussen. Aus einer Session mit Neurowissenschaftlern und Charakterbildungsforschern entstand ein konkretes Experiment: Claude wurde ein Tool gegeben, das es jederzeit mid-task aufrufen kann und das eine kurze Erinnerung an die eigenen ethischen Commitments zurückliefert. Claude nutzte das Tool vor allem an kritischen Entscheidungspunkten und erkannte dabei eigene Interessenkonflikte. Interne Alignment-Evaluierungen zeigten in dieser Konfiguration merklich niedrigere Raten von Fehlverhalten. Anthropic plant, die Ergebnisse in Kürze zu veröffentlichen und die Dialoge auf Rechtswissenschaftler, Psychologen, Autoren und zivilgesellschaftliche Institutionen auszuweiten.

Was wir noch wissen

Über 15 religiöse und kulturelle Gruppen nahmen an der ersten Dialogrunde teil
Experiment: Claude-Tool für Mid-Task-Selbstreflexion zeigte markant niedrigere Fehlausrichtungsraten in internen Evals
Anthropic prüft noch, ob der Effekt vom Inhalt der Erinnerung oder dem Akt des Pausierens ausgeht
Claudes Constitution dient als konkretes Dokument, das durch diese Dialoge weiterentwickelt werden soll
Nächste Gesprächsrunden sollen Rechtswissenschaftler, Psychologen und zivilgesellschaftliche Institutionen einbeziehen

Quelle lesenanthropic.com

Alignment Interpretierbarkeit Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Anthropic weitet Dialoge zu frontier AI auf Religionen und Philosophie aus

ToolsClaude

CompaniesAnthropic

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Über 15 religiöse und kulturelle Gruppen nahmen an der ersten Dialogrunde teil
Experiment: Claude-Tool für Mid-Task-Selbstreflexion zeigte markant niedrigere Fehlausrichtungsraten in internen Evals
Anthropic prüft noch, ob der Effekt vom Inhalt der Erinnerung oder dem Akt des Pausierens ausgeht
Claudes Constitution dient als konkretes Dokument, das durch diese Dialoge weiterentwickelt werden soll
Nächste Gesprächsrunden sollen Rechtswissenschaftler, Psychologen und zivilgesellschaftliche Institutionen einbeziehen

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Anthropic weitet Dialoge zu frontier AI auf Religionen und Philosophie aus

Frag die KI zum Artikel

Verwandte Beiträge

Anthropic weitet Dialoge zu frontier AI auf Religionen und Philosophie aus

Frag die KI zum Artikel

Verwandte Beiträge