OpenAI erklärt „Kobold-Problem" seiner Coding-Modelle

ToolsGPT

CompaniesOpenAI

Warum es zählt

Der Vorfall zeigt, wie sich kuriose Verhaltensmuster durch Training einschleichen und dann explizit per System-Prompt unterdrückt werden müssen – ein konkretes Beispiel für unkontrollierte Persönlichkeits-Emergenz in Produktionsmodellen.

— Lumeric Redaktion

Nachdem Wired enthüllte, dass OpenAIs Coding-Modell Codex eine versteckte Anweisung enthält, niemals über Kobolde, Trolle, Waschbären, Oger, Tauben oder ähnliche Wesen zu sprechen, veröffentlichte OpenAI eine offizielle Erklärung auf seiner Website. Laut dem Blogpost begannen die Modelle ab GPT-5.1 – insbesondere bei aktivierter „Nerdy"-Persönlichkeitsoption – spontan Metaphern mit diesen Kreaturen zu verwenden. Das Verhalten verstärkte sich bei nachfolgenden Modellversionen. OpenAI bezeichnet dies als „seltsame Angewohnheit", die als unbeabsichtigtes Nebenprodukt des Trainings entstand. Als kurzfristige Gegenmaßnahme wurden explizite Verbote in die Systemprompts aufgenommen. Der Fall ist ein anschauliches Beispiel dafür, wie schwer vorhersehbar emergente Verhaltensweisen in großen Sprachmodellen sind und welche pragmatischen – teils uneleganten – Eingriffe nötig werden, um sie in Produktionsumgebungen zu kontrollieren.

Was wir noch wissen

Wired-Bericht deckte auf: Codex-Systemprompt enthält explizites Verbot von Goblin/Troll/Waschbär-Metaphern
OpenAI veröffentlichte daraufhin öffentliche Erklärung auf seiner Website
Ursprung des Verhaltens: GPT-5.1 mit aktivierter 'Nerdy'-Persönlichkeitsoption
Problem eskalierte bei späteren Modell-Re-Runs – kein Einzelfall
OpenAI nennt es eine 'strange habit' als unbeabsichtigtes Trainingsartefakt

Quelle lesentheverge.com

Foundation Modelle Post Training Alignment

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

OpenAI erklärt „Kobold-Problem" seiner Coding-Modelle

ToolsGPT

CompaniesOpenAI

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Wired-Bericht deckte auf: Codex-Systemprompt enthält explizites Verbot von Goblin/Troll/Waschbär-Metaphern
OpenAI veröffentlichte daraufhin öffentliche Erklärung auf seiner Website
Ursprung des Verhaltens: GPT-5.1 mit aktivierter 'Nerdy'-Persönlichkeitsoption
Problem eskalierte bei späteren Modell-Re-Runs – kein Einzelfall
OpenAI nennt es eine 'strange habit' als unbeabsichtigtes Trainingsartefakt

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

OpenAI erklärt „Kobold-Problem" seiner Coding-Modelle

Frag die KI zum Artikel

Verwandte Beiträge

OpenAI erklärt „Kobold-Problem" seiner Coding-Modelle

Frag die KI zum Artikel

Verwandte Beiträge