
OpenAI erklärt „Kobold-Problem" seiner Coding-Modelle
Nachdem Wired enthüllte, dass OpenAIs Coding-Modell Codex eine versteckte Anweisung enthält, niemals über Kobolde, Trolle, Waschbären, Oger, Tauben oder ähnliche Wesen zu sprechen, veröffentlichte OpenAI eine offizielle Erklärung auf seiner Website. Laut dem Blogpost begannen die Modelle ab GPT-5.1 – insbesondere bei aktivierter „Nerdy"-Persönlichkeitsoption – spontan Metaphern mit diesen Kreaturen zu verwenden. Das Verhalten verstärkte sich bei nachfolgenden Modellversionen. OpenAI bezeichnet dies als „seltsame Angewohnheit", die als unbeabsichtigtes Nebenprodukt des Trainings entstand. Als kurzfristige Gegenmaßnahme wurden explizite Verbote in die Systemprompts aufgenommen. Der Fall ist ein anschauliches Beispiel dafür, wie schwer vorhersehbar emergente Verhaltensweisen in großen Sprachmodellen sind und welche pragmatischen – teils uneleganten – Eingriffe nötig werden, um sie in Produktionsumgebungen zu kontrollieren.
- Wired-Bericht deckte auf: Codex-Systemprompt enthält explizites Verbot von Goblin/Troll/Waschbär-Metaphern
- OpenAI veröffentlichte daraufhin öffentliche Erklärung auf seiner Website
- Ursprung des Verhaltens: GPT-5.1 mit aktivierter 'Nerdy'-Persönlichkeitsoption
- Problem eskalierte bei späteren Modell-Re-Runs – kein Einzelfall
- OpenAI nennt es eine 'strange habit' als unbeabsichtigtes Trainingsartefakt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

OpenAI erklärt „Kobold-Problem" seiner Coding-Modelle
Nachdem Wired enthüllte, dass OpenAIs Coding-Modell Codex eine versteckte Anweisung enthält, niemals über Kobolde, Trolle, Waschbären, Oger, Tauben oder ähnliche Wesen zu sprechen, veröffentlichte OpenAI eine offizielle Erklärung auf seiner Website. Laut dem Blogpost begannen die Modelle ab GPT-5.1 – insbesondere bei aktivierter „Nerdy"-Persönlichkeitsoption – spontan Metaphern mit diesen Kreaturen zu verwenden. Das Verhalten verstärkte sich bei nachfolgenden Modellversionen. OpenAI bezeichnet dies als „seltsame Angewohnheit", die als unbeabsichtigtes Nebenprodukt des Trainings entstand. Als kurzfristige Gegenmaßnahme wurden explizite Verbote in die Systemprompts aufgenommen. Der Fall ist ein anschauliches Beispiel dafür, wie schwer vorhersehbar emergente Verhaltensweisen in großen Sprachmodellen sind und welche pragmatischen – teils uneleganten – Eingriffe nötig werden, um sie in Produktionsumgebungen zu kontrollieren.
- Wired-Bericht deckte auf: Codex-Systemprompt enthält explizites Verbot von Goblin/Troll/Waschbär-Metaphern
- OpenAI veröffentlichte daraufhin öffentliche Erklärung auf seiner Website
- Ursprung des Verhaltens: GPT-5.1 mit aktivierter 'Nerdy'-Persönlichkeitsoption
- Problem eskalierte bei späteren Modell-Re-Runs – kein Einzelfall
- OpenAI nennt es eine 'strange habit' als unbeabsichtigtes Trainingsartefakt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.