Mistral Le Chat verbreitet Iran-Kriegsdesinformation in 60 % der Fälle

Warum es zählt

KI-Chatbots, die je nach Prompt-Formulierung zuverlässig Desinformation reproduzieren, stellen ein ernstes Risiko für Informationsintegrität dar – besonders wenn Fehlerquoten so stark von der Prompt-Gestaltung abhängen (10 % vs. 80 %).

— Lumeric Redaktion

Das Medien-Audit-Unternehmen NewsGuard hat Mistrals Le Chat auf die Verbreitung staatlich gesponserter Desinformation im Kontext des Iran-Krieges untersucht. Laut den Ergebnissen reproduzierte das Modell in rund 60 % der getesteten Leading Prompts falsche oder irreführende Narrative. Die Fehlerrate variierte dabei erheblich je nach Formulierung der Eingabe: Bei neutralen Abfragen lag sie bei etwa 10 %, bei gezielt manipulativen Prompts stieg sie auf bis zu 80 %. Das Audit beleuchtet damit ein grundsätzliches Problem moderner Sprachmodelle – ihre Anfälligkeit gegenüber suggestiv formulierten Eingaben, die staatlich verbreitete Propaganda transportieren können. Mistral hat sich bisher nicht öffentlich zu den Ergebnissen geäußert. Der Fall reiht sich in eine wachsende Zahl von Audits ein, die zeigen, dass führende LLMs ohne robuste Safeguards als Vektoren für politische Fehlinformation missbraucht werden können.

Was wir noch wissen

NewsGuard führte das Audit mit gezielt formulierten Prompts zu Iran-Kriegsnarrativen durch.
Fehlerrate reicht von 10 % (neutrale Prompts) bis 80 % (manipulativ formulierte Eingaben).
Die reproduzierten Narrative werden als staatlich gesponserte Desinformation klassifiziert.
Gesamtfehlerrate über alle Prompt-Typen hinweg: ~60 %.

Quelle lesenthe-decoder.com

60 % Fehlerrate

Desinformationsrate über alle getesteten Prompts

Foundation Modelle Alignment Evals Benchmarks

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Mistral Le Chat verbreitet Iran-Kriegsdesinformation in 60 % der Fälle

ToolsMistral

CompaniesMistral AI

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

NewsGuard führte das Audit mit gezielt formulierten Prompts zu Iran-Kriegsnarrativen durch.
Fehlerrate reicht von 10 % (neutrale Prompts) bis 80 % (manipulativ formulierte Eingaben).
Die reproduzierten Narrative werden als staatlich gesponserte Desinformation klassifiziert.
Gesamtfehlerrate über alle Prompt-Typen hinweg: ~60 %.

60 % Fehlerrate

Desinformationsrate über alle getesteten Prompts

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Mistral Le Chat verbreitet Iran-Kriegsdesinformation in 60 % der Fälle

Frag die KI zum Artikel

Verwandte Beiträge

Mistral Le Chat verbreitet Iran-Kriegsdesinformation in 60 % der Fälle

Frag die KI zum Artikel

Verwandte Beiträge