
Studie: ChatGPT-4.0 Pro bei kausaler Inferenz in Python, R und Stata getestet
Winberg et al. veröffentlichten am 22. Januar 2026 in Health Economics Review eine Studie, die ChatGPT-4.0 Pro (die Bezahlversion) systematisch auf seine Fähigkeit prüft, Code für kausale Inferenzverfahren zu generieren. Als Referenz dienen öffentlich verfügbare Datensätze und Problemstellungen aus dem Lehrbuch „Causal Inference: The Mixtape" von Scott Cunningham – einem Standardwerk der angewandten Ökonometrie. Die Testumgebungen waren R 3.6.0, Stata 18 und Python 3.13. Untersucht werden drei methodisch anspruchsvolle Verfahren: Difference-in-Differences (DiD), Inverse Probability Treatment Weighting (IPTW) und Regression Discontinuity (RD). Anders als frühere Studien, die meist auf subjektiver Bewertung basieren, vergleichen die Autoren den ChatGPT-generierten Code mit standardisierten Referenzlösungen und prüfen, ob die numerischen Ergebnisse reproduzierbar sind. Ein Novum ist die explizite Einbeziehung von Stata, das in Gesundheitsökonomie und empirischer Politikforschung weit verbreitet ist, aber in KI-Coding-Studien selten berücksichtigt wird. Die Prompts umfassen nicht nur einzelne Modellbefehle, sondern vollständige Workflows inklusive Datenmanagement, Modellschätzung und Grafik-Erstellung – ein realitätsnäherer Maßstab für den Forschungsalltag.
- Studie erschienen am 22. Januar 2026 in Health Economics Review, Autoren: Winberg et al.
- Getestetes Modell: ChatGPT-4.0 Pro; Referenzumgebungen R 3.6.0, Stata 18, Python 3.13
- Drei Methoden im Fokus: Difference-in-Differences, IPTW und Regression Discontinuity
- Benchmark-Grundlage: Problemsets aus 'Causal Inference: The Mixtape' von Scott Cunningham
- Dreitstufiges Testdesign: einfache Prompts, vollständige Workflows, Reproduzierbarkeit der Outputs
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org3w
17 LLMs im Test: Können sie Agenten-basierte Modelle aus ODD-Spezifikationen implementieren?
- FORSCHUNGarxiv.org3w
AutoMat: Benchmark zeigt schwache Performance von Code-Agenten in Materialwissenschaften
- MEINUNGisaiprofitable.com5d
Is AI Profitable Yet? – Überblick zur Profitabilität von KI-Unternehmen

Studie: ChatGPT-4.0 Pro bei kausaler Inferenz in Python, R und Stata getestet
Winberg et al. veröffentlichten am 22. Januar 2026 in Health Economics Review eine Studie, die ChatGPT-4.0 Pro (die Bezahlversion) systematisch auf seine Fähigkeit prüft, Code für kausale Inferenzverfahren zu generieren. Als Referenz dienen öffentlich verfügbare Datensätze und Problemstellungen aus dem Lehrbuch „Causal Inference: The Mixtape" von Scott Cunningham – einem Standardwerk der angewandten Ökonometrie. Die Testumgebungen waren R 3.6.0, Stata 18 und Python 3.13. Untersucht werden drei methodisch anspruchsvolle Verfahren: Difference-in-Differences (DiD), Inverse Probability Treatment Weighting (IPTW) und Regression Discontinuity (RD). Anders als frühere Studien, die meist auf subjektiver Bewertung basieren, vergleichen die Autoren den ChatGPT-generierten Code mit standardisierten Referenzlösungen und prüfen, ob die numerischen Ergebnisse reproduzierbar sind. Ein Novum ist die explizite Einbeziehung von Stata, das in Gesundheitsökonomie und empirischer Politikforschung weit verbreitet ist, aber in KI-Coding-Studien selten berücksichtigt wird. Die Prompts umfassen nicht nur einzelne Modellbefehle, sondern vollständige Workflows inklusive Datenmanagement, Modellschätzung und Grafik-Erstellung – ein realitätsnäherer Maßstab für den Forschungsalltag.
- Studie erschienen am 22. Januar 2026 in Health Economics Review, Autoren: Winberg et al.
- Getestetes Modell: ChatGPT-4.0 Pro; Referenzumgebungen R 3.6.0, Stata 18, Python 3.13
- Drei Methoden im Fokus: Difference-in-Differences, IPTW und Regression Discontinuity
- Benchmark-Grundlage: Problemsets aus 'Causal Inference: The Mixtape' von Scott Cunningham
- Dreitstufiges Testdesign: einfache Prompts, vollständige Workflows, Reproduzierbarkeit der Outputs
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org3w
17 LLMs im Test: Können sie Agenten-basierte Modelle aus ODD-Spezifikationen implementieren?
- FORSCHUNGarxiv.org3w
AutoMat: Benchmark zeigt schwache Performance von Code-Agenten in Materialwissenschaften
- MEINUNGisaiprofitable.com5d
Is AI Profitable Yet? – Überblick zur Profitabilität von KI-Unternehmen