Studie: ChatGPT-4.0 Pro bei kausaler Inferenz in Python, R und Stata getestet

ToolsGPT

Warum es zählt

Forscher und Datenwissenschaftler, die KI für komplexe Ökonometrie nutzen, erhalten erstmals einen strukturierten Benchmark für Diff-in-Diff, IPTW und Regression Discontinuity – nicht nur für einfache Code-Snippets, sondern für vollständige Analyse-Workflows inklusive Stata.

— Lumeric Redaktion

Winberg et al. veröffentlichten am 22. Januar 2026 in Health Economics Review eine Studie, die ChatGPT-4.0 Pro (die Bezahlversion) systematisch auf seine Fähigkeit prüft, Code für kausale Inferenzverfahren zu generieren. Als Referenz dienen öffentlich verfügbare Datensätze und Problemstellungen aus dem Lehrbuch „Causal Inference: The Mixtape" von Scott Cunningham – einem Standardwerk der angewandten Ökonometrie. Die Testumgebungen waren R 3.6.0, Stata 18 und Python 3.13. Untersucht werden drei methodisch anspruchsvolle Verfahren: Difference-in-Differences (DiD), Inverse Probability Treatment Weighting (IPTW) und Regression Discontinuity (RD). Anders als frühere Studien, die meist auf subjektiver Bewertung basieren, vergleichen die Autoren den ChatGPT-generierten Code mit standardisierten Referenzlösungen und prüfen, ob die numerischen Ergebnisse reproduzierbar sind. Ein Novum ist die explizite Einbeziehung von Stata, das in Gesundheitsökonomie und empirischer Politikforschung weit verbreitet ist, aber in KI-Coding-Studien selten berücksichtigt wird. Die Prompts umfassen nicht nur einzelne Modellbefehle, sondern vollständige Workflows inklusive Datenmanagement, Modellschätzung und Grafik-Erstellung – ein realitätsnäherer Maßstab für den Forschungsalltag.

Was wir noch wissen

Studie erschienen am 22. Januar 2026 in Health Economics Review, Autoren: Winberg et al.
Getestetes Modell: ChatGPT-4.0 Pro; Referenzumgebungen R 3.6.0, Stata 18, Python 3.13
Drei Methoden im Fokus: Difference-in-Differences, IPTW und Regression Discontinuity
Benchmark-Grundlage: Problemsets aus 'Causal Inference: The Mixtape' von Scott Cunningham
Dreitstufiges Testdesign: einfache Prompts, vollständige Workflows, Reproduzierbarkeit der Outputs

Quelle lesentowardsdatascience.com

Evals Benchmarks Coding Assistenten Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Studie: ChatGPT-4.0 Pro bei kausaler Inferenz in Python, R und Stata getestet

ToolsGPT

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Studie erschienen am 22. Januar 2026 in Health Economics Review, Autoren: Winberg et al.
Getestetes Modell: ChatGPT-4.0 Pro; Referenzumgebungen R 3.6.0, Stata 18, Python 3.13
Drei Methoden im Fokus: Difference-in-Differences, IPTW und Regression Discontinuity
Benchmark-Grundlage: Problemsets aus 'Causal Inference: The Mixtape' von Scott Cunningham
Dreitstufiges Testdesign: einfache Prompts, vollständige Workflows, Reproduzierbarkeit der Outputs

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Studie: ChatGPT-4.0 Pro bei kausaler Inferenz in Python, R und Stata getestet

Frag die KI zum Artikel

Verwandte Beiträge

Studie: ChatGPT-4.0 Pro bei kausaler Inferenz in Python, R und Stata getestet

Frag die KI zum Artikel

Verwandte Beiträge