Stanford-Studie: KI schlägt Jura-Professoren als Tutor in 75% der Vergleiche

Warum es zählt

KI-Tutorsysteme können in urteilsintensiven Fächern wie Jura qualitativ mithalten oder übertreffen – das unterminiert das Argument, LLMs seien nur für faktisch eindeutige Domänen geeignet. Die Schädlichkeitsrate von 3,5 % vs. 12 % bei menschlichen Antworten stärkt die Glaubwürdigkeit für einen kontrollierten Einsatz in der Hochschulbildung.

— Lumeric Redaktion

Die Studie „Law Professors Prefer AI Over Peer Answers", geleitet von Stanford-Professor Julian Nyarko (liftlab), untersuchte mit 16 Rechtsprofessoren aus US-amerikanischen Law Schools, ob große Sprachmodelle als Tutoren im Vertragsrecht taugen. In knapp 3.000 anonymisierten Paarvergleichen bewerteten die Teilnehmer KI-Antworten auf 40 repräsentative Studentenfragen – ohne zu wissen, ob die Antworten von einer KI oder einem menschlichen Kollegen stammten. Ergebnis: KI gewann 75 % der Direktvergleiche. Besonders auffällig ist die Rate pädagogisch schädlicher Antworten: Professoren markierten KI-Antworten nur in 3,5 % der Fälle als problematisch, menschliche Antworten hingegen in 12 %. Mitautorin Sarath Sanga (Yale Law School) betont, dass Jura – anders als die meisten bisherigen KI-Benchmarks – keine eindeutigen Antworten kennt, sondern nuanciertes Abwägen konkurrierender Argumente verlangt. Das Forscherteam von Stanford, Yale, NYU und der University of Chicago kalibrierte KI-Antworten hinsichtlich Länge und Struktur auf menschliche Standards und testete auch kommerzielle Tutoring-Systeme sowie Googles NotebookLM. Erstautor Alejandro Salinas (liftlab) sieht in den Ergebnissen ein Argument dafür, den Zugang zu qualitativ hochwertigem Rechtsunterricht zu demokratisieren.

Quelle lesenlaw.stanford.edu

75%

KI-Siege in ~3.000 Blind-Vergleichen

Foundation Modelle Evals Benchmarks Enterprise Adoption

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Stanford-Studie: KI schlägt Jura-Professoren als Tutor in 75% der Vergleiche

CompaniesGoogle DeepMind

Warum es zählt

— Lumeric Redaktion

75%

KI-Siege in ~3.000 Blind-Vergleichen

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Stanford-Studie: KI schlägt Jura-Professoren als Tutor in 75% der Vergleiche

Frag die KI zum Artikel

Verwandte Beiträge

Stanford-Studie: KI schlägt Jura-Professoren als Tutor in 75% der Vergleiche

Frag die KI zum Artikel

Verwandte Beiträge