
Bradley-Terry-Modell: Probabilistische Rankings aus paarweisen Vergleichen lernen
Das Bradley-Terry-Modell weist jedem Item einen latenten Stärkeparameter πᵢ > 0 zu. Die Wahrscheinlichkeit, dass Item i einem Item j vorgezogen wird, ergibt sich als πᵢ / (πᵢ + πⱼ). Schreibt man die Stärken als Exponentialfunktion reeller Scores (πᵢ = exp(βᵢ)), hängt die Gewinnwahrscheinlichkeit nur von der Differenz βᵢ − βⱼ ab – eine direkte strukturelle Parallele zur logistischen Regression. Die Modellparameter werden per Maximum-Likelihood-Schätzung gefunden: Der Gradient der Log-Likelihood misst die Differenz zwischen beobachteten und vom Modell erwarteten Siegen. Anhand eines einfachen Beispiels mit drei Sprachmodell-Antworten (A, B, C) wird gezeigt, wie das Modell aus lokalen Paarvergleichen eine globale Ordnung rekonstruiert. Der Ansatz ist besonders in RLHF-Pipelines etabliert, wo menschliche Annotatorinnen und Annotatoren leichter Präferenzen zwischen zwei Antworten äußern als absolute Qualitätsnoten vergeben können. Sean Moran beschreibt in dem rund 28-minütigen Tutorial außerdem die Gradientenoptimierung und die Identifizierbarkeit des Modells.
- Latente Stärke πᵢ: Gewinnwahrscheinlichkeit von i gegen j = πᵢ / (πᵢ + πⱼ)
- Log-Odds-Form: Bradley-Terry ist strukturell äquivalent zur logistischen Regression auf Differenzen βᵢ − βⱼ
- Fittingmethode: Maximum-Likelihood-Schätzung über alle beobachteten Paarvergleiche (wᵢⱼ, wⱼᵢ)
- Gradient der Log-Likelihood misst Diskrepanz zwischen beobachteten und erwarteten Siegen pro Item-Paar
- Anwendungskontext: Relevant für RLHF und LLM-Evaluation, wo Paarvergleiche einfacher zu erheben sind als absolute Scores
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
Algorithmus lernt Evaluator-Präferenzen robust ohne Modellannahmen
- FORSCHUNGarxiv.org2w
Globale LLM-Leaderboards statistisch nicht unterscheidbar: Portfolio-Ansatz schlägt globales Ranking
- FORSCHUNGarxiv.org2w
Nutzer als Annotatoren: EM-Algorithmus filtert Qualität von LLM-Präferenzdaten
- FORSCHUNGarxiv.org2w
BBQ: Bayesianische Bradley-Terry-Methode für robusteres LLM-Ranking

Bradley-Terry-Modell: Probabilistische Rankings aus paarweisen Vergleichen lernen
Das Bradley-Terry-Modell weist jedem Item einen latenten Stärkeparameter πᵢ > 0 zu. Die Wahrscheinlichkeit, dass Item i einem Item j vorgezogen wird, ergibt sich als πᵢ / (πᵢ + πⱼ). Schreibt man die Stärken als Exponentialfunktion reeller Scores (πᵢ = exp(βᵢ)), hängt die Gewinnwahrscheinlichkeit nur von der Differenz βᵢ − βⱼ ab – eine direkte strukturelle Parallele zur logistischen Regression. Die Modellparameter werden per Maximum-Likelihood-Schätzung gefunden: Der Gradient der Log-Likelihood misst die Differenz zwischen beobachteten und vom Modell erwarteten Siegen. Anhand eines einfachen Beispiels mit drei Sprachmodell-Antworten (A, B, C) wird gezeigt, wie das Modell aus lokalen Paarvergleichen eine globale Ordnung rekonstruiert. Der Ansatz ist besonders in RLHF-Pipelines etabliert, wo menschliche Annotatorinnen und Annotatoren leichter Präferenzen zwischen zwei Antworten äußern als absolute Qualitätsnoten vergeben können. Sean Moran beschreibt in dem rund 28-minütigen Tutorial außerdem die Gradientenoptimierung und die Identifizierbarkeit des Modells.
- Latente Stärke πᵢ: Gewinnwahrscheinlichkeit von i gegen j = πᵢ / (πᵢ + πⱼ)
- Log-Odds-Form: Bradley-Terry ist strukturell äquivalent zur logistischen Regression auf Differenzen βᵢ − βⱼ
- Fittingmethode: Maximum-Likelihood-Schätzung über alle beobachteten Paarvergleiche (wᵢⱼ, wⱼᵢ)
- Gradient der Log-Likelihood misst Diskrepanz zwischen beobachteten und erwarteten Siegen pro Item-Paar
- Anwendungskontext: Relevant für RLHF und LLM-Evaluation, wo Paarvergleiche einfacher zu erheben sind als absolute Scores
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
Algorithmus lernt Evaluator-Präferenzen robust ohne Modellannahmen
- FORSCHUNGarxiv.org2w
Globale LLM-Leaderboards statistisch nicht unterscheidbar: Portfolio-Ansatz schlägt globales Ranking
- FORSCHUNGarxiv.org2w
Nutzer als Annotatoren: EM-Algorithmus filtert Qualität von LLM-Präferenzdaten
- FORSCHUNGarxiv.org2w
BBQ: Bayesianische Bradley-Terry-Methode für robusteres LLM-Ranking