Frontier-Reasoning-Rennen: Hy3 Preview überholt GPT-5.4 und Gemini 3.1 Pro

Warum es zählt

Mit Hy3 Preview drängt ein weiterer Akteur an die Spitze der Reasoning-Benchmarks — AI-Builder müssen nun noch mehr Modelle evaluieren. Die Community diskutiert jedoch offen, ob das Ergebnis Benchmark-Hardening widerspiegelt oder echter Leistungsfortschritt in Coding und Mathematik ist.

— Lumeric Redaktion

Ein populärer Thread auf r/LocalLLaMA thematisiert die zunehmende Unübersichtlichkeit im Wettbewerb um führende Reasoning-Modelle. Nutzer /u/ExoticYesterday8282 verweist auf ein CHSBO-2025-Diagramm, in dem Hy3 Preview mit 87,8 Punkten sowohl Gemini 3.1 Pro als auch GPT-5.4 xhigh hinter sich lässt. Die Diskussion dreht sich dabei nicht nur um rohe Benchmark-Zahlen, sondern auch um die Frage, ob diese Ergebnisse in realen Coding- und Mathematik-Aufgaben reproduzierbar sind oder ob es sich um gezielte Benchmark-Optimierung (sog. „Benchmark Hardening") handelt. Die Community beklagt zudem die explodierende Versionsnummern-Inflation bei allen großen Anbietern — von GPT-4 über GPT-5.4 bis zu Subvarianten wie „xhigh" — was eine sachliche Einordnung immer schwerer macht. Hersteller und Ursprung von Hy3 werden im Auszug nicht explizit genannt.

Was wir noch wissen

Hy3 Preview erzielt 87,8 Punkte auf dem CHSBO-2025-Benchmark und übertrifft damit Gemini 3.1 Pro und GPT-5.4 xhigh.
Die Diskussion hinterfragt explizit, ob die Leistung in realen Coding- und Mathe-Aufgaben bestätigt wird.
Community-Kritik richtet sich gegen die rasant wachsende Versionsnummern-Inflation bei Frontier-Modellen.
Der Post stammt von /u/ExoticYesterday8282 auf r/LocalLLaMA und basiert auf einem geteilten Leaderboard-Chart.

Quelle lesenreddit.com

CHSBO 2025 · Spitzenwert

87.8%

Hy3 Preview

Foundation Modelle Evals Benchmarks Post Training

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Frontier-Reasoning-Rennen: Hy3 Preview überholt GPT-5.4 und Gemini 3.1 Pro

ToolsGPT Gemini

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Hy3 Preview erzielt 87,8 Punkte auf dem CHSBO-2025-Benchmark und übertrifft damit Gemini 3.1 Pro und GPT-5.4 xhigh.
Die Diskussion hinterfragt explizit, ob die Leistung in realen Coding- und Mathe-Aufgaben bestätigt wird.
Community-Kritik richtet sich gegen die rasant wachsende Versionsnummern-Inflation bei Frontier-Modellen.
Der Post stammt von /u/ExoticYesterday8282 auf r/LocalLLaMA und basiert auf einem geteilten Leaderboard-Chart.

CHSBO 2025 · Spitzenwert

87.8%

Hy3 Preview

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Frontier-Reasoning-Rennen: Hy3 Preview überholt GPT-5.4 und Gemini 3.1 Pro

Frag die KI zum Artikel

Verwandte Beiträge

Frontier-Reasoning-Rennen: Hy3 Preview überholt GPT-5.4 und Gemini 3.1 Pro

Frag die KI zum Artikel

Verwandte Beiträge