wird geladen

Benchmark — Was ist das? · Glossar · Lumeric

Feed
Digest
Lounge
Stash
Profil

Benchmark

★ Begriff· Evaluation

Benchmark

Standardisierter Test, gegen den Modelle vermessen werden. Beispiele: MMLU (Wissen), HumanEval (Code), GSM8K (Math), AIME (Olympiade-Math), ARC-AGI (abstraktes Reasoning).

Verwandte Tools

Auch bekannt als

ml benchmark · llm benchmark

Aktivität

203

Mentions in den letzten 7 Tagen

4 Wochen

⚡neu · 203×

Zuletzt erwähnt in

HALO: Adaptives latentes Reasoning verbessert Sprachmodelle ohne Fine-Tuning
2026-07-13
Quantum Circuit Born Machine verbessert synthetische Datengenerierung bei Klassenimbalance
2026-07-13
Informationstheoretisches Bayesian Optimization für Bilevel-Probleme
2026-07-13
TheBioCollection: 52,6-Milliarden-Token-Korpus für biologische LLMs
2026-07-13
Eluna: Agentisches LLM-System automatisiert Lagerlogistik mit 94% Expertenübereinstimmung
2026-07-13

Feed Digest Lounge Stash Profil