★ Begriff· Evaluation
Benchmark
Standardisierter Test, gegen den Modelle vermessen werden. Beispiele: MMLU (Wissen), HumanEval (Code), GSM8K (Math), AIME (Olympiade-Math), ARC-AGI (abstraktes Reasoning).
Verwandte Tools
Auch bekannt als
ml benchmark · llm benchmark
Aktivität
276
Mentions in den letzten 7 Tagen
4 Wochen
⚡neu · 276×
Zuletzt erwähnt in
- Reddit-Nutzer teilt oMLX-Benchmarks lokaler Modelle2026-05-28
- Rekursion als neues Skalierungsgesetz für agentische KI-Systeme2026-05-28
- Krasis v1.0: MoE-Modelle mit 35B–122B Parametern auf Consumer-GPUs ab 8 GB VRAM2026-05-28
- Qwen veröffentlicht Q-Judger: VLM zur automatisierten Bildqualitätsbewertung2026-05-28
- Frontier-Reasoning-Rennen: Hy3 Preview überholt GPT-5.4 und Gemini 3.1 Pro2026-05-28