Topic

Evals & Benchmarks

50 Beiträge der letzten 90 Tage zu Evals & Benchmarks — kuratiert von der Lumeric-Redaktion mit Trust-Labels und kurzem Warum-es-zählt-Block pro Story.

Top-Tools rund um Evals & Benchmarks

GPT52×Qwen30×Claude27×Modal25×Gemini19×Llama14×

Top-Unternehmen in Evals & Benchmarks

Meta AI41×Hugging Face14×

Top-Tools rund um Evals & Benchmarks

Top-Unternehmen in Evals & Benchmarks

Archiv

Beiträge · 50

Claude Code verbraucht 33k Tokens vor erstem Prompt – OpenCode nur 7k

KI fördert Forschungskarrieren, verengt aber Ideenvielfalt in der Wissenschaft

RTX 5090 Multi-Agent-Benchmark: Sweet Spot bei 4–5 parallelen Agents

SGLang schlägt vLLM bei 4× RTX 5060 Ti Multi-GPU-Setup für Qwen3.6-27B

Altman schwenkt um: AI schaffe per saldo mehr Jobs als sie vernichte

Voodoo Quant schlägt Unsloth Dynamic 2.0 bei KLD um 95% für Qwen3.5

KI-Abhängigkeit: Notenschnitt halbiert sich ohne KI-Hilfe bei Prüfung

llama.cpp-Bug: Tesla P100 rechnete jahrelang in falscher Präzision

J-Space Halluzinations-Signal von Anthropic auf Qwen3-4B über 7 Datensätze getestet

Meinungsstück: Warum „Frag einfach Claude" keine echte Antwort ist

RTX 6000 PRO MaxQ (Shunt-mod, 600W) schlägt RTX 5090 bei Anima-Benchmark

Community diskutiert praxisnahe Benchmarks für Coding und Agenten-Tasks

Community-Debatte: Sind MoE-Modelle wirklich nur so gut wie ihre aktiven Parameter?

EPYC 9374f vs. 9135: CPU-Benchmarks für lokale LLM-Inferenz mit ik_llama.cpp

Warum Frontier-AI-Modelle noch immer halluzinieren

MELT: Systematisches Benchmarking von LLMs auf Smartphones und Edge-Devices

Reddit-Diskussion: Lokale Modelle und Sicherheitslücken bei extremistischer Nutzung

Ghost Font: Bewegungsbasierte Schrift täuscht führende KI-Modelle

Meta Muse Spark 1.1 übertrifft GLM-5.2 im Coding bei niedrigeren Kosten

Nutzer kritisieren LM Arena für fehlende Open-Source-Modelle

12 Modelle bauen 4 Apps: GPT-5.6, Grok 4.5, Claude und Muse Spark im Vergleich

GPT-5.6 Sol Ultra liefert Beweis für die Cycle Double Cover Conjecture

Community fragt: Hält Agents-A1 seine Benchmark-Versprechen?

Slack führt agentisches End-to-End-Testing für UI-Automatisierung ein

Chaos Engineering für GPU-Cluster: 7 Fault-Injection-Strategien für AI-Infra

GPT-5.6 Sol, Grok 4.5 und Meta Muse: Neue Modellwelle erschüttert KI-Markt

Qwen 3.6 Quantisierung: Starker Einfluss auf Agenten-Bench, kaum auf GPQA

Quantisierung trifft Modellfähigkeiten unterschiedlich stark – Community-Tests zeigen Lücke

GPT 5.6 bietet 72 Konfigurationen – welche ist die richtige?

Model Collapse: Vergiftet KI-generierter Content das Web-Training?

NYT wirft OpenAI vor, Milliarden ChatGPT-Logs versteckt zu haben

6x AMD MI50 vs. 6x NVIDIA P40: MiniMax M2.7 139B lokal benchmarked

OpenAIs Frontier-Modell Sol: Wer entscheidet über die Sicherheit?

Pangram: 25 % der Longform-Posts auf Social Media vollständig KI-generiert

Reasoning-Medical0.1-27B: Qwen3.5-27B-Finetune für Medizin übertrifft angeblich MedGemma

Databricks wählt GLM 5.2 als Standard-Coding-Engine – günstiger als Claude Opus

Was macht eine Domain gut für KI-Training? Analyse jenseits von Verifizierbarkeit

OpenAI startet Bio Bug Bounty Programm für GPT-5.5

OpenAI-System schlägt alle Menschen beim AtCoder World Tour Finals 2026

GLM-5.2: Medien schüren Sicherheitsbedenken über Open-Source-Modell

Community-Benchmark: Mehrere LLMs auf 128-GB-M5-Max-MacBook-Pro

Artificial Analysis Openness Index: K2-Think-v2 führt Offenheits-Ranking an

Grok 4.5 veröffentlicht – GLM-5.2 nur 2,6 Punkte dahinter auf SWE Bench Pro

KI-Betrugsfall an Brown University: Prüfungsschnitt fiel von 96 auf 48 Punkte

Googles SynthID-Wasserzeichen entlarvt gefälschtes McConnell-Krankenhausbild

GLM-5.2 753B MoE in 4-bit auf 4× DGX Spark: 70.8% auf Terminal-Bench 2.1

xAI veröffentlicht Grok 4.5 – deutlich günstiger als Fable 5 und GPT-5.5

General Intuition setzt auf Videospieldaten statt Internet für AGI-Training

Google aktualisiert Android Bench: Gemini auf Platz 5, Claude Fable 5 führt

Gergely Orosz im AMA: KI, Hiring, Karriere und Redaktionspolitik