KeyLM-75M schlägt SmolLM-135M auf IFEval mit einem Bruchteil der Trainingsdaten

Warum es zählt

Das Experiment zeigt, dass effizientes Architekturdesign und Datauswahl kleine Modelle mit deutlich weniger Trainingsaufwand konkurrenzfähig machen können – relevant für alle, die Edge-Deployments oder ressourcenschonende lokale Modelle bauen.

— Lumeric Redaktion

KeyLM ist ein von Grund auf trainiertes Small Language Model (SLM) mit 75M Parametern, das der Reddit-Nutzer /u/cakes_and_candles auf 18 Milliarden Tokens öffentlicher Daten vortrainiert hat – darunter FineWeb-Edu, Wikipedia, Reddit, StackExchange, WildChat, UltraChat, LMSYS, OASST2 und Cosmopedia. Das anschließende Supervised Fine-Tuning (SFT) erfolgte auf den Datensätzen smol-smoltalk und smoltalk2. Die Architektur folgt modernen Standards: Grouped Query Attention mit 8 Query- und 2 KV-Heads, RoPE-Positionskodierung, SwiGLU-Aktivierung, per-Head QK-Norm, 24 Schichten, Hidden Size 512, 2048-Token-Kontext und ein 12.020-Token ByteLevel-BPE-Vokabular in bf16. Auf dem IFEval-Benchmark erreicht KeyLM-75M-Instruct einen Score von 17,85 – leicht über dem des SmolLM-135M-Instruct (17,15), der auf 600 Milliarden Tokens vortrainiert wurde. SmolLM2-135M-Instruct (2T Tokens) liegt mit 26,98 jedoch deutlich vorne. Auf klassischen Wissens-Benchmarks wie MMLU (24,0 %) oder ARC-Challenge (22,6 %) bewegt sich KeyLM erwartungsgemäß im zufallsnahen Bereich; Halluzinationen sind laut Autor die Regel. Alle drei Versionen – Base, Instruct und GGUF – sind auf Hugging Face unter dem Account Eclipse-Senpai öffentlich verfügbar.

Quelle lesenreddit.com

IFEval (Instruction Following) · Spitzenwert

17.85%

KeyLM-75M-Instruct

Foundation Modelle Open Source Evals Benchmarks