SupraLabs veröffentlicht Supra-50M: Kompaktes 50M-Modell schlägt GPT-2 auf mehreren Benchmarks

Warum es zählt

Supra-50M zeigt, dass ein auf 20B hochwertigen Edu-Tokens trainiertes 50M-Modell größere Modelle wie GPT-2 (124M) und SmolLM-135M auf mehreren Benchmarks schlägt — relevant für Edge-Deployments und ressourcenarme Umgebungen. Die angekündigte Skalierungsreihe bis Supra-350M gibt Entwicklern einen klaren Ausblick auf kommende Modellgrößen.

— Lumeric Redaktion

SupraLabs hat mit Supra-50M sein erstes Modell im Rahmen des „Scaling Up Plan" veröffentlicht — in einer Base- und einer Instruct-Variante. Das Modell basiert auf einer Llama-ähnlichen Decoder-only-Transformer-Architektur mit 12 Schichten, Hidden Size 512 und Grouped Query Attention (4 KV-Heads). Trainiert wurde es auf 20 Milliarden Tokens aus dem HuggingFaceFW/fineweb-edu-Datensatz (sample-100BT) auf einer einzigen GPU mit bfloat16-Präzision und AdamW-Fused-Optimizer. Der Custom-Tokenizer (ByteLevelBPE, 32.000 Vocab) wurde von Grund auf auf 500.000 fineweb-edu-Dokumenten trainiert. Auf den Benchmarks BLiMP (76,3 %), SciQ (77,2 %) und ARC-Easy (52,2 %) übertrifft Supra-50M das 2,5-fach größere GPT-2 (124M) deutlich, bleibt aber bei PIQA und HellaSwag hinter SmolLM-135M zurück. Als nächste Schritte in der Skalierungsreihe kündigt SupraLabs Supra-124M (Base, Chat, Experimental Reasoning) sowie Supra-350M (Base, Chat, Reasoning, Coding) an.

Quelle lesenreddit.com

ARC-Easy · Spitzenwert

52.2%

Supra-50M

Foundation Modelle Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

SupraLabs veröffentlicht Supra-50M: Kompaktes 50M-Modell schlägt GPT-2 auf mehreren Benchmarks

ToolsGPT Llama

Warum es zählt

— Lumeric Redaktion

ARC-Easy · Spitzenwert

52.2%

Supra-50M

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

SupraLabs veröffentlicht Supra-50M: Kompaktes 50M-Modell schlägt GPT-2 auf mehreren Benchmarks

Frag die KI zum Artikel

Verwandte Beiträge

SupraLabs veröffentlicht Supra-50M: Kompaktes 50M-Modell schlägt GPT-2 auf mehreren Benchmarks

Frag die KI zum Artikel

Verwandte Beiträge