SupraLabs veröffentlicht Supra-50M: Kompaktes 50M-Modell schlägt GPT-2 auf mehreren Benchmarks
SupraLabs hat mit Supra-50M sein erstes Modell im Rahmen des „Scaling Up Plan" veröffentlicht — in einer Base- und einer Instruct-Variante. Das Modell basiert auf einer Llama-ähnlichen Decoder-only-Transformer-Architektur mit 12 Schichten, Hidden Size 512 und Grouped Query Attention (4 KV-Heads). Trainiert wurde es auf 20 Milliarden Tokens aus dem HuggingFaceFW/fineweb-edu-Datensatz (sample-100BT) auf einer einzigen GPU mit bfloat16-Präzision und AdamW-Fused-Optimizer. Der Custom-Tokenizer (ByteLevelBPE, 32.000 Vocab) wurde von Grund auf auf 500.000 fineweb-edu-Dokumenten trainiert. Auf den Benchmarks BLiMP (76,3 %), SciQ (77,2 %) und ARC-Easy (52,2 %) übertrifft Supra-50M das 2,5-fach größere GPT-2 (124M) deutlich, bleibt aber bei PIQA und HellaSwag hinter SmolLM-135M zurück. Als nächste Schritte in der Skalierungsreihe kündigt SupraLabs Supra-124M (Base, Chat, Experimental Reasoning) sowie Supra-350M (Base, Chat, Reasoning, Coding) an.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- BENCHMARKreddit.com1w
Sapient Intelligence veröffentlicht HRM-Text 1B: 40B Tokens, ~1.000 $ Training, schlägt Llama 3.2 3B auf MATH
- LAUNCHreddit.com3d
MiniCPM5-1B: Neues 1-Milliarde-Parameter-Modell von MiniCPM
- LAUNCHreddit.com1w
SupraLabs gegründet: Open-Source-Small-Language-Models ab 2M Parametern
- MEINUNGreddit.com3d
Community sucht Open-Weight-Alternativen zu GPT-5 mini unter 40B Parametern
SupraLabs veröffentlicht Supra-50M: Kompaktes 50M-Modell schlägt GPT-2 auf mehreren Benchmarks
SupraLabs hat mit Supra-50M sein erstes Modell im Rahmen des „Scaling Up Plan" veröffentlicht — in einer Base- und einer Instruct-Variante. Das Modell basiert auf einer Llama-ähnlichen Decoder-only-Transformer-Architektur mit 12 Schichten, Hidden Size 512 und Grouped Query Attention (4 KV-Heads). Trainiert wurde es auf 20 Milliarden Tokens aus dem HuggingFaceFW/fineweb-edu-Datensatz (sample-100BT) auf einer einzigen GPU mit bfloat16-Präzision und AdamW-Fused-Optimizer. Der Custom-Tokenizer (ByteLevelBPE, 32.000 Vocab) wurde von Grund auf auf 500.000 fineweb-edu-Dokumenten trainiert. Auf den Benchmarks BLiMP (76,3 %), SciQ (77,2 %) und ARC-Easy (52,2 %) übertrifft Supra-50M das 2,5-fach größere GPT-2 (124M) deutlich, bleibt aber bei PIQA und HellaSwag hinter SmolLM-135M zurück. Als nächste Schritte in der Skalierungsreihe kündigt SupraLabs Supra-124M (Base, Chat, Experimental Reasoning) sowie Supra-350M (Base, Chat, Reasoning, Coding) an.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- BENCHMARKreddit.com1w
Sapient Intelligence veröffentlicht HRM-Text 1B: 40B Tokens, ~1.000 $ Training, schlägt Llama 3.2 3B auf MATH
- LAUNCHreddit.com3d
MiniCPM5-1B: Neues 1-Milliarde-Parameter-Modell von MiniCPM
- LAUNCHreddit.com1w
SupraLabs gegründet: Open-Source-Small-Language-Models ab 2M Parametern
- MEINUNGreddit.com3d
Community sucht Open-Weight-Alternativen zu GPT-5 mini unter 40B Parametern