Community-Vorschlag: SmolLM4-750M mit 16K Kontext als Open-Source-Modell
Der Reddit-Nutzer Ok-Type-7663 skizziert auf r/LocalLLaMA ein Konzept für ein hypothetisches SmolLM4-750M-Modell und adressiert damit eine wahrgenommene Lücke in Hugging Faces SmolLM-Familie. Die bestehende Reihe umfasst SmolLM2 mit 135M, 360M und 1.7B Parametern sowie SmolLM3 mit 3B Parametern, das Multilingual-Support und Long-Context-Fähigkeiten bietet. Der Vorschlag zielt auf rund 750M Parameter, 16K Kontext, Causal-LM-Architektur, vollständig offene Gewichte und Trainingsdaten sowie Apache-2.0-Lizenzierung. Als Hauptsprachen sind Englisch und Spanisch vorgesehen. Als mögliche Trainings-Datasets werden u.a. smollm-corpus, fineweb-edu, finemath, stack-edu, smoltalk2, cosmopedia und OpenThoughts-114k genannt. Das erklärte Ziel ist kein Wettbewerb mit 3B-Modellen, sondern ein praktisch einsetzbares, sauberes Modell für schwache Hardware, Studenten und Hobbyisten. Der Post fragt die Community explizit, ob die 750M-Klasse sinnvoll ist, ob 16K Kontext realistisch wäre und welcher Fokus (Chat, Coding, Reasoning, Multilingual) Priorität haben sollte.
- SmolLM-Familie reicht derzeit von 135M über 360M, 1.7B bis zu SmolLM3 mit 3B Parametern
- Vorgeschlagene Lizenz: Apache-2.0 mit vollständig öffentlichem Daten-Rezept und Training/Eval-Details
- Trainingsdaten-Kandidaten u.a.: fineweb-edu, finemath, stack-edu, OpenThoughts-114k, Cosmopedia
- Spanisch-Subset spa_Latn aus fineweb-2 für Mehrsprachigkeit vorgesehen
- Post wurde laut Eigenangabe mit GPT-5.5 Thinking verfasst, Autor bezeichnet sich als Mensch
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Community-Vorschlag: SmolLM4-750M mit 16K Kontext als Open-Source-Modell
Der Reddit-Nutzer Ok-Type-7663 skizziert auf r/LocalLLaMA ein Konzept für ein hypothetisches SmolLM4-750M-Modell und adressiert damit eine wahrgenommene Lücke in Hugging Faces SmolLM-Familie. Die bestehende Reihe umfasst SmolLM2 mit 135M, 360M und 1.7B Parametern sowie SmolLM3 mit 3B Parametern, das Multilingual-Support und Long-Context-Fähigkeiten bietet. Der Vorschlag zielt auf rund 750M Parameter, 16K Kontext, Causal-LM-Architektur, vollständig offene Gewichte und Trainingsdaten sowie Apache-2.0-Lizenzierung. Als Hauptsprachen sind Englisch und Spanisch vorgesehen. Als mögliche Trainings-Datasets werden u.a. smollm-corpus, fineweb-edu, finemath, stack-edu, smoltalk2, cosmopedia und OpenThoughts-114k genannt. Das erklärte Ziel ist kein Wettbewerb mit 3B-Modellen, sondern ein praktisch einsetzbares, sauberes Modell für schwache Hardware, Studenten und Hobbyisten. Der Post fragt die Community explizit, ob die 750M-Klasse sinnvoll ist, ob 16K Kontext realistisch wäre und welcher Fokus (Chat, Coding, Reasoning, Multilingual) Priorität haben sollte.
- SmolLM-Familie reicht derzeit von 135M über 360M, 1.7B bis zu SmolLM3 mit 3B Parametern
- Vorgeschlagene Lizenz: Apache-2.0 mit vollständig öffentlichem Daten-Rezept und Training/Eval-Details
- Trainingsdaten-Kandidaten u.a.: fineweb-edu, finemath, stack-edu, OpenThoughts-114k, Cosmopedia
- Spanisch-Subset spa_Latn aus fineweb-2 für Mehrsprachigkeit vorgesehen
- Post wurde laut Eigenangabe mit GPT-5.5 Thinking verfasst, Autor bezeichnet sich als Mensch
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.