Open-Source-LLM von Grund auf: 7B-MoE-Modell auf DeepSeek-Architektur in Training
Ein Community-Entwickler aus r/LocalLLaMA baut ein Large Language Model vollständig von Grund auf – von Pretraining bis RLHF (PPO/GRPO). Als Architektur dient DeepSeek V3, konfiguriert als 7B-Modell mit 64 MoE-Experten (4 aktiv pro Token), 24 Layern, MLA-Attention (d_model 1408, 22 Heads, 2 KV-Heads) und einem maximalen Kontextfenster von 4096 Token. Das Training läuft auf zwei NVIDIA RTX 6000 Pro (600 W) mit rund 80 GB VRAM und nutzt GUM- sowie Muon-Optimierungen zur VRAM-Reduktion. Trainingsdaten stammen aus DOLMA und RedPajama; das Setup folgt dem Chinchilla-Skalierungsgesetz. Nach 14.000 Schritten zeigt ein interner Factual-Accuracy-Test 1 von 3 korrekten Antworten (33,3 %), während Code-Completion und Mathematik noch weitgehend fehlschlagen. Das Ziel ist eine öffentliche Datenbank trainierter Modelle, die später als spezialisierte Agenten – etwa für Mathematik, Literatur oder Physik – ensembliert eingesetzt werden sollen. RLHF-Finetuning ist als nächster Schritt geplant, ein fertiges Vergleichsmodell liegt noch nicht vor.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Open-Source-LLM von Grund auf: 7B-MoE-Modell auf DeepSeek-Architektur in Training
Ein Community-Entwickler aus r/LocalLLaMA baut ein Large Language Model vollständig von Grund auf – von Pretraining bis RLHF (PPO/GRPO). Als Architektur dient DeepSeek V3, konfiguriert als 7B-Modell mit 64 MoE-Experten (4 aktiv pro Token), 24 Layern, MLA-Attention (d_model 1408, 22 Heads, 2 KV-Heads) und einem maximalen Kontextfenster von 4096 Token. Das Training läuft auf zwei NVIDIA RTX 6000 Pro (600 W) mit rund 80 GB VRAM und nutzt GUM- sowie Muon-Optimierungen zur VRAM-Reduktion. Trainingsdaten stammen aus DOLMA und RedPajama; das Setup folgt dem Chinchilla-Skalierungsgesetz. Nach 14.000 Schritten zeigt ein interner Factual-Accuracy-Test 1 von 3 korrekten Antworten (33,3 %), während Code-Completion und Mathematik noch weitgehend fehlschlagen. Das Ziel ist eine öffentliche Datenbank trainierter Modelle, die später als spezialisierte Agenten – etwa für Mathematik, Literatur oder Physik – ensembliert eingesetzt werden sollen. RLHF-Finetuning ist als nächster Schritt geplant, ein fertiges Vergleichsmodell liegt noch nicht vor.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.