Open-Source-LLM von Grund auf: 7B-MoE-Modell auf DeepSeek-Architektur in Training

CompaniesDeepSeek NVIDIA Google DeepMind

Warum es zählt

Das Projekt zeigt, dass ein vollständiger Pretraining-Stack (inkl. RLHF-Pipeline mit PPO/GRPO) auf Consumer-naher Hardware mit GUM+Muon-Optimierungen realisierbar ist – relevant für alle, die eigene Modelle ohne Cloud-Budget trainieren wollen.

— Lumeric Redaktion

Ein Community-Entwickler aus r/LocalLLaMA baut ein Large Language Model vollständig von Grund auf – von Pretraining bis RLHF (PPO/GRPO). Als Architektur dient DeepSeek V3, konfiguriert als 7B-Modell mit 64 MoE-Experten (4 aktiv pro Token), 24 Layern, MLA-Attention (d_model 1408, 22 Heads, 2 KV-Heads) und einem maximalen Kontextfenster von 4096 Token. Das Training läuft auf zwei NVIDIA RTX 6000 Pro (600 W) mit rund 80 GB VRAM und nutzt GUM- sowie Muon-Optimierungen zur VRAM-Reduktion. Trainingsdaten stammen aus DOLMA und RedPajama; das Setup folgt dem Chinchilla-Skalierungsgesetz. Nach 14.000 Schritten zeigt ein interner Factual-Accuracy-Test 1 von 3 korrekten Antworten (33,3 %), während Code-Completion und Mathematik noch weitgehend fehlschlagen. Das Ziel ist eine öffentliche Datenbank trainierter Modelle, die später als spezialisierte Agenten – etwa für Mathematik, Literatur oder Physik – ensembliert eingesetzt werden sollen. RLHF-Finetuning ist als nächster Schritt geplant, ein fertiges Vergleichsmodell liegt noch nicht vor.

Quelle lesenreddit.com

33.3% Faktizität (1/3)

Factual Accuracy nach 14.000 Trainings-Schritten

Open Source Foundation Modelle Post Training

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Open-Source-LLM von Grund auf: 7B-MoE-Modell auf DeepSeek-Architektur in Training

ToolsGemini NVIDIA Hardware DeepSeek

CompaniesDeepSeek NVIDIA Google DeepMind

Warum es zählt

— Lumeric Redaktion

33.3% Faktizität (1/3)

Factual Accuracy nach 14.000 Trainings-Schritten

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Open-Source-LLM von Grund auf: 7B-MoE-Modell auf DeepSeek-Architektur in Training

Frag die KI zum Artikel

Verwandte Beiträge

Open-Source-LLM von Grund auf: 7B-MoE-Modell auf DeepSeek-Architektur in Training

Frag die KI zum Artikel

Verwandte Beiträge