Hugging Face veröffentlicht Carbon: Open-Source-DNA-Modell schlägt Evo2-7B bei 275× höherer Geschwindigkeit
Loubna Ben Allal von Hugging Face hat Carbon veröffentlicht, eine Familie offener DNA-Foundation-Modelle. Das Flaggschiff Carbon-3B erreicht die Leistung des bisherigen State-of-the-Art-Modells Evo2-7B – bei 2,3-fach weniger Parametern und 275-facher Inferenzgeschwindigkeit. Das Team adaptierte bewährte LLM-Trainingsstrategien aus dem SmolLM-Projekt für genomische Daten, musste jedoch zentrale Designentscheidungen anpassen: Statt nukleotidweiser Tokenisierung oder BPE kommen deterministische 6-mer-Tokens zum Einsatz, die Sequenzen um den Faktor 6 verkürzen und Attention-Kosten senken. Während des Trainings wird die Standard-Cross-Entropy-Loss durch eine faktorizierte Loss-Funktion (FNS) ersetzt, da klassische Cross-Entropy bei 6-mer-Tokens feinkörnige Fehler nicht unterscheidet und zu Instabilitäten führt. Auch das Training-Datenregime ist auf biologische Realitäten zugeschnitten: Aus rohen Genomdaten wird ein gestuftes Gemisch aus funktionaler DNA und mRNA kuratiert, wobei alle Mischungsverhältnisse per Ablation bestimmt wurden. Der technische Bericht und ein interaktives Demo mit Biologie-Einführung für ML-Interessierte sind öffentlich zugänglich.
- Carbon-3B hat 3 Milliarden Parameter und übertrifft Evo2-7B bei gleichzeitig 275× höherer Geschwindigkeit.
- Tokenisierung via deterministische 6-mer-Tokens (1 Token = 6 Nukleotide) statt BPE oder Nukleotid-Level.
- Mitte des Trainings wird auf eine faktorizierte Loss-Funktion (FNS) umgeschaltet, um Loss-Spikes zu vermeiden.
- Trainingsdaten werden auf funktionale DNA + mRNA kuratiert – alle Mischungsverhältnisse per Ablation optimiert.
- Technischer Bericht auf GitHub sowie Demo-Space auf Hugging Face sind öffentlich verfügbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org3w
Mathematisches Modell offenbart verborgene Verwandtschaften zwischen 305 LLMs
- FORSCHUNGarxiv.org1w
ArtifactLinker entdeckt automatisch State-of-the-Art-Modelle via Graphen
- LAUNCHreddit.com1w
Intern-S2-Preview: 35B wissenschaftliches Multimodal-Modell mit Task Scaling
- FORSCHUNGarxiv.org1w
CarbonScaling: Framework modelliert CO₂-Fußabdruck von LLM-Training hardwarenah
Hugging Face veröffentlicht Carbon: Open-Source-DNA-Modell schlägt Evo2-7B bei 275× höherer Geschwindigkeit
Loubna Ben Allal von Hugging Face hat Carbon veröffentlicht, eine Familie offener DNA-Foundation-Modelle. Das Flaggschiff Carbon-3B erreicht die Leistung des bisherigen State-of-the-Art-Modells Evo2-7B – bei 2,3-fach weniger Parametern und 275-facher Inferenzgeschwindigkeit. Das Team adaptierte bewährte LLM-Trainingsstrategien aus dem SmolLM-Projekt für genomische Daten, musste jedoch zentrale Designentscheidungen anpassen: Statt nukleotidweiser Tokenisierung oder BPE kommen deterministische 6-mer-Tokens zum Einsatz, die Sequenzen um den Faktor 6 verkürzen und Attention-Kosten senken. Während des Trainings wird die Standard-Cross-Entropy-Loss durch eine faktorizierte Loss-Funktion (FNS) ersetzt, da klassische Cross-Entropy bei 6-mer-Tokens feinkörnige Fehler nicht unterscheidet und zu Instabilitäten führt. Auch das Training-Datenregime ist auf biologische Realitäten zugeschnitten: Aus rohen Genomdaten wird ein gestuftes Gemisch aus funktionaler DNA und mRNA kuratiert, wobei alle Mischungsverhältnisse per Ablation bestimmt wurden. Der technische Bericht und ein interaktives Demo mit Biologie-Einführung für ML-Interessierte sind öffentlich zugänglich.
- Carbon-3B hat 3 Milliarden Parameter und übertrifft Evo2-7B bei gleichzeitig 275× höherer Geschwindigkeit.
- Tokenisierung via deterministische 6-mer-Tokens (1 Token = 6 Nukleotide) statt BPE oder Nukleotid-Level.
- Mitte des Trainings wird auf eine faktorizierte Loss-Funktion (FNS) umgeschaltet, um Loss-Spikes zu vermeiden.
- Trainingsdaten werden auf funktionale DNA + mRNA kuratiert – alle Mischungsverhältnisse per Ablation optimiert.
- Technischer Bericht auf GitHub sowie Demo-Space auf Hugging Face sind öffentlich verfügbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org3w
Mathematisches Modell offenbart verborgene Verwandtschaften zwischen 305 LLMs
- FORSCHUNGarxiv.org1w
ArtifactLinker entdeckt automatisch State-of-the-Art-Modelle via Graphen
- LAUNCHreddit.com1w
Intern-S2-Preview: 35B wissenschaftliches Multimodal-Modell mit Task Scaling
- FORSCHUNGarxiv.org1w
CarbonScaling: Framework modelliert CO₂-Fußabdruck von LLM-Training hardwarenah