Hugging Face veröffentlicht Carbon: Open-Source-DNA-Modell schlägt Evo2-7B bei 275× höherer Geschwindigkeit

Warum es zählt

Carbon zeigt, dass LLM-Trainingstechniken auf Genomdaten übertragbar sind – mit angepasstem Tokenizer, neuem Verlust-Ansatz (FNS) und kuratierten Daten. Als Open-Source-Release steht das Modell Forschern direkt zur Verfügung.

— Lumeric Redaktion

Loubna Ben Allal von Hugging Face hat Carbon veröffentlicht, eine Familie offener DNA-Foundation-Modelle. Das Flaggschiff Carbon-3B erreicht die Leistung des bisherigen State-of-the-Art-Modells Evo2-7B – bei 2,3-fach weniger Parametern und 275-facher Inferenzgeschwindigkeit. Das Team adaptierte bewährte LLM-Trainingsstrategien aus dem SmolLM-Projekt für genomische Daten, musste jedoch zentrale Designentscheidungen anpassen: Statt nukleotidweiser Tokenisierung oder BPE kommen deterministische 6-mer-Tokens zum Einsatz, die Sequenzen um den Faktor 6 verkürzen und Attention-Kosten senken. Während des Trainings wird die Standard-Cross-Entropy-Loss durch eine faktorizierte Loss-Funktion (FNS) ersetzt, da klassische Cross-Entropy bei 6-mer-Tokens feinkörnige Fehler nicht unterscheidet und zu Instabilitäten führt. Auch das Training-Datenregime ist auf biologische Realitäten zugeschnitten: Aus rohen Genomdaten wird ein gestuftes Gemisch aus funktionaler DNA und mRNA kuratiert, wobei alle Mischungsverhältnisse per Ablation bestimmt wurden. Der technische Bericht und ein interaktives Demo mit Biologie-Einführung für ML-Interessierte sind öffentlich zugänglich.

Was wir noch wissen

Carbon-3B hat 3 Milliarden Parameter und übertrifft Evo2-7B bei gleichzeitig 275× höherer Geschwindigkeit.
Tokenisierung via deterministische 6-mer-Tokens (1 Token = 6 Nukleotide) statt BPE oder Nukleotid-Level.
Mitte des Trainings wird auf eine faktorizierte Loss-Funktion (FNS) umgeschaltet, um Loss-Spikes zu vermeiden.
Trainingsdaten werden auf funktionale DNA + mRNA kuratiert – alle Mischungsverhältnisse per Ablation optimiert.
Technischer Bericht auf GitHub sowie Demo-Space auf Hugging Face sind öffentlich verfügbar.

Quelle lesenreddit.com

DNA-Modell SOTA (Evo2-Vergleich) · Spitzenwert

275%

Carbon-3B

Foundation Modelle Open Source Multimodal

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Hugging Face veröffentlicht Carbon: Open-Source-DNA-Modell schlägt Evo2-7B bei 275× höherer Geschwindigkeit

ToolsHugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Carbon-3B hat 3 Milliarden Parameter und übertrifft Evo2-7B bei gleichzeitig 275× höherer Geschwindigkeit.
Tokenisierung via deterministische 6-mer-Tokens (1 Token = 6 Nukleotide) statt BPE oder Nukleotid-Level.
Mitte des Trainings wird auf eine faktorizierte Loss-Funktion (FNS) umgeschaltet, um Loss-Spikes zu vermeiden.
Trainingsdaten werden auf funktionale DNA + mRNA kuratiert – alle Mischungsverhältnisse per Ablation optimiert.
Technischer Bericht auf GitHub sowie Demo-Space auf Hugging Face sind öffentlich verfügbar.

DNA-Modell SOTA (Evo2-Vergleich) · Spitzenwert

275%

Carbon-3B

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Hugging Face veröffentlicht Carbon: Open-Source-DNA-Modell schlägt Evo2-7B bei 275× höherer Geschwindigkeit

Frag die KI zum Artikel

Verwandte Beiträge

Hugging Face veröffentlicht Carbon: Open-Source-DNA-Modell schlägt Evo2-7B bei 275× höherer Geschwindigkeit

Frag die KI zum Artikel

Verwandte Beiträge