ByteDance veröffentlicht Cola-DLM: Diffusions-Sprachmodell im kontinuierlichen Latenzraum

Warum es zählt

Cola-DLM zeigt einen alternativen Ansatz zu autogressiven LLMs durch kontinuierliche Latenzraum-Diffusion – mit zweistufigem Training und offenem Apache-2.0-Checkpoint, der für Forscher direkt reproduzierbar ist.

— Lumeric Redaktion

Cola-DLM (Continuous Latent Diffusion Language Model) ist ein hierarchisches Sprachmodell aus dem ByteDance-Seed-Team, das den klassischen autoregressiven Ansatz durch kontinuierliche Latenzraum-Diffusion ersetzt. Die Architektur besteht aus zwei Hauptkomponenten: einem Text-VAE, der Texttokens in kontinuierliche Latenz-Sequenzen komprimiert und zurückdekodiert, sowie einem block-kausalen Diffusion Transformer (DiT), der mithilfe von Flow Matching den Latenz-Prior erlernt. Das Training erfolgt zweistufig – zunächst wird der Text-VAE vortrainiert, anschließend werden beide Komponenten gemeinsam trainiert. Der veröffentlichte HuggingFace-Checkpoint entspricht dem 2000-EFLOPs-Punkt aus der Skalierungskurve (RQ4) des zugehörigen Papers. Als Tokenizer kommt der OLMo-2-Tokenizer mit einem Vokabular von 100.278 Einträgen zum Einsatz. Modellgewichte, Code und Paper (arXiv: 2605.06548) sind öffentlich unter Apache 2.0 verfügbar.

Was wir noch wissen

Architektur: Text-VAE + block-kausaler Diffusion Transformer (DiT) mit Flow Matching als Trainingszielfunktion
Tokenizer: OLMo-2-Tokenizer mit 100.278-Einträgen-Vokabular
Checkpoint entspricht 2000-EFLOPs-Punkt aus dem RQ4-Skalierungsexperiment des Papers
Framework-Anforderungen: PyTorch 2.1+ und HuggingFace Transformers 4.40+
Veröffentlicht unter Apache License 2.0 – Modell, GitHub-Repo und Paper frei zugänglich

Quelle lesenreddit.com

2000 EFLOPs

Trainings-Compute des veröffentlichten Checkpoints

Foundation Modelle Open Source Post Training

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

ByteDance veröffentlicht Cola-DLM: Diffusions-Sprachmodell im kontinuierlichen Latenzraum

ToolsHugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Architektur: Text-VAE + block-kausaler Diffusion Transformer (DiT) mit Flow Matching als Trainingszielfunktion
Tokenizer: OLMo-2-Tokenizer mit 100.278-Einträgen-Vokabular
Checkpoint entspricht 2000-EFLOPs-Punkt aus dem RQ4-Skalierungsexperiment des Papers
Framework-Anforderungen: PyTorch 2.1+ und HuggingFace Transformers 4.40+
Veröffentlicht unter Apache License 2.0 – Modell, GitHub-Repo und Paper frei zugänglich

2000 EFLOPs

Trainings-Compute des veröffentlichten Checkpoints

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

ByteDance veröffentlicht Cola-DLM: Diffusions-Sprachmodell im kontinuierlichen Latenzraum

Frag die KI zum Artikel

Verwandte Beiträge

ByteDance veröffentlicht Cola-DLM: Diffusions-Sprachmodell im kontinuierlichen Latenzraum

Frag die KI zum Artikel

Verwandte Beiträge