ByteDance veröffentlicht Cola-DLM: Diffusions-Sprachmodell im kontinuierlichen Latenzraum
Cola-DLM (Continuous Latent Diffusion Language Model) ist ein hierarchisches Sprachmodell aus dem ByteDance-Seed-Team, das den klassischen autoregressiven Ansatz durch kontinuierliche Latenzraum-Diffusion ersetzt. Die Architektur besteht aus zwei Hauptkomponenten: einem Text-VAE, der Texttokens in kontinuierliche Latenz-Sequenzen komprimiert und zurückdekodiert, sowie einem block-kausalen Diffusion Transformer (DiT), der mithilfe von Flow Matching den Latenz-Prior erlernt. Das Training erfolgt zweistufig – zunächst wird der Text-VAE vortrainiert, anschließend werden beide Komponenten gemeinsam trainiert. Der veröffentlichte HuggingFace-Checkpoint entspricht dem 2000-EFLOPs-Punkt aus der Skalierungskurve (RQ4) des zugehörigen Papers. Als Tokenizer kommt der OLMo-2-Tokenizer mit einem Vokabular von 100.278 Einträgen zum Einsatz. Modellgewichte, Code und Paper (arXiv: 2605.06548) sind öffentlich unter Apache 2.0 verfügbar.
- Architektur: Text-VAE + block-kausaler Diffusion Transformer (DiT) mit Flow Matching als Trainingszielfunktion
- Tokenizer: OLMo-2-Tokenizer mit 100.278-Einträgen-Vokabular
- Checkpoint entspricht 2000-EFLOPs-Punkt aus dem RQ4-Skalierungsexperiment des Papers
- Framework-Anforderungen: PyTorch 2.1+ und HuggingFace Transformers 4.40+
- Veröffentlicht unter Apache License 2.0 – Modell, GitHub-Repo und Paper frei zugänglich
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
ByteDance veröffentlicht Cola-DLM: Diffusions-Sprachmodell im kontinuierlichen Latenzraum
Cola-DLM (Continuous Latent Diffusion Language Model) ist ein hierarchisches Sprachmodell aus dem ByteDance-Seed-Team, das den klassischen autoregressiven Ansatz durch kontinuierliche Latenzraum-Diffusion ersetzt. Die Architektur besteht aus zwei Hauptkomponenten: einem Text-VAE, der Texttokens in kontinuierliche Latenz-Sequenzen komprimiert und zurückdekodiert, sowie einem block-kausalen Diffusion Transformer (DiT), der mithilfe von Flow Matching den Latenz-Prior erlernt. Das Training erfolgt zweistufig – zunächst wird der Text-VAE vortrainiert, anschließend werden beide Komponenten gemeinsam trainiert. Der veröffentlichte HuggingFace-Checkpoint entspricht dem 2000-EFLOPs-Punkt aus der Skalierungskurve (RQ4) des zugehörigen Papers. Als Tokenizer kommt der OLMo-2-Tokenizer mit einem Vokabular von 100.278 Einträgen zum Einsatz. Modellgewichte, Code und Paper (arXiv: 2605.06548) sind öffentlich unter Apache 2.0 verfügbar.
- Architektur: Text-VAE + block-kausaler Diffusion Transformer (DiT) mit Flow Matching als Trainingszielfunktion
- Tokenizer: OLMo-2-Tokenizer mit 100.278-Einträgen-Vokabular
- Checkpoint entspricht 2000-EFLOPs-Punkt aus dem RQ4-Skalierungsexperiment des Papers
- Framework-Anforderungen: PyTorch 2.1+ und HuggingFace Transformers 4.40+
- Veröffentlicht unter Apache License 2.0 – Modell, GitHub-Repo und Paper frei zugänglich
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.