dlmserve: Erste Serving-Engine für Diffusion Language Models veröffentlicht
dlmserve ist ein neu veröffentlichtes Open-Source-Projekt von Entwickler /u/Glittering_Painting8, das auf einem einzelnen RTX 5070 entstanden ist und die erste dedizierte Serving-Engine für Diffusion Language Models (DLMs) darstellt. Im Gegensatz zu autogressiven GPT-Modellen starten DLMs wie LLaDA (von gsai-ml) mit einem vollständig maskierten Satz und entrauschen alle Token parallel in mehreren Iterationsschritten – ein grundlegend anderes Paradigma, das bestehende Engines wie vLLM nicht unterstützen. dlmserve bietet eine OpenAI-kompatible HTTP-API (/v1/chat/completions), automatisches Continuous Batching auf Denoising-Step-Ebene sowie optionale LocalLeap-Beschleunigung. Gegenüber der HuggingFace-Referenzimplementierung erzielt die Engine bei Batch-Größe 4 einen 2,5-fachen Durchsatz; mit LocalLeap kommt ein weiterer Faktor ~1,8× hinzu. Die Ausgabe ist bei temperature=0 token-identisch zur Referenzimplementierung. Das Tool läuft in 12 GB VRAM und unterstützt aktuell LLaDA-8B-Instruct sowie LLaDA-1.5. Die Roadmap sieht für folgende Versionen Dream-7B, DiffuLLaMA, Block Diffusion sowie Fast-dLLM KV-Cache vor. Die Software ist MIT-lizenziert und per pipx install dlmserve installierbar.
- Continuous Batching operiert auf Denoising-Step-Ebene, nicht auf Token-Ebene wie bei autogressiven Engines
- Optionale LocalLeap-Beschleunigung liefert zusätzlich ~1,8× Throughput-Steigerung on top
- Aktuell unterstützte Modelle: LLaDA-8B-Instruct und LLaDA-1.5 (v0.1)
- Roadmap: Dream-7B und DiffuLLaMA in v0.2, Block Diffusion + LLaDA-2.0 + Fast-dLLM KV Cache in v0.3
- Installation via pipx install dlmserve oder pip install dlmserve, MIT-Lizenz
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
TAD verbessert Accuracy-Parallelismus-Trade-off bei Diffusion-LLMs deutlich
- FORSCHUNGhuggingface.co2w
Orthrus: Dual-Architektur für speichereffiziente parallele Token-Generierung
- FORSCHUNGarxiv.org2d
SPA-Cache: 8× Durchsatz-Boost für Diffusion Language Models via adaptivem Caching
- MEINUNGreddit.com2w
vLLM vs. llama.cpp: Lohnt sich vLLM für Solo-Nutzer?
dlmserve: Erste Serving-Engine für Diffusion Language Models veröffentlicht
dlmserve ist ein neu veröffentlichtes Open-Source-Projekt von Entwickler /u/Glittering_Painting8, das auf einem einzelnen RTX 5070 entstanden ist und die erste dedizierte Serving-Engine für Diffusion Language Models (DLMs) darstellt. Im Gegensatz zu autogressiven GPT-Modellen starten DLMs wie LLaDA (von gsai-ml) mit einem vollständig maskierten Satz und entrauschen alle Token parallel in mehreren Iterationsschritten – ein grundlegend anderes Paradigma, das bestehende Engines wie vLLM nicht unterstützen. dlmserve bietet eine OpenAI-kompatible HTTP-API (/v1/chat/completions), automatisches Continuous Batching auf Denoising-Step-Ebene sowie optionale LocalLeap-Beschleunigung. Gegenüber der HuggingFace-Referenzimplementierung erzielt die Engine bei Batch-Größe 4 einen 2,5-fachen Durchsatz; mit LocalLeap kommt ein weiterer Faktor ~1,8× hinzu. Die Ausgabe ist bei temperature=0 token-identisch zur Referenzimplementierung. Das Tool läuft in 12 GB VRAM und unterstützt aktuell LLaDA-8B-Instruct sowie LLaDA-1.5. Die Roadmap sieht für folgende Versionen Dream-7B, DiffuLLaMA, Block Diffusion sowie Fast-dLLM KV-Cache vor. Die Software ist MIT-lizenziert und per pipx install dlmserve installierbar.
- Continuous Batching operiert auf Denoising-Step-Ebene, nicht auf Token-Ebene wie bei autogressiven Engines
- Optionale LocalLeap-Beschleunigung liefert zusätzlich ~1,8× Throughput-Steigerung on top
- Aktuell unterstützte Modelle: LLaDA-8B-Instruct und LLaDA-1.5 (v0.1)
- Roadmap: Dream-7B und DiffuLLaMA in v0.2, Block Diffusion + LLaDA-2.0 + Fast-dLLM KV Cache in v0.3
- Installation via pipx install dlmserve oder pip install dlmserve, MIT-Lizenz
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org2w
TAD verbessert Accuracy-Parallelismus-Trade-off bei Diffusion-LLMs deutlich
- FORSCHUNGhuggingface.co2w
Orthrus: Dual-Architektur für speichereffiziente parallele Token-Generierung
- FORSCHUNGarxiv.org2d
SPA-Cache: 8× Durchsatz-Boost für Diffusion Language Models via adaptivem Caching
- MEINUNGreddit.com2w
vLLM vs. llama.cpp: Lohnt sich vLLM für Solo-Nutzer?