dlmserve: Erste Serving-Engine für Diffusion Language Models veröffentlicht

Warum es zählt

Wer Diffusion-LLMs wie LLaDA produktiv einsetzen will, hatte bisher keine geeignete Serving-Infrastruktur – dlmserve schließt diese Lücke mit OpenAI-API-Kompatibilität, Continuous Batching und optionaler LocalLeap-Beschleunigung.

— Lumeric Redaktion

dlmserve ist ein neu veröffentlichtes Open-Source-Projekt von Entwickler /u/Glittering_Painting8, das auf einem einzelnen RTX 5070 entstanden ist und die erste dedizierte Serving-Engine für Diffusion Language Models (DLMs) darstellt. Im Gegensatz zu autogressiven GPT-Modellen starten DLMs wie LLaDA (von gsai-ml) mit einem vollständig maskierten Satz und entrauschen alle Token parallel in mehreren Iterationsschritten – ein grundlegend anderes Paradigma, das bestehende Engines wie vLLM nicht unterstützen. dlmserve bietet eine OpenAI-kompatible HTTP-API (/v1/chat/completions), automatisches Continuous Batching auf Denoising-Step-Ebene sowie optionale LocalLeap-Beschleunigung. Gegenüber der HuggingFace-Referenzimplementierung erzielt die Engine bei Batch-Größe 4 einen 2,5-fachen Durchsatz; mit LocalLeap kommt ein weiterer Faktor ~1,8× hinzu. Die Ausgabe ist bei temperature=0 token-identisch zur Referenzimplementierung. Das Tool läuft in 12 GB VRAM und unterstützt aktuell LLaDA-8B-Instruct sowie LLaDA-1.5. Die Roadmap sieht für folgende Versionen Dream-7B, DiffuLLaMA, Block Diffusion sowie Fast-dLLM KV-Cache vor. Die Software ist MIT-lizenziert und per pipx install dlmserve installierbar.

Was wir noch wissen

Continuous Batching operiert auf Denoising-Step-Ebene, nicht auf Token-Ebene wie bei autogressiven Engines
Optionale LocalLeap-Beschleunigung liefert zusätzlich ~1,8× Throughput-Steigerung on top
Aktuell unterstützte Modelle: LLaDA-8B-Instruct und LLaDA-1.5 (v0.1)
Roadmap: Dream-7B und DiffuLLaMA in v0.2, Block Diffusion + LLaDA-2.0 + Fast-dLLM KV Cache in v0.3
Installation via pipx install dlmserve oder pip install dlmserve, MIT-Lizenz

Quelle lesenreddit.com

Open Source Inferenz Infra Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

dlmserve: Erste Serving-Engine für Diffusion Language Models veröffentlicht

Toolsv0 GPT Hugging Face Vercel

CompaniesOpenAI Hugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Continuous Batching operiert auf Denoising-Step-Ebene, nicht auf Token-Ebene wie bei autogressiven Engines
Optionale LocalLeap-Beschleunigung liefert zusätzlich ~1,8× Throughput-Steigerung on top
Aktuell unterstützte Modelle: LLaDA-8B-Instruct und LLaDA-1.5 (v0.1)
Roadmap: Dream-7B und DiffuLLaMA in v0.2, Block Diffusion + LLaDA-2.0 + Fast-dLLM KV Cache in v0.3
Installation via pipx install dlmserve oder pip install dlmserve, MIT-Lizenz

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

dlmserve: Erste Serving-Engine für Diffusion Language Models veröffentlicht

Frag die KI zum Artikel

Verwandte Beiträge

dlmserve: Erste Serving-Engine für Diffusion Language Models veröffentlicht

Frag die KI zum Artikel

Verwandte Beiträge