wird geladen

Open-dLLM: Qwen3.6 als Diffusions-LLM mit über 3.000 tok/s auf RTX 5090 · Lumeric

Beitrag

BENCHMARK

reddit.com· r/LocalLLaMA1mo

Open-dLLM: Qwen3.6 als Diffusions-LLM mit über 3.000 tok/s auf RTX 5090

ToolsQwen DeepSeek

CompaniesDeepSeek Perplexity Google DeepMind

Warum es zählt

Diffusions-basierte LLMs generieren alle Tokens parallel statt sequenziell, was bei kurzen Sequenzen enorme Durchsatzzahlen ermöglicht. Die Gewichte sind noch untrainiert – ob die Qualität mit AR-Modellen mithalten kann, bleibt offen.

— Lumeric Redaktion

Der Reddit-Nutzer Revolutionary_Ask154 hat die Open-dLLM-Codebasis (ursprünglich von Fred Zhangzhi Peng, Shuibai Zhang und Alex Tong) auf Qwen3.6 portiert und dabei das LDLM-Paper (Meshchaninov et al., arXiv 2605.07933) integriert. Der Ansatz wandelt autoregressive Modelle in Diffusions-LLMs um: Statt Tokens sequenziell zu generieren, werden alle Tokens parallel über mehrere Diffusionsschritte erzeugt. Die präsentierten Durchsatzzahlen – bis zu 3.238 tok/s für Qwen3.6-35B-A3B mit 10 Diffusionsschritten bzw. ~6.500 tok/s mit 4 Schritten auf einer RTX 5090 (32 GB) – basieren jedoch auf zufällig initialisierten, untrainierten Gewichten bei einer Sequenzlänge von nur 64 Tokens. Für das Training des 35B-A3B-MoE-Modells sind lediglich 1,39B Parameter trainierbar (Perceiver/Decoder/Diffusion-Head), da nur 3B der 35B-Parameter pro Token aktiv sind. Der Code ist auf GitHub verfügbar, WandB-Trainingsmetriken werden unter dem Profil „snoozie" geführt. Der Autor sucht noch nach Compute-Credits für das vollständige Training.

Quelle lesenreddit.com

Inference Throughput – RTX 5090 (Seq len=64, Batch=1) · Spitzenwert

3238%

Qwen3.6-35B-A3B (10 Steps)

Foundation Modelle Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

BENCHMARK

reddit.com· r/LocalLLaMA1mo

Open-dLLM: Qwen3.6 als Diffusions-LLM mit über 3.000 tok/s auf RTX 5090

ToolsQwen DeepSeek

CompaniesDeepSeek Perplexity Google DeepMind

Warum es zählt

Diffusions-basierte LLMs generieren alle Tokens parallel statt sequenziell, was bei kurzen Sequenzen enorme Durchsatzzahlen ermöglicht. Die Gewichte sind noch untrainiert – ob die Qualität mit AR-Modellen mithalten kann, bleibt offen.

— Lumeric Redaktion

Der Reddit-Nutzer Revolutionary_Ask154 hat die Open-dLLM-Codebasis (ursprünglich von Fred Zhangzhi Peng, Shuibai Zhang und Alex Tong) auf Qwen3.6 portiert und dabei das LDLM-Paper (Meshchaninov et al., arXiv 2605.07933) integriert. Der Ansatz wandelt autoregressive Modelle in Diffusions-LLMs um: Statt Tokens sequenziell zu generieren, werden alle Tokens parallel über mehrere Diffusionsschritte erzeugt. Die präsentierten Durchsatzzahlen – bis zu 3.238 tok/s für Qwen3.6-35B-A3B mit 10 Diffusionsschritten bzw. ~6.500 tok/s mit 4 Schritten auf einer RTX 5090 (32 GB) – basieren jedoch auf zufällig initialisierten, untrainierten Gewichten bei einer Sequenzlänge von nur 64 Tokens. Für das Training des 35B-A3B-MoE-Modells sind lediglich 1,39B Parameter trainierbar (Perceiver/Decoder/Diffusion-Head), da nur 3B der 35B-Parameter pro Token aktiv sind. Der Code ist auf GitHub verfügbar, WandB-Trainingsmetriken werden unter dem Profil „snoozie" geführt. Der Autor sucht noch nach Compute-Credits für das vollständige Training.

Inference Throughput – RTX 5090 (Seq len=64, Batch=1) · Spitzenwert

3238%

Qwen3.6-35B-A3B (10 Steps)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge