Open-dLLM: Qwen3.6 als Diffusions-LLM mit über 3.000 tok/s auf RTX 5090
Der Reddit-Nutzer Revolutionary_Ask154 hat die Open-dLLM-Codebasis (ursprünglich von Fred Zhangzhi Peng, Shuibai Zhang und Alex Tong) auf Qwen3.6 portiert und dabei das LDLM-Paper (Meshchaninov et al., arXiv 2605.07933) integriert. Der Ansatz wandelt autoregressive Modelle in Diffusions-LLMs um: Statt Tokens sequenziell zu generieren, werden alle Tokens parallel über mehrere Diffusionsschritte erzeugt. Die präsentierten Durchsatzzahlen – bis zu 3.238 tok/s für Qwen3.6-35B-A3B mit 10 Diffusionsschritten bzw. ~6.500 tok/s mit 4 Schritten auf einer RTX 5090 (32 GB) – basieren jedoch auf zufällig initialisierten, untrainierten Gewichten bei einer Sequenzlänge von nur 64 Tokens. Für das Training des 35B-A3B-MoE-Modells sind lediglich 1,39B Parameter trainierbar (Perceiver/Decoder/Diffusion-Head), da nur 3B der 35B-Parameter pro Token aktiv sind. Der Code ist auf GitHub verfügbar, WandB-Trainingsmetriken werden unter dem Profil „snoozie" geführt. Der Autor sucht noch nach Compute-Credits für das vollständige Training.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Open-dLLM: Qwen3.6 als Diffusions-LLM mit über 3.000 tok/s auf RTX 5090
Der Reddit-Nutzer Revolutionary_Ask154 hat die Open-dLLM-Codebasis (ursprünglich von Fred Zhangzhi Peng, Shuibai Zhang und Alex Tong) auf Qwen3.6 portiert und dabei das LDLM-Paper (Meshchaninov et al., arXiv 2605.07933) integriert. Der Ansatz wandelt autoregressive Modelle in Diffusions-LLMs um: Statt Tokens sequenziell zu generieren, werden alle Tokens parallel über mehrere Diffusionsschritte erzeugt. Die präsentierten Durchsatzzahlen – bis zu 3.238 tok/s für Qwen3.6-35B-A3B mit 10 Diffusionsschritten bzw. ~6.500 tok/s mit 4 Schritten auf einer RTX 5090 (32 GB) – basieren jedoch auf zufällig initialisierten, untrainierten Gewichten bei einer Sequenzlänge von nur 64 Tokens. Für das Training des 35B-A3B-MoE-Modells sind lediglich 1,39B Parameter trainierbar (Perceiver/Decoder/Diffusion-Head), da nur 3B der 35B-Parameter pro Token aktiv sind. Der Code ist auf GitHub verfügbar, WandB-Trainingsmetriken werden unter dem Profil „snoozie" geführt. Der Autor sucht noch nach Compute-Credits für das vollständige Training.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.