Qwen 3.6 27B: Lokales AR-zu-Diffusion-Training auf RTX 5090 erprobt
Der Reddit-Nutzer Revolutionary_Ask154 dokumentiert einen Experiment-Versuch, das Qwen-3.6-27B-Modell auf einer NVIDIA GeForce RTX 5090 vom autoregressiven (AR) in ein Diffusions-LLM umzutrainieren – basierend auf dem open-dLLM-Projekt, das diesen Ansatz mit Qwen 2.5 validiert und dabei einen 4×-Geschwindigkeitsvorteil gemessen hat. Das Training erfolgt im QLoRA-Format mit nvfp4-Quantisierung, ergänzt durch eine zweite GPU (RTX 4000) für Offloading – um den sonst erforderlichen VRAM-Bedarf von über 600 GB zu umgehen. Ein fertiges Modell liegt noch nicht vor; ein defektes GPU-Kabel und eine bestellte neue PSU verzögern den Prozess. Zusätzlich wurde Code aus dem d3LLM-Projekt (Ultra-Fast Diffusion LLM, hao-ai-lab) integriert, das durch MDM-Loss die Token-Reihenfolge berücksichtigt und schnellere Diffusionsschritte verspricht. Als weiterer Optimierungsansatz werden Variational Flow Maps (VFM, arXiv 2603.07276) erprobt, die ursprünglich für 1-Shot-Bilderzeugung entwickelt wurden und auf Text-Denoising übertragen werden sollen. Ein öffentliches GitHub-Repo (scrya-com/dLLM-castlehill) und Wandb-Trainings-Logs sind verlinkt. Als Sicherheitshinweis empfiehlt der Autor, die maximale Leistungsaufnahme der 5090 von 600 W auf 400 W zu drosseln.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen 3.6 27B: Lokales AR-zu-Diffusion-Training auf RTX 5090 erprobt
Der Reddit-Nutzer Revolutionary_Ask154 dokumentiert einen Experiment-Versuch, das Qwen-3.6-27B-Modell auf einer NVIDIA GeForce RTX 5090 vom autoregressiven (AR) in ein Diffusions-LLM umzutrainieren – basierend auf dem open-dLLM-Projekt, das diesen Ansatz mit Qwen 2.5 validiert und dabei einen 4×-Geschwindigkeitsvorteil gemessen hat. Das Training erfolgt im QLoRA-Format mit nvfp4-Quantisierung, ergänzt durch eine zweite GPU (RTX 4000) für Offloading – um den sonst erforderlichen VRAM-Bedarf von über 600 GB zu umgehen. Ein fertiges Modell liegt noch nicht vor; ein defektes GPU-Kabel und eine bestellte neue PSU verzögern den Prozess. Zusätzlich wurde Code aus dem d3LLM-Projekt (Ultra-Fast Diffusion LLM, hao-ai-lab) integriert, das durch MDM-Loss die Token-Reihenfolge berücksichtigt und schnellere Diffusionsschritte verspricht. Als weiterer Optimierungsansatz werden Variational Flow Maps (VFM, arXiv 2603.07276) erprobt, die ursprünglich für 1-Shot-Bilderzeugung entwickelt wurden und auf Text-Denoising übertragen werden sollen. Ein öffentliches GitHub-Repo (scrya-com/dLLM-castlehill) und Wandb-Trainings-Logs sind verlinkt. Als Sicherheitshinweis empfiehlt der Autor, die maximale Leistungsaufnahme der 5090 von 600 W auf 400 W zu drosseln.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.