wird geladen

Qwen 3.6 27B: Lokales AR-zu-Diffusion-Training auf RTX 5090 erprobt · Lumeric

Beitrag

FORSCHUNG

reddit.com· r/LocalLLaMA1mo

Qwen 3.6 27B: Lokales AR-zu-Diffusion-Training auf RTX 5090 erprobt

ToolsQwen NVIDIA Hardware

CompaniesNVIDIA

Warum es zählt

Das zugrundeliegende open-dLLM-Verfahren erzielte bei Qwen 2.5 einen 4×-Geschwindigkeitsvorteil durch Diffusion-Realignment; gelingt das Training mit Qwen 3.6 27B auf Consumer-Hardware, wäre Diffusions-LLM-Training ohne Rechenzentrums-Ressourcen (bisher >600 GB VRAM) realisierbar.

— Lumeric Redaktion

Der Reddit-Nutzer Revolutionary_Ask154 dokumentiert einen Experiment-Versuch, das Qwen-3.6-27B-Modell auf einer NVIDIA GeForce RTX 5090 vom autoregressiven (AR) in ein Diffusions-LLM umzutrainieren – basierend auf dem open-dLLM-Projekt, das diesen Ansatz mit Qwen 2.5 validiert und dabei einen 4×-Geschwindigkeitsvorteil gemessen hat. Das Training erfolgt im QLoRA-Format mit nvfp4-Quantisierung, ergänzt durch eine zweite GPU (RTX 4000) für Offloading – um den sonst erforderlichen VRAM-Bedarf von über 600 GB zu umgehen. Ein fertiges Modell liegt noch nicht vor; ein defektes GPU-Kabel und eine bestellte neue PSU verzögern den Prozess. Zusätzlich wurde Code aus dem d3LLM-Projekt (Ultra-Fast Diffusion LLM, hao-ai-lab) integriert, das durch MDM-Loss die Token-Reihenfolge berücksichtigt und schnellere Diffusionsschritte verspricht. Als weiterer Optimierungsansatz werden Variational Flow Maps (VFM, arXiv 2603.07276) erprobt, die ursprünglich für 1-Shot-Bilderzeugung entwickelt wurden und auf Text-Denoising übertragen werden sollen. Ein öffentliches GitHub-Repo (scrya-com/dLLM-castlehill) und Wandb-Trainings-Logs sind verlinkt. Als Sicherheitshinweis empfiehlt der Autor, die maximale Leistungsaufnahme der 5090 von 600 W auf 400 W zu drosseln.

Quelle lesenreddit.com

Foundation Modelle Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

FORSCHUNG

reddit.com· r/LocalLLaMA1mo

Qwen 3.6 27B: Lokales AR-zu-Diffusion-Training auf RTX 5090 erprobt

ToolsQwen NVIDIA Hardware

CompaniesNVIDIA

Warum es zählt

Das zugrundeliegende open-dLLM-Verfahren erzielte bei Qwen 2.5 einen 4×-Geschwindigkeitsvorteil durch Diffusion-Realignment; gelingt das Training mit Qwen 3.6 27B auf Consumer-Hardware, wäre Diffusions-LLM-Training ohne Rechenzentrums-Ressourcen (bisher >600 GB VRAM) realisierbar.

— Lumeric Redaktion

Der Reddit-Nutzer Revolutionary_Ask154 dokumentiert einen Experiment-Versuch, das Qwen-3.6-27B-Modell auf einer NVIDIA GeForce RTX 5090 vom autoregressiven (AR) in ein Diffusions-LLM umzutrainieren – basierend auf dem open-dLLM-Projekt, das diesen Ansatz mit Qwen 2.5 validiert und dabei einen 4×-Geschwindigkeitsvorteil gemessen hat. Das Training erfolgt im QLoRA-Format mit nvfp4-Quantisierung, ergänzt durch eine zweite GPU (RTX 4000) für Offloading – um den sonst erforderlichen VRAM-Bedarf von über 600 GB zu umgehen. Ein fertiges Modell liegt noch nicht vor; ein defektes GPU-Kabel und eine bestellte neue PSU verzögern den Prozess. Zusätzlich wurde Code aus dem d3LLM-Projekt (Ultra-Fast Diffusion LLM, hao-ai-lab) integriert, das durch MDM-Loss die Token-Reihenfolge berücksichtigt und schnellere Diffusionsschritte verspricht. Als weiterer Optimierungsansatz werden Variational Flow Maps (VFM, arXiv 2603.07276) erprobt, die ursprünglich für 1-Shot-Bilderzeugung entwickelt wurden und auf Text-Denoising übertragen werden sollen. Ein öffentliches GitHub-Repo (scrya-com/dLLM-castlehill) und Wandb-Trainings-Logs sind verlinkt. Als Sicherheitshinweis empfiehlt der Autor, die maximale Leistungsaufnahme der 5090 von 600 W auf 400 W zu drosseln.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge