Qwen3.6-27B nativ auf Windows: 72 tok/s auf RTX 3090 ohne WSL
Der Reddit-Nutzer /u/One_Slip1455 hat auf GitHub einen portablen Windows-Launcher für Qwen3.6-27B veröffentlicht, der auf einem gepatchten vLLM-Fork basiert und vollständig ohne WSL, Docker, pip oder vorinstalliertes Python auskommt. Das ZIP-Archiv enthält ein eingebettetes Python-Environment sowie ein vorgefertigtes vLLM-Wheel; beim ersten Start wird automatisch die Lorbus-AutoRound-INT4-Quantisierung von HuggingFace heruntergeladen. Gemessene Durchsatzwerte auf einer RTX 3090 unter Windows 10: 72 tok/s bei kurzem Prompt, 64,5 tok/s bei ~25k-Token-Kontext, 53,4 tok/s bei 127k-Kontext auf einer einzelnen GPU sowie 160k-Kontext bei zwei RTX-3090-GPUs im Pipeline-Parallelismus (PP=2). Der Autor räumt ein, dass die Community auf Linux bereits 80–82 tok/s mit TurboQuant-3-Bit-KV bzw. 160 tok/s auf einer RTX 5090 erreicht hat. Der Launcher stellt einen OpenAI-kompatiblen Endpunkt auf http://127.0.0.1:5001/v1 bereit. Unterstützt werden Ampere-, Ada- und Blackwell-Karten (3090/4090/5090/A6000); Pascal, Turing, Arc und AMD werden explizit nicht unterstützt.
- Portables ZIP – kein Admin, kein pip, kein separates Python nötig; Start per Doppelklick auf start.bat
- Lorbus AutoRound INT4-Quantisierung wird beim Erststart automatisch von HuggingFace geladen
- Zwei RTX 3090 im Pipeline-Parallelismus (PP=2) ermöglichen 160k-Kontext-Inferenz
- Community-Bestwerte auf Linux: 80–82 tok/s (TurboQuant 3-Bit KV) bzw. 160 tok/s auf RTX 5090
- Keine Telemetrie, MIT-Lizenz; Linux-Variante mit gepatchtem vLLM noch in Arbeit
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3.6-27B nativ auf Windows: 72 tok/s auf RTX 3090 ohne WSL
Der Reddit-Nutzer /u/One_Slip1455 hat auf GitHub einen portablen Windows-Launcher für Qwen3.6-27B veröffentlicht, der auf einem gepatchten vLLM-Fork basiert und vollständig ohne WSL, Docker, pip oder vorinstalliertes Python auskommt. Das ZIP-Archiv enthält ein eingebettetes Python-Environment sowie ein vorgefertigtes vLLM-Wheel; beim ersten Start wird automatisch die Lorbus-AutoRound-INT4-Quantisierung von HuggingFace heruntergeladen. Gemessene Durchsatzwerte auf einer RTX 3090 unter Windows 10: 72 tok/s bei kurzem Prompt, 64,5 tok/s bei ~25k-Token-Kontext, 53,4 tok/s bei 127k-Kontext auf einer einzelnen GPU sowie 160k-Kontext bei zwei RTX-3090-GPUs im Pipeline-Parallelismus (PP=2). Der Autor räumt ein, dass die Community auf Linux bereits 80–82 tok/s mit TurboQuant-3-Bit-KV bzw. 160 tok/s auf einer RTX 5090 erreicht hat. Der Launcher stellt einen OpenAI-kompatiblen Endpunkt auf http://127.0.0.1:5001/v1 bereit. Unterstützt werden Ampere-, Ada- und Blackwell-Karten (3090/4090/5090/A6000); Pascal, Turing, Arc und AMD werden explizit nicht unterstützt.
- Portables ZIP – kein Admin, kein pip, kein separates Python nötig; Start per Doppelklick auf start.bat
- Lorbus AutoRound INT4-Quantisierung wird beim Erststart automatisch von HuggingFace geladen
- Zwei RTX 3090 im Pipeline-Parallelismus (PP=2) ermöglichen 160k-Kontext-Inferenz
- Community-Bestwerte auf Linux: 80–82 tok/s (TurboQuant 3-Bit KV) bzw. 160 tok/s auf RTX 5090
- Keine Telemetrie, MIT-Lizenz; Linux-Variante mit gepatchtem vLLM noch in Arbeit
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.