Qwen3.6-27B nativ auf Windows: 72 tok/s auf RTX 3090 ohne WSL

ToolsQwen GPT NVIDIA Hardware Hugging Face

Warum es zählt

Windows-Nutzer mit Ampere/Ada/Blackwell-GPUs können Qwen3.6-27B ohne Linux-Umgebung mit OpenAI-kompatiblem Endpunkt lokal betreiben; der One-Click-Installer senkt die Einstiegshürde für lokale LLM-Deployments auf Windows erheblich.

— Lumeric Redaktion

Der Reddit-Nutzer /u/One_Slip1455 hat auf GitHub einen portablen Windows-Launcher für Qwen3.6-27B veröffentlicht, der auf einem gepatchten vLLM-Fork basiert und vollständig ohne WSL, Docker, pip oder vorinstalliertes Python auskommt. Das ZIP-Archiv enthält ein eingebettetes Python-Environment sowie ein vorgefertigtes vLLM-Wheel; beim ersten Start wird automatisch die Lorbus-AutoRound-INT4-Quantisierung von HuggingFace heruntergeladen. Gemessene Durchsatzwerte auf einer RTX 3090 unter Windows 10: 72 tok/s bei kurzem Prompt, 64,5 tok/s bei ~25k-Token-Kontext, 53,4 tok/s bei 127k-Kontext auf einer einzelnen GPU sowie 160k-Kontext bei zwei RTX-3090-GPUs im Pipeline-Parallelismus (PP=2). Der Autor räumt ein, dass die Community auf Linux bereits 80–82 tok/s mit TurboQuant-3-Bit-KV bzw. 160 tok/s auf einer RTX 5090 erreicht hat. Der Launcher stellt einen OpenAI-kompatiblen Endpunkt auf http://127.0.0.1:5001/v1 bereit. Unterstützt werden Ampere-, Ada- und Blackwell-Karten (3090/4090/5090/A6000); Pascal, Turing, Arc und AMD werden explizit nicht unterstützt.

Was wir noch wissen

Portables ZIP – kein Admin, kein pip, kein separates Python nötig; Start per Doppelklick auf start.bat
Lorbus AutoRound INT4-Quantisierung wird beim Erststart automatisch von HuggingFace geladen
Zwei RTX 3090 im Pipeline-Parallelismus (PP=2) ermöglichen 160k-Kontext-Inferenz
Community-Bestwerte auf Linux: 80–82 tok/s (TurboQuant 3-Bit KV) bzw. 160 tok/s auf RTX 5090
Keine Telemetrie, MIT-Lizenz; Linux-Variante mit gepatchtem vLLM noch in Arbeit

Quelle lesenreddit.com

72 tok/s

Qwen3.6-27B auf RTX 3090 (Windows, kurzer Prompt)

Open Source Inferenz Infra Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-27B nativ auf Windows: 72 tok/s auf RTX 3090 ohne WSL

ToolsQwen GPT NVIDIA Hardware Hugging Face

CompaniesOpenAI Hugging Face NVIDIA AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Portables ZIP – kein Admin, kein pip, kein separates Python nötig; Start per Doppelklick auf start.bat
Lorbus AutoRound INT4-Quantisierung wird beim Erststart automatisch von HuggingFace geladen
Zwei RTX 3090 im Pipeline-Parallelismus (PP=2) ermöglichen 160k-Kontext-Inferenz
Community-Bestwerte auf Linux: 80–82 tok/s (TurboQuant 3-Bit KV) bzw. 160 tok/s auf RTX 5090
Keine Telemetrie, MIT-Lizenz; Linux-Variante mit gepatchtem vLLM noch in Arbeit

72 tok/s

Qwen3.6-27B auf RTX 3090 (Windows, kurzer Prompt)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Qwen3.6-27B nativ auf Windows: 72 tok/s auf RTX 3090 ohne WSL

Frag die KI zum Artikel

Verwandte Beiträge

Qwen3.6-27B nativ auf Windows: 72 tok/s auf RTX 3090 ohne WSL

Frag die KI zum Artikel

Verwandte Beiträge