AMD MI50 läuft Qwen3.6-27B mit 52,8 tps – ohne Quantisierung

Toolsv0 Claude Claude Code Qwen NVIDIA Hardware Hugging Face Vercel

Warum es zählt

Zeigt, dass ältere AMD-GPUs via ROCm-Fork (vllm-gfx906-mobydick) wettbewerbsfähige Inferenz für große 27B-Modelle leisten können – relevant für Budget-Setups und On-Premise-Deployments ohne Nvidia-Hardware.

— Lumeric Redaktion

Der Reddit-Nutzer ai-infos betreibt acht AMD MI50-GPUs (erschienen 2018, Architektur gfx906) mit einem spezialisierten vllm-Fork (v0.20.1, ROCm 7.2.1, PyTorch 2.11.0) und führt darauf das unquantisierte Qwen3.6-27B-Modell in float16 aus. Mit Tensor-Parallelismus auf 8 GPUs (TP8) erreicht er 52,8 tps Token-Generation und 1569 tps Prompt-Processing bei Eingabeprompts von 1k bzw. 15k Token. Das Modell passt laut Post auch mit TP2 in den VRAM und liefert dort rund 34 tps TG. Der verwendete vllm-Fork „mobydick" ist öffentlich auf GitHub verfügbar und aktiviert Triton-basiertes Flash Attention für AMD. MTP (Multi-Token Prediction) und DFlash wurden deaktiviert, da beide bei großen Prompts langsamer sind. Als Einsatzszenarien nennt der Autor agentenbasierte Harnesses wie Claude Code oder Hermes. Der Nutzer sieht weiteres Optimierungspotenzial durch PCIe-Switches mit niedrigerer Latenz sowie optimiertes DFlash/MTP für ROCm/gfx906.

Was wir noch wissen

TP8-Konfiguration: 8× AMD MI50 (gfx906, 2018), float16, kein Quant, max-model-len auto
Mit TP2 läuft das Modell ebenfalls und liefert ~34 tps TG
Benchmark: 4 Prompts à 10.000 Input-Token, 1.000 Output-Token; Mean TPOT 88,66 ms
vllm-Fork: github.com/ai-infos/vllm-gfx906-mobydick, v0.20.1rc0, ROCm 7.2.1
Weiterentwicklungspotenzial: PCIe-Switch-Latenz, optimiertes DFlash/MTP für ROCm/gfx906

Quelle lesenreddit.com

52,8 tps TG

Token-Generation, Qwen3.6-27B, TP8, float16

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

AMD MI50 läuft Qwen3.6-27B mit 52,8 tps – ohne Quantisierung

Toolsv0 Claude Claude Code Qwen NVIDIA Hardware Hugging Face Vercel

CompaniesHugging Face NVIDIA AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

TP8-Konfiguration: 8× AMD MI50 (gfx906, 2018), float16, kein Quant, max-model-len auto
Mit TP2 läuft das Modell ebenfalls und liefert ~34 tps TG
Benchmark: 4 Prompts à 10.000 Input-Token, 1.000 Output-Token; Mean TPOT 88,66 ms
vllm-Fork: github.com/ai-infos/vllm-gfx906-mobydick, v0.20.1rc0, ROCm 7.2.1
Weiterentwicklungspotenzial: PCIe-Switch-Latenz, optimiertes DFlash/MTP für ROCm/gfx906

52,8 tps TG

Token-Generation, Qwen3.6-27B, TP8, float16

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

AMD MI50 läuft Qwen3.6-27B mit 52,8 tps – ohne Quantisierung

Frag die KI zum Artikel

Verwandte Beiträge

AMD MI50 läuft Qwen3.6-27B mit 52,8 tps – ohne Quantisierung

Frag die KI zum Artikel

Verwandte Beiträge