AMD MI50 läuft Qwen3.6-27B mit 52,8 tps – ohne Quantisierung
Der Reddit-Nutzer ai-infos betreibt acht AMD MI50-GPUs (erschienen 2018, Architektur gfx906) mit einem spezialisierten vllm-Fork (v0.20.1, ROCm 7.2.1, PyTorch 2.11.0) und führt darauf das unquantisierte Qwen3.6-27B-Modell in float16 aus. Mit Tensor-Parallelismus auf 8 GPUs (TP8) erreicht er 52,8 tps Token-Generation und 1569 tps Prompt-Processing bei Eingabeprompts von 1k bzw. 15k Token. Das Modell passt laut Post auch mit TP2 in den VRAM und liefert dort rund 34 tps TG. Der verwendete vllm-Fork „mobydick" ist öffentlich auf GitHub verfügbar und aktiviert Triton-basiertes Flash Attention für AMD. MTP (Multi-Token Prediction) und DFlash wurden deaktiviert, da beide bei großen Prompts langsamer sind. Als Einsatzszenarien nennt der Autor agentenbasierte Harnesses wie Claude Code oder Hermes. Der Nutzer sieht weiteres Optimierungspotenzial durch PCIe-Switches mit niedrigerer Latenz sowie optimiertes DFlash/MTP für ROCm/gfx906.
- TP8-Konfiguration: 8× AMD MI50 (gfx906, 2018), float16, kein Quant, max-model-len auto
- Mit TP2 läuft das Modell ebenfalls und liefert ~34 tps TG
- Benchmark: 4 Prompts à 10.000 Input-Token, 1.000 Output-Token; Mean TPOT 88,66 ms
- vllm-Fork: github.com/ai-infos/vllm-gfx906-mobydick, v0.20.1rc0, ROCm 7.2.1
- Weiterentwicklungspotenzial: PCIe-Switch-Latenz, optimiertes DFlash/MTP für ROCm/gfx906
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
AMD MI50 läuft Qwen3.6-27B mit 52,8 tps – ohne Quantisierung
Der Reddit-Nutzer ai-infos betreibt acht AMD MI50-GPUs (erschienen 2018, Architektur gfx906) mit einem spezialisierten vllm-Fork (v0.20.1, ROCm 7.2.1, PyTorch 2.11.0) und führt darauf das unquantisierte Qwen3.6-27B-Modell in float16 aus. Mit Tensor-Parallelismus auf 8 GPUs (TP8) erreicht er 52,8 tps Token-Generation und 1569 tps Prompt-Processing bei Eingabeprompts von 1k bzw. 15k Token. Das Modell passt laut Post auch mit TP2 in den VRAM und liefert dort rund 34 tps TG. Der verwendete vllm-Fork „mobydick" ist öffentlich auf GitHub verfügbar und aktiviert Triton-basiertes Flash Attention für AMD. MTP (Multi-Token Prediction) und DFlash wurden deaktiviert, da beide bei großen Prompts langsamer sind. Als Einsatzszenarien nennt der Autor agentenbasierte Harnesses wie Claude Code oder Hermes. Der Nutzer sieht weiteres Optimierungspotenzial durch PCIe-Switches mit niedrigerer Latenz sowie optimiertes DFlash/MTP für ROCm/gfx906.
- TP8-Konfiguration: 8× AMD MI50 (gfx906, 2018), float16, kein Quant, max-model-len auto
- Mit TP2 läuft das Modell ebenfalls und liefert ~34 tps TG
- Benchmark: 4 Prompts à 10.000 Input-Token, 1.000 Output-Token; Mean TPOT 88,66 ms
- vllm-Fork: github.com/ai-infos/vllm-gfx906-mobydick, v0.20.1rc0, ROCm 7.2.1
- Weiterentwicklungspotenzial: PCIe-Switch-Latenz, optimiertes DFlash/MTP für ROCm/gfx906
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.