32× AMD MI50: 9,7 tok/s Durchsatz mit Kimi K2.6 auf custom vLLM
Der Nutzer ai-infos hat ein experimentelles Inferenz-Cluster aus 32 AMD MI50-32GB-GPUs aufgebaut, verteilt auf zwei physische Knoten mit 10G-Ethernet-Verbindung. Die Kimi K2.6 Int4-Quantisierung läuft auf einer modifizierten vLLM-Fork (vllm-gfx906-mobydick) mit Tensor Parallelism über beide Knoten. Erreichte Metriken: 9,7 Tokens/s Output-Durchsatz (136 Token), 263 Tokens/s Input-Durchsatz (14.564 Token). Stromverbrauch liegt bei ~640W im Idle und ~4.800W unter Last. Der Autor identifiziert PCIe-Bottlenecks als Hauptproblem (teilweise nur 3,5 GB/s statt 7 GB/s), sieht aber theoretisches Optimierungspotenzial auf 600–1.000 Tokens/s PP und 9–12 Tokens/s TG mit optimierten PCIe-Konfigurationen und vLLM-Stack. Der Setup-Code ist auf GitHub dokumentiert; ein vereinfachtes OpenAI-API-Script könnnte ebenfalls veröffentlicht werden.
- 32× MI50 32GB auf 2 Knoten à 16 GPUs mit 10G Ethernet verbunden (Tensor Parallelism über beide Knoten hinweg)
- PCIe Gen3 x8 und Gen4 x4: Instabilität der Riser führt zu Bandbreitendrosslung auf 3,5 GB/s statt maximal 7 GB/s
- Stromverbrauch: ~640W Idle, ~4.800W Peak; Wirtschaftlichkeit nur mit kostenloser Energie
- Kimi K2.6 Int4 auf vLLM-Fork mit optimierten Flash Attention (Triton AMD); OpenAI-API-Wrapper basierend auf offiziellen vLLM-Beispielen
- Theoretische Verbesserung durch Optimierung auf max. PCIe Bandwidth (28 GB/s x16 oder 14 GB/s x8) und TP8/PP4 oder TP4/PP8 Config
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
32× AMD MI50: 9,7 tok/s Durchsatz mit Kimi K2.6 auf custom vLLM
Der Nutzer ai-infos hat ein experimentelles Inferenz-Cluster aus 32 AMD MI50-32GB-GPUs aufgebaut, verteilt auf zwei physische Knoten mit 10G-Ethernet-Verbindung. Die Kimi K2.6 Int4-Quantisierung läuft auf einer modifizierten vLLM-Fork (vllm-gfx906-mobydick) mit Tensor Parallelism über beide Knoten. Erreichte Metriken: 9,7 Tokens/s Output-Durchsatz (136 Token), 263 Tokens/s Input-Durchsatz (14.564 Token). Stromverbrauch liegt bei ~640W im Idle und ~4.800W unter Last. Der Autor identifiziert PCIe-Bottlenecks als Hauptproblem (teilweise nur 3,5 GB/s statt 7 GB/s), sieht aber theoretisches Optimierungspotenzial auf 600–1.000 Tokens/s PP und 9–12 Tokens/s TG mit optimierten PCIe-Konfigurationen und vLLM-Stack. Der Setup-Code ist auf GitHub dokumentiert; ein vereinfachtes OpenAI-API-Script könnnte ebenfalls veröffentlicht werden.
- 32× MI50 32GB auf 2 Knoten à 16 GPUs mit 10G Ethernet verbunden (Tensor Parallelism über beide Knoten hinweg)
- PCIe Gen3 x8 und Gen4 x4: Instabilität der Riser führt zu Bandbreitendrosslung auf 3,5 GB/s statt maximal 7 GB/s
- Stromverbrauch: ~640W Idle, ~4.800W Peak; Wirtschaftlichkeit nur mit kostenloser Energie
- Kimi K2.6 Int4 auf vLLM-Fork mit optimierten Flash Attention (Triton AMD); OpenAI-API-Wrapper basierend auf offiziellen vLLM-Beispielen
- Theoretische Verbesserung durch Optimierung auf max. PCIe Bandwidth (28 GB/s x16 oder 14 GB/s x8) und TP8/PP4 oder TP4/PP8 Config
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.