32× AMD MI50: 9,7 tok/s Durchsatz mit Kimi K2.6 auf custom vLLM

Warum es zählt

Zeigt praktische Machbarkeit von Multi-GPU-Inferenz auf Budget-Hardware, offenbart aber auch Grenzen: trotz großer Parallelität rechtfertigt sich das Setup nur mit kostenloser Energie. Relevante technische Details (PCIe-Bottlenecks, Optimierungspotenziale) für DIY-Inferenz-Cluster-Builder.

— Lumeric Redaktion

Der Nutzer ai-infos hat ein experimentelles Inferenz-Cluster aus 32 AMD MI50-32GB-GPUs aufgebaut, verteilt auf zwei physische Knoten mit 10G-Ethernet-Verbindung. Die Kimi K2.6 Int4-Quantisierung läuft auf einer modifizierten vLLM-Fork (vllm-gfx906-mobydick) mit Tensor Parallelism über beide Knoten. Erreichte Metriken: 9,7 Tokens/s Output-Durchsatz (136 Token), 263 Tokens/s Input-Durchsatz (14.564 Token). Stromverbrauch liegt bei ~640W im Idle und ~4.800W unter Last. Der Autor identifiziert PCIe-Bottlenecks als Hauptproblem (teilweise nur 3,5 GB/s statt 7 GB/s), sieht aber theoretisches Optimierungspotenzial auf 600–1.000 Tokens/s PP und 9–12 Tokens/s TG mit optimierten PCIe-Konfigurationen und vLLM-Stack. Der Setup-Code ist auf GitHub dokumentiert; ein vereinfachtes OpenAI-API-Script könnnte ebenfalls veröffentlicht werden.

Was wir noch wissen

32× MI50 32GB auf 2 Knoten à 16 GPUs mit 10G Ethernet verbunden (Tensor Parallelism über beide Knoten hinweg)
PCIe Gen3 x8 und Gen4 x4: Instabilität der Riser führt zu Bandbreitendrosslung auf 3,5 GB/s statt maximal 7 GB/s
Stromverbrauch: ~640W Idle, ~4.800W Peak; Wirtschaftlichkeit nur mit kostenloser Energie
Kimi K2.6 Int4 auf vLLM-Fork mit optimierten Flash Attention (Triton AMD); OpenAI-API-Wrapper basierend auf offiziellen vLLM-Beispielen
Theoretische Verbesserung durch Optimierung auf max. PCIe Bandwidth (28 GB/s x16 oder 14 GB/s x8) und TP8/PP4 oder TP4/PP8 Config

Quelle lesenreddit.com

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

32× AMD MI50: 9,7 tok/s Durchsatz mit Kimi K2.6 auf custom vLLM

ToolsGPT DeepSeek

CompaniesOpenAI DeepSeek AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

32× MI50 32GB auf 2 Knoten à 16 GPUs mit 10G Ethernet verbunden (Tensor Parallelism über beide Knoten hinweg)
PCIe Gen3 x8 und Gen4 x4: Instabilität der Riser führt zu Bandbreitendrosslung auf 3,5 GB/s statt maximal 7 GB/s
Stromverbrauch: ~640W Idle, ~4.800W Peak; Wirtschaftlichkeit nur mit kostenloser Energie
Kimi K2.6 Int4 auf vLLM-Fork mit optimierten Flash Attention (Triton AMD); OpenAI-API-Wrapper basierend auf offiziellen vLLM-Beispielen
Theoretische Verbesserung durch Optimierung auf max. PCIe Bandwidth (28 GB/s x16 oder 14 GB/s x8) und TP8/PP4 oder TP4/PP8 Config

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

32× AMD MI50: 9,7 tok/s Durchsatz mit Kimi K2.6 auf custom vLLM

Frag die KI zum Artikel

Verwandte Beiträge

32× AMD MI50: 9,7 tok/s Durchsatz mit Kimi K2.6 auf custom vLLM

Frag die KI zum Artikel

Verwandte Beiträge