MiniMax M2.7 AWQ-4bit: 2× Spark vs. 2× RTX PRO 6000 im Praxis-Benchmark
Der Reddit-Nutzer t4a8945 nutzt ein selbst aufgebautes Cluster aus zwei Asus Ascent GX10 („Spark", ca. 7.000 $, ~365 W Durchschnittsverbrauch) als Daily Driver für das MiniMax-M2.7-Modell in der AWQ-4bit-Quantisierung. Als Referenz mietete er für den Benchmark zwei RTX PRO 6000 mit je 96 GB VRAM über RunPod ($3,78/Stunde) und fuhr beide Setups mit identischer vLLM-Konfiguration (Tensor-Parallelismus 2, KV-Cache fp8_e4m3). Gemessen wurde mit dem Tool llama-benchy über Context-Längen von 4.096 bis 131.072 Tokens bei 1 und 2 parallelen Anfragen. Ergebnis: Der RTX-6000-Stack ist beim Prompt-Processing 2,7× schneller und bei der Token-Generierung 4,88× schneller – bei einem Preisunterschied von rund 2,9× (Kauf). Die Energieeffizienz, gemessen in Kosten pro 1 Million Tokens bei 0,10 $/kWh, ist für beide Setups vergleichbar. Bei zwei parallelen Anfragen und hohen Kontextlängen stoßen beide Systeme an KV-Cache-Grenzen, was die Ergebnisse uneinheitlicher macht. Der Autor plant, das RTX-6000-Setup für ein kleines Unternehmen on-prem zu optimieren, und bittet die Community um Verbesserungsvorschläge zur vLLM-Konfiguration.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
MiniMax M2.7 AWQ-4bit: 2× Spark vs. 2× RTX PRO 6000 im Praxis-Benchmark
Der Reddit-Nutzer t4a8945 nutzt ein selbst aufgebautes Cluster aus zwei Asus Ascent GX10 („Spark", ca. 7.000 $, ~365 W Durchschnittsverbrauch) als Daily Driver für das MiniMax-M2.7-Modell in der AWQ-4bit-Quantisierung. Als Referenz mietete er für den Benchmark zwei RTX PRO 6000 mit je 96 GB VRAM über RunPod ($3,78/Stunde) und fuhr beide Setups mit identischer vLLM-Konfiguration (Tensor-Parallelismus 2, KV-Cache fp8_e4m3). Gemessen wurde mit dem Tool llama-benchy über Context-Längen von 4.096 bis 131.072 Tokens bei 1 und 2 parallelen Anfragen. Ergebnis: Der RTX-6000-Stack ist beim Prompt-Processing 2,7× schneller und bei der Token-Generierung 4,88× schneller – bei einem Preisunterschied von rund 2,9× (Kauf). Die Energieeffizienz, gemessen in Kosten pro 1 Million Tokens bei 0,10 $/kWh, ist für beide Setups vergleichbar. Bei zwei parallelen Anfragen und hohen Kontextlängen stoßen beide Systeme an KV-Cache-Grenzen, was die Ergebnisse uneinheitlicher macht. Der Autor plant, das RTX-6000-Setup für ein kleines Unternehmen on-prem zu optimieren, und bittet die Community um Verbesserungsvorschläge zur vLLM-Konfiguration.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.