MiniMax M2.7 AWQ-4bit: 2× Spark vs. 2× RTX PRO 6000 im Praxis-Benchmark

Warum es zählt

Wer MiniMax M2.7 lokal betreibt, bekommt konkrete Zahlen für den Kosten-Leistungs-Vergleich zwischen Consumer-naher Spark-Hardware und High-End-Datacenter-GPUs – die Energieeffizienz pro 1 M Tokens ist bei beiden Setups überraschend ähnlich.

— Lumeric Redaktion

Der Reddit-Nutzer t4a8945 nutzt ein selbst aufgebautes Cluster aus zwei Asus Ascent GX10 („Spark", ca. 7.000 $, ~365 W Durchschnittsverbrauch) als Daily Driver für das MiniMax-M2.7-Modell in der AWQ-4bit-Quantisierung. Als Referenz mietete er für den Benchmark zwei RTX PRO 6000 mit je 96 GB VRAM über RunPod ($3,78/Stunde) und fuhr beide Setups mit identischer vLLM-Konfiguration (Tensor-Parallelismus 2, KV-Cache fp8_e4m3). Gemessen wurde mit dem Tool llama-benchy über Context-Längen von 4.096 bis 131.072 Tokens bei 1 und 2 parallelen Anfragen. Ergebnis: Der RTX-6000-Stack ist beim Prompt-Processing 2,7× schneller und bei der Token-Generierung 4,88× schneller – bei einem Preisunterschied von rund 2,9× (Kauf). Die Energieeffizienz, gemessen in Kosten pro 1 Million Tokens bei 0,10 $/kWh, ist für beide Setups vergleichbar. Bei zwei parallelen Anfragen und hohen Kontextlängen stoßen beide Systeme an KV-Cache-Grenzen, was die Ergebnisse uneinheitlicher macht. Der Autor plant, das RTX-6000-Setup für ein kleines Unternehmen on-prem zu optimieren, und bittet die Community um Verbesserungsvorschläge zur vLLM-Konfiguration.

Quelle lesenreddit.com

llama-benchy Token Generation (t/s, concurrency 1) · Spitzenwert

4.88%

2× RTX PRO 6000 96GB

Foundation Modelle Inferenz Infra Evals Benchmarks