1000 Token/s mit Qwen3.6 27B auf V100-GPUs erreicht

CompaniesNVIDIA

Warum es zählt

Zeigt, dass ältere V100-Hardware bei ausreichender Parallelisierung beachtliche Durchsatzwerte für 27B-Modelle liefern kann. Für Entwickler mit bestehenden V100-Clustern ist der Single-User-Wert von 80 t/s ohne MTP ein relevanter Praxiswert.

— Lumeric Redaktion

Der Reddit-Nutzer Simple_Library_2700 hat Qwen3.6 27B auf einem Setup mit NVIDIA V100-GPUs unter maximalen Bedingungen getestet. Bei 128 gleichzeitigen Anfragen erreicht das System 1000 Token pro Sekunde in der Generierungsphase – ein Wert, der laut dem Poster weit über den eigenen praktischen Anforderungen liegt, aber die theoretische Obergrenze der Hardware demonstriert. Interessanter für reale Deployments ist der Single-User-Wert: Bei Batch-Größe 1 werden rund 80 t/s Generierung und 3000 t/s Prefill (Verarbeitung des Eingabe-Kontexts) gemessen. Besonders erwähnenswert ist, dass diese Werte ohne Multi-Token Prediction (MTP) erzielt wurden, was die Baseline-Leistung der Inferenz-Pipeline unterstreicht. Die V100-GPU gilt als ältere Architektur (Volta, 2017) ohne native FP8-Unterstützung, weshalb diese Ergebnisse zeigen, dass auch ältere Datacenter-Hardware für mittlere Modellgrößen wie 27B noch kompetitive Durchsatzraten liefern kann.

Was wir noch wissen

128 parallele Anfragen (Batch 128): ~1000 t/s Generierung
Batch 1 (Single User): ~80 t/s Generierung, ~3000 t/s Prefill
Kein MTP (Multi-Token Prediction) aktiv – reine Baseline-Inferenz
Hardware: NVIDIA V100-GPUs (Volta-Architektur)

Quelle lesenreddit.com

1000 t/s

Generierung bei 128 parallelen Anfragen

Inferenz Infra Foundation Modelle Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

1000 Token/s mit Qwen3.6 27B auf V100-GPUs erreicht

ToolsQwen NVIDIA Hardware

CompaniesNVIDIA

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

128 parallele Anfragen (Batch 128): ~1000 t/s Generierung
Batch 1 (Single User): ~80 t/s Generierung, ~3000 t/s Prefill
Kein MTP (Multi-Token Prediction) aktiv – reine Baseline-Inferenz
Hardware: NVIDIA V100-GPUs (Volta-Architektur)

1000 t/s

Generierung bei 128 parallelen Anfragen

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

1000 Token/s mit Qwen3.6 27B auf V100-GPUs erreicht

Frag die KI zum Artikel

Verwandte Beiträge

1000 Token/s mit Qwen3.6 27B auf V100-GPUs erreicht

Frag die KI zum Artikel

Verwandte Beiträge