1000 Token/s mit Qwen3.6 27B auf V100-GPUs erreicht
Der Reddit-Nutzer Simple_Library_2700 hat Qwen3.6 27B auf einem Setup mit NVIDIA V100-GPUs unter maximalen Bedingungen getestet. Bei 128 gleichzeitigen Anfragen erreicht das System 1000 Token pro Sekunde in der Generierungsphase – ein Wert, der laut dem Poster weit über den eigenen praktischen Anforderungen liegt, aber die theoretische Obergrenze der Hardware demonstriert. Interessanter für reale Deployments ist der Single-User-Wert: Bei Batch-Größe 1 werden rund 80 t/s Generierung und 3000 t/s Prefill (Verarbeitung des Eingabe-Kontexts) gemessen. Besonders erwähnenswert ist, dass diese Werte ohne Multi-Token Prediction (MTP) erzielt wurden, was die Baseline-Leistung der Inferenz-Pipeline unterstreicht. Die V100-GPU gilt als ältere Architektur (Volta, 2017) ohne native FP8-Unterstützung, weshalb diese Ergebnisse zeigen, dass auch ältere Datacenter-Hardware für mittlere Modellgrößen wie 27B noch kompetitive Durchsatzraten liefern kann.
- 128 parallele Anfragen (Batch 128): ~1000 t/s Generierung
- Batch 1 (Single User): ~80 t/s Generierung, ~3000 t/s Prefill
- Kein MTP (Multi-Token Prediction) aktiv – reine Baseline-Inferenz
- Hardware: NVIDIA V100-GPUs (Volta-Architektur)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
1000 Token/s mit Qwen3.6 27B auf V100-GPUs erreicht
Der Reddit-Nutzer Simple_Library_2700 hat Qwen3.6 27B auf einem Setup mit NVIDIA V100-GPUs unter maximalen Bedingungen getestet. Bei 128 gleichzeitigen Anfragen erreicht das System 1000 Token pro Sekunde in der Generierungsphase – ein Wert, der laut dem Poster weit über den eigenen praktischen Anforderungen liegt, aber die theoretische Obergrenze der Hardware demonstriert. Interessanter für reale Deployments ist der Single-User-Wert: Bei Batch-Größe 1 werden rund 80 t/s Generierung und 3000 t/s Prefill (Verarbeitung des Eingabe-Kontexts) gemessen. Besonders erwähnenswert ist, dass diese Werte ohne Multi-Token Prediction (MTP) erzielt wurden, was die Baseline-Leistung der Inferenz-Pipeline unterstreicht. Die V100-GPU gilt als ältere Architektur (Volta, 2017) ohne native FP8-Unterstützung, weshalb diese Ergebnisse zeigen, dass auch ältere Datacenter-Hardware für mittlere Modellgrößen wie 27B noch kompetitive Durchsatzraten liefern kann.
- 128 parallele Anfragen (Batch 128): ~1000 t/s Generierung
- Batch 1 (Single User): ~80 t/s Generierung, ~3000 t/s Prefill
- Kein MTP (Multi-Token Prediction) aktiv – reine Baseline-Inferenz
- Hardware: NVIDIA V100-GPUs (Volta-Architektur)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.