TokenSpeed setzt GPU-Rekord: 580 Token/s mit Qwen3.5-397B-A17B
TokenSpeed ist eine auf PyTorch aufbauende Inferenz-Engine, die speziell für hohen Durchsatz bei großen Mixture-of-Experts-Modellen optimiert wurde. Mit dem Qwen3.5-397B-A17B – einem MoE-Modell mit 397 Milliarden Gesamtparametern, von denen pro Token 17 Milliarden aktiv sind – erzielte TokenSpeed laut PyTorch Blog einen neuen GPU-Geschwindigkeitsrekord von 580 Token pro Sekunde. Erreicht wird diese Leistung durch die systematische Eliminierung von Speicherkopieroperationen (Memory Copies), was besonders für agentische Workloads relevant ist, bei denen viele kurze, schnell aufeinanderfolgende Inferenzschritte erforderlich sind. Der Benchmark richtet sich damit direkt an Entwickler, die Qwen3-Modelle in Echtzeit-Agenten-Systemen einsetzen möchten. Die Optimierungen sind im PyTorch-Ökosystem verankert und sollen breit zugänglich bleiben.
- 580 tps auf Qwen3.5-397B-A17B auf GPU – neuer Geschwindigkeitsrekord für dieses Modell
- Kerntechnik: systematische Eliminierung von Memory Copies im Inferenz-Stack
- Zielworkload: agentische Anwendungen mit hohem Token-Durchsatz
- Modell ist ein MoE mit 397B Gesamtparametern, 17B aktiv pro Token
- Engine TokenSpeed ist im PyTorch-Ökosystem veröffentlicht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
TokenSpeed setzt GPU-Rekord: 580 Token/s mit Qwen3.5-397B-A17B
TokenSpeed ist eine auf PyTorch aufbauende Inferenz-Engine, die speziell für hohen Durchsatz bei großen Mixture-of-Experts-Modellen optimiert wurde. Mit dem Qwen3.5-397B-A17B – einem MoE-Modell mit 397 Milliarden Gesamtparametern, von denen pro Token 17 Milliarden aktiv sind – erzielte TokenSpeed laut PyTorch Blog einen neuen GPU-Geschwindigkeitsrekord von 580 Token pro Sekunde. Erreicht wird diese Leistung durch die systematische Eliminierung von Speicherkopieroperationen (Memory Copies), was besonders für agentische Workloads relevant ist, bei denen viele kurze, schnell aufeinanderfolgende Inferenzschritte erforderlich sind. Der Benchmark richtet sich damit direkt an Entwickler, die Qwen3-Modelle in Echtzeit-Agenten-Systemen einsetzen möchten. Die Optimierungen sind im PyTorch-Ökosystem verankert und sollen breit zugänglich bleiben.
- 580 tps auf Qwen3.5-397B-A17B auf GPU – neuer Geschwindigkeitsrekord für dieses Modell
- Kerntechnik: systematische Eliminierung von Memory Copies im Inferenz-Stack
- Zielworkload: agentische Anwendungen mit hohem Token-Durchsatz
- Modell ist ein MoE mit 397B Gesamtparametern, 17B aktiv pro Token
- Engine TokenSpeed ist im PyTorch-Ökosystem veröffentlicht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.