TokenSpeed setzt GPU-Rekord: 580 Token/s mit Qwen3.5-397B-A17B

Warum es zählt

580 tps auf einem 397B-MoE-Modell macht hochdurchsatzige Agenten-Pipelines auf Standard-GPU-Hardware praktisch realisierbar – relevanter Richtwert für Teams, die Qwen3.5-Modelle in Produktion betreiben wollen.

— Lumeric Redaktion

TokenSpeed ist eine auf PyTorch aufbauende Inferenz-Engine, die speziell für hohen Durchsatz bei großen Mixture-of-Experts-Modellen optimiert wurde. Mit dem Qwen3.5-397B-A17B – einem MoE-Modell mit 397 Milliarden Gesamtparametern, von denen pro Token 17 Milliarden aktiv sind – erzielte TokenSpeed laut PyTorch Blog einen neuen GPU-Geschwindigkeitsrekord von 580 Token pro Sekunde. Erreicht wird diese Leistung durch die systematische Eliminierung von Speicherkopieroperationen (Memory Copies), was besonders für agentische Workloads relevant ist, bei denen viele kurze, schnell aufeinanderfolgende Inferenzschritte erforderlich sind. Der Benchmark richtet sich damit direkt an Entwickler, die Qwen3-Modelle in Echtzeit-Agenten-Systemen einsetzen möchten. Die Optimierungen sind im PyTorch-Ökosystem verankert und sollen breit zugänglich bleiben.

Was wir noch wissen

580 tps auf Qwen3.5-397B-A17B auf GPU – neuer Geschwindigkeitsrekord für dieses Modell
Kerntechnik: systematische Eliminierung von Memory Copies im Inferenz-Stack
Zielworkload: agentische Anwendungen mit hohem Token-Durchsatz
Modell ist ein MoE mit 397B Gesamtparametern, 17B aktiv pro Token
Engine TokenSpeed ist im PyTorch-Ökosystem veröffentlicht

Quelle lesenpytorch.org

580 tps

Token/s mit Qwen3.5-397B-A17B auf GPU

Inferenz Infra Agents Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

TokenSpeed setzt GPU-Rekord: 580 Token/s mit Qwen3.5-397B-A17B

ToolsQwen

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

580 tps auf Qwen3.5-397B-A17B auf GPU – neuer Geschwindigkeitsrekord für dieses Modell
Kerntechnik: systematische Eliminierung von Memory Copies im Inferenz-Stack
Zielworkload: agentische Anwendungen mit hohem Token-Durchsatz
Modell ist ein MoE mit 397B Gesamtparametern, 17B aktiv pro Token
Engine TokenSpeed ist im PyTorch-Ökosystem veröffentlicht

580 tps

Token/s mit Qwen3.5-397B-A17B auf GPU

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

TokenSpeed setzt GPU-Rekord: 580 Token/s mit Qwen3.5-397B-A17B

Frag die KI zum Artikel

Verwandte Beiträge

TokenSpeed setzt GPU-Rekord: 580 Token/s mit Qwen3.5-397B-A17B

Frag die KI zum Artikel

Verwandte Beiträge