Async Continuous Batching: GPU-Auslastung um 24 % steigern ohne Modelländerungen

Warum es zählt

Bei synchronem Batching wartet die GPU in einer 8B-Modell-Testumgebung (Batch 32, 8K Token) 24 % der Zeit auf die CPU – asynchrones Batching eliminiert diesen Overhead durch CUDA-Streams und Events. Die Implementierung ist bereits Teil der Transformers-Bibliothek.

— Lumeric Redaktion

Der Hugging-Face-Blogpost ist der zweite Teil einer Serie über effiziente LLM-Inferenz und zeigt, wie synchrones Continuous Batching trotz optimierter Batch-Planung erhebliche Rechenzeit verschwendet. Im getesteten Setup – ein 8B-Modell auf einer H200 GPU, Batch-Größe 32, 8.192 generierte Token – dauerte die Gesamtgenerierung 300,6 Sekunden, davon 24 % mit idle GPU. Durch asynchrones Batching ließe sich diese Zeit auf ca. 228 Sekunden senken. Der Kern der Lösung: CUDA-Streams erlauben unabhängige, parallele GPU-Operationsqueues, während CUDA-Events die Synchronisation zwischen Streams ohne Blockierung der CPU ermöglichen. So kann die CPU Batch N+1 vorbereiten, während die GPU Batch N berechnet. Kritische Herausforderungen wie Race Conditions und Carry-over-Effekte (Abhängigkeit von Sampling-Ergebnissen des Vorgänger-Batches) werden detailliert behandelt. Die beschriebene Implementierung wurde als Teil des Continuous-Batching-Codes in der Transformers-Bibliothek umgesetzt und ist öffentlich einsehbar. Autoren sind Rémi Ouazan Reboul, Pedro Cuenca und Aritra Roy Gosthipaty.

Was wir noch wissen

H200 auf Inference Endpoints kostet ca. 5 USD/Stunde – bei 24 h bereits 120 USD täglich
Testsetup: 8B-Modell, Batch-Größe 32, 8.192 Token; Gesamtlaufzeit 300,6 s synchron vs. ~228 s async
CUDA-Streams ermöglichen parallele GPU-Operationen; Operationen im selben Stream bleiben sequenziell
CUDA-Events synchronisieren Streams ohne CPU zu blockieren und verhindern Race Conditions
Implementierung ist Teil des Continuous-Batching-Codes in der Hugging-Face-Transformers-Bibliothek

Quelle lesenhuggingface.co

24 % idle GPU-Zeit

Overhead bei synchronem Batching (8B Modell, Batch 32)

Inferenz Infra Foundation Modelle Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Async Continuous Batching: GPU-Auslastung um 24 % steigern ohne Modelländerungen

ToolsHugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

H200 auf Inference Endpoints kostet ca. 5 USD/Stunde – bei 24 h bereits 120 USD täglich
Testsetup: 8B-Modell, Batch-Größe 32, 8.192 Token; Gesamtlaufzeit 300,6 s synchron vs. ~228 s async
CUDA-Streams ermöglichen parallele GPU-Operationen; Operationen im selben Stream bleiben sequenziell
CUDA-Events synchronisieren Streams ohne CPU zu blockieren und verhindern Race Conditions
Implementierung ist Teil des Continuous-Batching-Codes in der Hugging-Face-Transformers-Bibliothek

24 % idle GPU-Zeit

Overhead bei synchronem Batching (8B Modell, Batch 32)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Async Continuous Batching: GPU-Auslastung um 24 % steigern ohne Modelländerungen

Frag die KI zum Artikel

Verwandte Beiträge

Async Continuous Batching: GPU-Auslastung um 24 % steigern ohne Modelländerungen

Frag die KI zum Artikel

Verwandte Beiträge