Async Continuous Batching: GPU-Auslastung um 24 % steigern ohne Modelländerungen
Der Hugging-Face-Blogpost ist der zweite Teil einer Serie über effiziente LLM-Inferenz und zeigt, wie synchrones Continuous Batching trotz optimierter Batch-Planung erhebliche Rechenzeit verschwendet. Im getesteten Setup – ein 8B-Modell auf einer H200 GPU, Batch-Größe 32, 8.192 generierte Token – dauerte die Gesamtgenerierung 300,6 Sekunden, davon 24 % mit idle GPU. Durch asynchrones Batching ließe sich diese Zeit auf ca. 228 Sekunden senken. Der Kern der Lösung: CUDA-Streams erlauben unabhängige, parallele GPU-Operationsqueues, während CUDA-Events die Synchronisation zwischen Streams ohne Blockierung der CPU ermöglichen. So kann die CPU Batch N+1 vorbereiten, während die GPU Batch N berechnet. Kritische Herausforderungen wie Race Conditions und Carry-over-Effekte (Abhängigkeit von Sampling-Ergebnissen des Vorgänger-Batches) werden detailliert behandelt. Die beschriebene Implementierung wurde als Teil des Continuous-Batching-Codes in der Transformers-Bibliothek umgesetzt und ist öffentlich einsehbar. Autoren sind Rémi Ouazan Reboul, Pedro Cuenca und Aritra Roy Gosthipaty.
- H200 auf Inference Endpoints kostet ca. 5 USD/Stunde – bei 24 h bereits 120 USD täglich
- Testsetup: 8B-Modell, Batch-Größe 32, 8.192 Token; Gesamtlaufzeit 300,6 s synchron vs. ~228 s async
- CUDA-Streams ermöglichen parallele GPU-Operationen; Operationen im selben Stream bleiben sequenziell
- CUDA-Events synchronisieren Streams ohne CPU zu blockieren und verhindern Race Conditions
- Implementierung ist Teil des Continuous-Batching-Codes in der Hugging-Face-Transformers-Bibliothek
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
AsyncFC: Asynchrones Function-Calling für LLMs ohne Modell-Anpassungen
- FORSCHUNGarxiv.org2w
ChunkFlow: Kommunikationsbewusstes Offloading für Diffusion-Transformer-Inferenz
- FORSCHUNGarxiv.org2w
GPU-FPGA-System beschleunigt LLM-Inferenz um Faktor 2,2 bei 4,7× weniger Energie
- FORSCHUNGarxiv.org13h
Heterogene Parallelität beschleunigt multimodales LLM-Training um bis zu 49 %
Async Continuous Batching: GPU-Auslastung um 24 % steigern ohne Modelländerungen
Der Hugging-Face-Blogpost ist der zweite Teil einer Serie über effiziente LLM-Inferenz und zeigt, wie synchrones Continuous Batching trotz optimierter Batch-Planung erhebliche Rechenzeit verschwendet. Im getesteten Setup – ein 8B-Modell auf einer H200 GPU, Batch-Größe 32, 8.192 generierte Token – dauerte die Gesamtgenerierung 300,6 Sekunden, davon 24 % mit idle GPU. Durch asynchrones Batching ließe sich diese Zeit auf ca. 228 Sekunden senken. Der Kern der Lösung: CUDA-Streams erlauben unabhängige, parallele GPU-Operationsqueues, während CUDA-Events die Synchronisation zwischen Streams ohne Blockierung der CPU ermöglichen. So kann die CPU Batch N+1 vorbereiten, während die GPU Batch N berechnet. Kritische Herausforderungen wie Race Conditions und Carry-over-Effekte (Abhängigkeit von Sampling-Ergebnissen des Vorgänger-Batches) werden detailliert behandelt. Die beschriebene Implementierung wurde als Teil des Continuous-Batching-Codes in der Transformers-Bibliothek umgesetzt und ist öffentlich einsehbar. Autoren sind Rémi Ouazan Reboul, Pedro Cuenca und Aritra Roy Gosthipaty.
- H200 auf Inference Endpoints kostet ca. 5 USD/Stunde – bei 24 h bereits 120 USD täglich
- Testsetup: 8B-Modell, Batch-Größe 32, 8.192 Token; Gesamtlaufzeit 300,6 s synchron vs. ~228 s async
- CUDA-Streams ermöglichen parallele GPU-Operationen; Operationen im selben Stream bleiben sequenziell
- CUDA-Events synchronisieren Streams ohne CPU zu blockieren und verhindern Race Conditions
- Implementierung ist Teil des Continuous-Batching-Codes in der Hugging-Face-Transformers-Bibliothek
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- FORSCHUNGarxiv.org1w
AsyncFC: Asynchrones Function-Calling für LLMs ohne Modell-Anpassungen
- FORSCHUNGarxiv.org2w
ChunkFlow: Kommunikationsbewusstes Offloading für Diffusion-Transformer-Inferenz
- FORSCHUNGarxiv.org2w
GPU-FPGA-System beschleunigt LLM-Inferenz um Faktor 2,2 bei 4,7× weniger Energie
- FORSCHUNGarxiv.org13h
Heterogene Parallelität beschleunigt multimodales LLM-Training um bis zu 49 %