Tiny-vLLM: LLM-Inferenz-Engine in C++ und CUDA als Lernprojekt
tiny-vLLM ist ein von Jędrzej Maczan veröffentlichtes GitHub-Repository, das eine vollständige LLM-Inferenz-Engine in C++ und CUDA bereitstellt – explizit als „jüngeres, kleineres Geschwister von vLLM" positioniert. Das Projekt kombiniert funktionierenden Servercode mit einem strukturierten Kurs, der Leser Schritt für Schritt durch alle Bausteine führt: vom Laden von Modellgewichten im Safetensors-Format (Llama 3.2 1B Instruct) über den vollständigen Forward-Pass (Prefill + Decode) bis hin zu fortgeschrittenen Techniken wie PagedAttention, Online-Softmax, FlashAttention-ähnlicher Attention, statischem und kontinuierlichem Batching sowie GQA. Alle Berechnungen laufen über eigene CUDA-Kernel. Weitere behandelte Themen umfassen RMSNorm, RoPE, SiLU, cublasGemmEx und bfloat16. Das Repository hat innerhalb kurzer Zeit 661 Sterne und 33 Forks erreicht. Es richtet sich sowohl an Selbstlernende als auch an Dozierende, die es als Lehrressource einsetzen möchten.
- Unterstützt Llama 3.2 1B Instruct via Safetensors-Format
- Implementiert PagedAttention und Paged KV-Cache als eigene CUDA-Kernel
- Bietet sowohl statisches als auch kontinuierliches Batching
- Enthält einen integrierten Kurs mit Kapiteln zu RMSNorm, RoPE, GQA, SiLU, FlashAttention-ähnlicher Online-Softmax u.v.m.
- 661 Sterne und 33 Forks auf GitHub (Stand: 2026-06-01)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com2w
H100 mit 94 GB VRAM: vLLM oder llama.cpp für 30-User-Inferenz?
- FORSCHUNGarxiv.org2w
LlamaWeb: LLM-Inferenz im Browser mit WebGPU – 45–69 % mehr Durchsatz
- MEINUNGreddit.com2w
Community-Diskussion: Beste kleine Sprachmodelle ohne GPU
- FORSCHUNGarxiv.org0mo
GPU-FPGA-System beschleunigt LLM-Inferenz um Faktor 2,2 bei 4,7× weniger Energie
Tiny-vLLM: LLM-Inferenz-Engine in C++ und CUDA als Lernprojekt
tiny-vLLM ist ein von Jędrzej Maczan veröffentlichtes GitHub-Repository, das eine vollständige LLM-Inferenz-Engine in C++ und CUDA bereitstellt – explizit als „jüngeres, kleineres Geschwister von vLLM" positioniert. Das Projekt kombiniert funktionierenden Servercode mit einem strukturierten Kurs, der Leser Schritt für Schritt durch alle Bausteine führt: vom Laden von Modellgewichten im Safetensors-Format (Llama 3.2 1B Instruct) über den vollständigen Forward-Pass (Prefill + Decode) bis hin zu fortgeschrittenen Techniken wie PagedAttention, Online-Softmax, FlashAttention-ähnlicher Attention, statischem und kontinuierlichem Batching sowie GQA. Alle Berechnungen laufen über eigene CUDA-Kernel. Weitere behandelte Themen umfassen RMSNorm, RoPE, SiLU, cublasGemmEx und bfloat16. Das Repository hat innerhalb kurzer Zeit 661 Sterne und 33 Forks erreicht. Es richtet sich sowohl an Selbstlernende als auch an Dozierende, die es als Lehrressource einsetzen möchten.
- Unterstützt Llama 3.2 1B Instruct via Safetensors-Format
- Implementiert PagedAttention und Paged KV-Cache als eigene CUDA-Kernel
- Bietet sowohl statisches als auch kontinuierliches Batching
- Enthält einen integrierten Kurs mit Kapiteln zu RMSNorm, RoPE, GQA, SiLU, FlashAttention-ähnlicher Online-Softmax u.v.m.
- 661 Sterne und 33 Forks auf GitHub (Stand: 2026-06-01)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com2w
H100 mit 94 GB VRAM: vLLM oder llama.cpp für 30-User-Inferenz?
- FORSCHUNGarxiv.org2w
LlamaWeb: LLM-Inferenz im Browser mit WebGPU – 45–69 % mehr Durchsatz
- MEINUNGreddit.com2w
Community-Diskussion: Beste kleine Sprachmodelle ohne GPU
- FORSCHUNGarxiv.org0mo
GPU-FPGA-System beschleunigt LLM-Inferenz um Faktor 2,2 bei 4,7× weniger Energie