llama.cpp-Patch: DeepSeek V4 Flash mit 1M-Token-Kontext auf RTX 5090
CompaniesDeepSeek
Warum es zählt
Der Patch ermöglicht lokales Ausführen von DeepSeek V4 Flash mit bis zu 1M Token auf einer RTX 5090 (32 GB VRAM, ~31 GiB Peak), mit Prefill-Raten von bis zu 263 t/s bei 256K. Wer das Modell lokal betreiben will, muss selbst bauen – kein Prebuild verfügbar.
— Lumeric Redaktion
Prefill-Durchsatz (t/s) bei verschiedenen Kontextlängen – DeepSeek V4 Flash auf RTX 5090 · Spitzenwert
263%
256K (nach Patch)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama.cpp-Patch: DeepSeek V4 Flash mit 1M-Token-Kontext auf RTX 5090
CompaniesDeepSeek
Warum es zählt
Der Patch ermöglicht lokales Ausführen von DeepSeek V4 Flash mit bis zu 1M Token auf einer RTX 5090 (32 GB VRAM, ~31 GiB Peak), mit Prefill-Raten von bis zu 263 t/s bei 256K. Wer das Modell lokal betreiben will, muss selbst bauen – kein Prebuild verfügbar.
— Lumeric Redaktion
Prefill-Durchsatz (t/s) bei verschiedenen Kontextlängen – DeepSeek V4 Flash auf RTX 5090 · Spitzenwert
263%
256K (nach Patch)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.