llama.cpp: 5,5× schnelleres Prompt-Processing für GPT-OSS-120B auf RTX 3090
Ein Reddit-Nutzer (u/coder543) berichtet von informellen llama-bench-Messungen mit gpt-oss-120b-F16.gguf auf einer NVIDIA RTX 3090 (24 GB VRAM) unter llama.cpp. Der entscheidende Hebel: Die physische Micro-Batch-Größe (-ub) lässt sich weit über den llama.cpp-Standard von 512 hinaus erhöhen. Bei -ub 8192 erreicht das Prefill 2090,68 tok/s gegenüber 380,27 tok/s beim Default – rund 5,5-facher Gewinn. Gegenüber -ub 256 beträgt der Faktor sogar 8,7×. Der Haken: Ein größeres Micro-Batch beansprucht mehr GPU-Compute-Workspace. Um im VRAM zu bleiben, müssen gleichzeitig mehr MoE-Layer auf die CPU ausgelagert werden (--n-cpu-moe); bei -ub 8192 waren es 28 Layer statt 25–26 beim Standard. Die Token-Generierungsrate fiel dabei von 32,3 auf 30,1 tok/s, ein Rückgang von etwa 7 %. Der Poster ergänzt, dass er sich nach dieser Entdeckung den Kauf eines DGX Spark möglicherweise gespart hätte, da der Trick den Performance-Abstand zur teureren Hardware deutlich verringert – auch wenn der DGX Spark beim Prefill und bei der Generierungsgeschwindigkeit noch vorn liegt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama.cpp: 5,5× schnelleres Prompt-Processing für GPT-OSS-120B auf RTX 3090
Ein Reddit-Nutzer (u/coder543) berichtet von informellen llama-bench-Messungen mit gpt-oss-120b-F16.gguf auf einer NVIDIA RTX 3090 (24 GB VRAM) unter llama.cpp. Der entscheidende Hebel: Die physische Micro-Batch-Größe (-ub) lässt sich weit über den llama.cpp-Standard von 512 hinaus erhöhen. Bei -ub 8192 erreicht das Prefill 2090,68 tok/s gegenüber 380,27 tok/s beim Default – rund 5,5-facher Gewinn. Gegenüber -ub 256 beträgt der Faktor sogar 8,7×. Der Haken: Ein größeres Micro-Batch beansprucht mehr GPU-Compute-Workspace. Um im VRAM zu bleiben, müssen gleichzeitig mehr MoE-Layer auf die CPU ausgelagert werden (--n-cpu-moe); bei -ub 8192 waren es 28 Layer statt 25–26 beim Standard. Die Token-Generierungsrate fiel dabei von 32,3 auf 30,1 tok/s, ein Rückgang von etwa 7 %. Der Poster ergänzt, dass er sich nach dieser Entdeckung den Kauf eines DGX Spark möglicherweise gespart hätte, da der Trick den Performance-Abstand zur teureren Hardware deutlich verringert – auch wenn der DGX Spark beim Prefill und bei der Generierungsgeschwindigkeit noch vorn liegt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.