llama.cpp: 5,5× schnelleres Prompt-Processing für GPT-OSS-120B auf RTX 3090

CompaniesNVIDIA

Warum es zählt

Wer MoE-Modelle wie GPT-OSS-120B teilweise auf der CPU offloaded, kann mit -ub 8192 und angepasstem --n-cpu-moe die Prompt-Verarbeitungsgeschwindigkeit dramatisch steigern, ohne teure Hardware zu benötigen – die Token-Generierung sinkt dabei nur marginal (~7%).

— Lumeric Redaktion

Ein Reddit-Nutzer (u/coder543) berichtet von informellen llama-bench-Messungen mit gpt-oss-120b-F16.gguf auf einer NVIDIA RTX 3090 (24 GB VRAM) unter llama.cpp. Der entscheidende Hebel: Die physische Micro-Batch-Größe (-ub) lässt sich weit über den llama.cpp-Standard von 512 hinaus erhöhen. Bei -ub 8192 erreicht das Prefill 2090,68 tok/s gegenüber 380,27 tok/s beim Default – rund 5,5-facher Gewinn. Gegenüber -ub 256 beträgt der Faktor sogar 8,7×. Der Haken: Ein größeres Micro-Batch beansprucht mehr GPU-Compute-Workspace. Um im VRAM zu bleiben, müssen gleichzeitig mehr MoE-Layer auf die CPU ausgelagert werden (--n-cpu-moe); bei -ub 8192 waren es 28 Layer statt 25–26 beim Standard. Die Token-Generierungsrate fiel dabei von 32,3 auf 30,1 tok/s, ein Rückgang von etwa 7 %. Der Poster ergänzt, dass er sich nach dieser Entdeckung den Kauf eines DGX Spark möglicherweise gespart hätte, da der Trick den Performance-Abstand zur teureren Hardware deutlich verringert – auch wenn der DGX Spark beim Prefill und bei der Generierungsgeschwindigkeit noch vorn liegt.

Quelle lesenreddit.com

llama-bench Prefill (tok/s) – gpt-oss-120b auf RTX 3090 · Spitzenwert

240.03%

-ub 256

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp: 5,5× schnelleres Prompt-Processing für GPT-OSS-120B auf RTX 3090

ToolsGPT NVIDIA Hardware Llama

CompaniesNVIDIA

Warum es zählt

— Lumeric Redaktion

llama-bench Prefill (tok/s) – gpt-oss-120b auf RTX 3090 · Spitzenwert

240.03%

-ub 256

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

llama.cpp: 5,5× schnelleres Prompt-Processing für GPT-OSS-120B auf RTX 3090

Frag die KI zum Artikel

Verwandte Beiträge

llama.cpp: 5,5× schnelleres Prompt-Processing für GPT-OSS-120B auf RTX 3090

Frag die KI zum Artikel

Verwandte Beiträge