100+ t/s mit Qwen3.6-27B Q8 auf RTX 5090 + 3090 Ti via Tensor-Split
CompaniesMeta AI
Warum es zählt
Bei ungleich starken GPU-Paaren (schnell/langsam) kann --split-mode tensor in llama.cpp den Durchsatz um ~40 % steigern, da beide Karten gleichzeitig an denselben Tensoren arbeiten statt ganze Layer abzuwechseln. Praxisrelevant für Multi-GPU-Setups mit gemischter Hardware.
— Lumeric Redaktion
100+ t/s
Qwen3.6-27B Q8 auf 5090+3090 Ti
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
100+ t/s mit Qwen3.6-27B Q8 auf RTX 5090 + 3090 Ti via Tensor-Split
CompaniesMeta AI
Warum es zählt
Bei ungleich starken GPU-Paaren (schnell/langsam) kann --split-mode tensor in llama.cpp den Durchsatz um ~40 % steigern, da beide Karten gleichzeitig an denselben Tensoren arbeiten statt ganze Layer abzuwechseln. Praxisrelevant für Multi-GPU-Setups mit gemischter Hardware.
— Lumeric Redaktion
100+ t/s
Qwen3.6-27B Q8 auf 5090+3090 Ti
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.