Abgelehnter llama.cpp-PR bringt Strix-Halo-Nutzern bis zu 31 % schnelleres MoE-Prefill
Ein Reddit-Nutzer (fallingdowndizzyvr) weist darauf hin, dass ein von pedapudi eingereichter Pull Request für llama.cpp (PR #21344) zwar vom Maintainer-Team abgelehnt wurde, aber für Besitzer von AMD-Strix-Halo-APUs (gfx1151, 128 GiB Unified VRAM) erhebliche Leistungsgewinne beim Prompt Processing von MoE-Modellen bringt. Der Patch ist laut Autor minimal und lässt sich einfach auf den jeweils aktuellen llama.cpp-Release anwenden. Gemessen wurde mit Qwen3 35B-A3B Q4_K-Small über ROCm: Bei pp512 ohne vorherigen Kontext steigt der Durchsatz von 1106 auf 1448 t/s (+31 %), bei 10.000 Tokens Kontext von 756 auf 906 t/s (+20 %). Mit steigendem Kontext nimmt der Gewinn ab – bei 60.000 Tokens beträgt er noch rund 8 %. Die Ursache für diesen kontextabhängigen Effekt erklärt pedapudi im PR selbst. Der Fix wirkt ausschließlich bei MoE-Architekturen und hat keinen Einfluss auf Dense-Modelle.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Abgelehnter llama.cpp-PR bringt Strix-Halo-Nutzern bis zu 31 % schnelleres MoE-Prefill
Ein Reddit-Nutzer (fallingdowndizzyvr) weist darauf hin, dass ein von pedapudi eingereichter Pull Request für llama.cpp (PR #21344) zwar vom Maintainer-Team abgelehnt wurde, aber für Besitzer von AMD-Strix-Halo-APUs (gfx1151, 128 GiB Unified VRAM) erhebliche Leistungsgewinne beim Prompt Processing von MoE-Modellen bringt. Der Patch ist laut Autor minimal und lässt sich einfach auf den jeweils aktuellen llama.cpp-Release anwenden. Gemessen wurde mit Qwen3 35B-A3B Q4_K-Small über ROCm: Bei pp512 ohne vorherigen Kontext steigt der Durchsatz von 1106 auf 1448 t/s (+31 %), bei 10.000 Tokens Kontext von 756 auf 906 t/s (+20 %). Mit steigendem Kontext nimmt der Gewinn ab – bei 60.000 Tokens beträgt er noch rund 8 %. Die Ursache für diesen kontextabhängigen Effekt erklärt pedapudi im PR selbst. Der Fix wirkt ausschließlich bei MoE-Architekturen und hat keinen Einfluss auf Dense-Modelle.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.