Abgelehnter llama.cpp-PR bringt Strix-Halo-Nutzern bis zu 31 % schnelleres MoE-Prefill

CompaniesAMD

Warum es zählt

Strix-Halo-Nutzer können den Patch manuell auf aktuelle llama.cpp-Releases anwenden und so bei MoE-Inferenz (z. B. Qwen3-35B-A3B) erhebliche Geschwindigkeitsgewinne erzielen – ohne auf einen offiziellen Merge warten zu müssen.

— Lumeric Redaktion

Ein Reddit-Nutzer (fallingdowndizzyvr) weist darauf hin, dass ein von pedapudi eingereichter Pull Request für llama.cpp (PR #21344) zwar vom Maintainer-Team abgelehnt wurde, aber für Besitzer von AMD-Strix-Halo-APUs (gfx1151, 128 GiB Unified VRAM) erhebliche Leistungsgewinne beim Prompt Processing von MoE-Modellen bringt. Der Patch ist laut Autor minimal und lässt sich einfach auf den jeweils aktuellen llama.cpp-Release anwenden. Gemessen wurde mit Qwen3 35B-A3B Q4_K-Small über ROCm: Bei pp512 ohne vorherigen Kontext steigt der Durchsatz von 1106 auf 1448 t/s (+31 %), bei 10.000 Tokens Kontext von 756 auf 906 t/s (+20 %). Mit steigendem Kontext nimmt der Gewinn ab – bei 60.000 Tokens beträgt er noch rund 8 %. Die Ursache für diesen kontextabhängigen Effekt erklärt pedapudi im PR selbst. Der Fix wirkt ausschließlich bei MoE-Architekturen und hat keinen Einfluss auf Dense-Modelle.

Quelle lesenreddit.com

llama.cpp pp512 – Qwen3 35B-A3B Q4_K-Small auf ROCm (Strix Halo) · Spitzenwert

1106.11%

main pp512

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Abgelehnter llama.cpp-PR bringt Strix-Halo-Nutzern bis zu 31 % schnelleres MoE-Prefill

ToolsQwen Llama

CompaniesAMD

Warum es zählt

— Lumeric Redaktion

llama.cpp pp512 – Qwen3 35B-A3B Q4_K-Small auf ROCm (Strix Halo) · Spitzenwert

1106.11%

main pp512

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Abgelehnter llama.cpp-PR bringt Strix-Halo-Nutzern bis zu 31 % schnelleres MoE-Prefill

Frag die KI zum Artikel

Verwandte Beiträge

Abgelehnter llama.cpp-PR bringt Strix-Halo-Nutzern bis zu 31 % schnelleres MoE-Prefill

Frag die KI zum Artikel

Verwandte Beiträge