RDNA2-Flash-Attention-Patch für llama.cpp verdoppelt Inferenzgeschwindigkeit

Warum es zählt

RDNA2-Nutzer, die mit Stock-llama.cpp-Builds an einer ROCm-Flash-Attention-Wand gescheitert sind, erhalten mit diesem Patch eine sofort nutzbare Alternative – allerdings mit Einschränkungen bei Gemma und Deepseek.

— Lumeric Redaktion

Reddit-Nutzer /u/DiscipleofDeceit666 veröffentlichte einen angepassten llama.cpp-Build speziell für AMD-GPUs der RDNA2-Generation (gfx1030/gfx1031). Das zentrale Problem: Stock-llama.cpp-Releases crashen auf dieser Hardware beim Versuch, Flash Attention über ROCm zu aktivieren – ausgelöst durch einen fehlgeschlagenen Assert (`GGML_ASSERT(max_blocks_per_sm > 0)`), da `hipOccupancyMaxActiveBlocksPerMultiprocessor` fälschlicherweise 0 zurückgibt. Der Patch umgeht diesen Assert und ersetzt den Crash durch ein Diagnose-Log. Das Ergebnis: Während der Vulkan-Pfad ca. 30 tok/s liefert und ROCm im Stock-Build gar nicht läuft, erreicht der gepatchte Build 70–80 tok/s mit Qwen3.6 35B und 27B. Der Build nutzt Multi-Token Prediction (MTP) als Entwurfsmethode (`--spec-type draft-mtp`) und ist über GitHub verfügbar. Einschränkungen bestehen: Gemma crasht bei größeren Kontexten, Deepseek läuft sehr langsam. Der Autor gibt explizit an, dass lokale KI auf ROCm generell instabil sein kann.

Was wir noch wissen

Crash-Ursache: hipOccupancyMaxActiveBlocksPerMultiprocessor gibt auf RDNA2 fälschlicherweise 0 zurück
Kompiliert mit GPU_TARGETS='gfx1030;gfx1031' und -DGGML_FATTN_TRACE als HIP-Flag
Serverbetrieb mit -fa on, --spec-type draft-mtp, -ngl 50, -ts 16,10 und 64192 Token Kontext
Bestätigte Modelle: Qwen3.6 35B und 27B; Gemma und Deepseek funktionieren nicht zuverlässig
Patch als Release auf GitHub unter Minerest/llama.cpp_RDNA2_FlashAttnEnabled veröffentlicht

Quelle lesenreddit.com

70–80 tok/s

ROCm mit Flash Attention auf RDNA2

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

RDNA2-Flash-Attention-Patch für llama.cpp verdoppelt Inferenzgeschwindigkeit

ToolsQwen DeepSeek Llama

CompaniesDeepSeek AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Crash-Ursache: hipOccupancyMaxActiveBlocksPerMultiprocessor gibt auf RDNA2 fälschlicherweise 0 zurück
Kompiliert mit GPU_TARGETS='gfx1030;gfx1031' und -DGGML_FATTN_TRACE als HIP-Flag
Serverbetrieb mit -fa on, --spec-type draft-mtp, -ngl 50, -ts 16,10 und 64192 Token Kontext
Bestätigte Modelle: Qwen3.6 35B und 27B; Gemma und Deepseek funktionieren nicht zuverlässig
Patch als Release auf GitHub unter Minerest/llama.cpp_RDNA2_FlashAttnEnabled veröffentlicht

70–80 tok/s

ROCm mit Flash Attention auf RDNA2

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

RDNA2-Flash-Attention-Patch für llama.cpp verdoppelt Inferenzgeschwindigkeit

Frag die KI zum Artikel

Verwandte Beiträge

RDNA2-Flash-Attention-Patch für llama.cpp verdoppelt Inferenzgeschwindigkeit

Frag die KI zum Artikel

Verwandte Beiträge