RDNA2-Flash-Attention-Patch für llama.cpp verdoppelt Inferenzgeschwindigkeit
Reddit-Nutzer /u/DiscipleofDeceit666 veröffentlichte einen angepassten llama.cpp-Build speziell für AMD-GPUs der RDNA2-Generation (gfx1030/gfx1031). Das zentrale Problem: Stock-llama.cpp-Releases crashen auf dieser Hardware beim Versuch, Flash Attention über ROCm zu aktivieren – ausgelöst durch einen fehlgeschlagenen Assert (`GGML_ASSERT(max_blocks_per_sm > 0)`), da `hipOccupancyMaxActiveBlocksPerMultiprocessor` fälschlicherweise 0 zurückgibt. Der Patch umgeht diesen Assert und ersetzt den Crash durch ein Diagnose-Log. Das Ergebnis: Während der Vulkan-Pfad ca. 30 tok/s liefert und ROCm im Stock-Build gar nicht läuft, erreicht der gepatchte Build 70–80 tok/s mit Qwen3.6 35B und 27B. Der Build nutzt Multi-Token Prediction (MTP) als Entwurfsmethode (`--spec-type draft-mtp`) und ist über GitHub verfügbar. Einschränkungen bestehen: Gemma crasht bei größeren Kontexten, Deepseek läuft sehr langsam. Der Autor gibt explizit an, dass lokale KI auf ROCm generell instabil sein kann.
- Crash-Ursache: hipOccupancyMaxActiveBlocksPerMultiprocessor gibt auf RDNA2 fälschlicherweise 0 zurück
- Kompiliert mit GPU_TARGETS='gfx1030;gfx1031' und -DGGML_FATTN_TRACE als HIP-Flag
- Serverbetrieb mit -fa on, --spec-type draft-mtp, -ngl 50, -ts 16,10 und 64192 Token Kontext
- Bestätigte Modelle: Qwen3.6 35B und 27B; Gemma und Deepseek funktionieren nicht zuverlässig
- Patch als Release auf GitHub unter Minerest/llama.cpp_RDNA2_FlashAttnEnabled veröffentlicht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
llama.cpp b9158 bringt Flash-Attention-Fix für RDNA3-GPUs
- MEINUNGreddit.com2w
llama.cpp ROCm vs. Vulkan: 3,8 GB mehr VRAM-Verbrauch für KV-Cache auf Linux
- LAUNCHreddit.com1d
llama.cpp Build 9387 bringt signifikante AMD/ROCm-Verbesserungen
- MEINUNGreddit.com1w
Dual-GPU-Setup mit 48 GB VRAM: llama.cpp-Server via Vulkan auf AMD R9700 AI PRO + 7800XT
RDNA2-Flash-Attention-Patch für llama.cpp verdoppelt Inferenzgeschwindigkeit
Reddit-Nutzer /u/DiscipleofDeceit666 veröffentlichte einen angepassten llama.cpp-Build speziell für AMD-GPUs der RDNA2-Generation (gfx1030/gfx1031). Das zentrale Problem: Stock-llama.cpp-Releases crashen auf dieser Hardware beim Versuch, Flash Attention über ROCm zu aktivieren – ausgelöst durch einen fehlgeschlagenen Assert (`GGML_ASSERT(max_blocks_per_sm > 0)`), da `hipOccupancyMaxActiveBlocksPerMultiprocessor` fälschlicherweise 0 zurückgibt. Der Patch umgeht diesen Assert und ersetzt den Crash durch ein Diagnose-Log. Das Ergebnis: Während der Vulkan-Pfad ca. 30 tok/s liefert und ROCm im Stock-Build gar nicht läuft, erreicht der gepatchte Build 70–80 tok/s mit Qwen3.6 35B und 27B. Der Build nutzt Multi-Token Prediction (MTP) als Entwurfsmethode (`--spec-type draft-mtp`) und ist über GitHub verfügbar. Einschränkungen bestehen: Gemma crasht bei größeren Kontexten, Deepseek läuft sehr langsam. Der Autor gibt explizit an, dass lokale KI auf ROCm generell instabil sein kann.
- Crash-Ursache: hipOccupancyMaxActiveBlocksPerMultiprocessor gibt auf RDNA2 fälschlicherweise 0 zurück
- Kompiliert mit GPU_TARGETS='gfx1030;gfx1031' und -DGGML_FATTN_TRACE als HIP-Flag
- Serverbetrieb mit -fa on, --spec-type draft-mtp, -ngl 50, -ts 16,10 und 64192 Token Kontext
- Bestätigte Modelle: Qwen3.6 35B und 27B; Gemma und Deepseek funktionieren nicht zuverlässig
- Patch als Release auf GitHub unter Minerest/llama.cpp_RDNA2_FlashAttnEnabled veröffentlicht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com2w
llama.cpp b9158 bringt Flash-Attention-Fix für RDNA3-GPUs
- MEINUNGreddit.com2w
llama.cpp ROCm vs. Vulkan: 3,8 GB mehr VRAM-Verbrauch für KV-Cache auf Linux
- LAUNCHreddit.com1d
llama.cpp Build 9387 bringt signifikante AMD/ROCm-Verbesserungen
- MEINUNGreddit.com1w
Dual-GPU-Setup mit 48 GB VRAM: llama.cpp-Server via Vulkan auf AMD R9700 AI PRO + 7800XT