Luce DFlash/PFlash auf AMD Strix Halo: 2,23× schnellerer Decode mit Qwen3.6-27B
Das Luce-Projekt hat seine DFlash- und PFlash-Technologien auf den AMD Ryzen AI MAX+ 395 (Strix Halo, gfx1151) portiert. Das System nutzt 128 GiB LPDDR5X-8000-Unified-Memory und läuft unter ROCm 7.2.2. Als Zielmodell dient Qwen3.6-27B in Q4_K_M-Quantisierung (15,65 GiB), als Drafter wird ein eigenes Lucebox-Q8_0-DFlash-GGUF-Modell eingesetzt. Im Decode-Benchmark erreicht Luce DFlash 26,85 tok/s gegenüber 12,02 tok/s bei llama.cpp HIP – ein Faktor von 2,23×. Das Prefill bei 16K Tokens (TTFT) fällt von 61,69 s auf 20,2 s (3,05×). Die Gesamtlatenz bei einem 16K-Prompt + 1K-Generierungs-Workload sinkt von 147 s auf 58 s. Noch fehlt ein BSA-Scoring-Kernel für HIP; der aktuelle Fallback auf ggml flash_attn_ext ist laut Eigenaussage ca. 3,4× langsamer. Nach dessen Fertigstellung soll die TTFT bei 16K von 27,6 s auf ~8 s sinken. Weitere offene Punkte sind RDNA-natives Multi-Row-GEMV und 70B+-MoE-Unterstützung (Qwen3.5-122B-A10B, MiniMax-M2.7-REAP 139B-A10B). Der Code ist unter MIT-Lizenz im GitHub-Repo Luce-Org/lucebox-hub verfügbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Luce DFlash/PFlash auf AMD Strix Halo: 2,23× schnellerer Decode mit Qwen3.6-27B
Das Luce-Projekt hat seine DFlash- und PFlash-Technologien auf den AMD Ryzen AI MAX+ 395 (Strix Halo, gfx1151) portiert. Das System nutzt 128 GiB LPDDR5X-8000-Unified-Memory und läuft unter ROCm 7.2.2. Als Zielmodell dient Qwen3.6-27B in Q4_K_M-Quantisierung (15,65 GiB), als Drafter wird ein eigenes Lucebox-Q8_0-DFlash-GGUF-Modell eingesetzt. Im Decode-Benchmark erreicht Luce DFlash 26,85 tok/s gegenüber 12,02 tok/s bei llama.cpp HIP – ein Faktor von 2,23×. Das Prefill bei 16K Tokens (TTFT) fällt von 61,69 s auf 20,2 s (3,05×). Die Gesamtlatenz bei einem 16K-Prompt + 1K-Generierungs-Workload sinkt von 147 s auf 58 s. Noch fehlt ein BSA-Scoring-Kernel für HIP; der aktuelle Fallback auf ggml flash_attn_ext ist laut Eigenaussage ca. 3,4× langsamer. Nach dessen Fertigstellung soll die TTFT bei 16K von 27,6 s auf ~8 s sinken. Weitere offene Punkte sind RDNA-natives Multi-Row-GEMV und 70B+-MoE-Unterstützung (Qwen3.5-122B-A10B, MiniMax-M2.7-REAP 139B-A10B). Der Code ist unter MIT-Lizenz im GitHub-Repo Luce-Org/lucebox-hub verfügbar.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.