wird geladen

Luce DFlash/PFlash auf AMD Strix Halo: 2,23× schnellerer Decode mit Qwen3.6-27B · Lumeric

Beitrag

BENCHMARK

reddit.com· r/LocalLLaMA2w

Luce DFlash/PFlash auf AMD Strix Halo: 2,23× schnellerer Decode mit Qwen3.6-27B

ToolsQwen Llama Hugging Face

CompaniesHugging Face AMD

Warum es zählt

Consumer-APUs mit 128 GiB können damit Modelle bis ~100 GiB (z.B. Qwen3.5-122B-A10B) lokal betreiben – eine Modellklasse, die für 24-GiB-GPUs unerreichbar ist. Die End-to-End-Latenz bei 16K-Kontext sinkt von 147 s auf 58 s, was lokale Inferenz großer Modelle deutlich praxistauglicher macht.

— Lumeric Redaktion

Das Luce-Projekt hat seine DFlash- und PFlash-Technologien auf den AMD Ryzen AI MAX+ 395 (Strix Halo, gfx1151) portiert. Das System nutzt 128 GiB LPDDR5X-8000-Unified-Memory und läuft unter ROCm 7.2.2. Als Zielmodell dient Qwen3.6-27B in Q4_K_M-Quantisierung (15,65 GiB), als Drafter wird ein eigenes Lucebox-Q8_0-DFlash-GGUF-Modell eingesetzt. Im Decode-Benchmark erreicht Luce DFlash 26,85 tok/s gegenüber 12,02 tok/s bei llama.cpp HIP – ein Faktor von 2,23×. Das Prefill bei 16K Tokens (TTFT) fällt von 61,69 s auf 20,2 s (3,05×). Die Gesamtlatenz bei einem 16K-Prompt + 1K-Generierungs-Workload sinkt von 147 s auf 58 s. Noch fehlt ein BSA-Scoring-Kernel für HIP; der aktuelle Fallback auf ggml flash_attn_ext ist laut Eigenaussage ca. 3,4× langsamer. Nach dessen Fertigstellung soll die TTFT bei 16K von 27,6 s auf ~8 s sinken. Weitere offene Punkte sind RDNA-natives Multi-Row-GEMV und 70B+-MoE-Unterstützung (Qwen3.5-122B-A10B, MiniMax-M2.7-REAP 139B-A10B). Der Code ist unter MIT-Lizenz im GitHub-Repo Luce-Org/lucebox-hub verfügbar.

Quelle lesenreddit.com

Decode-Speed Qwen3.6-27B Q4_K_M (tok/s) · Spitzenwert

12.02%

llama.cpp HIP AR

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

BENCHMARK

reddit.com· r/LocalLLaMA2w

Luce DFlash/PFlash auf AMD Strix Halo: 2,23× schnellerer Decode mit Qwen3.6-27B

ToolsQwen Llama Hugging Face

CompaniesHugging Face AMD

Warum es zählt

Consumer-APUs mit 128 GiB können damit Modelle bis ~100 GiB (z.B. Qwen3.5-122B-A10B) lokal betreiben – eine Modellklasse, die für 24-GiB-GPUs unerreichbar ist. Die End-to-End-Latenz bei 16K-Kontext sinkt von 147 s auf 58 s, was lokale Inferenz großer Modelle deutlich praxistauglicher macht.

— Lumeric Redaktion

Das Luce-Projekt hat seine DFlash- und PFlash-Technologien auf den AMD Ryzen AI MAX+ 395 (Strix Halo, gfx1151) portiert. Das System nutzt 128 GiB LPDDR5X-8000-Unified-Memory und läuft unter ROCm 7.2.2. Als Zielmodell dient Qwen3.6-27B in Q4_K_M-Quantisierung (15,65 GiB), als Drafter wird ein eigenes Lucebox-Q8_0-DFlash-GGUF-Modell eingesetzt. Im Decode-Benchmark erreicht Luce DFlash 26,85 tok/s gegenüber 12,02 tok/s bei llama.cpp HIP – ein Faktor von 2,23×. Das Prefill bei 16K Tokens (TTFT) fällt von 61,69 s auf 20,2 s (3,05×). Die Gesamtlatenz bei einem 16K-Prompt + 1K-Generierungs-Workload sinkt von 147 s auf 58 s. Noch fehlt ein BSA-Scoring-Kernel für HIP; der aktuelle Fallback auf ggml flash_attn_ext ist laut Eigenaussage ca. 3,4× langsamer. Nach dessen Fertigstellung soll die TTFT bei 16K von 27,6 s auf ~8 s sinken. Weitere offene Punkte sind RDNA-natives Multi-Row-GEMV und 70B+-MoE-Unterstützung (Qwen3.5-122B-A10B, MiniMax-M2.7-REAP 139B-A10B). Der Code ist unter MIT-Lizenz im GitHub-Repo Luce-Org/lucebox-hub verfügbar.

Decode-Speed Qwen3.6-27B Q4_K_M (tok/s) · Spitzenwert

12.02%

llama.cpp HIP AR

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge