wird geladen

llama-bench: 30 Läufe zur Optimierung von Gemma4 und Qwen3 auf AMD MI60 · Lumeric

Beitrag

BENCHMARK

reddit.com· r/LocalLLaMA1mo

llama-bench: 30 Läufe zur Optimierung von Gemma4 und Qwen3 auf AMD MI60

ToolsClaude Qwen Llama

CompaniesAMD

Warum es zählt

Die optimierten Einstellungen (u. a. HSA_ENABLE_SDMA deaktiviert, KV-Cache-Quantisierung, ubatch-Größe) brachten messbare Praxisgewinne: Sprachbefehle in unter 1,2 Sekunden, Kamera-Review-Zusammenfassungen in unter 18 Sekunden — konkrete Orientierung für MI60/MI50-Nutzer mit llama.cpp.

— Lumeric Redaktion

Der Reddit-Nutzer FantasyMaster85 beschreibt eine systematische Benchmarking-Kampagne auf einer AMD MI60 (32 GB VRAM) – einer GPU, die unter Ubuntu 24.04 erfahrungsgemäß schwer einzurichten ist. Als Basis dient ein Docker-Container (mixa3607/ML-gfx906), der den Aufwand gegenüber dem manuellen Build aus dem Quellcode drastisch reduziert. Getestet wurden zwei Modelle: Gemma 4 26B.A4B in Q4_1 und Qwen3 35B.A3B in Q4_0 – beide für Frigate (KI-gestützte Kamera-Ereignisfilterung) und HomeAssistant (lokaler Sprachassistent als Alexa-Ersatz) ausgewählt. Das Benchmark-Skript – von Claude generiert – führte 30 Läufe in 8 Abschnitten durch und variierte jeweils einen Parameter: Flash Attention, KV-Cache-Quantisierung (f16, q8_0, q4_0), ubatch-Größe (512–8192), logische Batchgröße, CPU-Thread-Anzahl sowie die ROCm-Variablen GGML_ROCM_FORCE_MMQ und HSA_ENABLE_SDMA. Abschnitt 8 kombinierte die vielversprechendsten Einzelergebnisse. Der Quant-Typ Q4_0 für Qwen wurde wegen des größeren Speicherbedarfs von Q4_1 gewählt, um bei 3 Slots mit eigenem KV-Cache ausreichend Kontextgröße zu gewährleisten. Die AMD-GPUs MI60/MI50 profitieren hardwareseitig besonders von _0- und _1-Quants.

Quelle lesenreddit.com

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

BENCHMARK

reddit.com· r/LocalLLaMA1mo

llama-bench: 30 Läufe zur Optimierung von Gemma4 und Qwen3 auf AMD MI60

ToolsClaude Qwen Llama

CompaniesAMD

Warum es zählt

Die optimierten Einstellungen (u. a. HSA_ENABLE_SDMA deaktiviert, KV-Cache-Quantisierung, ubatch-Größe) brachten messbare Praxisgewinne: Sprachbefehle in unter 1,2 Sekunden, Kamera-Review-Zusammenfassungen in unter 18 Sekunden — konkrete Orientierung für MI60/MI50-Nutzer mit llama.cpp.

— Lumeric Redaktion

Der Reddit-Nutzer FantasyMaster85 beschreibt eine systematische Benchmarking-Kampagne auf einer AMD MI60 (32 GB VRAM) – einer GPU, die unter Ubuntu 24.04 erfahrungsgemäß schwer einzurichten ist. Als Basis dient ein Docker-Container (mixa3607/ML-gfx906), der den Aufwand gegenüber dem manuellen Build aus dem Quellcode drastisch reduziert. Getestet wurden zwei Modelle: Gemma 4 26B.A4B in Q4_1 und Qwen3 35B.A3B in Q4_0 – beide für Frigate (KI-gestützte Kamera-Ereignisfilterung) und HomeAssistant (lokaler Sprachassistent als Alexa-Ersatz) ausgewählt. Das Benchmark-Skript – von Claude generiert – führte 30 Läufe in 8 Abschnitten durch und variierte jeweils einen Parameter: Flash Attention, KV-Cache-Quantisierung (f16, q8_0, q4_0), ubatch-Größe (512–8192), logische Batchgröße, CPU-Thread-Anzahl sowie die ROCm-Variablen GGML_ROCM_FORCE_MMQ und HSA_ENABLE_SDMA. Abschnitt 8 kombinierte die vielversprechendsten Einzelergebnisse. Der Quant-Typ Q4_0 für Qwen wurde wegen des größeren Speicherbedarfs von Q4_1 gewählt, um bei 3 Slots mit eigenem KV-Cache ausreichend Kontextgröße zu gewährleisten. Die AMD-GPUs MI60/MI50 profitieren hardwareseitig besonders von _0- und _1-Quants.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge