llama-bench: 30 Läufe zur Optimierung von Gemma4 und Qwen3 auf AMD MI60
Der Reddit-Nutzer FantasyMaster85 beschreibt eine systematische Benchmarking-Kampagne auf einer AMD MI60 (32 GB VRAM) – einer GPU, die unter Ubuntu 24.04 erfahrungsgemäß schwer einzurichten ist. Als Basis dient ein Docker-Container (mixa3607/ML-gfx906), der den Aufwand gegenüber dem manuellen Build aus dem Quellcode drastisch reduziert. Getestet wurden zwei Modelle: Gemma 4 26B.A4B in Q4_1 und Qwen3 35B.A3B in Q4_0 – beide für Frigate (KI-gestützte Kamera-Ereignisfilterung) und HomeAssistant (lokaler Sprachassistent als Alexa-Ersatz) ausgewählt. Das Benchmark-Skript – von Claude generiert – führte 30 Läufe in 8 Abschnitten durch und variierte jeweils einen Parameter: Flash Attention, KV-Cache-Quantisierung (f16, q8_0, q4_0), ubatch-Größe (512–8192), logische Batchgröße, CPU-Thread-Anzahl sowie die ROCm-Variablen GGML_ROCM_FORCE_MMQ und HSA_ENABLE_SDMA. Abschnitt 8 kombinierte die vielversprechendsten Einzelergebnisse. Der Quant-Typ Q4_0 für Qwen wurde wegen des größeren Speicherbedarfs von Q4_1 gewählt, um bei 3 Slots mit eigenem KV-Cache ausreichend Kontextgröße zu gewährleisten. Die AMD-GPUs MI60/MI50 profitieren hardwareseitig besonders von _0- und _1-Quants.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
llama-bench: 30 Läufe zur Optimierung von Gemma4 und Qwen3 auf AMD MI60
Der Reddit-Nutzer FantasyMaster85 beschreibt eine systematische Benchmarking-Kampagne auf einer AMD MI60 (32 GB VRAM) – einer GPU, die unter Ubuntu 24.04 erfahrungsgemäß schwer einzurichten ist. Als Basis dient ein Docker-Container (mixa3607/ML-gfx906), der den Aufwand gegenüber dem manuellen Build aus dem Quellcode drastisch reduziert. Getestet wurden zwei Modelle: Gemma 4 26B.A4B in Q4_1 und Qwen3 35B.A3B in Q4_0 – beide für Frigate (KI-gestützte Kamera-Ereignisfilterung) und HomeAssistant (lokaler Sprachassistent als Alexa-Ersatz) ausgewählt. Das Benchmark-Skript – von Claude generiert – führte 30 Läufe in 8 Abschnitten durch und variierte jeweils einen Parameter: Flash Attention, KV-Cache-Quantisierung (f16, q8_0, q4_0), ubatch-Größe (512–8192), logische Batchgröße, CPU-Thread-Anzahl sowie die ROCm-Variablen GGML_ROCM_FORCE_MMQ und HSA_ENABLE_SDMA. Abschnitt 8 kombinierte die vielversprechendsten Einzelergebnisse. Der Quant-Typ Q4_0 für Qwen wurde wegen des größeren Speicherbedarfs von Q4_1 gewählt, um bei 3 Slots mit eigenem KV-Cache ausreichend Kontextgröße zu gewährleisten. Die AMD-GPUs MI60/MI50 profitieren hardwareseitig besonders von _0- und _1-Quants.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.