club-rdna16: Praxis-Repo für lokale LLMs auf 16-GB-AMD-Radeon-GPUs
Das Repo „club-rdna16" ist ein Community-Projekt, das reproduzierbare lokale LLM-Tests speziell für 16-GB-AMD/Radeon-GPUs sammelt – als Nachfolger des bereits existierenden „club-5060ti"-Repos für Nvidia-Hardware. Erste Testmaschine ist eine RX 6900 XT 16 GB unter llama.cpp mit ROCm/HIP-Backend. Getestet werden primär Qwen3.6 27B und Qwen3.6 35B-A3B in den Unsloth-MTP-GGUF-Varianten (UD-IQ3_XXS-Quant, q8-KV-Cache). Zu den frühen Befunden zählt, dass 131k Kontext mit q8-KV als stabiles Nicht-MTP-Profil funktioniert, während 100k Kontext mit MTP zwar läuft, aber sorgfältige Einstellungen erfordert. Der AMD-Compute-Power-Profil-Modus zeigte messbaren Einfluss auf den Long-Context-Prefill. Das Repo dokumentiert exakte Launch-Profile, erreichbare Kontextlängen, Short- und Long-Prompt-Durchsatz sowie ROCm-Setup-Details. Zielgruppe sind Besitzer von Karten wie RX 6900 XT, RX 6800 XT, RX 7800 XT, RX 7900 GRE und RX 9070 XT. Ergebniseinreichungen anderer Nutzer sind explizit erwünscht.
- Erste Testmaschine: RX 6900 XT 16 GB mit llama.cpp + ROCm/HIP-Backend
- Stärkstes Praxis-Ergebnis bisher: Qwen3.6 35B-A3B mit UD-IQ3_XXS-Quant und q8-KV-Cache
- 131k Kontext mit q8-KV funktioniert stabil ohne MTP; 100k + MTP möglich, aber anspruchsvoll
- AMD Compute Power Profile verbessert Long-Context-Prefill-Geschwindigkeit spürbar
- Repo enthält Vorlagen für Ergebniseinreichungen – GPU, ROCm-Version, Quant, Kontext und Retrieval-Test-Ergebnis gesucht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
club-rdna16: Praxis-Repo für lokale LLMs auf 16-GB-AMD-Radeon-GPUs
Das Repo „club-rdna16" ist ein Community-Projekt, das reproduzierbare lokale LLM-Tests speziell für 16-GB-AMD/Radeon-GPUs sammelt – als Nachfolger des bereits existierenden „club-5060ti"-Repos für Nvidia-Hardware. Erste Testmaschine ist eine RX 6900 XT 16 GB unter llama.cpp mit ROCm/HIP-Backend. Getestet werden primär Qwen3.6 27B und Qwen3.6 35B-A3B in den Unsloth-MTP-GGUF-Varianten (UD-IQ3_XXS-Quant, q8-KV-Cache). Zu den frühen Befunden zählt, dass 131k Kontext mit q8-KV als stabiles Nicht-MTP-Profil funktioniert, während 100k Kontext mit MTP zwar läuft, aber sorgfältige Einstellungen erfordert. Der AMD-Compute-Power-Profil-Modus zeigte messbaren Einfluss auf den Long-Context-Prefill. Das Repo dokumentiert exakte Launch-Profile, erreichbare Kontextlängen, Short- und Long-Prompt-Durchsatz sowie ROCm-Setup-Details. Zielgruppe sind Besitzer von Karten wie RX 6900 XT, RX 6800 XT, RX 7800 XT, RX 7900 GRE und RX 9070 XT. Ergebniseinreichungen anderer Nutzer sind explizit erwünscht.
- Erste Testmaschine: RX 6900 XT 16 GB mit llama.cpp + ROCm/HIP-Backend
- Stärkstes Praxis-Ergebnis bisher: Qwen3.6 35B-A3B mit UD-IQ3_XXS-Quant und q8-KV-Cache
- 131k Kontext mit q8-KV funktioniert stabil ohne MTP; 100k + MTP möglich, aber anspruchsvoll
- AMD Compute Power Profile verbessert Long-Context-Prefill-Geschwindigkeit spürbar
- Repo enthält Vorlagen für Ergebniseinreichungen – GPU, ROCm-Version, Quant, Kontext und Retrieval-Test-Ergebnis gesucht
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.