club-rdna16: Praxis-Repo für lokale LLMs auf 16-GB-AMD-Radeon-GPUs

Warum es zählt

AMD-Nutzer mit 16-GB-Radeon-Karten erhalten konkrete llama.cpp-Startprofile, KV-Cache-Einstellungen und Kontextlängen-Checks statt fragmentierter Kommentare – inklusive Vorlagen für eigene Ergebniseinreichungen.

— Lumeric Redaktion

Das Repo „club-rdna16" ist ein Community-Projekt, das reproduzierbare lokale LLM-Tests speziell für 16-GB-AMD/Radeon-GPUs sammelt – als Nachfolger des bereits existierenden „club-5060ti"-Repos für Nvidia-Hardware. Erste Testmaschine ist eine RX 6900 XT 16 GB unter llama.cpp mit ROCm/HIP-Backend. Getestet werden primär Qwen3.6 27B und Qwen3.6 35B-A3B in den Unsloth-MTP-GGUF-Varianten (UD-IQ3_XXS-Quant, q8-KV-Cache). Zu den frühen Befunden zählt, dass 131k Kontext mit q8-KV als stabiles Nicht-MTP-Profil funktioniert, während 100k Kontext mit MTP zwar läuft, aber sorgfältige Einstellungen erfordert. Der AMD-Compute-Power-Profil-Modus zeigte messbaren Einfluss auf den Long-Context-Prefill. Das Repo dokumentiert exakte Launch-Profile, erreichbare Kontextlängen, Short- und Long-Prompt-Durchsatz sowie ROCm-Setup-Details. Zielgruppe sind Besitzer von Karten wie RX 6900 XT, RX 6800 XT, RX 7800 XT, RX 7900 GRE und RX 9070 XT. Ergebniseinreichungen anderer Nutzer sind explizit erwünscht.

Was wir noch wissen

Erste Testmaschine: RX 6900 XT 16 GB mit llama.cpp + ROCm/HIP-Backend
Stärkstes Praxis-Ergebnis bisher: Qwen3.6 35B-A3B mit UD-IQ3_XXS-Quant und q8-KV-Cache
131k Kontext mit q8-KV funktioniert stabil ohne MTP; 100k + MTP möglich, aber anspruchsvoll
AMD Compute Power Profile verbessert Long-Context-Prefill-Geschwindigkeit spürbar
Repo enthält Vorlagen für Ergebniseinreichungen – GPU, ROCm-Version, Quant, Kontext und Retrieval-Test-Ergebnis gesucht

Quelle lesenreddit.com

Open Source Inferenz Infra Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

club-rdna16: Praxis-Repo für lokale LLMs auf 16-GB-AMD-Radeon-GPUs

ToolsQwen NVIDIA Hardware Llama

CompaniesNVIDIA AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Erste Testmaschine: RX 6900 XT 16 GB mit llama.cpp + ROCm/HIP-Backend
Stärkstes Praxis-Ergebnis bisher: Qwen3.6 35B-A3B mit UD-IQ3_XXS-Quant und q8-KV-Cache
131k Kontext mit q8-KV funktioniert stabil ohne MTP; 100k + MTP möglich, aber anspruchsvoll
AMD Compute Power Profile verbessert Long-Context-Prefill-Geschwindigkeit spürbar
Repo enthält Vorlagen für Ergebniseinreichungen – GPU, ROCm-Version, Quant, Kontext und Retrieval-Test-Ergebnis gesucht

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

club-rdna16: Praxis-Repo für lokale LLMs auf 16-GB-AMD-Radeon-GPUs

Frag die KI zum Artikel

Verwandte Beiträge

club-rdna16: Praxis-Repo für lokale LLMs auf 16-GB-AMD-Radeon-GPUs

Frag die KI zum Artikel

Verwandte Beiträge