Strix Halo + Dual-3090-eGPU via NVLink: Praxistest mit 27B- und 122B-Modellen
Der Reddit-Nutzer betreibt ein Bosgame-M5-System mit AMD Strix Halo (124 GB UMA VRAM) und erweiterte es schrittweise um eine, dann zwei RTX 3090 via eGPU über PCIe 4×4 NVMe-Slots. Da 3-Slot-NVLink-Brücken über 600 USD kosten, entschied er sich für eine günstigere 2-Slot-Variante (~250 USD inkl. Zoll) und modifizierte eine der 3090-Karten mit einem 3D-gedruckten Seitenbläser-Kanal und 120-mm-Lüftern — die Temperatur blieb dabei sogar niedriger als beim unmodifizierten Exemplar. Getestet wurde unter Fedora 43 mit llama.cpp (Build 9221, ROCm 7.2.3 + CUDA) und vLLM (Nightly Build, 3090 auf je 230 W begrenzt). Als Benchmark-Modell diente Qwen 3.6 27B in verschiedenen Quantisierungsstufen (AutoRound INT4, Mixed INT4+8) mit MTP=3 und Kontextlängen bis 1 048 K Token bei vier gleichzeitigen Anfragen. Zentrale Erkenntnis: NVLink verbessert PP/s bei kleinen dichten Modellen um bis zu mehrere Hundert Prozent, hat aber auf llama.cpps Layer-Split keinen Einfluss — dort brachte der `-sm tensor`-Modus zwar ~30 % mehr TG/s, jedoch auf Kosten eines erheblichen PP/s-Einbruchs. Für 122B-Modelle erwies sich der Strix Halo allein als effizienter pro Watt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Strix Halo + Dual-3090-eGPU via NVLink: Praxistest mit 27B- und 122B-Modellen
Der Reddit-Nutzer betreibt ein Bosgame-M5-System mit AMD Strix Halo (124 GB UMA VRAM) und erweiterte es schrittweise um eine, dann zwei RTX 3090 via eGPU über PCIe 4×4 NVMe-Slots. Da 3-Slot-NVLink-Brücken über 600 USD kosten, entschied er sich für eine günstigere 2-Slot-Variante (~250 USD inkl. Zoll) und modifizierte eine der 3090-Karten mit einem 3D-gedruckten Seitenbläser-Kanal und 120-mm-Lüftern — die Temperatur blieb dabei sogar niedriger als beim unmodifizierten Exemplar. Getestet wurde unter Fedora 43 mit llama.cpp (Build 9221, ROCm 7.2.3 + CUDA) und vLLM (Nightly Build, 3090 auf je 230 W begrenzt). Als Benchmark-Modell diente Qwen 3.6 27B in verschiedenen Quantisierungsstufen (AutoRound INT4, Mixed INT4+8) mit MTP=3 und Kontextlängen bis 1 048 K Token bei vier gleichzeitigen Anfragen. Zentrale Erkenntnis: NVLink verbessert PP/s bei kleinen dichten Modellen um bis zu mehrere Hundert Prozent, hat aber auf llama.cpps Layer-Split keinen Einfluss — dort brachte der `-sm tensor`-Modus zwar ~30 % mehr TG/s, jedoch auf Kosten eines erheblichen PP/s-Einbruchs. Für 122B-Modelle erwies sich der Strix Halo allein als effizienter pro Watt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.