wird geladen

Strix Halo + Dual-3090-eGPU via NVLink: Praxistest mit 27B- und 122B-Modellen · Lumeric

Beitrag

BENCHMARK

reddit.com· r/LocalLLaMA1mo

Strix Halo + Dual-3090-eGPU via NVLink: Praxistest mit 27B- und 122B-Modellen

ToolsQwen Llama

CompaniesAMD

Warum es zählt

Die Ergebnisse zeigen, dass NVLink den eGPU-Flaschenhals bei PP/s spürbar reduziert und Multi-Agent-Coding-Szenarien mit dichten 27B/31B-Modellen deutlich beschleunigt — aber bei 122B-Modellen ist der Strix Halo allein energieeffizienter als das Drei-GPU-Setup.

— Lumeric Redaktion

Der Reddit-Nutzer betreibt ein Bosgame-M5-System mit AMD Strix Halo (124 GB UMA VRAM) und erweiterte es schrittweise um eine, dann zwei RTX 3090 via eGPU über PCIe 4×4 NVMe-Slots. Da 3-Slot-NVLink-Brücken über 600 USD kosten, entschied er sich für eine günstigere 2-Slot-Variante (~250 USD inkl. Zoll) und modifizierte eine der 3090-Karten mit einem 3D-gedruckten Seitenbläser-Kanal und 120-mm-Lüftern — die Temperatur blieb dabei sogar niedriger als beim unmodifizierten Exemplar. Getestet wurde unter Fedora 43 mit llama.cpp (Build 9221, ROCm 7.2.3 + CUDA) und vLLM (Nightly Build, 3090 auf je 230 W begrenzt). Als Benchmark-Modell diente Qwen 3.6 27B in verschiedenen Quantisierungsstufen (AutoRound INT4, Mixed INT4+8) mit MTP=3 und Kontextlängen bis 1 048 K Token bei vier gleichzeitigen Anfragen. Zentrale Erkenntnis: NVLink verbessert PP/s bei kleinen dichten Modellen um bis zu mehrere Hundert Prozent, hat aber auf llama.cpps Layer-Split keinen Einfluss — dort brachte der `-sm tensor`-Modus zwar ~30 % mehr TG/s, jedoch auf Kosten eines erheblichen PP/s-Einbruchs. Für 122B-Modelle erwies sich der Strix Halo allein als effizienter pro Watt.

Quelle lesenreddit.com

Inferenz Infra Open Source Agents

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

BENCHMARK

reddit.com· r/LocalLLaMA1mo

Strix Halo + Dual-3090-eGPU via NVLink: Praxistest mit 27B- und 122B-Modellen

ToolsQwen Llama

CompaniesAMD

Warum es zählt

Die Ergebnisse zeigen, dass NVLink den eGPU-Flaschenhals bei PP/s spürbar reduziert und Multi-Agent-Coding-Szenarien mit dichten 27B/31B-Modellen deutlich beschleunigt — aber bei 122B-Modellen ist der Strix Halo allein energieeffizienter als das Drei-GPU-Setup.

— Lumeric Redaktion

Der Reddit-Nutzer betreibt ein Bosgame-M5-System mit AMD Strix Halo (124 GB UMA VRAM) und erweiterte es schrittweise um eine, dann zwei RTX 3090 via eGPU über PCIe 4×4 NVMe-Slots. Da 3-Slot-NVLink-Brücken über 600 USD kosten, entschied er sich für eine günstigere 2-Slot-Variante (~250 USD inkl. Zoll) und modifizierte eine der 3090-Karten mit einem 3D-gedruckten Seitenbläser-Kanal und 120-mm-Lüftern — die Temperatur blieb dabei sogar niedriger als beim unmodifizierten Exemplar. Getestet wurde unter Fedora 43 mit llama.cpp (Build 9221, ROCm 7.2.3 + CUDA) und vLLM (Nightly Build, 3090 auf je 230 W begrenzt). Als Benchmark-Modell diente Qwen 3.6 27B in verschiedenen Quantisierungsstufen (AutoRound INT4, Mixed INT4+8) mit MTP=3 und Kontextlängen bis 1 048 K Token bei vier gleichzeitigen Anfragen. Zentrale Erkenntnis: NVLink verbessert PP/s bei kleinen dichten Modellen um bis zu mehrere Hundert Prozent, hat aber auf llama.cpps Layer-Split keinen Einfluss — dort brachte der `-sm tensor`-Modus zwar ~30 % mehr TG/s, jedoch auf Kosten eines erheblichen PP/s-Einbruchs. Für 122B-Modelle erwies sich der Strix Halo allein als effizienter pro Watt.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge