MTP vs. PP-Speed: Nutzer berichtet von Performance-Einbruch bei Multi-GPU-Setup
Der Reddit-Nutzer /u/milpster schildert ein Praxisproblem bei der lokalen Inferenz mit Qwen 3.6 27B: Sobald Multi-Token Prediction (MTP) aktiviert wird, bricht die Prompt-Processing-Geschwindigkeit (PP) spürbar ein und die GPU-Auslastung sinkt. Das Setup besteht aus zwei Radeon VII (je 16 GB, ROCm) und einer RTX 3080 Max-Q (8 GB, Vulkan), wobei die Radeon-Karten über PCIe-Riser angebunden sind. Als mögliche Ursache vermutet der Autor Bus-Contention durch die Riser. Ein Wechsel auf rein Vulkan-basiertes Rendering verschlechtert die Situation noch weiter. Der Post löst eine Community-Diskussion darüber aus, warum MTP – eigentlich zur Steigerung der Generierungsgeschwindigkeit gedacht – in bestimmten Konfigurationen den Prefill-Durchsatz negativ beeinflusst. KV-Cache läuft auf Q8-Quantisierung. Konkrete Messungen oder Lösungen werden im Auszug nicht genannt.
- Setup: 2× Radeon VII 16 GB (ROCm) + 1× RTX 3080 8 GB Max-Q (Vulkan)
- Modell: Qwen 3.6 27B mit KV-Cache-Quantisierung auf Q8
- Radeon VIIs über 4× PCIe-Riser angebunden — Bus-Contention als Verdacht
- Vollständiger Wechsel auf Vulkan verschlechtert die Performance laut Nutzer noch stärker
- Kein Memory-Problem, sondern primär Durchsatz-Einbruch beim Prompt Processing
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
MTP vs. PP-Speed: Nutzer berichtet von Performance-Einbruch bei Multi-GPU-Setup
Der Reddit-Nutzer /u/milpster schildert ein Praxisproblem bei der lokalen Inferenz mit Qwen 3.6 27B: Sobald Multi-Token Prediction (MTP) aktiviert wird, bricht die Prompt-Processing-Geschwindigkeit (PP) spürbar ein und die GPU-Auslastung sinkt. Das Setup besteht aus zwei Radeon VII (je 16 GB, ROCm) und einer RTX 3080 Max-Q (8 GB, Vulkan), wobei die Radeon-Karten über PCIe-Riser angebunden sind. Als mögliche Ursache vermutet der Autor Bus-Contention durch die Riser. Ein Wechsel auf rein Vulkan-basiertes Rendering verschlechtert die Situation noch weiter. Der Post löst eine Community-Diskussion darüber aus, warum MTP – eigentlich zur Steigerung der Generierungsgeschwindigkeit gedacht – in bestimmten Konfigurationen den Prefill-Durchsatz negativ beeinflusst. KV-Cache läuft auf Q8-Quantisierung. Konkrete Messungen oder Lösungen werden im Auszug nicht genannt.
- Setup: 2× Radeon VII 16 GB (ROCm) + 1× RTX 3080 8 GB Max-Q (Vulkan)
- Modell: Qwen 3.6 27B mit KV-Cache-Quantisierung auf Q8
- Radeon VIIs über 4× PCIe-Riser angebunden — Bus-Contention als Verdacht
- Vollständiger Wechsel auf Vulkan verschlechtert die Performance laut Nutzer noch stärker
- Kein Memory-Problem, sondern primär Durchsatz-Einbruch beim Prompt Processing
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.