MTP vs. PP-Speed: Nutzer berichtet von Performance-Einbruch bei Multi-GPU-Setup

Warum es zählt

Wer MTP zur Beschleunigung der Token-Generierung einsetzt, sollte beachten, dass bei heterogenen Multi-GPU-Konfigurationen – insbesondere mit PCIe-Risern und gemischten Backends (ROCm + Vulkan) – PP-Performance-Einbußen auftreten können.

— Lumeric Redaktion

Der Reddit-Nutzer /u/milpster schildert ein Praxisproblem bei der lokalen Inferenz mit Qwen 3.6 27B: Sobald Multi-Token Prediction (MTP) aktiviert wird, bricht die Prompt-Processing-Geschwindigkeit (PP) spürbar ein und die GPU-Auslastung sinkt. Das Setup besteht aus zwei Radeon VII (je 16 GB, ROCm) und einer RTX 3080 Max-Q (8 GB, Vulkan), wobei die Radeon-Karten über PCIe-Riser angebunden sind. Als mögliche Ursache vermutet der Autor Bus-Contention durch die Riser. Ein Wechsel auf rein Vulkan-basiertes Rendering verschlechtert die Situation noch weiter. Der Post löst eine Community-Diskussion darüber aus, warum MTP – eigentlich zur Steigerung der Generierungsgeschwindigkeit gedacht – in bestimmten Konfigurationen den Prefill-Durchsatz negativ beeinflusst. KV-Cache läuft auf Q8-Quantisierung. Konkrete Messungen oder Lösungen werden im Auszug nicht genannt.

Was wir noch wissen

Setup: 2× Radeon VII 16 GB (ROCm) + 1× RTX 3080 8 GB Max-Q (Vulkan)
Modell: Qwen 3.6 27B mit KV-Cache-Quantisierung auf Q8
Radeon VIIs über 4× PCIe-Riser angebunden — Bus-Contention als Verdacht
Vollständiger Wechsel auf Vulkan verschlechtert die Performance laut Nutzer noch stärker
Kein Memory-Problem, sondern primär Durchsatz-Einbruch beim Prompt Processing

Quelle lesenreddit.com

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

MEINUNG

reddit.com· r/LocalLLaMA1w