2× Radeon AI PRO R9700 auf vLLM: Long-Context-Einbruch mit AITER Attention behoben
Warum es zählt
Wer Qwen3.6-35B-A3B-FP8 oder ähnliche Hybrid-MoE-Modelle auf RDNA4-Karten in TP=2 betreibt, kann durch eine einzeilige Python-Gate-Änderung in vLLM 0.22.1 und korrekte AITER-Flags massive Long-Context-Einbrüche beheben – ohne vollständigen Image-Rebuild.
— Lumeric Redaktion
Decode-Durchsatz (tok/s) nach Kontextlänge — Qwen3.6-35B-A3B-FP8, TP2, 2× R9700 · Spitzenwert
100%
~8.7K Kontext (vor AITER)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
2× Radeon AI PRO R9700 auf vLLM: Long-Context-Einbruch mit AITER Attention behoben
Warum es zählt
Wer Qwen3.6-35B-A3B-FP8 oder ähnliche Hybrid-MoE-Modelle auf RDNA4-Karten in TP=2 betreibt, kann durch eine einzeilige Python-Gate-Änderung in vLLM 0.22.1 und korrekte AITER-Flags massive Long-Context-Einbrüche beheben – ohne vollständigen Image-Rebuild.
— Lumeric Redaktion
Decode-Durchsatz (tok/s) nach Kontextlänge — Qwen3.6-35B-A3B-FP8, TP2, 2× R9700 · Spitzenwert
100%
~8.7K Kontext (vor AITER)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.