2× Radeon AI PRO R9700 auf vLLM: Long-Context-Einbruch mit AITER Attention behoben

Warum es zählt

Wer Qwen3.6-35B-A3B-FP8 oder ähnliche Hybrid-MoE-Modelle auf RDNA4-Karten in TP=2 betreibt, kann durch eine einzeilige Python-Gate-Änderung in vLLM 0.22.1 und korrekte AITER-Flags massive Long-Context-Einbrüche beheben – ohne vollständigen Image-Rebuild.

— Lumeric Redaktion

Quelle lesenreddit.com

Decode-Durchsatz (tok/s) nach Kontextlänge — Qwen3.6-35B-A3B-FP8, TP2, 2× R9700 · Spitzenwert

100%

~8.7K Kontext (vor AITER)

Inferenz Infra Open Source Long Context

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

2× Radeon AI PRO R9700 auf vLLM: Long-Context-Einbruch mit AITER Attention behoben

Toolsv0 GPT Qwen Vercel

CompaniesOpenAI AMD

Warum es zählt

— Lumeric Redaktion

Decode-Durchsatz (tok/s) nach Kontextlänge — Qwen3.6-35B-A3B-FP8, TP2, 2× R9700 · Spitzenwert

100%

~8.7K Kontext (vor AITER)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

2× Radeon AI PRO R9700 auf vLLM: Long-Context-Einbruch mit AITER Attention behoben

Frag die KI zum Artikel

Verwandte Beiträge

2× Radeon AI PRO R9700 auf vLLM: Long-Context-Einbruch mit AITER Attention behoben

Frag die KI zum Artikel

Verwandte Beiträge