Qwen3.5 122B auf RTX 5090: 6–20 t/s mit llama.cpp und RAM-Offloading
Warum es zählt
Das 122B-Modell passt nicht vollständig in 32 GB VRAM, wodurch erhebliche Teile in langsamen System-RAM ausgelagert werden. Für lokale Nutzer mit Single-GPU-Setup zeigt das Beispiel realistische Erwartungswerte und die Grenzen von Mixed VRAM/RAM-Inferenz bei großen MoE-Modellen.
— Lumeric Redaktion
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3.5 122B auf RTX 5090: 6–20 t/s mit llama.cpp und RAM-Offloading
Warum es zählt
Das 122B-Modell passt nicht vollständig in 32 GB VRAM, wodurch erhebliche Teile in langsamen System-RAM ausgelagert werden. Für lokale Nutzer mit Single-GPU-Setup zeigt das Beispiel realistische Erwartungswerte und die Grenzen von Mixed VRAM/RAM-Inferenz bei großen MoE-Modellen.
— Lumeric Redaktion
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.