wird geladen

Qwen3.5 122B auf RTX 5090: 6–20 t/s mit llama.cpp und RAM-Offloading · Lumeric

Feed
Digest
Lounge
Stash
Profil

Beitrag

MEINUNG

reddit.com· r/LocalLLaMA2h

Qwen3.5 122B auf RTX 5090: 6–20 t/s mit llama.cpp und RAM-Offloading

ToolsQwen Llama

Warum es zählt

Das 122B-Modell passt nicht vollständig in 32 GB VRAM, wodurch erhebliche Teile in langsamen System-RAM ausgelagert werden. Für lokale Nutzer mit Single-GPU-Setup zeigt das Beispiel realistische Erwartungswerte und die Grenzen von Mixed VRAM/RAM-Inferenz bei großen MoE-Modellen.

— Lumeric Redaktion

Quelle lesenreddit.com

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

BENCHMARKreddit.com3w
Qwen3.6 35B auf RTX 3080 10GB: 26 t/s bei 32k Kontext
MEINUNGreddit.com3w
KV-Cache-Offload in RAM: Praxistipp für mehr Kontext auf Consumer-GPUs

MEINUNG

reddit.com· r/LocalLLaMA2h

Qwen3.5 122B auf RTX 5090: 6–20 t/s mit llama.cpp und RAM-Offloading

ToolsQwen Llama

Warum es zählt

Das 122B-Modell passt nicht vollständig in 32 GB VRAM, wodurch erhebliche Teile in langsamen System-RAM ausgelagert werden. Für lokale Nutzer mit Single-GPU-Setup zeigt das Beispiel realistische Erwartungswerte und die Grenzen von Mixed VRAM/RAM-Inferenz bei großen MoE-Modellen.

— Lumeric Redaktion

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Quelle lesenreddit.com

Themen

Inferenz Infra Open Source Foundation Modelle

Reaktion

Speichern

Verwandte Beiträge

BENCHMARKreddit.com3w
Qwen3.6 35B auf RTX 3080 10GB: 26 t/s bei 32k Kontext
MEINUNGreddit.com3w
KV-Cache-Offload in RAM: Praxistipp für mehr Kontext auf Consumer-GPUs