wird geladen

Gemma 4 und Qwen 3.6 MoE auf 2×GTX 1050 Ti: 12–18 t/s im Praxistest · Lumeric

Feed
Digest
Lounge
Stash
Profil

Beitrag

MEINUNG

reddit.com· r/LocalLLaMA6d

Gemma 4 und Qwen 3.6 MoE auf 2×GTX 1050 Ti: 12–18 t/s im Praxistest

ToolsQwen NVIDIA Hardware Llama Hugging Face

CompaniesHugging Face NVIDIA AMD

Warum es zählt

Zeigt, dass MoE-Modelle mit QAT-Quantisierung auch auf sehr alter Consumer-Hardware (gesamt 8 GB VRAM) brauchbare Coding-Assistenz ermöglichen. Praktische llama.cpp-Parameter für Multi-GPU-MoE-Splitting dokumentiert; relevant für Builder ohne dedizierte AI-Hardware.

— Lumeric Redaktion

Quelle lesenreddit.com

Inferenz Infra Open Source Coding Assistenten

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

BENCHMARKreddit.com1w
Qwen3.6 35B auf RTX 3080 10GB: 26 t/s bei 32k Kontext
MEINUNGreddit.com1w
MoE-Modelle auf Consumer-Hardware: Qwen 35BA3B schlägt 27B-Dense-Modell

MEINUNG

reddit.com· r/LocalLLaMA6d

Gemma 4 und Qwen 3.6 MoE auf 2×GTX 1050 Ti: 12–18 t/s im Praxistest

ToolsQwen NVIDIA Hardware Llama Hugging Face

CompaniesHugging Face NVIDIA AMD

Warum es zählt

Zeigt, dass MoE-Modelle mit QAT-Quantisierung auch auf sehr alter Consumer-Hardware (gesamt 8 GB VRAM) brauchbare Coding-Assistenz ermöglichen. Praktische llama.cpp-Parameter für Multi-GPU-MoE-Splitting dokumentiert; relevant für Builder ohne dedizierte AI-Hardware.

— Lumeric Redaktion

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Quelle lesenreddit.com

Themen

Inferenz Infra Open Source Coding Assistenten

Reaktion

Speichern

Verwandte Beiträge

BENCHMARKreddit.com1w
Qwen3.6 35B auf RTX 3080 10GB: 26 t/s bei 32k Kontext
MEINUNGreddit.com1w
MoE-Modelle auf Consumer-Hardware: Qwen 35BA3B schlägt 27B-Dense-Modell