wird geladen

35B MoE-Modell auf 5 Jahre altem Laptop mit 6 GB VRAM: 23 t/s durch Quantisierung erreicht · Lumeric

Beitrag

FORSCHUNG

reddit.com· r/LocalLLaMA3w

35B MoE-Modell auf 5 Jahre altem Laptop mit 6 GB VRAM: 23 t/s durch Quantisierung erreicht

ToolsClaude Claude Code Qwen DeepSeek Llama

CompaniesDeepSeek

Warum es zählt

Demonstriert praktische Techniken zur effiziente Nutzung großer MoE-Modelle mit minimaler Hardware: Wahl korrekter Quantisierungsformate (IQ4_NL vs. IQ3), Ngram Speculative Decoding für Code, und CPU-Offloading-Optimierungen sind direkt auf lokale Deployments übertragbar.

— Lumeric Redaktion

Der Entwickler Abhinand05 dokumentiert eine mehrteilige Optimierungskette für lokale MoE-Inferenz auf kostengünstiger Hardware. Ausgangspunkt war ein ASUS Zephyrus G14 (2020) mit RTX 2060 Max-Q (6 GB VRAM) und Ryzen 4900HS. Zentrale Erkenntnisse: (1) Bartowski IQ4_NL und APEX I-Compact Quantisierungsformate sind für CPU-Offload überlegen, während Unsloth Dynamic zu aggressivem Downcast führt; (2) Ngram-basiertes Speculative Decoding erreicht bei Code-Workloads 100% Draft-Akzeptanz und 33 t/s, während DFlash-Verifikation unter 8 GB VRAM ineffizient wird; (3) 68 automatisierte Hyperparameter-Sweeps via DeepSeek V4-Pro fanden keine Verbesserung gegenüber manuellem Tuning; (4) Unerwartet hohe Performance im Batteriebetrieb (10 t/s konsistent). Die finale Konfiguration nutzt APEX I-Compact, llama.cpp mit TurboQuant-Fork, q8_0 KV-Cache und --n-cpu-moe 36. Alle Erkenntnisse stammen aus der r/LocalLLaMA-Community; der Autor betont kollaborativen Forschungsprozess.

Quelle lesenreddit.com

22–33 t/s

auf RTX 2060 Max-Q 6 GB

Open Source Inferenz Infra Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

FORSCHUNG

reddit.com· r/LocalLLaMA3w

35B MoE-Modell auf 5 Jahre altem Laptop mit 6 GB VRAM: 23 t/s durch Quantisierung erreicht

ToolsClaude Claude Code Qwen DeepSeek Llama

CompaniesDeepSeek

Warum es zählt

Demonstriert praktische Techniken zur effiziente Nutzung großer MoE-Modelle mit minimaler Hardware: Wahl korrekter Quantisierungsformate (IQ4_NL vs. IQ3), Ngram Speculative Decoding für Code, und CPU-Offloading-Optimierungen sind direkt auf lokale Deployments übertragbar.

— Lumeric Redaktion

Der Entwickler Abhinand05 dokumentiert eine mehrteilige Optimierungskette für lokale MoE-Inferenz auf kostengünstiger Hardware. Ausgangspunkt war ein ASUS Zephyrus G14 (2020) mit RTX 2060 Max-Q (6 GB VRAM) und Ryzen 4900HS. Zentrale Erkenntnisse: (1) Bartowski IQ4_NL und APEX I-Compact Quantisierungsformate sind für CPU-Offload überlegen, während Unsloth Dynamic zu aggressivem Downcast führt; (2) Ngram-basiertes Speculative Decoding erreicht bei Code-Workloads 100% Draft-Akzeptanz und 33 t/s, während DFlash-Verifikation unter 8 GB VRAM ineffizient wird; (3) 68 automatisierte Hyperparameter-Sweeps via DeepSeek V4-Pro fanden keine Verbesserung gegenüber manuellem Tuning; (4) Unerwartet hohe Performance im Batteriebetrieb (10 t/s konsistent). Die finale Konfiguration nutzt APEX I-Compact, llama.cpp mit TurboQuant-Fork, q8_0 KV-Cache und --n-cpu-moe 36. Alle Erkenntnisse stammen aus der r/LocalLLaMA-Community; der Autor betont kollaborativen Forschungsprozess.

22–33 t/s

auf RTX 2060 Max-Q 6 GB

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.