35B MoE-Modell auf 5 Jahre altem Laptop mit 6 GB VRAM: 23 t/s durch Quantisierung erreicht
Der Entwickler Abhinand05 dokumentiert eine mehrteilige Optimierungskette für lokale MoE-Inferenz auf kostengünstiger Hardware. Ausgangspunkt war ein ASUS Zephyrus G14 (2020) mit RTX 2060 Max-Q (6 GB VRAM) und Ryzen 4900HS. Zentrale Erkenntnisse: (1) Bartowski IQ4_NL und APEX I-Compact Quantisierungsformate sind für CPU-Offload überlegen, während Unsloth Dynamic zu aggressivem Downcast führt; (2) Ngram-basiertes Speculative Decoding erreicht bei Code-Workloads 100% Draft-Akzeptanz und 33 t/s, während DFlash-Verifikation unter 8 GB VRAM ineffizient wird; (3) 68 automatisierte Hyperparameter-Sweeps via DeepSeek V4-Pro fanden keine Verbesserung gegenüber manuellem Tuning; (4) Unerwartet hohe Performance im Batteriebetrieb (10 t/s konsistent). Die finale Konfiguration nutzt APEX I-Compact, llama.cpp mit TurboQuant-Fork, q8_0 KV-Cache und --n-cpu-moe 36. Alle Erkenntnisse stammen aus der r/LocalLLaMA-Community; der Autor betont kollaborativen Forschungsprozess.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
35B MoE-Modell auf 5 Jahre altem Laptop mit 6 GB VRAM: 23 t/s durch Quantisierung erreicht
Der Entwickler Abhinand05 dokumentiert eine mehrteilige Optimierungskette für lokale MoE-Inferenz auf kostengünstiger Hardware. Ausgangspunkt war ein ASUS Zephyrus G14 (2020) mit RTX 2060 Max-Q (6 GB VRAM) und Ryzen 4900HS. Zentrale Erkenntnisse: (1) Bartowski IQ4_NL und APEX I-Compact Quantisierungsformate sind für CPU-Offload überlegen, während Unsloth Dynamic zu aggressivem Downcast führt; (2) Ngram-basiertes Speculative Decoding erreicht bei Code-Workloads 100% Draft-Akzeptanz und 33 t/s, während DFlash-Verifikation unter 8 GB VRAM ineffizient wird; (3) 68 automatisierte Hyperparameter-Sweeps via DeepSeek V4-Pro fanden keine Verbesserung gegenüber manuellem Tuning; (4) Unerwartet hohe Performance im Batteriebetrieb (10 t/s konsistent). Die finale Konfiguration nutzt APEX I-Compact, llama.cpp mit TurboQuant-Fork, q8_0 KV-Cache und --n-cpu-moe 36. Alle Erkenntnisse stammen aus der r/LocalLLaMA-Community; der Autor betont kollaborativen Forschungsprozess.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.