Qwen 3.5 35B mit 10,33 t/s auf 300-Dollar-Laptop per CPU-Inferenz
Der Reddit-Nutzer OcelotOk8071 dokumentiert ein Experiment zur CPU-only-Inferenz auf einem handelsüblichen Lenovo Ideapad Slim 3i (Baujahr 2023, ca. 300 USD) mit einem Intel Core i3-1215U, 8 GB Onboard-RAM und einem 32-GB-DDR4-Erweiterungsmodul. Als Modell kommt eine inoffizielle Qwen-3.5-35B-A3B-Tune (iQ4_K_M-Quantisierung, MTP-Speculative-Decoding) zum Einsatz. Als Inference-Backend wird ik_llama.cpp Version 4509 genutzt – eine Fork von llama.cpp mit verbesserter CPU-Effizienz. Durch Core Pinning auf die Performance-Cores (0 und 2), Q8_0-KV-Cache-Quantisierung, Batch-Size 64 und MTP Draft Max 3 werden auf einem Sample von 1028 Tokens 10,33 t/s Inferenzgeschwindigkeit und 22,49 t/s beim Prompt-Eval erreicht. Im Vergleich dazu lieferte Gemma 4 26B A4B unter ähnlichen Bedingungen nur rund 3 t/s. Der Nutzer führt die deutlich höhere Geschwindigkeit auf die MoE-Architektur von Qwen 3.5 zurück, die trotz 35B Gesamtparametern nur 3B Parameter aktiv hält. Als künftige Optimierungsmöglichkeiten werden XMP-Speichertimings (+10 %), Thermal-Repasting und DDR5-RAM (+20 % kombiniert) genannt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen 3.5 35B mit 10,33 t/s auf 300-Dollar-Laptop per CPU-Inferenz
Der Reddit-Nutzer OcelotOk8071 dokumentiert ein Experiment zur CPU-only-Inferenz auf einem handelsüblichen Lenovo Ideapad Slim 3i (Baujahr 2023, ca. 300 USD) mit einem Intel Core i3-1215U, 8 GB Onboard-RAM und einem 32-GB-DDR4-Erweiterungsmodul. Als Modell kommt eine inoffizielle Qwen-3.5-35B-A3B-Tune (iQ4_K_M-Quantisierung, MTP-Speculative-Decoding) zum Einsatz. Als Inference-Backend wird ik_llama.cpp Version 4509 genutzt – eine Fork von llama.cpp mit verbesserter CPU-Effizienz. Durch Core Pinning auf die Performance-Cores (0 und 2), Q8_0-KV-Cache-Quantisierung, Batch-Size 64 und MTP Draft Max 3 werden auf einem Sample von 1028 Tokens 10,33 t/s Inferenzgeschwindigkeit und 22,49 t/s beim Prompt-Eval erreicht. Im Vergleich dazu lieferte Gemma 4 26B A4B unter ähnlichen Bedingungen nur rund 3 t/s. Der Nutzer führt die deutlich höhere Geschwindigkeit auf die MoE-Architektur von Qwen 3.5 zurück, die trotz 35B Gesamtparametern nur 3B Parameter aktiv hält. Als künftige Optimierungsmöglichkeiten werden XMP-Speichertimings (+10 %), Thermal-Repasting und DDR5-RAM (+20 % kombiniert) genannt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.