wird geladen

Qwen 3.5 35B mit 10,33 t/s auf 300-Dollar-Laptop per CPU-Inferenz · Lumeric

Beitrag

FORSCHUNG

reddit.com· r/LocalLLaMA1mo

Qwen 3.5 35B mit 10,33 t/s auf 300-Dollar-Laptop per CPU-Inferenz

ToolsClaude Qwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

Die Kombination aus MoE-Architektur (nur 3B aktive Parameter), iQ4_K_M-Quantisierung und ik_llama.cpp macht brauchbare LLM-Inferenz auf Consumer-Laptop-Hardware ohne dedizierte GPU möglich – relevant für Edge-Deployments mit minimalem Budget.

— Lumeric Redaktion

Der Reddit-Nutzer OcelotOk8071 dokumentiert ein Experiment zur CPU-only-Inferenz auf einem handelsüblichen Lenovo Ideapad Slim 3i (Baujahr 2023, ca. 300 USD) mit einem Intel Core i3-1215U, 8 GB Onboard-RAM und einem 32-GB-DDR4-Erweiterungsmodul. Als Modell kommt eine inoffizielle Qwen-3.5-35B-A3B-Tune (iQ4_K_M-Quantisierung, MTP-Speculative-Decoding) zum Einsatz. Als Inference-Backend wird ik_llama.cpp Version 4509 genutzt – eine Fork von llama.cpp mit verbesserter CPU-Effizienz. Durch Core Pinning auf die Performance-Cores (0 und 2), Q8_0-KV-Cache-Quantisierung, Batch-Size 64 und MTP Draft Max 3 werden auf einem Sample von 1028 Tokens 10,33 t/s Inferenzgeschwindigkeit und 22,49 t/s beim Prompt-Eval erreicht. Im Vergleich dazu lieferte Gemma 4 26B A4B unter ähnlichen Bedingungen nur rund 3 t/s. Der Nutzer führt die deutlich höhere Geschwindigkeit auf die MoE-Architektur von Qwen 3.5 zurück, die trotz 35B Gesamtparametern nur 3B Parameter aktiv hält. Als künftige Optimierungsmöglichkeiten werden XMP-Speichertimings (+10 %), Thermal-Repasting und DDR5-RAM (+20 % kombiniert) genannt.

Quelle lesenreddit.com

10,33 t/s

CPU-Inferenz Qwen 3.5 35B auf 300-$-Laptop

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge

FORSCHUNG

reddit.com· r/LocalLLaMA1mo

Qwen 3.5 35B mit 10,33 t/s auf 300-Dollar-Laptop per CPU-Inferenz

ToolsClaude Qwen Llama Hugging Face

CompaniesHugging Face

Warum es zählt

Die Kombination aus MoE-Architektur (nur 3B aktive Parameter), iQ4_K_M-Quantisierung und ik_llama.cpp macht brauchbare LLM-Inferenz auf Consumer-Laptop-Hardware ohne dedizierte GPU möglich – relevant für Edge-Deployments mit minimalem Budget.

— Lumeric Redaktion

Der Reddit-Nutzer OcelotOk8071 dokumentiert ein Experiment zur CPU-only-Inferenz auf einem handelsüblichen Lenovo Ideapad Slim 3i (Baujahr 2023, ca. 300 USD) mit einem Intel Core i3-1215U, 8 GB Onboard-RAM und einem 32-GB-DDR4-Erweiterungsmodul. Als Modell kommt eine inoffizielle Qwen-3.5-35B-A3B-Tune (iQ4_K_M-Quantisierung, MTP-Speculative-Decoding) zum Einsatz. Als Inference-Backend wird ik_llama.cpp Version 4509 genutzt – eine Fork von llama.cpp mit verbesserter CPU-Effizienz. Durch Core Pinning auf die Performance-Cores (0 und 2), Q8_0-KV-Cache-Quantisierung, Batch-Size 64 und MTP Draft Max 3 werden auf einem Sample von 1028 Tokens 10,33 t/s Inferenzgeschwindigkeit und 22,49 t/s beim Prompt-Eval erreicht. Im Vergleich dazu lieferte Gemma 4 26B A4B unter ähnlichen Bedingungen nur rund 3 t/s. Der Nutzer führt die deutlich höhere Geschwindigkeit auf die MoE-Architektur von Qwen 3.5 zurück, die trotz 35B Gesamtparametern nur 3B Parameter aktiv hält. Als künftige Optimierungsmöglichkeiten werden XMP-Speichertimings (+10 %), Thermal-Repasting und DDR5-RAM (+20 % kombiniert) genannt.

10,33 t/s

CPU-Inferenz Qwen 3.5 35B auf 300-$-Laptop

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Verwandte Beiträge