ByteShape Qwen3.6-35B-A3B: 30 % schneller als Unsloth IQ auf 6-GB-VRAM-Laptop

Warum es zählt

Wer Qwen3.6-35B-A3B auf Consumer-Hardware mit CPU-Offload betreibt, kann durch den Wechsel auf ByteShape CPU-5 den TG-Durchsatz von 25,4 auf 33,1 tok/s steigern – bei nur leicht reduzierter Prompt-Processing-Geschwindigkeit (585 → 564 tok/s).

— Lumeric Redaktion

Der Reddit-Nutzer OsmanthusBloom betreibt Qwen3.6-35B-A3B mit CPU-Offload auf einem Asus ROG Zephyrus G14 (2021) mit AMD Ryzen 7 5800HS, 24 GB DDR4-3200-RAM und einer NVIDIA RTX 3060 Laptop GPU mit 6 GB VRAM. Grundlage des Vergleichs ist llama.cpp Build 9203, kompiliert unter Linux Mint 22.2 mit CUDA 12.0. Beide Quants wurden mit identischer Konfiguration getestet: Kontextgröße 65.536 Token, mmap deaktiviert, mlock aktiviert, ubatch-Größe 2048 sowie KV-Cache in q8_0. Das Testprompt umfasste rund 10.000 Token gefolgt von 1.500–2.000 Token Generierung; jeder Lauf wurde zweimal wiederholt und lieferte nahezu identische Werte. Ein möglicher Erklärungsansatz für den TG-Vorsprung des ByteShape-Quants: IQ-Quants (imatrix) wie der Unsloth UD-IQ4_XS sind auf der CPU rechenintensiver als reguläre Q-Quants wie ByteShape CPU-5 (Q4_K_S). Der Autor weist selbst darauf hin, dass ein fairerer Vergleich der ByteShape GPU-5-Variante (ebenfalls imatrix) mit Unsloth wäre, da so der imatrix-Faktor kontrolliert würde. Zur Ausgabequalität wurden keine systematischen Messungen vorgenommen; subjektiv erscheinen die Antworten ähnlich, möglicherweise mit etwas kürzeren Thinking-Abschnitten beim ByteShape-Modell. Der Nutzer äußert zudem Skepsis gegenüber den Herstellerversprechen von ByteShape und wünscht sich eine unabhängige Qualitätsevaluation.

Was wir noch wissen

ByteShape CPU-5 (18,3 GB) ist trotz größerem Dateivolumen als Unsloth UD-IQ4_XS (17,7 GB) beim Token-Generation 30 % schneller.
Die Radeon iGPU des Ryzen 7 5800HS lief den Desktop (Cinnamon), sodass die RTX 3060 ausschließlich llama.cpp zur Verfügung stand.
ubatch-Größe 2048 lieferte laut Autor deutlich bessere PP-Geschwindigkeit als der llama.cpp-Standardwert von 512.
Der Autor beobachtete einen TG-Leistungsabfall von ~10 % nach Suspend/Resume-Zyklen; Neustart des Systems stellte die Ausgangsleistung wieder her.
Ein vorangegangener Versuch mit Multi-Token Prediction (MTP) auf demselben Laptop scheiterte, weil CPU-Offload MTP-Performance stark beeinträchtigt.

Quelle lesenreddit.com

TG tok/s – Qwen3.6-35B-A3B (6 GB VRAM, CPU-Offload) · Spitzenwert

33.1%

ByteShape CPU-5 (Q4_K_S-4.22bpw)

Foundation Modelle Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

ByteShape Qwen3.6-35B-A3B: 30 % schneller als Unsloth IQ auf 6-GB-VRAM-Laptop

ToolsQwen NVIDIA Hardware Llama

CompaniesNVIDIA AMD

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

ByteShape CPU-5 (18,3 GB) ist trotz größerem Dateivolumen als Unsloth UD-IQ4_XS (17,7 GB) beim Token-Generation 30 % schneller.
Die Radeon iGPU des Ryzen 7 5800HS lief den Desktop (Cinnamon), sodass die RTX 3060 ausschließlich llama.cpp zur Verfügung stand.
ubatch-Größe 2048 lieferte laut Autor deutlich bessere PP-Geschwindigkeit als der llama.cpp-Standardwert von 512.
Der Autor beobachtete einen TG-Leistungsabfall von ~10 % nach Suspend/Resume-Zyklen; Neustart des Systems stellte die Ausgangsleistung wieder her.
Ein vorangegangener Versuch mit Multi-Token Prediction (MTP) auf demselben Laptop scheiterte, weil CPU-Offload MTP-Performance stark beeinträchtigt.

TG tok/s – Qwen3.6-35B-A3B (6 GB VRAM, CPU-Offload) · Spitzenwert

33.1%

ByteShape CPU-5 (Q4_K_S-4.22bpw)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

ByteShape Qwen3.6-35B-A3B: 30 % schneller als Unsloth IQ auf 6-GB-VRAM-Laptop

Frag die KI zum Artikel

Verwandte Beiträge

ByteShape Qwen3.6-35B-A3B: 30 % schneller als Unsloth IQ auf 6-GB-VRAM-Laptop

Frag die KI zum Artikel

Verwandte Beiträge