Qwen3-35B-A3B APEX auf RTX 3090: Benchmark-Vergleich mit 128k Kontext
Warum es zählt
Für lokale Inferenz auf Consumer-GPUs zeigt der Vergleich konkret: APEX I-Compact (~17 GB) bietet bei HellaSwag dieselbe Qualität wie I-Quality (83,5%), aber höhere Geschwindigkeit und erlaubt 256k Kontext ohne OOM. Der turbo8 KV-Cache aus dem spiritbuun-Fork verbessert Qualität (KLD -8 bis -14%) und Speed gleichzeitig.
— Lumeric Redaktion
Decode TPS @ 128k Kontext (RTX 3090) · Spitzenwert
146%
ik_llama + I-Compact
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Qwen3-35B-A3B APEX auf RTX 3090: Benchmark-Vergleich mit 128k Kontext
Warum es zählt
Für lokale Inferenz auf Consumer-GPUs zeigt der Vergleich konkret: APEX I-Compact (~17 GB) bietet bei HellaSwag dieselbe Qualität wie I-Quality (83,5%), aber höhere Geschwindigkeit und erlaubt 256k Kontext ohne OOM. Der turbo8 KV-Cache aus dem spiritbuun-Fork verbessert Qualität (KLD -8 bis -14%) und Speed gleichzeitig.
— Lumeric Redaktion
Decode TPS @ 128k Kontext (RTX 3090) · Spitzenwert
146%
ik_llama + I-Compact
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.