MoE vs. Dense für RAG: Qwen3.6 35B APEX schlägt 27B Dense im Praxistest
Der Reddit-Nutzer vick2djax baut eine selbst gehostete RAG-Pipeline mit großen Datensätzen (Wikipedia, Research Papers, Bücher) und nutzt diese u.a. für Claim- und Argumentextraktion. Als Inline-Chat-Modell setzte er zunächst auf Qwen3.6 27B (dense, MTP-Variante), da in der r/LocalLLaMA-Community MoE-Modelle oft skeptisch gesehen werden. Nach eigenen Tests mit dem MoE-Modell Qwen3.6 35B APEX stellte er jedoch fest, dass dieses bei RAG-Abfragen deutlich mehr relevante Informationen liefert und mehr Punkte aus den Dokumenten aufgreift. Zusätzlich erzielt er auf seiner RTX 3090 mit dem MoE-Modell rund 150 tok/s gegenüber nur 60 tok/s beim Dense-Modell. Der Post löst eine Community-Diskussion aus, ob MoE-Architektur für RAG-spezifische Workloads gegenüber Dense-Modellen strukturelle Vorteile hat – etwa durch sparsame Aktivierung und breitere Parameterabdeckung bei der Informationsextraktion.
- Qwen3.6 27B (dense) vs. Qwen3.6 35B APEX (MoE) – Praxisvergleich auf einer einzelnen RTX 3090
- MoE erzielte laut Nutzer ~150 tok/s, Dense nur ~60 tok/s auf derselben Hardware
- RAG-Datensätze umfassen Wikipedia, Research Papers und Bücher; Fokus auf Claim-/Argumentextraktion
- Nutzer wechselte primär aus Datenschutz- und Auditierbarkeits-Gründen von Claude auf lokale Modelle
- Community-Wahrnehmung 'MoE = bad, 27B = king' wird durch den Praxistest in Frage gestellt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
MoE vs. Dense für RAG: Qwen3.6 35B APEX schlägt 27B Dense im Praxistest
Der Reddit-Nutzer vick2djax baut eine selbst gehostete RAG-Pipeline mit großen Datensätzen (Wikipedia, Research Papers, Bücher) und nutzt diese u.a. für Claim- und Argumentextraktion. Als Inline-Chat-Modell setzte er zunächst auf Qwen3.6 27B (dense, MTP-Variante), da in der r/LocalLLaMA-Community MoE-Modelle oft skeptisch gesehen werden. Nach eigenen Tests mit dem MoE-Modell Qwen3.6 35B APEX stellte er jedoch fest, dass dieses bei RAG-Abfragen deutlich mehr relevante Informationen liefert und mehr Punkte aus den Dokumenten aufgreift. Zusätzlich erzielt er auf seiner RTX 3090 mit dem MoE-Modell rund 150 tok/s gegenüber nur 60 tok/s beim Dense-Modell. Der Post löst eine Community-Diskussion aus, ob MoE-Architektur für RAG-spezifische Workloads gegenüber Dense-Modellen strukturelle Vorteile hat – etwa durch sparsame Aktivierung und breitere Parameterabdeckung bei der Informationsextraktion.
- Qwen3.6 27B (dense) vs. Qwen3.6 35B APEX (MoE) – Praxisvergleich auf einer einzelnen RTX 3090
- MoE erzielte laut Nutzer ~150 tok/s, Dense nur ~60 tok/s auf derselben Hardware
- RAG-Datensätze umfassen Wikipedia, Research Papers und Bücher; Fokus auf Claim-/Argumentextraktion
- Nutzer wechselte primär aus Datenschutz- und Auditierbarkeits-Gründen von Claude auf lokale Modelle
- Community-Wahrnehmung 'MoE = bad, 27B = king' wird durch den Praxistest in Frage gestellt
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.