Benchmark: KV-Head-Anzahl schlägt Parameterzahl bei 65K–131K Kontext
CompaniesZhipu AI
Warum es zählt
Wer Agenten oder RAG-Systeme mit langen Kontextfenstern baut, sollte pp65K/pp131K als primäre Metrik nutzen statt tg128. Die KV-Head-Anzahl der Architektur bestimmt die Prefill-Skalierung stärker als Parameterzahl oder MoE-Struktur.
— Lumeric Redaktion
pp131K Prefill Speed (tokens/sec, Q8_0/Q8_0 KV) · Spitzenwert
923%
Trinity-Mini (MoE 3B/26B)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com1w
Qwen 27B für Planung, Qwen 35B-A3B für Ausführung: Hybrid-Agent-Setup
- BENCHMARKreddit.com1w
Cohere North Mini Code: 67,6 % auf SWE-Bench Verified – open, 30B/3B aktiv
- MEINUNGreddit.com1w
Mimo 2.5 und Step 3.7 Flash überzeugen bei Large-Context auf RTX PRO 6000
- MEINUNGreddit.com2w
Llama-Bench vs. Realwelt: Qwen3-MoE zeigt drastische Leistungsunterschiede
Benchmark: KV-Head-Anzahl schlägt Parameterzahl bei 65K–131K Kontext
CompaniesZhipu AI
Warum es zählt
Wer Agenten oder RAG-Systeme mit langen Kontextfenstern baut, sollte pp65K/pp131K als primäre Metrik nutzen statt tg128. Die KV-Head-Anzahl der Architektur bestimmt die Prefill-Skalierung stärker als Parameterzahl oder MoE-Struktur.
— Lumeric Redaktion
pp131K Prefill Speed (tokens/sec, Q8_0/Q8_0 KV) · Spitzenwert
923%
Trinity-Mini (MoE 3B/26B)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com1w
Qwen 27B für Planung, Qwen 35B-A3B für Ausführung: Hybrid-Agent-Setup
- BENCHMARKreddit.com1w
Cohere North Mini Code: 67,6 % auf SWE-Bench Verified – open, 30B/3B aktiv
- MEINUNGreddit.com1w
Mimo 2.5 und Step 3.7 Flash überzeugen bei Large-Context auf RTX PRO 6000
- MEINUNGreddit.com2w
Llama-Bench vs. Realwelt: Qwen3-MoE zeigt drastische Leistungsunterschiede