Benchmark: KV-Head-Anzahl schlägt Parameterzahl bei 65K–131K Kontext

Warum es zählt

Wer Agenten oder RAG-Systeme mit langen Kontextfenstern baut, sollte pp65K/pp131K als primäre Metrik nutzen statt tg128. Die KV-Head-Anzahl der Architektur bestimmt die Prefill-Skalierung stärker als Parameterzahl oder MoE-Struktur.

— Lumeric Redaktion

Quelle lesenreddit.com

pp131K Prefill Speed (tokens/sec, Q8_0/Q8_0 KV) · Spitzenwert

923%

Trinity-Mini (MoE 3B/26B)

Evals Benchmarks Long Context Agents

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Benchmark: KV-Head-Anzahl schlägt Parameterzahl bei 65K–131K Kontext

ToolsQwen Llama

CompaniesZhipu AI

Warum es zählt

— Lumeric Redaktion

pp131K Prefill Speed (tokens/sec, Q8_0/Q8_0 KV) · Spitzenwert

923%

Trinity-Mini (MoE 3B/26B)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Benchmark: KV-Head-Anzahl schlägt Parameterzahl bei 65K–131K Kontext

Frag die KI zum Artikel

Verwandte Beiträge

Benchmark: KV-Head-Anzahl schlägt Parameterzahl bei 65K–131K Kontext

Frag die KI zum Artikel

Verwandte Beiträge