Nemotron-3-Super-120B erreicht perfektes Needle-Retrieval bei 504K Tokens auf 4×RTX 3090
Warum es zählt
Dank konstanter Mamba-Recurrent-States statt wachsendem KV-Cache bleibt der Decode-Durchsatz bei 500K Tokens noch bei 23 t/s — vergleichbar mit Full-Attention-MoE-Modellen bei 30K Tokens. Sehr langer Kontext wird damit auf Consumer-Hardware mit 4× ~24-GB-GPUs praktisch nutzbar, allerdings mit nachgewiesenem Recency-Bias bei vergrabenen Instruktionen.
— Lumeric Redaktion
Needle-in-Haystack Decode-Durchsatz (t/s) · Spitzenwert
67%
Nemotron-3-Super-120B @ 30K
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Nemotron-3-Super-120B erreicht perfektes Needle-Retrieval bei 504K Tokens auf 4×RTX 3090
Warum es zählt
Dank konstanter Mamba-Recurrent-States statt wachsendem KV-Cache bleibt der Decode-Durchsatz bei 500K Tokens noch bei 23 t/s — vergleichbar mit Full-Attention-MoE-Modellen bei 30K Tokens. Sehr langer Kontext wird damit auf Consumer-Hardware mit 4× ~24-GB-GPUs praktisch nutzbar, allerdings mit nachgewiesenem Recency-Bias bei vergrabenen Instruktionen.
— Lumeric Redaktion
Needle-in-Haystack Decode-Durchsatz (t/s) · Spitzenwert
67%
Nemotron-3-Super-120B @ 30K
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.