Nemotron-3-Super-120B erreicht perfektes Needle-Retrieval bei 504K Tokens auf 4×RTX 3090

Warum es zählt

Dank konstanter Mamba-Recurrent-States statt wachsendem KV-Cache bleibt der Decode-Durchsatz bei 500K Tokens noch bei 23 t/s — vergleichbar mit Full-Attention-MoE-Modellen bei 30K Tokens. Sehr langer Kontext wird damit auf Consumer-Hardware mit 4× ~24-GB-GPUs praktisch nutzbar, allerdings mit nachgewiesenem Recency-Bias bei vergrabenen Instruktionen.

— Lumeric Redaktion

Quelle lesenreddit.com

Needle-in-Haystack Decode-Durchsatz (t/s) · Spitzenwert

67%

Nemotron-3-Super-120B @ 30K

Foundation Modelle Inferenz Infra Long Context

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Nemotron-3-Super-120B erreicht perfektes Needle-Retrieval bei 504K Tokens auf 4×RTX 3090

ToolsNVIDIA Hardware Llama Hugging Face

CompaniesHugging Face NVIDIA

Warum es zählt

— Lumeric Redaktion

Needle-in-Haystack Decode-Durchsatz (t/s) · Spitzenwert

67%

Nemotron-3-Super-120B @ 30K

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Nemotron-3-Super-120B erreicht perfektes Needle-Retrieval bei 504K Tokens auf 4×RTX 3090

Frag die KI zum Artikel

Verwandte Beiträge

Nemotron-3-Super-120B erreicht perfektes Needle-Retrieval bei 504K Tokens auf 4×RTX 3090

Frag die KI zum Artikel

Verwandte Beiträge