Luce Spark: 35B MoE-Modelle auf 16-GB-GPU ohne Offload-Strafe

Warum es zählt

Nutzer mit RTX 3090 oder ähnlichen 16-GB-Karten können damit 33–35B-MoE-Modelle laden, die bisher schlicht nicht in den VRAM passten. Das adaptive Expert-Profiling lernt aus echtem Traffic und verbessert sich bei jedem Neustart ohne Offline-Kalibrierung.

— Lumeric Redaktion

Quelle lesenreddit.com

Decode-Throughput (tok/s, RTX 3090, ctx 4096) · Spitzenwert

66%

Naive Offload (uniform)

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Luce Spark: 35B MoE-Modelle auf 16-GB-GPU ohne Offload-Strafe

ToolsQwen Llama

Warum es zählt

— Lumeric Redaktion

Decode-Throughput (tok/s, RTX 3090, ctx 4096) · Spitzenwert

66%

Naive Offload (uniform)

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Luce Spark: 35B MoE-Modelle auf 16-GB-GPU ohne Offload-Strafe

Frag die KI zum Artikel

Verwandte Beiträge

Luce Spark: 35B MoE-Modelle auf 16-GB-GPU ohne Offload-Strafe

Frag die KI zum Artikel

Verwandte Beiträge