Luce Spark: 35B MoE-Modelle auf 16-GB-GPU ohne Offload-Strafe
Warum es zählt
Nutzer mit RTX 3090 oder ähnlichen 16-GB-Karten können damit 33–35B-MoE-Modelle laden, die bisher schlicht nicht in den VRAM passten. Das adaptive Expert-Profiling lernt aus echtem Traffic und verbessert sich bei jedem Neustart ohne Offline-Kalibrierung.
— Lumeric Redaktion
Decode-Throughput (tok/s, RTX 3090, ctx 4096) · Spitzenwert
66%
Naive Offload (uniform)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Luce Spark: 35B MoE-Modelle auf 16-GB-GPU ohne Offload-Strafe
Warum es zählt
Nutzer mit RTX 3090 oder ähnlichen 16-GB-Karten können damit 33–35B-MoE-Modelle laden, die bisher schlicht nicht in den VRAM passten. Das adaptive Expert-Profiling lernt aus echtem Traffic und verbessert sich bei jedem Neustart ohne Offline-Kalibrierung.
— Lumeric Redaktion
Decode-Throughput (tok/s, RTX 3090, ctx 4096) · Spitzenwert
66%
Naive Offload (uniform)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.