Kimi-Inference auf schwacher Hardware: T4 VRAM + RAM-Offloading im Test

Warum es zählt

Praktischer Datenpoint für Inference-Optimierung: Zeigt, dass Q8-Quantisierung auf NUMA-Systemen schneller sein kann als erwartet, während RAM-Offloading bei dieser Hardware-Kombination erhebliche Performance-Einbußen mit sich bringt — relevant für Deployment auf kostengünstigen/älteren GPUs.

— Lumeric Redaktion

Nutzer teilt Erfahrungen beim Betrieb des Kimi-Modells auf einer Tesla T4 (12 GB VRAM) mit RAM-Offloading auf Dual-Xeon-CPUs (48 Cores, 1,5 TB RAM). Output-Geschwindigkeit liegt bei ~1,6 Token/s, CPU-only deutlich darunter, Q8-Quantisierung läuft überraschend schneller als Q4.

Was wir noch wissen

Benchmark: ~1,6 Token/s Output mit T4 + RAM-Offloading; CPU-only deutlich langsamer
Hardware: Dual Intel Xeon Platinum 24c (insgesamt 48 Cores/96 Threads), 1,5 TB RAM
Überraschungsfund: Un-Sloth Q8-Quantisierung läuft schneller als Q4-Variante auf diesem System
NUMA-Architektur wird genutzt, deutet auf Optimierungspotential durch bessere Memory-Locality

Quelle lesenreddit.com

Inferenz Infra Open Source

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Kimi-Inference auf schwacher Hardware: T4 VRAM + RAM-Offloading im Test

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Benchmark: ~1,6 Token/s Output mit T4 + RAM-Offloading; CPU-only deutlich langsamer
Hardware: Dual Intel Xeon Platinum 24c (insgesamt 48 Cores/96 Threads), 1,5 TB RAM
Überraschungsfund: Un-Sloth Q8-Quantisierung läuft schneller als Q4-Variante auf diesem System
NUMA-Architektur wird genutzt, deutet auf Optimierungspotential durch bessere Memory-Locality

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Kimi-Inference auf schwacher Hardware: T4 VRAM + RAM-Offloading im Test

Frag die KI zum Artikel

Verwandte Beiträge

Kimi-Inference auf schwacher Hardware: T4 VRAM + RAM-Offloading im Test

Frag die KI zum Artikel

Verwandte Beiträge