wird geladen

Quantization — Was ist das? · Glossar · Lumeric

Feed
Digest
Lounge
Stash
Profil

Quantization

★ Begriff· Training & Inferenz

Quantization

Reduziert die Bit-Breite der Modell-Gewichte (FP16 → INT8/INT4 → FP4) — verkleinert das Modell ~2-4× bei minimalem Quality-Verlust. Macht 70B-Modelle auf Consumer-GPUs lauffähig.

Verwandte Tools

Ollama LM Studio

Auch bekannt als

quantisierung · int8 · int4 · fp4

Aktivität

44

Mentions in den letzten 7 Tagen

4 Wochen

⚡neu · 44×

Zuletzt erwähnt in

Hunyuan3D-Swift: Image-to-3D-Port für Apple Silicon und iPhone
2026-07-12
Nemotron Puzzle 75B auf 64GB M2 Max: 4-bit vs. 5-bit Experten-Quantisierung
2026-07-12
SGLang schlägt vLLM bei 4× RTX 5060 Ti Multi-GPU-Setup für Qwen3.6-27B
2026-07-12
Voodoo Quant schlägt Unsloth Dynamic 2.0 bei KLD um 95% für Qwen3.5
2026-07-12
llama-server KV-Cache-Tuning für große Modelle auf Strix Halo
2026-07-12

Feed Digest Lounge Stash Profil