★ Begriff· Training & Inferenz
Quantization
Reduziert die Bit-Breite der Modell-Gewichte (FP16 → INT8/INT4 → FP4) — verkleinert das Modell ~2-4× bei minimalem Quality-Verlust. Macht 70B-Modelle auf Consumer-GPUs lauffähig.
Verwandte Tools
Auch bekannt als
quantisierung · int8 · int4 · fp4
Aktivität
29
Mentions in den letzten 7 Tagen
4 Wochen
⚡neu · 29×
Zuletzt erwähnt in
- Qwen3.6 35B: Markdown schlägt HTML bei Ausgabequalität deutlich2026-05-28
- KT-MFLD reduziert Komplexität von Mean-Field-Langevin-Dynamik auf N^1,52026-05-28
- Swin Transformer empfohlen für FP4-quantisierte Anomalie-Segmentierung2026-05-28
- HQMQ: Kalibrierungsfreie KV-Cache-Kompression via Hurwitz-Quaternionen2026-05-28
- NPUs bei Mobile-LLM-Inferenz oft langsamer als CPUs – neue Studie2026-05-28