★ Begriff· Training & Inferenz
Throughput
Tokens-pro-Sekunde, die ein Inference-Endpoint unter Last produziert. Wichtig für Batch-Workloads (Embeddings, Document-Processing). Trade-off mit Latency: Batch-Mode = höherer Throughput, aber höhere TTFT pro Request.
Verwandte Tools
Auch bekannt als
tokens per second · tok/s
Aktivität
26
Mentions in den letzten 7 Tagen
4 Wochen
⚡neu · 26×
Zuletzt erwähnt in
- LiquidAI veröffentlicht LFM2.5-8B-A1B: Hybrid-Modell für On-Device-Einsatz2026-05-28
- Qwen3.6 35B: Markdown schlägt HTML bei Ausgabequalität deutlich2026-05-28
- vLLM vs. llama.cpp: 5×-Prefill-Speed, aber GGUF-Kompatibilität fehlt2026-05-28
- ORPilot: Open-Source-Agent für industrielle mathematische Optimierung2026-05-28
- Zai ersetzt Netzwerkarchitektur für GLM-5.1-Inferenz – 40 % weniger Latenz, 33 % niedrigere Kosten2026-05-28