wird geladen

Throughput — Was ist das? · Glossar · Lumeric

Feed
Digest
Lounge
Stash
Profil

Throughput

★ Begriff· Training & Inferenz

Throughput

Tokens-pro-Sekunde, die ein Inference-Endpoint unter Last produziert. Wichtig für Batch-Workloads (Embeddings, Document-Processing). Trade-off mit Latency: Batch-Mode = höherer Throughput, aber höhere TTFT pro Request.

Verwandte Tools

Together AI Fireworks AI

Auch bekannt als

tokens per second · tok/s

Aktivität

43

Mentions in den letzten 7 Tagen

4 Wochen

⚡neu · 43×

Zuletzt erwähnt in

RTX 5090 Multi-Agent-Benchmark: Sweet Spot bei 4–5 parallelen Agents
2026-07-12
Nemotron Puzzle 75B auf 64GB M2 Max: 4-bit vs. 5-bit Experten-Quantisierung
2026-07-12
SGLang schlägt vLLM bei 4× RTX 5060 Ti Multi-GPU-Setup für Qwen3.6-27B
2026-07-12
Erfahrungsbericht: 100B+ LLMs auf Laptop mit 4 GB VRAM via NVMe-Offloading
2026-07-12
MELT: Systematisches Benchmarking von LLMs auf Smartphones und Edge-Devices
2026-07-11

Feed Digest Lounge Stash Profil