★ Begriff· Training & Inferenz
Latency
Zeit zwischen Anfrage und erstem Output-Token (Time-to-First-Token, TTFT) sowie zwischen Tokens (Tokens-per-Second). Latenz-kritisch sind Voice-Agents, Coding-Assistenten. Groq + Cerebras spezialisiert auf <100ms TTFT.
Verwandte Tools
Auch bekannt als
latenz · time to first token · ttft
Aktivität
49
Mentions in den letzten 7 Tagen
4 Wochen
⚡neu · 49×
Zuletzt erwähnt in
- Sigilant-Sweep: CLI-Tool für Config-Benchmarks unter llama.cpp und vLLM2026-05-28
- Zai ersetzt Netzwerkarchitektur für GLM-5.1-Inferenz – 40 % weniger Latenz, 33 % niedrigere Kosten2026-05-28
- Perplexity AI veröffentlicht Unigram-Tokenizer mit 5× niedrigerer p50-Latenz2026-05-28
- SwarmHarness: Dezentrales Protokoll für incentiviertes Compute-Sharing via AI-Agenten-Netzwerk2026-05-28
- GroundedCache: Sicheres Antwort-Caching für RAG mit 4-Gate-Validierung2026-05-28