Interaktives Tool visualisiert LLM-Token-Ausgabegeschwindigkeiten von 5 bis 800 t/s

Warum es zählt

Wer Modelle nach Token-Durchsatz vergleicht, bekommt mit diesem Tool ein konkretes Gefühl dafür, was Angaben wie „30 t/s" in der Praxis bedeuten – nützlich für die Auswahl von Inferenz-Backends oder API-Anbietern.

— Lumeric Redaktion

Simon Willison verlinkt auf eine kompakte HTML-Anwendung von Mike Veerman, die verschiedene Token-Ausgabegeschwindigkeiten von Sprachmodellen direkt im Browser simuliert. Der Bereich reicht von 5 Tokens pro Sekunde – wie bei langsamen oder stark ausgelasteten API-Endpunkten – bis hin zu 800 Tokens pro Sekunde, wie sie moderne lokale Inferenz-Hardware oder spezialisierte Dienste erreichen können. Das Tool adressiert ein häufiges Problem: Rohe Tokens-per-second-Angaben in Modell-Ankündigungen oder Benchmarks sind für die meisten Nutzer abstrakt und schwer einzuordnen. Durch die direkte visuelle Simulation lässt sich etwa beurteilen, ob 30 t/s für interaktive Anwendungsfälle ausreichen oder ob höhere Durchsatzraten notwendig sind. Der Quellcode ist öffentlich verfügbar.

Was wir noch wissen

Simulationsbereich: 5 bis 800 Tokens pro Sekunde einstellbar
Entwickelt als reines HTML-App ohne externe Abhängigkeiten (Quellcode öffentlich)
Willison empfiehlt es explizit für den Vergleich beworbener Modell-Geschwindigkeiten

Quelle lesensimonwillison.net

Inferenz Infra Developer Tooling

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Interaktives Tool visualisiert LLM-Token-Ausgabegeschwindigkeiten von 5 bis 800 t/s

ToolsClaude Gemini Grok

CompaniesAnthropic xAI Google DeepMind

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Simulationsbereich: 5 bis 800 Tokens pro Sekunde einstellbar
Entwickelt als reines HTML-App ohne externe Abhängigkeiten (Quellcode öffentlich)
Willison empfiehlt es explizit für den Vergleich beworbener Modell-Geschwindigkeiten

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Interaktives Tool visualisiert LLM-Token-Ausgabegeschwindigkeiten von 5 bis 800 t/s

Frag die KI zum Artikel

Verwandte Beiträge

Interaktives Tool visualisiert LLM-Token-Ausgabegeschwindigkeiten von 5 bis 800 t/s

Frag die KI zum Artikel

Verwandte Beiträge