Gemma 4 E2B läuft im Browser mit 255 tok/s via WebGPU

Warum es zählt

255 tok/s im Browser ohne Serverinfrastruktur zeigt, dass kompakte Quantisierungsmodelle (QAT) auf Consumer-Hardware für On-Device-Inference reif sind. Die veröffentlichten WebGPU-Kernels können direkt in eigene Web-KI-Projekte integriert werden.

— Lumeric Redaktion

Quelle lesenreddit.com

255 tok/s

im Browser via WebGPU auf M4 Max

Inferenz Infra Open Source Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma 4 E2B läuft im Browser mit 255 tok/s via WebGPU

ToolsHugging Face

CompaniesHugging Face Google DeepMind

Warum es zählt

— Lumeric Redaktion

255 tok/s

im Browser via WebGPU auf M4 Max

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma 4 E2B läuft im Browser mit 255 tok/s via WebGPU

Frag die KI zum Artikel

Verwandte Beiträge

Gemma 4 E2B läuft im Browser mit 255 tok/s via WebGPU

Frag die KI zum Artikel

Verwandte Beiträge