Gemma 4 E2B läuft im Browser mit 255 tok/s via WebGPU
ToolsHugging Face
Warum es zählt
255 tok/s im Browser ohne Serverinfrastruktur zeigt, dass kompakte Quantisierungsmodelle (QAT) auf Consumer-Hardware für On-Device-Inference reif sind. Die veröffentlichten WebGPU-Kernels können direkt in eigene Web-KI-Projekte integriert werden.
— Lumeric Redaktion
255 tok/s
im Browser via WebGPU auf M4 Max
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Gemma 4 E2B läuft im Browser mit 255 tok/s via WebGPU
ToolsHugging Face
Warum es zählt
255 tok/s im Browser ohne Serverinfrastruktur zeigt, dass kompakte Quantisierungsmodelle (QAT) auf Consumer-Hardware für On-Device-Inference reif sind. Die veröffentlichten WebGPU-Kernels können direkt in eigene Web-KI-Projekte integriert werden.
— Lumeric Redaktion
255 tok/s
im Browser via WebGPU auf M4 Max
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.