LFM2.5 230M läuft im Browser mit 1.400 tok/s via WebGPU-Kernels
CompaniesHugging Face
Warum es zählt
1.400 tok/s im Browser ohne Server-Backend zeigt, dass kleine Sprachmodelle mit optimierten WebGPU-Kernels praxistauglich lokal inferiert werden können – relevant für datenschutzsensible oder offline-fähige Web-Apps.
— Lumeric Redaktion
1.400 tok/s
Inferenzgeschwindigkeit im Browser (M4 Max)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
LFM2.5 230M läuft im Browser mit 1.400 tok/s via WebGPU-Kernels
CompaniesHugging Face
Warum es zählt
1.400 tok/s im Browser ohne Server-Backend zeigt, dass kleine Sprachmodelle mit optimierten WebGPU-Kernels praxistauglich lokal inferiert werden können – relevant für datenschutzsensible oder offline-fähige Web-Apps.
— Lumeric Redaktion
1.400 tok/s
Inferenzgeschwindigkeit im Browser (M4 Max)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.