Gemma 4 Modelle auf Triple-GPU-Setup mit llama.cpp gebenchmarkt
Warum es zählt
Das Gemma-4-26B-A4B-QAT-Modell läuft auf 24 GiB Consumer-VRAM (3× GTX 1070) mit 53 t/s und eignet sich laut Test gut für Coding-Aufgaben – relevant für lokale Deployments mit begrenztem, aber kombiniertem VRAM-Budget.
— Lumeric Redaktion
llama.cpp tg128 (Token-Generierung, t/s) · Spitzenwert
53.08%
26B-A4B QAT Q4_K
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Gemma 4 Modelle auf Triple-GPU-Setup mit llama.cpp gebenchmarkt
Warum es zählt
Das Gemma-4-26B-A4B-QAT-Modell läuft auf 24 GiB Consumer-VRAM (3× GTX 1070) mit 53 t/s und eignet sich laut Test gut für Coding-Aufgaben – relevant für lokale Deployments mit begrenztem, aber kombiniertem VRAM-Budget.
— Lumeric Redaktion
llama.cpp tg128 (Token-Generierung, t/s) · Spitzenwert
53.08%
26B-A4B QAT Q4_K
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.