Gemma-4 26B A4B als NVFP4-GGUF mit Docker-Image verfügbar

Warum es zählt

Wer Gemma-4 26B lokal quantisiert betreiben will, benötigt derzeit den Custom-Fork via Docker-Image catlilface/llama.cpp:gemma4_26b_nvfp4 – ein direkter llama.cpp-Mainbranch-Support fehlt noch. CPU-Offloading ist aktuell mit Performanzproblemen behaftet.

— Lumeric Redaktion

Der Reddit-Nutzer catlilface69 hat eine GGUF-Quantisierung von nvidia/Gemma-4-26B-A4B-NVFP4 veröffentlicht und auf HuggingFace unter catlilface/Gemma-4-26B-A4B-NVFP4-GGUF bereitgestellt. Da das Modell mit dem aktuellen Hauptbranch von llama.cpp nicht kompatibel ist, wurde parallel ein Docker-Image (catlilface/llama.cpp:gemma4_26b_nvfp4) erstellt, das die notwendigen Anpassungen enthält. Die Quantisierung wurde durch einen Beitrag von Nutzer ynankani zu llama.cpp ermöglicht. Getestet wurde das Modell bislang lediglich auf einer NVIDIA GeForce RTX 5070 Ti; umfangreichere Tests stehen noch aus. Ein bekanntes Problem betrifft CPU-Offloading, das derzeit mit Performanzeinbußen verbunden ist. Community-Feedback ist ausdrücklich erwünscht.

Was wir noch wissen

GGUF-Datei auf HuggingFace: catlilface/Gemma-4-26B-A4B-NVFP4-GGUF
Docker-Image: catlilface/llama.cpp:gemma4_26b_nvfp4 als Workaround für fehlenden Mainbranch-Support
Basismodell: nvidia/Gemma-4-26B-A4B-NVFP4
Testumgebung des Erstellers: NVIDIA GeForce RTX 5070 Ti
Bekanntes Problem: Performance-Einbußen bei CPU-Offloading

Quelle lesenreddit.com

Open Source Inferenz Infra Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma-4 26B A4B als NVFP4-GGUF mit Docker-Image verfügbar

ToolsNVIDIA Hardware Llama Hugging Face

CompaniesHugging Face NVIDIA

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

GGUF-Datei auf HuggingFace: catlilface/Gemma-4-26B-A4B-NVFP4-GGUF
Docker-Image: catlilface/llama.cpp:gemma4_26b_nvfp4 als Workaround für fehlenden Mainbranch-Support
Basismodell: nvidia/Gemma-4-26B-A4B-NVFP4
Testumgebung des Erstellers: NVIDIA GeForce RTX 5070 Ti
Bekanntes Problem: Performance-Einbußen bei CPU-Offloading

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Gemma-4 26B A4B als NVFP4-GGUF mit Docker-Image verfügbar

Frag die KI zum Artikel

Verwandte Beiträge

Gemma-4 26B A4B als NVFP4-GGUF mit Docker-Image verfügbar

Frag die KI zum Artikel

Verwandte Beiträge