Gemma-4 26B A4B als NVFP4-GGUF mit Docker-Image verfügbar
Der Reddit-Nutzer catlilface69 hat eine GGUF-Quantisierung von nvidia/Gemma-4-26B-A4B-NVFP4 veröffentlicht und auf HuggingFace unter catlilface/Gemma-4-26B-A4B-NVFP4-GGUF bereitgestellt. Da das Modell mit dem aktuellen Hauptbranch von llama.cpp nicht kompatibel ist, wurde parallel ein Docker-Image (catlilface/llama.cpp:gemma4_26b_nvfp4) erstellt, das die notwendigen Anpassungen enthält. Die Quantisierung wurde durch einen Beitrag von Nutzer ynankani zu llama.cpp ermöglicht. Getestet wurde das Modell bislang lediglich auf einer NVIDIA GeForce RTX 5070 Ti; umfangreichere Tests stehen noch aus. Ein bekanntes Problem betrifft CPU-Offloading, das derzeit mit Performanzeinbußen verbunden ist. Community-Feedback ist ausdrücklich erwünscht.
- GGUF-Datei auf HuggingFace: catlilface/Gemma-4-26B-A4B-NVFP4-GGUF
- Docker-Image: catlilface/llama.cpp:gemma4_26b_nvfp4 als Workaround für fehlenden Mainbranch-Support
- Basismodell: nvidia/Gemma-4-26B-A4B-NVFP4
- Testumgebung des Erstellers: NVIDIA GeForce RTX 5070 Ti
- Bekanntes Problem: Performance-Einbußen bei CPU-Offloading
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com1w
Gemma4 26B MoE läuft mit TurboQuant in MLX auf MacBook Air M5
- LAUNCHreddit.com2w
Unsloth veröffentlicht MiMo-V2.5 als GGUF-Quantisierung auf Hugging Face
- LAUNCHreddit.com4d
llama.cpp Release b9297 bringt NVFP4 und Multi-Token-Prediction
- LAUNCHreddit.com2w
llama.cpp Docker-Images für MTP-Modelle mit Qwen3.6-Support
Gemma-4 26B A4B als NVFP4-GGUF mit Docker-Image verfügbar
Der Reddit-Nutzer catlilface69 hat eine GGUF-Quantisierung von nvidia/Gemma-4-26B-A4B-NVFP4 veröffentlicht und auf HuggingFace unter catlilface/Gemma-4-26B-A4B-NVFP4-GGUF bereitgestellt. Da das Modell mit dem aktuellen Hauptbranch von llama.cpp nicht kompatibel ist, wurde parallel ein Docker-Image (catlilface/llama.cpp:gemma4_26b_nvfp4) erstellt, das die notwendigen Anpassungen enthält. Die Quantisierung wurde durch einen Beitrag von Nutzer ynankani zu llama.cpp ermöglicht. Getestet wurde das Modell bislang lediglich auf einer NVIDIA GeForce RTX 5070 Ti; umfangreichere Tests stehen noch aus. Ein bekanntes Problem betrifft CPU-Offloading, das derzeit mit Performanzeinbußen verbunden ist. Community-Feedback ist ausdrücklich erwünscht.
- GGUF-Datei auf HuggingFace: catlilface/Gemma-4-26B-A4B-NVFP4-GGUF
- Docker-Image: catlilface/llama.cpp:gemma4_26b_nvfp4 als Workaround für fehlenden Mainbranch-Support
- Basismodell: nvidia/Gemma-4-26B-A4B-NVFP4
- Testumgebung des Erstellers: NVIDIA GeForce RTX 5070 Ti
- Bekanntes Problem: Performance-Einbußen bei CPU-Offloading
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com1w
Gemma4 26B MoE läuft mit TurboQuant in MLX auf MacBook Air M5
- LAUNCHreddit.com2w
Unsloth veröffentlicht MiMo-V2.5 als GGUF-Quantisierung auf Hugging Face
- LAUNCHreddit.com4d
llama.cpp Release b9297 bringt NVFP4 und Multi-Token-Prediction
- LAUNCHreddit.com2w
llama.cpp Docker-Images für MTP-Modelle mit Qwen3.6-Support