RTX 5090: Gemma 4 31B läuft mit 80k Context statt 35k
CompaniesDeepSeek
Warum es zählt
Wer Gemma 4 31B lokal mit llama.cpp betreibt, kann durch zwei gezielte Flags (GGML_CUDA_NO_PINNED=1 + Backend-Sampling) den Kontext auf 80k Token ausweiten – ohne Modell- oder Hardware-Wechsel. Der Trick funktioniert analog zu dem kürzlich für Deepseek Flash veröffentlichten Workaround.
— Lumeric Redaktion
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com1d
llama.cpp-Patch: DeepSeek V4 Flash mit 1M-Token-Kontext auf RTX 5090
- MEINUNGreddit.com1w
Gemma 4 31B Q6 auf zwei AMD Radeon 9060 XT: 8–9 Token/s
- BENCHMARKreddit.com3w
DiffusionGemma 26B A4B: Tuning-Ergebnisse auf RTX 5090
- MEINUNGreddit.com3w
Gemma 4 QAT + MTP Speculative Decoding: max. 33 % Speed-Gain auf 2× RTX 3060 Ti
RTX 5090: Gemma 4 31B läuft mit 80k Context statt 35k
CompaniesDeepSeek
Warum es zählt
Wer Gemma 4 31B lokal mit llama.cpp betreibt, kann durch zwei gezielte Flags (GGML_CUDA_NO_PINNED=1 + Backend-Sampling) den Kontext auf 80k Token ausweiten – ohne Modell- oder Hardware-Wechsel. Der Trick funktioniert analog zu dem kürzlich für Deepseek Flash veröffentlichten Workaround.
— Lumeric Redaktion
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- LAUNCHreddit.com1d
llama.cpp-Patch: DeepSeek V4 Flash mit 1M-Token-Kontext auf RTX 5090
- MEINUNGreddit.com1w
Gemma 4 31B Q6 auf zwei AMD Radeon 9060 XT: 8–9 Token/s
- BENCHMARKreddit.com3w
DiffusionGemma 26B A4B: Tuning-Ergebnisse auf RTX 5090
- MEINUNGreddit.com3w
Gemma 4 QAT + MTP Speculative Decoding: max. 33 % Speed-Gain auf 2× RTX 3060 Ti