Google DeepMind veröffentlicht Gemma 4 12B mit 256K-Kontext und Multimodal-Support
Google DeepMind hat mit Gemma 4 eine neue Generation seiner Open-Weights-Modellfamilie veröffentlicht, die in fünf Größen (E2B, E4B, 12B, 26B A4B und 31B) erscheint. Die Modelle sind multimodal ausgelegt: Alle Varianten verarbeiten Text und Bilder (mit variabler Seitenverhältnis- und Auflösungsunterstützung), während E2B, E4B und 12B zusätzlich Video und Audio nativ verarbeiten können. Das 12B-Modell unterstützt ein Kontextfenster von 256K Tokens; die kleineren E2B- und E4B-Modelle kommen auf 128K Tokens. Die Architektur kombiniert dichte Netzwerke (Dense) und Mixture-of-Experts (MoE), je nach Modellgröße. Technisch setzt Gemma 4 auf einen hybriden Aufmerksamkeitsmechanismus, der lokales Sliding-Window-Attention mit globalem Full-Attention verzahnt; für Speichereffizienz bei langen Kontexten werden in globalen Schichten vereinheitlichte Keys/Values sowie Proportional RoPE (p-RoPE) eingesetzt. Native Unterstützung für System-Prompts, konfigurierbare Thinking-Modes und Funktionsaufrufe sind ebenfalls integriert. GGUF-Quants sind bereits über ggml-org und unsloth auf Hugging Face verfügbar und ermöglichen den lokalen Betrieb auf Laptops und Consumer-GPUs. Gemma 4 unterstützt über 140 Sprachen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Google DeepMind veröffentlicht Gemma 4 12B mit 256K-Kontext und Multimodal-Support
Google DeepMind hat mit Gemma 4 eine neue Generation seiner Open-Weights-Modellfamilie veröffentlicht, die in fünf Größen (E2B, E4B, 12B, 26B A4B und 31B) erscheint. Die Modelle sind multimodal ausgelegt: Alle Varianten verarbeiten Text und Bilder (mit variabler Seitenverhältnis- und Auflösungsunterstützung), während E2B, E4B und 12B zusätzlich Video und Audio nativ verarbeiten können. Das 12B-Modell unterstützt ein Kontextfenster von 256K Tokens; die kleineren E2B- und E4B-Modelle kommen auf 128K Tokens. Die Architektur kombiniert dichte Netzwerke (Dense) und Mixture-of-Experts (MoE), je nach Modellgröße. Technisch setzt Gemma 4 auf einen hybriden Aufmerksamkeitsmechanismus, der lokales Sliding-Window-Attention mit globalem Full-Attention verzahnt; für Speichereffizienz bei langen Kontexten werden in globalen Schichten vereinheitlichte Keys/Values sowie Proportional RoPE (p-RoPE) eingesetzt. Native Unterstützung für System-Prompts, konfigurierbare Thinking-Modes und Funktionsaufrufe sind ebenfalls integriert. GGUF-Quants sind bereits über ggml-org und unsloth auf Hugging Face verfügbar und ermöglichen den lokalen Betrieb auf Laptops und Consumer-GPUs. Gemma 4 unterstützt über 140 Sprachen.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.