Unsloth veröffentlicht MTP GGUF Weights für Gemma 4 (31B, 26B, 12B)

Warum es zählt

Lokale Nutzer können Gemma-4-Modelle nun mit MTP-Unterstützung in gängigen GGUF-Formaten betreiben, was schnellere Inferenz durch spekulative Dekodierung ermöglicht – direkt nutzbar mit llama.cpp-kompatiblen Tools.

— Lumeric Redaktion

Multi-Token Prediction (MTP) ist eine Technik, bei der ein Sprachmodell in einem einzigen Vorwärtsdurchlauf mehrere Token gleichzeitig vorhersagt, anstatt sie sequenziell zu generieren. In Kombination mit spekulativer Dekodierung kann MTP die effektive Inferenzgeschwindigkeit erheblich steigern, ohne die Ausgabequalität zu verändern. Unsloth, bekannt für optimierte quantisierte Modellgewichte und Feintuning-Tools, hat nun MTP-fähige GGUF-Gewichte für Googles Gemma-4-Familie bereitgestellt – konkret für die Varianten 31B-IT, 26B-A4B-IT und 12B-IT. Die Gewichte liegen in den Präzisionsstufen Q8_0, F16 und BF16 vor und sind über separate MTP-Unterverzeichnisse auf Hugging Face abrufbar. Die 26B-A4B-Variante ist ein Mixture-of-Experts-Modell mit nur 4 Milliarden aktiven Parametern, was den VRAM-Bedarf trotz nominell hoher Gesamtparameterzahl deutlich senkt. GGUF ist das Standardformat für llama.cpp und kompatible Runtimes wie Ollama oder LM Studio, sodass die MTP-Gewichte ohne Konvertierungsaufwand lokal eingesetzt werden können – sofern die jeweilige Runtime MTP bereits unterstützt. Die Veröffentlichung folgt dem Muster, mit dem Unsloth zuletzt auch bei anderen Modellen (etwa DeepSeek) frühzeitig optimierte Community-Gewichte bereitgestellt hat.

Was wir noch wissen

MTP-Gewichte sind in drei Präzisionsstufen verfügbar: Q8_0 (quantisiert), F16 und BF16 (Vollfloat).
Die 26B-A4B-Variante ist ein Mixture-of-Experts-Modell mit nur ~4B aktiven Parametern bei 26B Gesamtparametern.
Alle Gewichte liegen in separaten /MTP-Unterverzeichnissen der jeweiligen Hugging-Face-Repos von Unsloth.
MTP ermöglicht spekulative Dekodierung: Mehrere Token werden parallel vorhergesagt, was die Inferenz beschleunigt.
Alle drei Modellvarianten sind Instruction-Tuned (-IT), also für direkten Chat-/Assistenz-Einsatz optimiert.

Quelle lesenreddit.com

Open Source Inferenz Infra Foundation Modelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Unsloth veröffentlicht MTP GGUF Weights für Gemma 4 (31B, 26B, 12B)

ToolsLlama Hugging Face

CompaniesHugging Face

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

MTP-Gewichte sind in drei Präzisionsstufen verfügbar: Q8_0 (quantisiert), F16 und BF16 (Vollfloat).
Die 26B-A4B-Variante ist ein Mixture-of-Experts-Modell mit nur ~4B aktiven Parametern bei 26B Gesamtparametern.
Alle Gewichte liegen in separaten /MTP-Unterverzeichnissen der jeweiligen Hugging-Face-Repos von Unsloth.
MTP ermöglicht spekulative Dekodierung: Mehrere Token werden parallel vorhergesagt, was die Inferenz beschleunigt.
Alle drei Modellvarianten sind Instruction-Tuned (-IT), also für direkten Chat-/Assistenz-Einsatz optimiert.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Unsloth veröffentlicht MTP GGUF Weights für Gemma 4 (31B, 26B, 12B)

Frag die KI zum Artikel

Verwandte Beiträge

Unsloth veröffentlicht MTP GGUF Weights für Gemma 4 (31B, 26B, 12B)

Frag die KI zum Artikel

Verwandte Beiträge