Unsloth veröffentlicht MTP GGUF Weights für Gemma 4 (31B, 26B, 12B)
Multi-Token Prediction (MTP) ist eine Technik, bei der ein Sprachmodell in einem einzigen Vorwärtsdurchlauf mehrere Token gleichzeitig vorhersagt, anstatt sie sequenziell zu generieren. In Kombination mit spekulativer Dekodierung kann MTP die effektive Inferenzgeschwindigkeit erheblich steigern, ohne die Ausgabequalität zu verändern. Unsloth, bekannt für optimierte quantisierte Modellgewichte und Feintuning-Tools, hat nun MTP-fähige GGUF-Gewichte für Googles Gemma-4-Familie bereitgestellt – konkret für die Varianten 31B-IT, 26B-A4B-IT und 12B-IT. Die Gewichte liegen in den Präzisionsstufen Q8_0, F16 und BF16 vor und sind über separate MTP-Unterverzeichnisse auf Hugging Face abrufbar. Die 26B-A4B-Variante ist ein Mixture-of-Experts-Modell mit nur 4 Milliarden aktiven Parametern, was den VRAM-Bedarf trotz nominell hoher Gesamtparameterzahl deutlich senkt. GGUF ist das Standardformat für llama.cpp und kompatible Runtimes wie Ollama oder LM Studio, sodass die MTP-Gewichte ohne Konvertierungsaufwand lokal eingesetzt werden können – sofern die jeweilige Runtime MTP bereits unterstützt. Die Veröffentlichung folgt dem Muster, mit dem Unsloth zuletzt auch bei anderen Modellen (etwa DeepSeek) frühzeitig optimierte Community-Gewichte bereitgestellt hat.
- MTP-Gewichte sind in drei Präzisionsstufen verfügbar: Q8_0 (quantisiert), F16 und BF16 (Vollfloat).
- Die 26B-A4B-Variante ist ein Mixture-of-Experts-Modell mit nur ~4B aktiven Parametern bei 26B Gesamtparametern.
- Alle Gewichte liegen in separaten /MTP-Unterverzeichnissen der jeweiligen Hugging-Face-Repos von Unsloth.
- MTP ermöglicht spekulative Dekodierung: Mehrere Token werden parallel vorhergesagt, was die Inferenz beschleunigt.
- Alle drei Modellvarianten sind Instruction-Tuned (-IT), also für direkten Chat-/Assistenz-Einsatz optimiert.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Unsloth veröffentlicht MTP GGUF Weights für Gemma 4 (31B, 26B, 12B)
Multi-Token Prediction (MTP) ist eine Technik, bei der ein Sprachmodell in einem einzigen Vorwärtsdurchlauf mehrere Token gleichzeitig vorhersagt, anstatt sie sequenziell zu generieren. In Kombination mit spekulativer Dekodierung kann MTP die effektive Inferenzgeschwindigkeit erheblich steigern, ohne die Ausgabequalität zu verändern. Unsloth, bekannt für optimierte quantisierte Modellgewichte und Feintuning-Tools, hat nun MTP-fähige GGUF-Gewichte für Googles Gemma-4-Familie bereitgestellt – konkret für die Varianten 31B-IT, 26B-A4B-IT und 12B-IT. Die Gewichte liegen in den Präzisionsstufen Q8_0, F16 und BF16 vor und sind über separate MTP-Unterverzeichnisse auf Hugging Face abrufbar. Die 26B-A4B-Variante ist ein Mixture-of-Experts-Modell mit nur 4 Milliarden aktiven Parametern, was den VRAM-Bedarf trotz nominell hoher Gesamtparameterzahl deutlich senkt. GGUF ist das Standardformat für llama.cpp und kompatible Runtimes wie Ollama oder LM Studio, sodass die MTP-Gewichte ohne Konvertierungsaufwand lokal eingesetzt werden können – sofern die jeweilige Runtime MTP bereits unterstützt. Die Veröffentlichung folgt dem Muster, mit dem Unsloth zuletzt auch bei anderen Modellen (etwa DeepSeek) frühzeitig optimierte Community-Gewichte bereitgestellt hat.
- MTP-Gewichte sind in drei Präzisionsstufen verfügbar: Q8_0 (quantisiert), F16 und BF16 (Vollfloat).
- Die 26B-A4B-Variante ist ein Mixture-of-Experts-Modell mit nur ~4B aktiven Parametern bei 26B Gesamtparametern.
- Alle Gewichte liegen in separaten /MTP-Unterverzeichnissen der jeweiligen Hugging-Face-Repos von Unsloth.
- MTP ermöglicht spekulative Dekodierung: Mehrere Token werden parallel vorhergesagt, was die Inferenz beschleunigt.
- Alle drei Modellvarianten sind Instruction-Tuned (-IT), also für direkten Chat-/Assistenz-Einsatz optimiert.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.