Community erweitert Gemma4-31B auf 44B durch Layer-Duplikation
Warum es zählt
Zeigt, dass Layer-Expansion mit Identity-Init auch auf Gemma4-Architekturen funktioniert und neues Domänenwissen eingebracht werden kann, ohne bestehende Fähigkeiten stark zu überschreiben. Coding- und Tool-Calling-Fähigkeiten sind noch schwach — Community-Beiträge zu CoT-Datasets und Stress-Tests gesucht.
— Lumeric Redaktion
88 Layer / ~47B Parameter
Erweitertes Modell (von 31B Basis)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- GERÜCHTreddit.com0mo
Weitere Gemma-4-Modelle in Vorbereitung – möglicherweise 120B-Variante
- LAUNCHreddit.com0mo
Google DeepMind veröffentlicht Gemma 4 12B mit 256K-Kontext und Multimodal-Support
- MEINUNGreddit.com0mo
Community fordert Google zur Veröffentlichung von Gemma 4 124B auf
- LAUNCHreddit.com3w
Diffusion Gemma 26B MoE angekündigt
Community erweitert Gemma4-31B auf 44B durch Layer-Duplikation
Warum es zählt
Zeigt, dass Layer-Expansion mit Identity-Init auch auf Gemma4-Architekturen funktioniert und neues Domänenwissen eingebracht werden kann, ohne bestehende Fähigkeiten stark zu überschreiben. Coding- und Tool-Calling-Fähigkeiten sind noch schwach — Community-Beiträge zu CoT-Datasets und Stress-Tests gesucht.
— Lumeric Redaktion
88 Layer / ~47B Parameter
Erweitertes Modell (von 31B Basis)
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- GERÜCHTreddit.com0mo
Weitere Gemma-4-Modelle in Vorbereitung – möglicherweise 120B-Variante
- LAUNCHreddit.com0mo
Google DeepMind veröffentlicht Gemma 4 12B mit 256K-Kontext und Multimodal-Support
- MEINUNGreddit.com0mo
Community fordert Google zur Veröffentlichung von Gemma 4 124B auf
- LAUNCHreddit.com3w
Diffusion Gemma 26B MoE angekündigt