Granite 4.1: IBM kehrt zu reiner Transformer-Architektur zurück – Community rätselt
Ein Reddit-Post in r/LocalLLaMA thematisiert den Architekturwechsel zwischen IBMs Granite 4 und dem neu veröffentlichten Granite 4.1. Während Granite 4 auf einem Hybrid-Mamba-Attention-Modell basierte und sowohl dichte als auch MoE-Varianten (Mixture of Experts) anbot, kehrt Granite 4.1 zu einem reinen Transformer-Design zurück. IBM begründet dies laut dem verlinkten Release-Post mit besserer Fine-Tune-Fähigkeit. Der Nutzer the-salami berichtet aus eigener Erfahrung: Auf seiner Hardware (8 GB VRAM, Intel Alchemist dGPU) konnte er mit Granite 4 (7B MoE, Q4KM) den vollen 128k-Kontext ohne Cache-Quantisierung nutzen, mit ~1000 Tokens/s Ingestion und ~40 Tokens/s Generierung. Granite 4.1 (8B dense, Q4KM) bricht hingegen bei ~14k Kontext ein und erreicht nur noch ~300 Tokens/s Ingestion und ~15 Tokens/s Generierung. Zudem bietet Granite 4.1 offenbar keine MoE-Variante. Die Community diskutiert, ob der Fine-Tuning-Vorteil die Performanceeinbußen rechtfertigt, und fragt, ob IBM die Mamba-Hybrid-Architektur in zukünftigen Modellen fortführen will.
- Granite 4 nutzte Hybrid-Mamba-Attention mit dichten und MoE-Varianten; 4.1 ist rein dense Transformer ohne MoE.
- Auf 8 GB VRAM (Intel Alchemist): Granite 4 schafft 128k Kontext, 4.1 nur ~14k Kontext.
- Ingestion-Speed fiel von ~1000 Tokens/s (Granite 4, 7B MoE) auf ~300 Tokens/s (Granite 4.1, 8B dense).
- Generierungsgeschwindigkeit sank von ~40 auf ~15 Tokens/s unter gleichen Testbedingungen (Q4KM).
- IBM nennt einfachere Fine-Tuning-Fähigkeit als Hauptgrund für den Architekturwechsel.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com1d
Community-Diskussion: Granite-4.1-30B im Schatten von Qwen3 und Gemma4?
- LAUNCHhuggingface.co0mo
IBM Granite 4.1: Hugging Face Blog erklärt den Aufbau der neuen LLMs
- MEINUNGreddit.com1w
MTP vs. Non-MTP: VRAM-Verbrauch in llama.cpp im Vergleich
- MEINUNGreddit.com3w
5070 Ti zu RTX 3090 wechseln? Lokale LLM-Performance-Frage
Granite 4.1: IBM kehrt zu reiner Transformer-Architektur zurück – Community rätselt
Ein Reddit-Post in r/LocalLLaMA thematisiert den Architekturwechsel zwischen IBMs Granite 4 und dem neu veröffentlichten Granite 4.1. Während Granite 4 auf einem Hybrid-Mamba-Attention-Modell basierte und sowohl dichte als auch MoE-Varianten (Mixture of Experts) anbot, kehrt Granite 4.1 zu einem reinen Transformer-Design zurück. IBM begründet dies laut dem verlinkten Release-Post mit besserer Fine-Tune-Fähigkeit. Der Nutzer the-salami berichtet aus eigener Erfahrung: Auf seiner Hardware (8 GB VRAM, Intel Alchemist dGPU) konnte er mit Granite 4 (7B MoE, Q4KM) den vollen 128k-Kontext ohne Cache-Quantisierung nutzen, mit ~1000 Tokens/s Ingestion und ~40 Tokens/s Generierung. Granite 4.1 (8B dense, Q4KM) bricht hingegen bei ~14k Kontext ein und erreicht nur noch ~300 Tokens/s Ingestion und ~15 Tokens/s Generierung. Zudem bietet Granite 4.1 offenbar keine MoE-Variante. Die Community diskutiert, ob der Fine-Tuning-Vorteil die Performanceeinbußen rechtfertigt, und fragt, ob IBM die Mamba-Hybrid-Architektur in zukünftigen Modellen fortführen will.
- Granite 4 nutzte Hybrid-Mamba-Attention mit dichten und MoE-Varianten; 4.1 ist rein dense Transformer ohne MoE.
- Auf 8 GB VRAM (Intel Alchemist): Granite 4 schafft 128k Kontext, 4.1 nur ~14k Kontext.
- Ingestion-Speed fiel von ~1000 Tokens/s (Granite 4, 7B MoE) auf ~300 Tokens/s (Granite 4.1, 8B dense).
- Generierungsgeschwindigkeit sank von ~40 auf ~15 Tokens/s unter gleichen Testbedingungen (Q4KM).
- IBM nennt einfachere Fine-Tuning-Fähigkeit als Hauptgrund für den Architekturwechsel.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
- MEINUNGreddit.com1d
Community-Diskussion: Granite-4.1-30B im Schatten von Qwen3 und Gemma4?
- LAUNCHhuggingface.co0mo
IBM Granite 4.1: Hugging Face Blog erklärt den Aufbau der neuen LLMs
- MEINUNGreddit.com1w
MTP vs. Non-MTP: VRAM-Verbrauch in llama.cpp im Vergleich
- MEINUNGreddit.com3w
5070 Ti zu RTX 3090 wechseln? Lokale LLM-Performance-Frage