Granite 4.1: IBM kehrt zu reiner Transformer-Architektur zurück – Community rätselt

Warum es zählt

Für GPU-arme Nutzer bedeutet der Wechsel konkret: statt 128k Kontext mit 1000 Tokens/s Ingestion bleiben nur ~14k Kontext bei 300 Tokens/s – ein erheblicher Rückschritt für dokumentenzentrierte Workloads ohne entsprechende Hardware.

— Lumeric Redaktion

Ein Reddit-Post in r/LocalLLaMA thematisiert den Architekturwechsel zwischen IBMs Granite 4 und dem neu veröffentlichten Granite 4.1. Während Granite 4 auf einem Hybrid-Mamba-Attention-Modell basierte und sowohl dichte als auch MoE-Varianten (Mixture of Experts) anbot, kehrt Granite 4.1 zu einem reinen Transformer-Design zurück. IBM begründet dies laut dem verlinkten Release-Post mit besserer Fine-Tune-Fähigkeit. Der Nutzer the-salami berichtet aus eigener Erfahrung: Auf seiner Hardware (8 GB VRAM, Intel Alchemist dGPU) konnte er mit Granite 4 (7B MoE, Q4KM) den vollen 128k-Kontext ohne Cache-Quantisierung nutzen, mit ~1000 Tokens/s Ingestion und ~40 Tokens/s Generierung. Granite 4.1 (8B dense, Q4KM) bricht hingegen bei ~14k Kontext ein und erreicht nur noch ~300 Tokens/s Ingestion und ~15 Tokens/s Generierung. Zudem bietet Granite 4.1 offenbar keine MoE-Variante. Die Community diskutiert, ob der Fine-Tuning-Vorteil die Performanceeinbußen rechtfertigt, und fragt, ob IBM die Mamba-Hybrid-Architektur in zukünftigen Modellen fortführen will.

Was wir noch wissen

Granite 4 nutzte Hybrid-Mamba-Attention mit dichten und MoE-Varianten; 4.1 ist rein dense Transformer ohne MoE.
Auf 8 GB VRAM (Intel Alchemist): Granite 4 schafft 128k Kontext, 4.1 nur ~14k Kontext.
Ingestion-Speed fiel von ~1000 Tokens/s (Granite 4, 7B MoE) auf ~300 Tokens/s (Granite 4.1, 8B dense).
Generierungsgeschwindigkeit sank von ~40 auf ~15 Tokens/s unter gleichen Testbedingungen (Q4KM).
IBM nennt einfachere Fine-Tuning-Fähigkeit als Hauptgrund für den Architekturwechsel.

Quelle lesenreddit.com

Foundation Modelle Open Source Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Granite 4.1: IBM kehrt zu reiner Transformer-Architektur zurück – Community rätselt

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Granite 4 nutzte Hybrid-Mamba-Attention mit dichten und MoE-Varianten; 4.1 ist rein dense Transformer ohne MoE.
Auf 8 GB VRAM (Intel Alchemist): Granite 4 schafft 128k Kontext, 4.1 nur ~14k Kontext.
Ingestion-Speed fiel von ~1000 Tokens/s (Granite 4, 7B MoE) auf ~300 Tokens/s (Granite 4.1, 8B dense).
Generierungsgeschwindigkeit sank von ~40 auf ~15 Tokens/s unter gleichen Testbedingungen (Q4KM).
IBM nennt einfachere Fine-Tuning-Fähigkeit als Hauptgrund für den Architekturwechsel.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Granite 4.1: IBM kehrt zu reiner Transformer-Architektur zurück – Community rätselt

Frag die KI zum Artikel

Verwandte Beiträge

Granite 4.1: IBM kehrt zu reiner Transformer-Architektur zurück – Community rätselt

Frag die KI zum Artikel

Verwandte Beiträge