
LLM-Architekturen 2026: KV-Sharing, mHC und Compressed Attention im Überblick
Sebastian Raschka (PhD) beleuchtet in seiner „Ahead of AI"-Kolumne vier Architekturinnovationen, die in Open-Weight-Modellen der Monate April und Mai 2026 aufgetaucht sind. Im Mittelpunkt steht die Frage, wie LLM-Entwickler den KV-Cache und die Attention-Berechnung effizienter gestalten, da Reasoning-Modelle und Agenten-Workflows immer mehr Token über längere Zeiträume im Kontext halten müssen. Gemma 4 (Google) kombiniert Grouped Query Attention mit einem layerübergreifenden KV-Sharing, bei dem spätere Schichten die Key-Value-States früherer Schichten wiederverwenden – ein Konzept, das auf Brandon et al. (NeurIPS 2024) zurückgeht. Zusätzlich setzt Gemma 4 sogenannte Per-Layer-Embeddings ein. ZAYA1-8B nutzt komprimierte Faltungsattention (Compressed Convolutional Attention), Laguna XS.2 arbeitet mit layerweisem Attention-Budgeting, und DeepSeek V4 kombiniert Multi-Head Compression (mHC) mit komprimierter Attention. Raschka beschränkt sich bewusst auf Architekturdesign und klammert Datensätze, Trainingspläne, RL-Rezepte und Benchmark-Tabellen aus. Der Artikel ist Teil einer Serie, die einen größeren LLM Architecture Gallery umfasst.
- Gemma 4 erschien Anfang April 2026 in drei Kategorien: E2B/E4B (Edge/IoT), 26B MoE und 31B Dense.
- KV-Sharing in Gemma 4 E2B/E4B: spätere Layer recyceln KV-States früherer Layer, ergänzend zu GQA.
- ZAYA1-8B setzt auf Compressed Convolutional Attention als neues Attention-Design.
- Laguna XS.2 führt layerweises Attention-Budgeting ein, um Rechenkosten je nach Layer-Relevanz zu steuern.
- DeepSeek V4 kombiniert Multi-Head Compression (mHC) mit komprimierter Attention – Details noch nicht veröffentlicht zum Artikelzeitpunkt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge

LLM-Architekturen 2026: KV-Sharing, mHC und Compressed Attention im Überblick
Sebastian Raschka (PhD) beleuchtet in seiner „Ahead of AI"-Kolumne vier Architekturinnovationen, die in Open-Weight-Modellen der Monate April und Mai 2026 aufgetaucht sind. Im Mittelpunkt steht die Frage, wie LLM-Entwickler den KV-Cache und die Attention-Berechnung effizienter gestalten, da Reasoning-Modelle und Agenten-Workflows immer mehr Token über längere Zeiträume im Kontext halten müssen. Gemma 4 (Google) kombiniert Grouped Query Attention mit einem layerübergreifenden KV-Sharing, bei dem spätere Schichten die Key-Value-States früherer Schichten wiederverwenden – ein Konzept, das auf Brandon et al. (NeurIPS 2024) zurückgeht. Zusätzlich setzt Gemma 4 sogenannte Per-Layer-Embeddings ein. ZAYA1-8B nutzt komprimierte Faltungsattention (Compressed Convolutional Attention), Laguna XS.2 arbeitet mit layerweisem Attention-Budgeting, und DeepSeek V4 kombiniert Multi-Head Compression (mHC) mit komprimierter Attention. Raschka beschränkt sich bewusst auf Architekturdesign und klammert Datensätze, Trainingspläne, RL-Rezepte und Benchmark-Tabellen aus. Der Artikel ist Teil einer Serie, die einen größeren LLM Architecture Gallery umfasst.
- Gemma 4 erschien Anfang April 2026 in drei Kategorien: E2B/E4B (Edge/IoT), 26B MoE und 31B Dense.
- KV-Sharing in Gemma 4 E2B/E4B: spätere Layer recyceln KV-States früherer Layer, ergänzend zu GQA.
- ZAYA1-8B setzt auf Compressed Convolutional Attention als neues Attention-Design.
- Laguna XS.2 führt layerweises Attention-Budgeting ein, um Rechenkosten je nach Layer-Relevanz zu steuern.
- DeepSeek V4 kombiniert Multi-Head Compression (mHC) mit komprimierter Attention – Details noch nicht veröffentlicht zum Artikelzeitpunkt.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.