LLM-Architekturen 2026: KV-Sharing, mHC und Compressed Attention im Überblick

Warum es zählt

KV-Cache-Größe, Speicherbandbreite und Attention-Kosten sind bei Reasoning-Modellen und Agent-Workflows die Hauptengpässe – die hier vorgestellten Architekturkonzepte zeigen konkrete Wege, diese Kosten strukturell zu senken, ohne auf Qualität zu verzichten.

— Lumeric Redaktion

Sebastian Raschka (PhD) beleuchtet in seiner „Ahead of AI"-Kolumne vier Architekturinnovationen, die in Open-Weight-Modellen der Monate April und Mai 2026 aufgetaucht sind. Im Mittelpunkt steht die Frage, wie LLM-Entwickler den KV-Cache und die Attention-Berechnung effizienter gestalten, da Reasoning-Modelle und Agenten-Workflows immer mehr Token über längere Zeiträume im Kontext halten müssen. Gemma 4 (Google) kombiniert Grouped Query Attention mit einem layerübergreifenden KV-Sharing, bei dem spätere Schichten die Key-Value-States früherer Schichten wiederverwenden – ein Konzept, das auf Brandon et al. (NeurIPS 2024) zurückgeht. Zusätzlich setzt Gemma 4 sogenannte Per-Layer-Embeddings ein. ZAYA1-8B nutzt komprimierte Faltungsattention (Compressed Convolutional Attention), Laguna XS.2 arbeitet mit layerweisem Attention-Budgeting, und DeepSeek V4 kombiniert Multi-Head Compression (mHC) mit komprimierter Attention. Raschka beschränkt sich bewusst auf Architekturdesign und klammert Datensätze, Trainingspläne, RL-Rezepte und Benchmark-Tabellen aus. Der Artikel ist Teil einer Serie, die einen größeren LLM Architecture Gallery umfasst.

Was wir noch wissen

Gemma 4 erschien Anfang April 2026 in drei Kategorien: E2B/E4B (Edge/IoT), 26B MoE und 31B Dense.
KV-Sharing in Gemma 4 E2B/E4B: spätere Layer recyceln KV-States früherer Layer, ergänzend zu GQA.
ZAYA1-8B setzt auf Compressed Convolutional Attention als neues Attention-Design.
Laguna XS.2 führt layerweises Attention-Budgeting ein, um Rechenkosten je nach Layer-Relevanz zu steuern.
DeepSeek V4 kombiniert Multi-Head Compression (mHC) mit komprimierter Attention – Details noch nicht veröffentlicht zum Artikelzeitpunkt.

Quelle lesenmagazine.sebastianraschka.com

Foundation Modelle Long Context Inferenz Infra

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

LLM-Architekturen 2026: KV-Sharing, mHC und Compressed Attention im Überblick

ToolsQwen DeepSeek

CompaniesDeepSeek Google DeepMind

Warum es zählt

— Lumeric Redaktion

Was wir noch wissen

Gemma 4 erschien Anfang April 2026 in drei Kategorien: E2B/E4B (Edge/IoT), 26B MoE und 31B Dense.
KV-Sharing in Gemma 4 E2B/E4B: spätere Layer recyceln KV-States früherer Layer, ergänzend zu GQA.
ZAYA1-8B setzt auf Compressed Convolutional Attention als neues Attention-Design.
Laguna XS.2 führt layerweises Attention-Budgeting ein, um Rechenkosten je nach Layer-Relevanz zu steuern.
DeepSeek V4 kombiniert Multi-Head Compression (mHC) mit komprimierter Attention – Details noch nicht veröffentlicht zum Artikelzeitpunkt.

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

LLM-Architekturen 2026: KV-Sharing, mHC und Compressed Attention im Überblick

Frag die KI zum Artikel

Verwandte Beiträge

LLM-Architekturen 2026: KV-Sharing, mHC und Compressed Attention im Überblick

Frag die KI zum Artikel

Verwandte Beiträge