Engram-Modul in AR-Bildgenerierung kein echter Inhalts-Retriever

Warum es zählt

Wer Engram für AR-Bildmodelle einsetzt, sollte wissen: Der Nutzen kommt nicht aus Mustererkennung im Hashspeicher, sondern aus dem Pathway selbst – der gelernte Tabelleninhalt ist fast beliebig austauschbar, was Design-Annahmen zu assoziativen Speichern in Vision-Transformern grundlegend infrage stellt.

— Lumeric Redaktion

Das Paper untersucht, ob das Engram-Modul – ein hash-basierter, O(1)-Assoziativspeicher, der in Transformer-Schichten injiziert wird – in autoregressiver (AR) Bildgenerierung denselben Mechanismus wie in Sprachmodellen zeigt. Die Autoren adaptieren Engram für Vision mittels 2D-Spatial-N-Gram-Hashing, Gated Fusion und KV-Cache-kompatibler inkrementeller Inferenz, und trainieren ein klassen-konditioniertes AR-Modell auf ImageNet 256×256. Über einen Sweep von Backbone-zu-Memory-Budget-Verhältnissen ρ∈[0.17,0.90] schneidet jede Engram-Variante beim FID schlechter ab als die reine AR-Baseline. Besonders aufschlussreich sind die Probing-Experimente: Ein konstantes Gate von g=0.10 erreicht dieselbe Qualität wie das gelernte Gate; das Austauschen der Hash-Inputs gegen passende, adversarielle oder zufällige Exemplare derselben Klasse liefert statistisch nicht unterscheidbare Next-Token-Verteilungen. Entscheidend: Ein Modell, das von Grund auf mit einer komplett auf N(0,1)-Rauschen eingefrorenen Speichertabelle trainiert wird, kostet lediglich ΔFID=0.10 und erhöht sogar den Inception Score. Die Befunde deuten darauf hin, dass Engram in der Bilddomäne als gated residual stream fungiert, nicht als inhaltsbezogener Retriever.

Quelle lesenreddit.com

ΔFID=0.10

Verlust bei komplett eingefrorener Rauschtabelle

Foundation Modelle Multimodal Interpretierbarkeit

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Engram-Modul in AR-Bildgenerierung kein echter Inhalts-Retriever

Warum es zählt

— Lumeric Redaktion

ΔFID=0.10

Verlust bei komplett eingefrorener Rauschtabelle

Frag die KI zum Artikel

Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.

Engram-Modul in AR-Bildgenerierung kein echter Inhalts-Retriever

Frag die KI zum Artikel

Verwandte Beiträge

Engram-Modul in AR-Bildgenerierung kein echter Inhalts-Retriever

Frag die KI zum Artikel

Verwandte Beiträge