Engram-Modul in AR-Bildgenerierung kein echter Inhalts-Retriever
Das Paper untersucht, ob das Engram-Modul – ein hash-basierter, O(1)-Assoziativspeicher, der in Transformer-Schichten injiziert wird – in autoregressiver (AR) Bildgenerierung denselben Mechanismus wie in Sprachmodellen zeigt. Die Autoren adaptieren Engram für Vision mittels 2D-Spatial-N-Gram-Hashing, Gated Fusion und KV-Cache-kompatibler inkrementeller Inferenz, und trainieren ein klassen-konditioniertes AR-Modell auf ImageNet 256×256. Über einen Sweep von Backbone-zu-Memory-Budget-Verhältnissen ρ∈[0.17,0.90] schneidet jede Engram-Variante beim FID schlechter ab als die reine AR-Baseline. Besonders aufschlussreich sind die Probing-Experimente: Ein konstantes Gate von g=0.10 erreicht dieselbe Qualität wie das gelernte Gate; das Austauschen der Hash-Inputs gegen passende, adversarielle oder zufällige Exemplare derselben Klasse liefert statistisch nicht unterscheidbare Next-Token-Verteilungen. Entscheidend: Ein Modell, das von Grund auf mit einer komplett auf N(0,1)-Rauschen eingefrorenen Speichertabelle trainiert wird, kostet lediglich ΔFID=0.10 und erhöht sogar den Inception Score. Die Befunde deuten darauf hin, dass Engram in der Bilddomäne als gated residual stream fungiert, nicht als inhaltsbezogener Retriever.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
Engram-Modul in AR-Bildgenerierung kein echter Inhalts-Retriever
Das Paper untersucht, ob das Engram-Modul – ein hash-basierter, O(1)-Assoziativspeicher, der in Transformer-Schichten injiziert wird – in autoregressiver (AR) Bildgenerierung denselben Mechanismus wie in Sprachmodellen zeigt. Die Autoren adaptieren Engram für Vision mittels 2D-Spatial-N-Gram-Hashing, Gated Fusion und KV-Cache-kompatibler inkrementeller Inferenz, und trainieren ein klassen-konditioniertes AR-Modell auf ImageNet 256×256. Über einen Sweep von Backbone-zu-Memory-Budget-Verhältnissen ρ∈[0.17,0.90] schneidet jede Engram-Variante beim FID schlechter ab als die reine AR-Baseline. Besonders aufschlussreich sind die Probing-Experimente: Ein konstantes Gate von g=0.10 erreicht dieselbe Qualität wie das gelernte Gate; das Austauschen der Hash-Inputs gegen passende, adversarielle oder zufällige Exemplare derselben Klasse liefert statistisch nicht unterscheidbare Next-Token-Verteilungen. Entscheidend: Ein Modell, das von Grund auf mit einer komplett auf N(0,1)-Rauschen eingefrorenen Speichertabelle trainiert wird, kostet lediglich ΔFID=0.10 und erhöht sogar den Inception Score. Die Befunde deuten darauf hin, dass Engram in der Bilddomäne als gated residual stream fungiert, nicht als inhaltsbezogener Retriever.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.