δ-mem auf Apple Silicon: MLX-Adapter für Qwen3-4B mit LoCoMo-Gains
Der Reddit-Nutzer /u/Charming_You_25 hat das δ-mem-Verfahren (arxiv: 2605.12357) auf einem Mac Mini mit 64 GB Apple Silicon implementiert. δ-mem verbessert laut Paper die Attention-Richtung eines Modells ohne klassisches Kontextfenster und ohne LoRA, indem gewichtete Attention-Richtungen direkt angepasst werden. Das Paper selbst berichtet für Qwen3-4B-Instruct Verbesserungen von 1,10× gegenüber dem eingefrorenen Backbone, 1,31× auf MemoryAgentBench und 1,20× auf LoCoMo. In den lokalen MLX-Tests fiel das Bild gemischter aus: Synthetische Paper-style-Proben zeigten keinerlei Verbesserung (1,00×), LoCoMo-10 mini hingegen einen überraschend starken Gain von 3,67×, und OpenClaw-Replay einen praxisnahen Zuwachs von 1,17× (6/8 → 7/8 bestandene Proben). Die Latenzkosten lagen je nach Test zwischen 1,01× und 1,50×. Der Adapter für Qwen3-4B-Instruct ist auf HuggingFace veröffentlicht (ofthetrees/delta-mem-qwen3-4b-instruct-mlx-adapter), der Sidecar-Code auf GitHub (elimaine/delta-mem-mlx-sidecar-w-openclaw). Eine Erweiterung auf Qwen3.6:27B scheitert aktuell an fehlenden Ressourcen — der Autor schätzt Cloud-Kosten von rund 6.000 USD.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
δ-mem auf Apple Silicon: MLX-Adapter für Qwen3-4B mit LoCoMo-Gains
Der Reddit-Nutzer /u/Charming_You_25 hat das δ-mem-Verfahren (arxiv: 2605.12357) auf einem Mac Mini mit 64 GB Apple Silicon implementiert. δ-mem verbessert laut Paper die Attention-Richtung eines Modells ohne klassisches Kontextfenster und ohne LoRA, indem gewichtete Attention-Richtungen direkt angepasst werden. Das Paper selbst berichtet für Qwen3-4B-Instruct Verbesserungen von 1,10× gegenüber dem eingefrorenen Backbone, 1,31× auf MemoryAgentBench und 1,20× auf LoCoMo. In den lokalen MLX-Tests fiel das Bild gemischter aus: Synthetische Paper-style-Proben zeigten keinerlei Verbesserung (1,00×), LoCoMo-10 mini hingegen einen überraschend starken Gain von 3,67×, und OpenClaw-Replay einen praxisnahen Zuwachs von 1,17× (6/8 → 7/8 bestandene Proben). Die Latenzkosten lagen je nach Test zwischen 1,01× und 1,50×. Der Adapter für Qwen3-4B-Instruct ist auf HuggingFace veröffentlicht (ofthetrees/delta-mem-qwen3-4b-instruct-mlx-adapter), der Sidecar-Code auf GitHub (elimaine/delta-mem-mlx-sidecar-w-openclaw). Eine Erweiterung auf Qwen3.6:27B scheitert aktuell an fehlenden Ressourcen — der Autor schätzt Cloud-Kosten von rund 6.000 USD.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.