YourMemory schlägt Zep Cloud auf LoCoMo: 59 % vs. 28 % bei Multi-Hop-Retrieval
Der Reddit-Nutzer /u/Sufficient_Sir_5414 — eigenen Angaben zufolge Autor von YourMemory — teilt reproduzierbare Benchmark-Ergebnisse für agentenbasiertes Langzeitgedächtnis. Kernproblem ist das sogenannte Bridge-Question-Problem: Vektorsearch findet Fakt 1 korrekt, kann Fakt 2 aber nicht surfacen, weil dessen Cosine-Ähnlichkeit zur ursprünglichen Query nahe null liegt. YourMemory adressiert dies mit einem dreistufigen Retrieval-Stack: Erstens hybrides Ranking (0,4 × BM25 + 0,6 × Cosine), zweitens spaCy-NER-basiertes Entity-Graph-Traversal, das nach dem Fund von Fakt 1 automatisch verbundene Entitäten nachlädt, und drittens ein zeitbasiertes Decay-Modell (Stärke = Wichtigkeit × e^(−λt) × (1 + recall_count × 0,2)) mit 24-Stunden-Pruning unter 0,05. Auf dem LoCoMo-10-Benchmark (1 534 QA-Paare, 10 Multi-Session-Konversationen) erreicht YourMemory 59 % gegenüber 28 % bei Zep Cloud. Auf LongMemEval-S (500 Fragen, ~53 Haystack-Sessions) werden 84,8 % Recall-all@5 gemeldet. HotpotQA multi-hop (200 Fragen) zeigt den isolierten Beitrag des Entity-Graphen: 71,5 % BOTH_FOUND@5 mit Graph vs. 59,5 % ohne — ein Plus von 14 Prozentpunkten speziell bei Bridge-Questions.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.
Verwandte Beiträge
YourMemory schlägt Zep Cloud auf LoCoMo: 59 % vs. 28 % bei Multi-Hop-Retrieval
Der Reddit-Nutzer /u/Sufficient_Sir_5414 — eigenen Angaben zufolge Autor von YourMemory — teilt reproduzierbare Benchmark-Ergebnisse für agentenbasiertes Langzeitgedächtnis. Kernproblem ist das sogenannte Bridge-Question-Problem: Vektorsearch findet Fakt 1 korrekt, kann Fakt 2 aber nicht surfacen, weil dessen Cosine-Ähnlichkeit zur ursprünglichen Query nahe null liegt. YourMemory adressiert dies mit einem dreistufigen Retrieval-Stack: Erstens hybrides Ranking (0,4 × BM25 + 0,6 × Cosine), zweitens spaCy-NER-basiertes Entity-Graph-Traversal, das nach dem Fund von Fakt 1 automatisch verbundene Entitäten nachlädt, und drittens ein zeitbasiertes Decay-Modell (Stärke = Wichtigkeit × e^(−λt) × (1 + recall_count × 0,2)) mit 24-Stunden-Pruning unter 0,05. Auf dem LoCoMo-10-Benchmark (1 534 QA-Paare, 10 Multi-Session-Konversationen) erreicht YourMemory 59 % gegenüber 28 % bei Zep Cloud. Auf LongMemEval-S (500 Fragen, ~53 Haystack-Sessions) werden 84,8 % Recall-all@5 gemeldet. HotpotQA multi-hop (200 Fragen) zeigt den isolierten Beitrag des Entity-Graphen: 71,5 % BOTH_FOUND@5 mit Graph vs. 59,5 % ohne — ein Plus von 14 Prozentpunkten speziell bei Bridge-Questions.
Frag die KI zum Artikel
Folgefragen zu Headline, Quelle und Volltext — Antwort streamt in wenigen Sekunden.