Show HN: 利用基准测试解决AI在关联事实上的记忆盲点

一句话看懂：YourMemory 发布了一套公开可复现的基准测试，证明其记忆层在处理跨会话关联事实时优于传统检索方式——在 1,534 个 QA 对测试中全程领先，并能将代理上下文 Token 使用量压缩 19.7% 以上。

事件核心：发生了什么

YourMemory 团队在 Show HN 上公开了项目的基准测试方法论与完整脚本。项目针对 AI 在长对话、多会话场景下“记住关联事实”的困难，设计了一套结合 BM25、向量检索、实体图扩展以及艾宾浩斯遗忘曲线的两层检索记忆层。其核心测试数据集包括：

LoCoMo：1,534 个 QA 对，模拟 10 个会话。YourMemory 在所有会话中完成度领先，是唯一一个完整跑完基准无错误的记忆层。

LongMemEval：500 个问题，每个问题需要从约 53 个“干草堆”会话中回忆正确内容。系统在针对时间推理和多会话问题时，召回任意一个正确会话（recall-any）达到 94-97%，但召回全部必需会话（recall-all@5）为 75.9%。团队明确指出，这是最依赖时间锚定链接的场景。

HotpotQA（干扰项版本）：200 个问题，166 个桥接问题、34 个比较问题。在寻找两个支持事实时，加入实体图边后整体提升 12 个百分点，其中桥接问题提升 14 个百分点——因为第二个事实与第一个事实在语义词嵌入上相似度极低，纯向量检索会停在第一个事实。

此外，YourMemory 提供了一个 3 会话开发者工作流模拟：相比无状态基线，3 个会话后，上下文 Token 减少 19.7%，每会话上下文减少 28%。记忆块大小稳定在 76-91 Token，而无状态历史线性增长。

为什么重要

当前主流 AI 应用（特别是 AI Agent、个人助理、创作辅助）面临的核心问题之一是“记忆盲点”——大模型在处理单次对话时效果很好，但跨会话、跨任务的关联事实经常丢失。YourMemory 的方法不依赖云端推理成本，所有检索、剪枝和图扩展在本地完成；通过有结构的公共基准证明“图形增强 + 遗忘曲线”能让关联事实的召回率提高 12-14 个百分点。这对 AI Agent 的可信赖度、长上下文利用效率和开发成本控制有直接意义。团队公开了完整测试脚本和数据集，使得其他开发者可以复现并对比自己的方案，推动记忆层设计的标准化评估。

对用户/开发者/创作者的影响

开发者：直接受益。YourMemory 提供了 MCP 调用接口，可通过 API 密钥为多个 Agent 分配共享或私有的记忆空间；安装时自动注入召回、存储、优先级策略到 Agent 的全局上下文（写入 ~/.claude/CLAUDE.md），无需手动配置。开发者可以自行运行公开基准，验证其效果。

普通用户 / 创作者：间接影响。如果 AI 工具集成类似记忆层，未来聊天或创作助手能记住一个月前的项目细节、用户偏好，不会在会话切换后问重复的问题。系统内置的遗忘机制保证重要信息持久、无关信息自然消退，避免记忆污染。

对行业生态：提供了可量化的记忆层评估方法。之前各记忆方案（RAG、向量库、长期内存等）多采用定制化评测，难以横向对比。YourMemory 公开的数据集和评分规则可能成为行业参照之一。

值得关注的后续

1. 产品落地进展：目前 YourMemory 只提供了命令行脚本和基准测试，尚未披露正式产品发布或定价策略。开发者能否便捷接入自有项目，是决定其生态影响力的关键。
2. 竞争对等方案跟进：长期记忆层是 AI Agent 竞赛的核心战场，目前 MemGPT、超长上下文的 Gemini 等都在探索。公开基准可能促使其他团队发布类似对比数据。
3. 桥接问题的剩余缺口：YourMemory 承认在桥接问题上有 28.5% 未解决案例——因为连接实体既未出现在查询中、也不在任何检索到的事实里，图无法连接从未被索引的节点。团队后续如何弥补这一盲区，值得持续观察。

来源：yourmemoryai.xyz

Show HN: 利用基准测试解决AI在关联事实上的记忆盲点