克劳德,请停止尝试记住随机的废话

一份来自开发者社区的实测报告指出,让AI智能体(Agent)记忆并搜索过去的所有对话记录,对提升编程任务性能几乎没有帮助,反而可能因摄入大量“废话”而浪费算力、降低模型表现。这一结论挑战了当前多家公司押注的“会话记忆即新石油”产品方向。

克劳德,请停止尝试记住随机的废话

一句话看懂:一份来自开发者社区的实测报告指出,让AI智能体(Agent)记忆并搜索过去的所有对话记录,对提升编程任务性能几乎没有帮助,反而可能因摄入大量“废话”而浪费算力、降低模型表现。这一结论挑战了当前多家公司押注的“会话记忆即新石油”产品方向。

事件核心:发生了什么

7月2日,开发者社区Substack上一位ID为“theahura”的从业者分享了团队长达数月的实证结果:在SWE(软件工程)任务中,当智能体已有文档、PR(拉取请求)说明等结构化上下文时,再为它开放全部历史对话记录的搜索权限,性能提升为零。该团队曾为此专门开发了索引、向量搜索与图数据库产品,但测试后发现毫无收益,甚至有时会让模型表现变差。

该报告直接指向Anthropic的Claude Code等内置会话记忆功能的产品。作者认为,工程师与智能体对话中的“草稿”和“废弃思路”混杂了大量噪音,而AI模型无法主动清理由自己生成的、未被人类审核的“垃圾记忆”,导致上下文窗口被无价值信息污染,引发“意图漂移”。

为什么重要

这一发现直接冲击了AI编程工具的一个主流商业假设:即“会话记录是比代码本身更有价值的资产”。Cognition AI、Cursor、Claude Code等热门产品都在押注会话回溯能力。如果该结论被更多团队复现,意味着:

  • Agent产品的记忆技术路线需要重新校准,从“全量存储”转向“人工审核后摘要”;
  • 行业可能需要新的评估基准——目前的编码Benchmark(如SWE-bench)默认输入数据干净无噪音,而实际生产中大量输入是“腐败”的,模型反而会因不信任输入而被惩罚;
  • 依赖全量会话索引的MCP(模型上下文协议)架构可能高估了“更多上下文”的价值。

对用户/开发者/创作者的影响

对使用AI编程工具的开发者:如果你追求性能,当前不应过度依赖“记忆所有聊天”功能。更好的实践是:坚持写好Commit Message、PR描述和文档——让价值信息固化到结构化元数据中,而不是让Agent去“考古”闲聊记录。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对AI产品经理与开发者:如果你正在构建Agent记忆系统,需要加入“减少上下文”机制,而不是只做“增加上下文”。明确设计人工在环的审核流程(例如默认拒绝AI提议的自动记忆,仅保留20%的精选片段),否则记忆系统会迅速退化。

对API调用者与成本控制:无差别检索历史会话会显著推高Token消耗(即费用),且可能让长上下文模型在“垃圾数据”上预填充,降低推理效率。

值得关注的后续

1. Anthropic与OpenAI是否会调整其记忆策略?如果Claude Code的会话记忆功能在社区引发更多负面反馈,产品侧可能增加“遗忘”权限控制或强制性审核接口。

2. SWE-bench类基准是否会增加“输入噪声”测试?若该问题被公认,学术界和评测平台需要构建包含无效、错误、随机信息的测试集,以反映真实Agent表现。

3. 新一代Agent记忆产品将如何演进?目前公开信息显示,更多团队(包括Google的Project Mariner、创业公司如Nori)正在采用“周总结+人工审核+技能更新”的周期机制,而非实时全量索引,这一趋势值得跟踪。

来源:Hacker News

celebrityanime
celebrityanime
文章: 11372

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注