小红书AI 工程架构师郝栩彬确认出席AICon上海站，分享Self-GC：一种结合前缀缓存约束的多轮 Agent 上下文治理方案

一句话看懂：小红书AI工程架构师郝栩彬将在AICon上海站分享Self-GC方案，该方案借鉴Java垃圾回收思想，解决长程AI Agent在有限上下文和缓存约束下的稳定性问题，而非仅在上下文爆满时做最后压缩。

事件核心：发生了什么

郝栩彬确认将于6月26-27日在AICon上海站“Agent系统架构与工程化实践”专题发表演讲，主题为《Self-GC：一种结合前缀缓存约束的多轮Agent上下文治理方案》。该方案基于小红书内部办公智能体OpenClaw开发，核心是将多轮会话上下文对象化，通过显式寻址、低损prune/mask/fold、plan/commit解耦及cache-aware delayed commit等机制，将上下文治理前置到运行过程中，而非等到接近上下文上限时才集中压缩。

为什么重要

长程Agent场景中，系统瓶颈正从“模型单步能力”转向“能否在有限上下文、缓存窗口和持续工具交互约束下长期稳定运行”。现有方案如常规self-summary、tool-result pruning、retrieval memory大多在上下文接近上限后做最终压缩，缺少前序整理层和与Prompt Cache的协同。郝栩彬指出，许多压缩方案忽视了prefix cache——如果每轮改写历史前缀，虽减少token但可能降低cache命中率，最终吞掉压缩收益。Self-GC通过delayed commit等设计，在保持缓存一致性的同时实现上下文治理，这在多轮工具调用、长周期任务中尤为关键。

对用户/开发者/创作者的影响

对于AI应用开发者，Self-GC提供了一套可落地框架：包括对象建模、显式寻址、低损整理、幂等恢复、plan/commit解耦与cache-aware delayed commit。演讲将公开一套工程评估方法，利用真实session、后续轨迹和收益函数（Award ≈ N_future × (C – C’) – L_cache_break – L_GC）来判断治理方案是否有效。据披露，当前业务规模下实现10%–30%净TPM收益。这意味开发者可在此基础上构建更稳定、更长程的Agent应用，而不必频繁受限于上下文窗口，同时避免因压缩导致缓存失效带来的性能损失。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

演讲中郝栩彬将介绍效果评估方法，包括从真实触发重压缩的session中取样，在25%/50%/75%切点做前序整理模拟，并用后续真实对话轨迹做离线评估。目前公开信息显示，Self-GC已在企业办公场景验证，但尚未披露OpenClaw的对外可用性。后续值得观察：方案是否会被整合到小红书外部产品、是否开源发布、以及竞品（如字节跳动、百度等）是否会跟进类似设计。此外，郝栩彬提到未来工作方向包括模型原生寻址能力、自主触发能力和模型原生整理能力，这将影响Agent架构的底层设计范式。

来源：InfoQ CN

小红书AI 工程架构师郝栩彬确认出席AICon上海站，分享Self-GC：一种结合前缀缓存约束的多轮 Agent 上下文治理方案