
一句话看懂:Autoharness 是一个为 Claude Code 设计的开源插件,能从用户真实工作会话中自动学习、合并、更新和淘汰技能(skill),从而让模型在不依赖人工重编的情况下持续提升特定任务表现——在 CORE-Bench 测试中,将成绩从 42% 提升至 78%。
事件核心:发生了什么
由 Tigerless Labs 开发的 Autoharness 已在 GitHub 上开源。它作为 Claude Code 的插件运行,本质是一个自适应的技能层。与传统的模型微调或手工编写 prompt 不同,它通过拦截用户与 Claude Code 的交互过程(包括输入、输出和工具调用),在每次会话结束后自动提炼出一条“技能”,并将其存储为 Claude Code 原生的技能文件。
该系统的关键机制在于:它不是简单地堆积新技能,而是通过一个“反射器”(reflector)将新情景与已有技能进行比对、合并同场景技能,从而避免重复积累。技能的存活与否由后续会话中的调用率决定,而非离线测试分数。此外,系统自带生命周期管理,会自动归档使用频率最低的技能。
该插件的安装依赖仅需 Python3(零第三方依赖),配置为零,在后台运行,不与用户自己编写的技能冲突。
为什么重要
Autoharness 触及了大模型部署中一个长期存在的瓶颈:模型的“技能层”往往需要每个模型代际由人工手动重建。正如 swyx 在“Big Model vs Big Harness”观点中所指出的,工程层面的“马具”设计往往对模型最终表现贡献巨大,但维护成本高昂。Autoharness 尝试证明,技能层可以自我维护,无需全时守护进程、无需离线测试集或人工干预。
这一设计思路与近期 NousResearch 的 hermes-agent 等项目的方向形成对比:后者的技能创建依赖离线评估和定时守护进程,而 Autoharness 的信噪比信号来自实际使用中的调用率。如果这一路径被验证可行,可能显著降低开发者维护 AI Agent 系统的运维成本,并为更自动化的 Agent 自我进化提供了一组更轻量的技术方案。
对用户/开发者/创作者的影响
对于正在使用 Claude Code 的开发者,Autoharness 提供了一种几乎无感的持续优化方式:安装后,插件会在后台学习用户的工作模式,逐渐提升模型在同类任务上的自动化和准确度。由于它不干预用户手动编写的技能,现有工作流不会中断。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对于 AI 应用开发者,特别是在构建 Agent 或 tool-use 系统的团队,Autoharness 的设计思路——即基于真实会话而非人工标注或离线基准来生成和淘汰技能——提供了一套可复用的架构参考。其全 Python 实现和零第三方依赖的设计也降低了集成门槛。
对于希望研究 Agent 自我演化机制的研究者,Autoharness 保留了每个技能创建/更新的完整日志(包括场景和决策证据),这些数据可以用于后续构建基于真实使用场景的评测基准。
值得关注的后续
1. 技能质量验证:目前 Autoharness 的验证信号是调用率,而非离线基准。在真实开放任务中,技能质量的退化(例如产生错误习惯)是否会被有效检测并淘汰,需要更长期的社区使用数据检验。
2. 跨模型兼容性:该插件当前专门为 Claude Code 设计,其技能层格式是否可以被复用或适配到其他模型(如 GPT-4、本地开源模型),将决定其生态扩展空间。
3. 竞品跟进与生态整合:Anthropic 官方如何看待这种第三方自学习机制?是否会将其内化为 Claude Code 官方功能,或出台相应使用规范,值得持续追踪。
来源:github.com


