
AI Agent 干中学,「造轮子」让我学会了什么?
一句话看懂:一位非程序员作者通过从零构建一个本地运行的 AI Agent,亲身验证了多轮对话、工具调用(Tool Use)和技能(Skills / MCP)这三个核心概念如何从理论走向可用,揭示了当前 AI Agent 在经验积累和成本控制上的真实瓶颈。
事件核心:发生了什么
本文作者 Mirtle 在周五下班后决定自己“造一个 AI Agent”,不使用任何现成框架,纯靠阅读文档和编写代码(由 Codex 辅助)完成。他用两天时间搭建了一个基于 Raycast 插件的轻量 Agent,实现了三个目标:正常聊天、创建待办和笔记、获取少数派的日报摘要。在这个过程中,他先后遇到了 AI 的“失忆症”(无多轮记忆)、无法获取实时信息、以及缺乏完成任务的最佳流程——分别通过叠加对话上下文、接入 Tool Use(函数调用)和设计 Skills(技能文件)来解决。作者发现,即使是最先进的模型(如 GPT 5.5 Pro),在面对一个简单的“获取最新文章”任务时,也可能因缺乏结构化指引而耗费 3 分钟和 2 美元的成本,而加入预制的 Skills 后,同一任务可在 10 秒内完成。
为什么重要
这篇文章的重要性不在于技术本身,而在于它用一个可复现的“干中学”案例,撕开了当前 AI Agent 行业的两层迷雾。第一层:用户往往高估模型的“智能”,低估“经验成本”。顶级模型在没有明确引导时,会反复试错——这既是聪明也是低效,对个人开发者和小团队而言,token 消耗和延迟可能是致命的。第二层:MCP(模型上下文协议)和 Skills 的作用不仅仅是“标准化”,它们本质上是把人类的经验(菜谱)以文件形式注入到模型的工作流中,从而大幅降低执行偏差。这意味着,未来 Agent 的竞争力,将越来越依赖“经验的工程化”而非单一模型能力。
对用户/开发者/创作者的影响
对非技术用户:即使你不懂代码,AI Agent 的“好用程度”也取决于背后是否有精心编写的技能文件。未来你可能不需要自己写提示词,而是直接下载别人整理好的“技能包”(如抓取 RSS、整理笔记、分析数据),就像安装一个浏览器插件。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对开发者:这篇文章提供了一个清晰的“最小可行 Agent”搭建路径:先解决多轮记忆(Context 拼接),再接入 Tool Use(函数/API),最后用 Skills 固化最佳实践。值得注意的是,作者强调“不要偷懒给一句‘我要 AI Agent’”,意味着从零开始能帮助开发者真正理解 token 成本、工具调用时机和提示词工程的分寸感。
对内容创作者与产品经理:文中揭示了“AI 更像一个实习生”的现实——它需要明确的执行步骤,否则就会漫无目的地消耗时间和费用。这意味着,在构建 AI 产品时,将“业务逻辑拆解为原子步骤”的能力,可能会比模型调参更重要。
值得关注的后续
- Skills 标准化能否获得更多平台支持?目前 Anthropic 主导的 Skills 与 OpenAI 的 MCP 协议并存,作者实验的 read_skill 机制是自建方案,但若出现统一标准,将极大降低生态碎片化。
- Agent 的“经验成本”如何被量化?文中提到一次简单的“获取文章”任务因无指导而消耗 2 美元,目前公开信息显示,各厂商尚未提供针对此类“失败尝试”的退款或补偿机制,这可能是用户和开发者面临的实际风险。
- “复读式记忆”方案是否可持续?作者用拼接前文的方式解决多轮记忆,但指出“再之前怎么处理现在还没有好办法”。随着上下文窗口的扩展(如 1M token 模型投入商用),传统的拼接策略可能被原生长上下文记忆替代。
来源:sspai


