AI Agent 干中学，「造轮子」让我学会了什么？

一句话看懂：一位非程序员作者通过从零构建一个本地运行的 AI Agent，亲身验证了多轮对话、工具调用（Tool Use）和技能（Skills / MCP）这三个核心概念如何从理论走向可用，揭示了当前 AI Agent 在经验积累和成本控制上的真实瓶颈。

事件核心：发生了什么

本文作者 Mirtle 在周五下班后决定自己“造一个 AI Agent”，不使用任何现成框架，纯靠阅读文档和编写代码（由 Codex 辅助）完成。他用两天时间搭建了一个基于 Raycast 插件的轻量 Agent，实现了三个目标：正常聊天、创建待办和笔记、获取少数派的日报摘要。在这个过程中，他先后遇到了 AI 的“失忆症”（无多轮记忆）、无法获取实时信息、以及缺乏完成任务的最佳流程——分别通过叠加对话上下文、接入 Tool Use（函数调用）和设计 Skills（技能文件）来解决。作者发现，即使是最先进的模型（如 GPT 5.5 Pro），在面对一个简单的“获取最新文章”任务时，也可能因缺乏结构化指引而耗费 3 分钟和 2 美元的成本，而加入预制的 Skills 后，同一任务可在 10 秒内完成。

为什么重要

这篇文章的重要性不在于技术本身，而在于它用一个可复现的“干中学”案例，撕开了当前 AI Agent 行业的两层迷雾。第一层：用户往往高估模型的“智能”，低估“经验成本”。顶级模型在没有明确引导时，会反复试错——这既是聪明也是低效，对个人开发者和小团队而言，token 消耗和延迟可能是致命的。第二层：MCP（模型上下文协议）和 Skills 的作用不仅仅是“标准化”，它们本质上是把人类的经验（菜谱）以文件形式注入到模型的工作流中，从而大幅降低执行偏差。这意味着，未来 Agent 的竞争力，将越来越依赖“经验的工程化”而非单一模型能力。

对用户/开发者/创作者的影响

对非技术用户：即使你不懂代码，AI Agent 的“好用程度”也取决于背后是否有精心编写的技能文件。未来你可能不需要自己写提示词，而是直接下载别人整理好的“技能包”（如抓取 RSS、整理笔记、分析数据），就像安装一个浏览器插件。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对开发者：这篇文章提供了一个清晰的“最小可行 Agent”搭建路径：先解决多轮记忆（Context 拼接），再接入 Tool Use（函数/API），最后用 Skills 固化最佳实践。值得注意的是，作者强调“不要偷懒给一句‘我要 AI Agent’”，意味着从零开始能帮助开发者真正理解 token 成本、工具调用时机和提示词工程的分寸感。

对内容创作者与产品经理：文中揭示了“AI 更像一个实习生”的现实——它需要明确的执行步骤，否则就会漫无目的地消耗时间和费用。这意味着，在构建 AI 产品时，将“业务逻辑拆解为原子步骤”的能力，可能会比模型调参更重要。

值得关注的后续

Skills 标准化能否获得更多平台支持？目前 Anthropic 主导的 Skills 与 OpenAI 的 MCP 协议并存，作者实验的 read_skill 机制是自建方案，但若出现统一标准，将极大降低生态碎片化。
Agent 的“经验成本”如何被量化？文中提到一次简单的“获取文章”任务因无指导而消耗 2 美元，目前公开信息显示，各厂商尚未提供针对此类“失败尝试”的退款或补偿机制，这可能是用户和开发者面临的实际风险。
“复读式记忆”方案是否可持续？作者用拼接前文的方式解决多轮记忆，但指出“再之前怎么处理现在还没有好办法”。随着上下文窗口的扩展（如 1M token 模型投入商用），传统的拼接策略可能被原生长上下文记忆替代。

来源：sspai

AI Agent 干中学，「造轮子」让我学会了什么？