我受够了LLM技能的敷衍了事，所以用回归测试构建了自己的模型

一句话看懂：一位长期使用LLM的开发者发现，大量开源“AI技能”（如GStack的/office-hours）虽然文档漂亮、输出自信，却经常给出误导性结果。他因此决定借鉴软件工程中的回归测试方法，为AI技能编写测试用例和评分标准，并开源了自己的实践案例plan-cmo-review，试图推动一个“更可信的AI技能生态”。

事件核心：发生了什么

这位开发者在使用GStack等基于LLM的开源技能时，发现一个严重问题：崩溃很容易发现，但“空转”的、错误的、外观完美的输出却无法被快速识别——它们照样浪费用户时间。他深入排查后发现，部分技能（如GStack的/office-hours）在SKILL.md里描述合理，但完全没有附带任何测试。他受此触动，用Claude Opus 4.8的协助，手工构建了plan-cmo-review技能及其配套回归测试，包含评分标准（scoring rubric），并开源在GitHub仓库remakeai/plan-cmo-review上。他还专门写了一篇笔记发表在iliaov.substack.com上，详细记录了从发现问题到建立回归测试的完整过程。

在调试过程中，他揭示了一个深层隐患：LLM模型容易“信任链”出错——开发者信任自己的提示词，提示词信任GStack的设计，GStack的设计又信任用户的输入，但用户做的恰恰是“研究工作”（research），即面对未知的探索——这条信任链在真实不确定性上断裂了。最终，回归测试帮助他发现并修补了这个“信任缺陷”。

为什么重要

当前LLM技能（prompt skill / AI agent）迅速涌现，但质量评估几乎完全依赖开发者直觉和用户反馈。这篇Hacker News帖子提出的观点——AI技能就是软件，应该自带回归测试——直接挑战了行业现状。它的价值在于：

将软件工程中成熟的测试方法论（回归测试、评分标准、集成基准）引入AI技能开发，提升了可信度和可审计性。
指出了开源LLM技能生态的一个结构性缺陷：肉眼检查、人工尝试验证的“信任”方式无法规模化，且容易掩盖深层错误。
为竞品对比提供可能：同一评分标准可用来衡量不同“deep research”类技能的真实表现。

这意味着，如果该做法被更广泛采用，LLM技能的质量门槛将大幅提高，用户对“这个技能真的有用吗？”的回答将更明确。

对用户/开发者/创作者的影响

对普通用户：如果你经常使用开源LLM技能（如办公助理、产业分析、竞品调研工具），现在可以更理性地判断：一个有回归测试的技能比只有README文档的技能更可靠。你也许不会再被“自信的输出”迷惑，而能快速识别低质量技能导致的决策偏差。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对开发者/创作者：如果你正在或打算发布LLM技能，本文的实践案例（包括plan-cmo-review的GitHub仓库）提供了一个可直接参考的回归测试框架。强烈建议你在发布技能时，至少附带一组基本的回归用例和评分规则。这不仅是你自己调试的利器，也是赢得用户信任的重要背书。

对平台方（如GStack）：当前几乎没有开源技能附带测试的背景下，率先在官方技能仓库中集成回归测试（Garry Tan已直接收到请求），将是差异化竞争的关键。随着用户越来越不愿接受“漂亮的敷衍”，测试将成为新的信任基线。

值得关注的后续

该帖子在Hacker News上引发讨论后，GStack或其他主流开源技能仓库是否真的会开始给官方技能附上回归测试？
这个回归测试框架能否跨模型（如GPT-4o、Claude Sonnet、Llama 3等）工作？作者本人也提到了“cross-model judging”的下一步实验计划。
能否沉淀为一个通用工具或插件（如让每个LLM技能在发布时自动生成回归测试）而不再是依赖开发者手动迭代？

来源：news.ycombinator.com

我受够了LLM技能的敷衍了事，所以用回归测试构建了自己的模型