我受够了LLM技能的敷衍了事,所以用回归测试构建了自己的模型

我受够了LLM技能的敷衍了事,所以用回归测试构建了自己的模型

我受够了LLM技能的敷衍了事,所以用回归测试构建了自己的模型

一句话看懂:一位长期使用LLM的开发者发现,大量开源“AI技能”(如GStack的/office-hours)虽然文档漂亮、输出自信,却经常给出误导性结果。他因此决定借鉴软件工程中的回归测试方法,为AI技能编写测试用例和评分标准,并开源了自己的实践案例plan-cmo-review,试图推动一个“更可信的AI技能生态”。

事件核心:发生了什么

这位开发者在使用GStack等基于LLM的开源技能时,发现一个严重问题:崩溃很容易发现,但“空转”的、错误的、外观完美的输出却无法被快速识别——它们照样浪费用户时间。他深入排查后发现,部分技能(如GStack的/office-hours)在SKILL.md里描述合理,但完全没有附带任何测试。他受此触动,用Claude Opus 4.8的协助,手工构建了plan-cmo-review技能及其配套回归测试,包含评分标准(scoring rubric),并开源在GitHub仓库remakeai/plan-cmo-review上。他还专门写了一篇笔记发表在iliaov.substack.com上,详细记录了从发现问题到建立回归测试的完整过程。

在调试过程中,他揭示了一个深层隐患:LLM模型容易“信任链”出错——开发者信任自己的提示词,提示词信任GStack的设计,GStack的设计又信任用户的输入,但用户做的恰恰是“研究工作”(research),即面对未知的探索——这条信任链在真实不确定性上断裂了。最终,回归测试帮助他发现并修补了这个“信任缺陷”。

为什么重要

当前LLM技能(prompt skill / AI agent)迅速涌现,但质量评估几乎完全依赖开发者直觉和用户反馈。这篇Hacker News帖子提出的观点——AI技能就是软件,应该自带回归测试——直接挑战了行业现状。它的价值在于:

  • 将软件工程中成熟的测试方法论(回归测试、评分标准、集成基准)引入AI技能开发,提升了可信度和可审计性。
  • 指出了开源LLM技能生态的一个结构性缺陷:肉眼检查、人工尝试验证的“信任”方式无法规模化,且容易掩盖深层错误。
  • 为竞品对比提供可能:同一评分标准可用来衡量不同“deep research”类技能的真实表现。

这意味着,如果该做法被更广泛采用,LLM技能的质量门槛将大幅提高,用户对“这个技能真的有用吗?”的回答将更明确。

对用户/开发者/创作者的影响

对普通用户:如果你经常使用开源LLM技能(如办公助理、产业分析、竞品调研工具),现在可以更理性地判断:一个有回归测试的技能比只有README文档的技能更可靠。你也许不会再被“自信的输出”迷惑,而能快速识别低质量技能导致的决策偏差。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对开发者/创作者:如果你正在或打算发布LLM技能,本文的实践案例(包括plan-cmo-review的GitHub仓库)提供了一个可直接参考的回归测试框架。强烈建议你在发布技能时,至少附带一组基本的回归用例和评分规则。这不仅是你自己调试的利器,也是赢得用户信任的重要背书。

对平台方(如GStack):当前几乎没有开源技能附带测试的背景下,率先在官方技能仓库中集成回归测试(Garry Tan已直接收到请求),将是差异化竞争的关键。随着用户越来越不愿接受“漂亮的敷衍”,测试将成为新的信任基线。

值得关注的后续

  • 该帖子在Hacker News上引发讨论后,GStack或其他主流开源技能仓库是否真的会开始给官方技能附上回归测试?
  • 这个回归测试框架能否跨模型(如GPT-4o、Claude Sonnet、Llama 3等)工作?作者本人也提到了“cross-model judging”的下一步实验计划。
  • 能否沉淀为一个通用工具或插件(如让每个LLM技能在发布时自动生成回归测试)而不再是依赖开发者手动迭代?

来源:news.ycombinator.com

celebrityanime
celebrityanime
文章: 5663

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注