微软发布 ASSERT 开源框架:让开发者更高效地评测 AI 智能体和应用行为

微软发布 ASSERT 开源框架:让开发者更高效地评测 AI 智能体和应用行为

微软发布 ASSERT 开源框架:让开发者更高效地评测 AI 智能体和应用行为

一句话看懂:2026年6月3日,微软发布 ASSERT 开源框架,将自然语言书写的 AI 行为规范直接转换为可执行的评估流程,覆盖测试生成、运行与评分,旨在系统性提升 AI 智能体和应用的评测效率与可靠性。

事件核心:发生了什么

微软今日正式推出 ASSERT(自适应规范驱动评分)开源框架,定位为将行为规范从“背景参考”升级为“评估核心输入”的工具。该框架基于产品需求、政策文件或系统提示等文本,自动经历四个阶段:将行为描述转化为可编辑的许可与不许可分类体系;按任务类型、角色等维度生成分层测试用例(含单轮、多轮、善意与对抗性场景);运行测试并记录完整轨迹(含工具调用、中间决策);最后对照分类输出通过/失败标签、理由及策略引用。

为验证效果,微软团队进行了两项研究。第一项覆盖率研究显示,ASSERT 在多项行为(如社会评分、拍马屁、任务遵循、工具使用规范、不安全健康建议)上生成的测试集比传统方法覆盖更广,暴露出更多失败模式且区分强弱系统能力更强。第二项人工评审对比发现,LLM 判定器与人工审核一致率达80%–90%,接近人工标注者间约90%的一致性。但微软也强调,LLM 判定器在策略细微差别或高度专业领域仍需谨慎,ASSERT 不能替代人工判断或领域专家评审。该项目已在 GitHub 开源,并提供 travel-planning agent 实例。

为什么重要

此前 AI 智能体和应用的评估高度依赖人工编写测试用例或对结果做“模糊判断”,这导致了评估成本高、可重复性差、覆盖不全面等问题。ASSERT 试图将评估流程从“手工作坊”推向“半自动产线”:它允许开发者用自然语言直接描述预期行为(如“不要在健康建议中给出不安全推荐”),框架再把这些描述转化为可量化的测试和评分。这种“规范即评估”的思路,有望使 AI 系统的质量保障更加系统化、可迭代,尤其对于遵循复杂政策或合规要求的企业级应用,意义更为直接。同时,开源发布也意味着微软希望通过社区协作加速该方向的标准化进程,并可能巩固其在 AI 安全评测领域的生态影响力。

对用户/开发者/创作者的影响

对于开发 AI 智能体的团队:ASSERT 提供了一条低成本、可复用的评测参考路径,尤其适用于行为定义明确的场景(如客服机器人的工具使用规范)。开发者不需要从零编写大量测试,只需写出行为规范的“大白话”即可启动评估。但需注意的是,微软明确提醒不应将汇总评分视为最终结论,更多价值在于收集失败案例和操作轨迹以改进系统。对于企业采购方:这一框架可作为评估供应商 AI 行为一致性的辅助工具;不过其有效性高度依赖行为规范的精确程度,以及输出是否经过了领域专家的补充审查。对于普通用户,短期影响有限,但随着相关工具普及,AI 应用产生危险或不恰当行为的概率有望被持续压低。

值得关注的后续

第一,生态落地速度:当前 ASSERT 尚处于框架公布阶段,能否被主流 AI 智能体平台(如微软自身的 Copilot 生态或第三方工具链)广泛采用,是检验其实际价值的关键。第二,竞品反应:Google、Anthropic、OpenAI 等已有各自的评测方法论,ASSERT 可能引发新一轮“评估标准化”竞争,尤其在合规测评工具方面。第三,社区贡献质量:ASSERT 作为开源项目,其社区能否帮助完善对高度专业领域或模糊策略的处理(目前人工审核仍不可或缺),将直接影响其从“亮点尝试”升级为“行业标配”的可能性。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 5212

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注