
一句话看懂:Box公司CEO亚伦·莱维在2026年6月23日公开表示,AI模型和智能体的几乎所有进步都依赖于评估(Evals)系统的质量。这一观点得到行业专家呼应,认为缺乏可靠的评估方法是企业AI难以从试点走向大规模部署的核心瓶颈。
事件核心:发生了什么
当地时间6月23日,Box公司首席执行官亚伦·莱维(Aaron Levie)在社交媒体X上连续发帖指出,“几乎所有AI模型和智能体(agent)的进步都来自评估(evals)”。他强调,从开源权重模型(open-weight models)的领域微调,到面向企业部署的智能体系统,其改进均高度依赖严谨的评估框架。莱维总结到,“一切都取决于评估(It’s all evals)”。对此,行业观察者Garrett Lord进一步补充,当前许多公司因无法量化自身AI系统的准确率,导致AI应用难以从试点项目扩展至生产环境。这一讨论发生在Meta推出Facebook搜索“AI模式”及英伟达发布AI基础设施新战略的行业背景下。
为什么重要
莱维的观点直接指向当前AI商业化中的关键瓶颈:评估能力的缺失正在成为模型迭代和企业落地的上限。此前业界关注多集中于算力、数据和算法规模,而莱维明确将“评估”定位为决定模型(特别是开源模型)和智能体能否可靠输出的前置条件。这一论述暗示,未来AI竞争焦点可能从单纯追求参数大小转向构建更科学的评测体系。对于Meta、英伟达等正在推进AI工具与基础设施的公司而言,若缺乏标准化评估机制,其产品在金融、医疗等严肃场景的采用率将受限。
对用户/开发者/创作者的影响
对于企业采购者和开发者,莱维的言论意味着在选择AI服务时,应优先考察供应商是否具备可复现、可量化的评估指标,而非仅关注模型名称或演示效果。对于正探索Agent部署的团队,评估框架将直接影响自动化流程的稳定性和风险控制。对普通用户而言,评估缺失可能表现为聊天机器人生成结果不可预测,或企业级AI工具频繁出错,从而降低工作效率。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
首先,Box等企业级软件公司是否会率先推出面向AI Agent的标准化评估工具,值得观察。其次,开源社区能否在评估基准(如MLCommons相关项目)上形成更统一的行业标准,将影响企业是否愿意大规模采用开源模型。最后,如果评估问题持续未解决,当前AI产品审批和监管的节奏可能进一步收紧。


