Box首席执行官亚伦·莱维表示，谈及人工智能的进展时，“一切都取决于评估”

一句话看懂：Box公司CEO亚伦·莱维在2026年6月23日公开表示，AI模型和智能体的几乎所有进步都依赖于评估（Evals）系统的质量。这一观点得到行业专家呼应，认为缺乏可靠的评估方法是企业AI难以从试点走向大规模部署的核心瓶颈。

事件核心：发生了什么

当地时间6月23日，Box公司首席执行官亚伦·莱维（Aaron Levie）在社交媒体X上连续发帖指出，“几乎所有AI模型和智能体（agent）的进步都来自评估（evals）”。他强调，从开源权重模型（open-weight models）的领域微调，到面向企业部署的智能体系统，其改进均高度依赖严谨的评估框架。莱维总结到，“一切都取决于评估（It’s all evals）”。对此，行业观察者Garrett Lord进一步补充，当前许多公司因无法量化自身AI系统的准确率，导致AI应用难以从试点项目扩展至生产环境。这一讨论发生在Meta推出Facebook搜索“AI模式”及英伟达发布AI基础设施新战略的行业背景下。

为什么重要

莱维的观点直接指向当前AI商业化中的关键瓶颈：评估能力的缺失正在成为模型迭代和企业落地的上限。此前业界关注多集中于算力、数据和算法规模，而莱维明确将“评估”定位为决定模型（特别是开源模型）和智能体能否可靠输出的前置条件。这一论述暗示，未来AI竞争焦点可能从单纯追求参数大小转向构建更科学的评测体系。对于Meta、英伟达等正在推进AI工具与基础设施的公司而言，若缺乏标准化评估机制，其产品在金融、医疗等严肃场景的采用率将受限。

对用户/开发者/创作者的影响

对于企业采购者和开发者，莱维的言论意味着在选择AI服务时，应优先考察供应商是否具备可复现、可量化的评估指标，而非仅关注模型名称或演示效果。对于正探索Agent部署的团队，评估框架将直接影响自动化流程的稳定性和风险控制。对普通用户而言，评估缺失可能表现为聊天机器人生成结果不可预测，或企业级AI工具频繁出错，从而降低工作效率。