
一句话看懂:源自UC Berkeley研究项目、以众包模型评测闻名的Arena,在推出商业服务仅8个月后,年化营收突破1亿美元。这一数字显示,AI模型开发者在后训练优化上的付费意愿正在急速膨胀,但Arena的营收模式并非传统订阅,而是按消耗量计费。
事件核心:发生了什么
据TechCrunch报道,AI排行榜提供商Arena的年度化营收(ARR)已达1亿美元。该公司最知名的产品是众包AI模型性能排行榜,该榜单向公众免费开放,汇集了超过1000万次用户评测——用户输入提示词,系统将同一提示发送给两个模型,由用户判断哪个回答更好。2025年9月,Arena推出商业化服务“AI Evaluations”,向模型实验室和企业提供深度性能分析,营收由此爆发。值得注意的是,Arena联合创始人兼CEO Anastasios Angelopoulos指出,公司营收并非“经常性订阅收入”(ARR的传统含义),而是按“消耗量”计费。Arena于2025年4月正式公司化运营,至今共融资2.5亿美元,投资者包括Felicis、Andreessen Horowitz、Kleiner Perkins等知名机构。
为什么重要
Arena的快速增长揭示了AI行业的一个关键趋势:随着基础模型能力趋同,后训练优化(post-training)已成为模型厂商争夺性能优势的核心战场。Arena与Scale AI、Mercor等数据标注公司争夺同一块市场——帮助模型厂商在训练后阶段精细调优。1亿美元的年化营收,证明了这种众包+评估的商业化路径已跑通。与此同时,Handshake的AI训练业务年化营收也从1月的5.5亿美元逼近10亿,Mercor也在今年早些时候突破10亿——整个后训练服务赛道正在快速膨胀。Arena本身没有直接竞争对手——另一家众包模型评测初创公司Yupp已在3月关闭——但它的出现正在重塑“谁来做模型评估”这门生意的形态。
对用户/开发者/创作者的影响
对于普通用户,Arena的免费排行榜依然是判断模型综合能力的便捷参考,且评测覆盖文本、代码、视觉、图像生成及长流程任务(通过新推出的Agent Mode)。AI开发者和模型发布方需要意识到:Arena提供的评测数据不仅影响模型口碑,还直接关联到商业化定价。模型厂商为了在排行榜上获得更高排名,可能会更主动地投入后训练优化资源,同时也可能通过付费评测来获取更细致的性能短板分析。对数据标注和模型评测领域的从业者而言,Arena的商业化成功意味着“众包+自动化评估”正在成为AI训练链条上不可或缺的一环。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,Arena按“消耗量”而非订阅收费,这种模式能否维持高速增长?当客户评测需求波动时,营收可预测性可能变差。第二,以Scale AI为代表的数据标注公司体量更大(期年化营收已超10亿),它们是否会推出类似的产品化评测服务,直接挤压Arena的差异化空间?第三,Arena目前依赖社区贡献的1000万次评测数据,随着付费客户增加,这些数据的质量和公正性如何长期维持(尤其是面对付费客户想要好成绩的潜在利益冲突)?目前公开信息尚未披露相关治理机制。
![[Claude Code] [开源]Janus — 为 AI 编程助手打造的外部认知操作系统](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_5-1026-768x403.jpg)

