Arena，每个人都使用的人工智能排行榜，现在是一个价值 1 亿美元的业务

一句话看懂：源自UC Berkeley研究项目、以众包模型评测闻名的Arena，在推出商业服务仅8个月后，年化营收突破1亿美元。这一数字显示，AI模型开发者在后训练优化上的付费意愿正在急速膨胀，但Arena的营收模式并非传统订阅，而是按消耗量计费。

事件核心：发生了什么

据TechCrunch报道，AI排行榜提供商Arena的年度化营收（ARR）已达1亿美元。该公司最知名的产品是众包AI模型性能排行榜，该榜单向公众免费开放，汇集了超过1000万次用户评测——用户输入提示词，系统将同一提示发送给两个模型，由用户判断哪个回答更好。2025年9月，Arena推出商业化服务“AI Evaluations”，向模型实验室和企业提供深度性能分析，营收由此爆发。值得注意的是，Arena联合创始人兼CEO Anastasios Angelopoulos指出，公司营收并非“经常性订阅收入”（ARR的传统含义），而是按“消耗量”计费。Arena于2025年4月正式公司化运营，至今共融资2.5亿美元，投资者包括Felicis、Andreessen Horowitz、Kleiner Perkins等知名机构。

为什么重要

Arena的快速增长揭示了AI行业的一个关键趋势：随着基础模型能力趋同，后训练优化（post-training）已成为模型厂商争夺性能优势的核心战场。Arena与Scale AI、Mercor等数据标注公司争夺同一块市场——帮助模型厂商在训练后阶段精细调优。1亿美元的年化营收，证明了这种众包+评估的商业化路径已跑通。与此同时，Handshake的AI训练业务年化营收也从1月的5.5亿美元逼近10亿，Mercor也在今年早些时候突破10亿——整个后训练服务赛道正在快速膨胀。Arena本身没有直接竞争对手——另一家众包模型评测初创公司Yupp已在3月关闭——但它的出现正在重塑“谁来做模型评估”这门生意的形态。

对用户/开发者/创作者的影响

对于普通用户，Arena的免费排行榜依然是判断模型综合能力的便捷参考，且评测覆盖文本、代码、视觉、图像生成及长流程任务（通过新推出的Agent Mode）。AI开发者和模型发布方需要意识到：Arena提供的评测数据不仅影响模型口碑，还直接关联到商业化定价。模型厂商为了在排行榜上获得更高排名，可能会更主动地投入后训练优化资源，同时也可能通过付费评测来获取更细致的性能短板分析。对数据标注和模型评测领域的从业者而言，Arena的商业化成功意味着“众包+自动化评估”正在成为AI训练链条上不可或缺的一环。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，Arena按“消耗量”而非订阅收费，这种模式能否维持高速增长？当客户评测需求波动时，营收可预测性可能变差。第二，以Scale AI为代表的数据标注公司体量更大（期年化营收已超10亿），它们是否会推出类似的产品化评测服务，直接挤压Arena的差异化空间？第三，Arena目前依赖社区贡献的1000万次评测数据，随着付费客户增加，这些数据的质量和公正性如何长期维持（尤其是面对付费客户想要好成绩的潜在利益冲突）？目前公开信息尚未披露相关治理机制。

来源：TechCrunch AI

Arena，每个人都使用的人工智能排行榜，现在是一个价值 1 亿美元的业务

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

设计上与跑步者无关。 Codex 和 Claude Code 是一流的，还有用于测试的离线运行器。每个生成的工具调用都会被记录，因此“利用胜利”可能要求代理实际使用该工具 – 而不仅仅是……

@boersenbelfort 转向 AI 承诺购买 10 万辆 H200 出售新闻

@Princenightwolf 对不起😅你ai🚫

发表回复取消回复