
一句话看懂:OpenRouter 的 Dev Rel Lead Jacky Liang 将 11 个主流大模型放入一个 2D 大逃杀游戏中进行 30 轮实战对抗,结果显示 xAI 的 Grok 4.1 Fast 凭借 43% 的胜率和极低的成本胜出,而 Anthropic 的 Claude Sonnet 4.6 虽然善解人意,但在竞争性环境中表现远逊。这一实验揭示,传统排行榜上的基准分数并不能预测模型在真实应用场景中的表现。
事件核心:发生了什么
Jacky Liang 在入职 OpenRouter 的第一周,设计了一个基于 Canvas 2D 的 400 平方米俯视大逃杀游戏。他将 11 个模型放入同一地图,每局随机出生点,并提供武器、护甲、载具和逐渐缩小的安全区。模型通过工具调用进行移动、攻击和记录反思,互不知对方真实身份。30 局比赛结束后:Grok 4.1 Fast 以 13 胜(43%)夺冠,平均每胜仅花费 0.97 美元;Claude Sonnet 4.6 获得 5 胜排名第二,但每胜成本高达 26.78 美元,是 Grok 的 27 倍。GPT 5.4 击杀数最高但仅赢 2 局,排名第二;GPT 5.4-mini、DeepSeek V4 Flash、Kimi K2.6 三款模型合计消耗 57 美元但零胜场。实验总花费约 482 美元,未包含 Opus 4.7 等旗舰模型。
为什么重要
这场实验的启示超出了娱乐性。传统 AI 基准测试(如 MMLU、HumanEval)通常测试模型的静态知识或推理能力,但无法反映模型在动态、多智能体环境中做决策的能力。Grok 4.1 Fast 在中端价位上击败了多个排名更高的模型,说明当前主流测评体系存在盲区:忽略了成本效率、实时策略与对抗适应性。对于 OpenRouter 这类模型聚合平台而言,这一结果意味着他们推荐模型的标准可能需要从“跑分最高”转向“任务适配最优”。同时,Claude Sonnet 4.6 在游戏中表现出的友好与合作倾向,虽然让其在大逃杀中惨败,但恰恰是客服、教育、协作等场景所需要的特质。这表明,模型的性格与任务场景深度绑定,一个模型不可能在所有领域都是最佳。
对用户/开发者/创作者的影响
对于 AI 应用开发者:选模型不能只看排行榜,必须结合具体用例做小规模对抗测试。如果你开发的是竞争性场景(如游戏 AI、自动竞价系统),Grok 4.1 Fast 的性价比远优于 Claude Sonnet 4.6;但如果你构建的是社交机器人或客服系统,Claude 的社交智能可能更有价值。对于企业采购决策者:建议建立自己的评估流程,包括真实业务场景模拟和成本模拟测试,而不是依赖供应商提供的跑分。对于内容创作者:这一案例展示了如何通过创意实验(如游戏化测试)发现技术层面的非预期差异,可以借鉴到自己的内容评测中。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,xAI 是否会围绕 Grok 4.1 Fast 的低成本高胜率推出 API 推广计划?这可能会进一步拉低中端模型的价格。第二,Anthropic 会不会针对竞争性场景优化 Sonnet 系列?或者说他们会选择保持“友善”作为独特卖点。第三,OpenRouter 可能基于此实验推出“场景化模型推荐”功能,让开发者可以根据任务类型(合作 vs 竞争)快速筛选模型。
![[Bug]: MCP dataset discovery fails](https://www.chat-gpts.plus/wp-content/uploads/2026/06/16146-d9a4dcc9-768x403.jpg)

