一个机器人正朝你飞奔而来。你想让它运行在Claude还是Grok上？

一句话看懂：OpenRouter 的 Dev Rel Lead Jacky Liang 将 11 个主流大模型放入一个 2D 大逃杀游戏中进行 30 轮实战对抗，结果显示 xAI 的 Grok 4.1 Fast 凭借 43% 的胜率和极低的成本胜出，而 Anthropic 的 Claude Sonnet 4.6 虽然善解人意，但在竞争性环境中表现远逊。这一实验揭示，传统排行榜上的基准分数并不能预测模型在真实应用场景中的表现。

事件核心：发生了什么

Jacky Liang 在入职 OpenRouter 的第一周，设计了一个基于 Canvas 2D 的 400 平方米俯视大逃杀游戏。他将 11 个模型放入同一地图，每局随机出生点，并提供武器、护甲、载具和逐渐缩小的安全区。模型通过工具调用进行移动、攻击和记录反思，互不知对方真实身份。30 局比赛结束后：Grok 4.1 Fast 以 13 胜（43%）夺冠，平均每胜仅花费 0.97 美元；Claude Sonnet 4.6 获得 5 胜排名第二，但每胜成本高达 26.78 美元，是 Grok 的 27 倍。GPT 5.4 击杀数最高但仅赢 2 局，排名第二；GPT 5.4-mini、DeepSeek V4 Flash、Kimi K2.6 三款模型合计消耗 57 美元但零胜场。实验总花费约 482 美元，未包含 Opus 4.7 等旗舰模型。

为什么重要

这场实验的启示超出了娱乐性。传统 AI 基准测试（如 MMLU、HumanEval）通常测试模型的静态知识或推理能力，但无法反映模型在动态、多智能体环境中做决策的能力。Grok 4.1 Fast 在中端价位上击败了多个排名更高的模型，说明当前主流测评体系存在盲区：忽略了成本效率、实时策略与对抗适应性。对于 OpenRouter 这类模型聚合平台而言，这一结果意味着他们推荐模型的标准可能需要从“跑分最高”转向“任务适配最优”。同时，Claude Sonnet 4.6 在游戏中表现出的友好与合作倾向，虽然让其在大逃杀中惨败，但恰恰是客服、教育、协作等场景所需要的特质。这表明，模型的性格与任务场景深度绑定，一个模型不可能在所有领域都是最佳。

对用户/开发者/创作者的影响

对于 AI 应用开发者：选模型不能只看排行榜，必须结合具体用例做小规模对抗测试。如果你开发的是竞争性场景（如游戏 AI、自动竞价系统），Grok 4.1 Fast 的性价比远优于 Claude Sonnet 4.6；但如果你构建的是社交机器人或客服系统，Claude 的社交智能可能更有价值。对于企业采购决策者：建议建立自己的评估流程，包括真实业务场景模拟和成本模拟测试，而不是依赖供应商提供的跑分。对于内容创作者：这一案例展示了如何通过创意实验（如游戏化测试）发现技术层面的非预期差异，可以借鉴到自己的内容评测中。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，xAI 是否会围绕 Grok 4.1 Fast 的低成本高胜率推出 API 推广计划？这可能会进一步拉低中端模型的价格。第二，Anthropic 会不会针对竞争性场景优化 Sonnet 系列？或者说他们会选择保持“友善”作为独特卖点。第三，OpenRouter 可能基于此实验推出“场景化模型推荐”功能，让开发者可以根据任务类型（合作 vs 竞争）快速筛选模型。

来源：openrouter.ai

一个机器人正朝你飞奔而来。你想让它运行在Claude还是Grok上？

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

[Bug]: MCP dataset discovery fails

RuntimeError: Error(s) in loading state_dict for Resampler:

（真正的）死经济理论

发表回复取消回复