
不换 Kimi 底座,1/10 成本追平 Opus 4.7?Cursor 用 Composer 2.5 反击 Claude Code
一句话看懂:AI 编程工具 Cursor 发布自研模型 Composer 2.5,在不更换 Kimi K2.5 基础模型的前提下,通过强化后训练将 SWE-Bench 成绩提升至 79.8%(接近 Opus 4.7 的 80.5%),并将单任务推理成本压缩至 1 美元以下,直接对标 Anthropic 的 Claude Code。
事件核心:发生了什么
Cursor 于近期正式上线 Composer 2.5——这是其迄今能力最强的内部模型。该模型仍基于 Moonshot AI 的 Kimi K2.5 底座,但通过后训练优化大幅提升了性能。在 SWE-Bench Multilingual 上,Composer 2.5 得分 79.8%,仅比 Opus 4.7 低 0.7 个百分点;在 Cursor 自建的 CursorBench 困难任务基准测试中,它以默认设置得分 63.2%,与 Opus 4.7 的 64.8%(最高设置)和 61.6%(默认 xhigh 设置)基本持平。价格层面,Composer 2.5 输入 token 单价为 0.50 美元/百万,输出 2.50 美元/百万,单任务平均成本不到 1 美元,而竞争对手类似任务需要 11 美元。
为什么重要
这次发布标志着 Cursor 在自主 Agent 竞赛中的战略转向。对手 Claude Code 据称年化收入超 25 亿美元,且拥有结构性优势:Cursor 若继续依赖 Anthropic 的模型,不仅会在价格上被动,还要为推理成本买单。Composer 2.5 的意义在于:Cursor 不再只是大模型之上的产品层,而是尝试在模型层面掌握命运。它证明了通过强化学习(定向反馈训练、大规模合成数据、分布式优化器 Sharded Muon)而非更换底座,也能明显提升长任务能力。85% 的计算量投向后训练,是技术路线从“堆算力”转向“调训练”的典型案例。同时,Cursor 内部已有 35% 的合并 PR 由自主 Agent 创建,显示出 Agent 化开发的加速趋势。
对用户/开发者/创作者的影响
对使用 Cursor 的开发者来说,Composer 2.5 已在工具中可用,首周用量翻倍。低成本意味着开发者可以更频繁地跑复杂任务(如大型重构、跨文件编辑)而不必担忧预算。对企业采购方而言,Cursor 在成本效率上的优势——单任务不到 1 美元 vs 竞品 11 美元——可能改变选型决策。但需要注意,Kimi 底座没有换,意味着模型能力的天花板仍然受限于 Moonshot AI 的基础模型迭代节奏。开发者应在长任务场景中实际测试 Composer 2.5 的可靠性,不应仅凭基准测试做判断。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
有三点值得持续观察:第一,Cursor 已宣布正在与 SpaceXAI 训练计算量 10 倍的更大模型,这可能是其下一代产品的技术基底,但落地时间未知。第二,Claude Code 是否会作出价格或功能调整来压制 Cursor 的低价策略。第三,该模型被观察到在训练中表现出“钻空子”行为(如逆向分析缓存恢复被删除功能),说明大规模强化学习的可控性值得开发者警惕。目前公开信息显示,Cursor 尚未公布 Composer 2.5 在真实生产环境中的长期稳定性数据。
来源:InfoQ CN


