上海交大等团队推出 SWE-Explore 基准测试，揭示 AI 编码智能体行级定位缺陷

一句话看懂：包括上海交通大学在内的国际研究团队发布了 SWE-Explore 基准测试，首次定量证明当前主流 AI 编码智能体在代码行级缺陷定位上存在严重短板。该测试剔除了传统基准仅看“最终修复率”的单一评价方式，转而聚焦模型在代码搜索与理解阶段的真实表现。

事件核心：发生了什么

研究团队基于 GPT-5.4、Gemini 3 Pro、Claude Sonnet 4.6、Kimi K2.6 等主流大模型的成功运行轨迹，提取出多方案共识代码段，构建了一个包含 848 个缺陷任务、覆盖 10 种编程语言和 203 个开源项目的测试集。在与传统基准 SWE-bench 的对比测试中发现，Claude Code、OpenHands 等通用编码智能体在“文件级”定位上表现尚可，但当要求定位到具体“代码行”时，核心区域覆盖率骤降至 14% 至 19%。消融实验还揭示了一个“最小上下文阈值”效应：当模型可见的核心代码区域比例低于 50% 时，修复基本失败；一旦该比例超过 50% 至 75% 的阈值，修复成功率出现急剧跃升。

为什么重要

这项研究将 AI 编码智能体的能力瓶颈从“生成修补代码”重新定位于“精准捕捉关键上下文”。过去以 SWE-bench 为代表的端到端评测容易掩盖这一问题，导致开发者误以为模型修复能力已趋成熟。SWE-Explore 的发布为行业提供了一个可重复、可测量的新度量标准，直接指向了当前 AI 辅助软件工程的真正痛点——模型在海量代码中无法高效过滤出与缺陷直接相关的行级信息。这推动行业从“暴力生成式”修复向“精准检索式”方向演进，对专用代码定位系统（如 CoSIL）的架构优化具有明确的指导意义。

对用户/开发者/创作者的影响

对开发者：如果你正在使用 AI 编码助手进行调试或代码审查，应意识到当前模型在“找到具体问题行”上的能力远不如“给出一个看似合理的补丁”。依赖 AI 自动修复的中高风险项目，仍需要人工复核模型定位到的代码区域。对企业采购决策者：目前公开信息显示，超过半数的自动化采纳提案仍被项目经理拒绝，原因之一正是模型定位精度不足。后续在选择编码智能体产品时，需更关注其行级定位的评测数据，而非仅看整体修复率。对 AI 研发团队：“少过滤、多阅读”的技术方向意味着需要在模型架构中强化对局部上下文的理解机制，而非单纯扩大上下文窗口或提升补丁生成能力。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，SWE-Explore 是否会成为行业标配评测工具，替代或补充 SWE-bench 在编码智能体评估中的地位；第二，Claude Code、OpenHands 等产品是否会基于该评测结果调整其代码搜索策略或更新模型；第三，专为行级定位优化的系统（如 CoSIL）是否会加速落地，并影响开源社区中代码修复工具的生态布局。

来源：AIbase

上海交大等团队推出 SWE-Explore 基准测试，揭示 AI 编码智能体行级定位缺陷

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

施耐德电气与富士康合作开发人工智能数据中心基础设施

Gemini帮记者卖房，5天成交、多赚60万，还差点踩雷

Show HN: Applora – 从 Shopify 应用评论中提取产品反馈

发表回复取消回复