7B打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”

一句话看懂：上海创智学院团队发布两篇ICML 2026论文，提出“Think with Images/Videos”医学AI新范式：模型不再被动看图，而是在推理中主动调用分割、放大、截帧等工具，去重新“观察”关键病灶或手术时刻。其中Ophiuchus-7B模型在8个医学VQA基准上平均分68.0，超过了OpenAI o3（62.2）、Gemini 2.5 Pro（61.8）和GPT-5（59.9），表明模型大小并非唯一瓶颈，推理机制才是关键。

事件核心：发生了什么

2026年5月，上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学，公开了两篇被ICML 2026接收的论文，分别针对医学图像（Ophiuchus）和临床长视频（MedScope）。传统医学多模态大模型把图像/视频一次性编码成特征后让模型生成答案，但在微小病灶、边界变化、短时手术动作上容易“看错区域、漏看病灶”。Ophiuchus让模型在推理链中自主决定何时调用SAM2做分割、BiomedParse定位结构、Zoom-in放大区域，并将工具返回的观察结果作为新证据输入后续推理，工具调用准确率达97.9%。MedScope则面向长达数分钟的手术或内镜视频，让模型先建立全局理解，再在可疑时间窗内用crop_video截取片段、get_frame获取关键帧，以“回看关键时刻”的方式修正判断。团队为此构建了含635K时间戳caption的ClinVideoSuite训练数据集，并采用三阶段训练（warm-up、visual-CoT cold-start SFT、GA-GRPO强化学习），使模型在SVU-31K、ClinVideo-Eval等评测中取得开源模型SOTA。

为什么重要

这项工作的核心价值不在于“模型更大或榜单更高”，而在于它重新定义了医学AI的推理边界。过去，模型给出的解释再长，也无法证明它真的“看到”了关键证据——一个大模型可能正确回答病灶类别，但实际依据的是上下文统计偏见，而非病灶本身。Ophiuchus和MedScope把视觉证据从“一次性输入”变为“推理过程中的动态查证对象”，建立了“假设-查证-修正-回答”的闭环。这种范式让模型具备了三种临床必需的能力：更少幻觉（因为结论必须被工具返回的证据支持）、更强可解释性（可以回放模型“看了哪里、使用了哪些工具”）、更适合复杂流程（能像医生一样边看边想）。或许更重要的是，它把医学AI从“会写解释”推进到了“能用视觉证据思考”的阶段，使临床可信AI有了可训练、可评测、可扩展的技术路线。

对用户/开发者/创作者的影响

对于医学成像设备厂商和医院信息化部门，这意味着AI辅助诊断系统可能不再只是“给出一个数字或标签”，而是能够像住院医一样逐步展示它的观察过程，有助于临床复核和质控。对于AI开发者和研究者，Ophiuchus和MedScope的开源GitHub仓库提供了完整的tool-augmented推理框架，开发者可以将SAM2、BiomedParse等开源工具无缝接入自己的大模型推理链，而不必等待闭源API更新。对于AI产品经理和采购决策者，需要明确：这种“tool-augmented visual reasoning”范式对算力有一定要求——每个证据查询步骤都可能触发一次模型推理调用，但7B参数量即可超越o3、GPT-5这一点，表明它可能比堆砌更大参数更经济。目前公开信息显示，两套模型均以开源形式发布，GitHub地址已在论文中提供。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 产品落地节奏：两家研究团队是否会与医院或第三方影像平台合作，将这套框架部署到真实临床工作流中？目前是纯研究阶段。2. 端侧与实时性：MedScope的视频“回看”机制涉及截帧和局部重分析，在手术室或内镜室等场景能否做到毫秒级响应，还需实测数据。3. 竞品跟进：Google DeepMind、微软、百济神州等已有医学多模态大模型布局的机构，是否会引入类似“think with visuals”的推理机制，或推出对标框架？这将直接影响医学AI下一阶段的竞争焦点。

来源：量子位 · 每日最新

7B打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”