
7B打败o3、GPT-5!医学AI智能体让模型学会“看哪里、怎么看”
一句话看懂:上海创智学院团队发布两篇ICML 2026论文,提出“Think with Images/Videos”医学AI新范式:模型不再被动看图,而是在推理中主动调用分割、放大、截帧等工具,去重新“观察”关键病灶或手术时刻。其中Ophiuchus-7B模型在8个医学VQA基准上平均分68.0,超过了OpenAI o3(62.2)、Gemini 2.5 Pro(61.8)和GPT-5(59.9),表明模型大小并非唯一瓶颈,推理机制才是关键。
事件核心:发生了什么
2026年5月,上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学,公开了两篇被ICML 2026接收的论文,分别针对医学图像(Ophiuchus)和临床长视频(MedScope)。传统医学多模态大模型把图像/视频一次性编码成特征后让模型生成答案,但在微小病灶、边界变化、短时手术动作上容易“看错区域、漏看病灶”。Ophiuchus让模型在推理链中自主决定何时调用SAM2做分割、BiomedParse定位结构、Zoom-in放大区域,并将工具返回的观察结果作为新证据输入后续推理,工具调用准确率达97.9%。MedScope则面向长达数分钟的手术或内镜视频,让模型先建立全局理解,再在可疑时间窗内用crop_video截取片段、get_frame获取关键帧,以“回看关键时刻”的方式修正判断。团队为此构建了含635K时间戳caption的ClinVideoSuite训练数据集,并采用三阶段训练(warm-up、visual-CoT cold-start SFT、GA-GRPO强化学习),使模型在SVU-31K、ClinVideo-Eval等评测中取得开源模型SOTA。
为什么重要
这项工作的核心价值不在于“模型更大或榜单更高”,而在于它重新定义了医学AI的推理边界。过去,模型给出的解释再长,也无法证明它真的“看到”了关键证据——一个大模型可能正确回答病灶类别,但实际依据的是上下文统计偏见,而非病灶本身。Ophiuchus和MedScope把视觉证据从“一次性输入”变为“推理过程中的动态查证对象”,建立了“假设-查证-修正-回答”的闭环。这种范式让模型具备了三种临床必需的能力:更少幻觉(因为结论必须被工具返回的证据支持)、更强可解释性(可以回放模型“看了哪里、使用了哪些工具”)、更适合复杂流程(能像医生一样边看边想)。或许更重要的是,它把医学AI从“会写解释”推进到了“能用视觉证据思考”的阶段,使临床可信AI有了可训练、可评测、可扩展的技术路线。
对用户/开发者/创作者的影响
对于医学成像设备厂商和医院信息化部门,这意味着AI辅助诊断系统可能不再只是“给出一个数字或标签”,而是能够像住院医一样逐步展示它的观察过程,有助于临床复核和质控。对于AI开发者和研究者,Ophiuchus和MedScope的开源GitHub仓库提供了完整的tool-augmented推理框架,开发者可以将SAM2、BiomedParse等开源工具无缝接入自己的大模型推理链,而不必等待闭源API更新。对于AI产品经理和采购决策者,需要明确:这种“tool-augmented visual reasoning”范式对算力有一定要求——每个证据查询步骤都可能触发一次模型推理调用,但7B参数量即可超越o3、GPT-5这一点,表明它可能比堆砌更大参数更经济。目前公开信息显示,两套模型均以开源形式发布,GitHub地址已在论文中提供。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. 产品落地节奏:两家研究团队是否会与医院或第三方影像平台合作,将这套框架部署到真实临床工作流中?目前是纯研究阶段。2. 端侧与实时性:MedScope的视频“回看”机制涉及截帧和局部重分析,在手术室或内镜室等场景能否做到毫秒级响应,还需实测数据。3. 竞品跟进:Google DeepMind、微软、百济神州等已有医学多模态大模型布局的机构,是否会引入类似“think with visuals”的推理机制,或推出对标框架?这将直接影响医学AI下一阶段的竞争焦点。
来源:量子位 · 每日最新


