Science | 大型语言模型在医生临床推理任务中的表现评估

一句话看懂：一项发表在《Science》上的系统性研究显示，OpenAI的o1系列模型在多项临床推理任务（包括差异诊断、检查方案制定、概率推理）中全面超越医生基线，并在真实急诊场景的盲法比较中，在信息最少的急诊分诊阶段表现优于资深内科医生。研究指出，传统医学AI评估基准可能已被首次超越，医疗系统需要转向真实临床部署研究。

事件核心：发生了什么

该研究由科研团队开展，系统评估了OpenAI o1-preview模型在六类临床推理任务中的表现，并与数百名医生及前代模型（如GPT-4）进行直接比较。关键发现包括：1）在70个《新英格兰医学杂志》临床病理病例（NEJM CPCs）中，o1将正确诊断纳入差异诊断列表的比例为78.3%，第一诊断即正确的比例为52%，准确率从GPT-4的72.9%提升至88.6%；2）在NEJM Healer病例中，模型在80个病例中有78个获得临床推理表达满分，优于住院医生和主治医生；3）在真实急诊科盲法实验中，从76个病例中，o1在初始分诊阶段以67.1%的正确/接近正确诊断率，高于两名医生（55.3%和50.0%），且医生无法分辨诊断是否来自AI。研究强调，模型在训练截止日期前后病例上表现无显著差异，说明其具备泛化推理能力，而非简单记忆。

为什么重要

这项研究的关键意义在于，它系统性地证明了大型语言模型（LLM）在医学推理任务中已经跨越了“医生基线”阈值。与过去40多年间基于贝叶斯推断、符号规则等传统AI临床决策支持系统不同，LLM不仅在结构化的诊断任务中胜出，还在病历信息不完善、决策时间紧迫的急诊场景中表现更为突出。这直接挑战了此前医学AI研究中“模型仅在单一、整理过的标准化病例中表现良好”的认知。研究结论暗示，传统以NEJM CPC病例为核心的“黄金标准”评估体系可能已接近饱和，医学AI的评估范式需要从“模型能力验证”转向“医生-AI协作模式”与真实多模态、动态医疗场景中的前瞻性临床试验。这对于医疗AI的监管路径、产品设计逻辑以及医院采购标准均具有信号意义。

对用户/开发者/创作者的影响

对于医疗AI开发者而言，研究数据直接提供了LLM在文本推理任务（如差异诊断、检查计划建议、概率推断）中的性能基线。o1系列模型在“第二意见”能力上的表现，意味着以API形式嵌入医院电子病历系统（EHR）的“实时临床决策支持”工具具备落地潜力。但需要留意研究局限性：当前评估仅基于文本，未覆盖医学影像、声音、患者体征等非文本信息，且场景集中于内科和急诊，外科等操作密集型领域尚待验证。对于AI应用开发者，这意味着可以通过调用LLM API构建面向医生的辅助诊断、查房辅助或住院病例总结工具，但需要预先与医疗合规部门确认输入数据脱敏、输出结果可解释性以及避免直接替代医生决策。对于关注AI产业链的投资人，这是评估“AI+医疗”能否从论文走向临床付费阶段的重要参考，后续需跟踪是否有医院启动或扩大pilot项目。

值得关注的后续

1. 前瞻性临床试验的启动与结果：研究明确指出“迫切需要”开展前瞻性临床试验。未来6至12个月内，应关注是否有主流医院或AI公司（如OpenAI、Epic、或国内企业）公开对基于LLM的“第二意见系统”进行随机对照试验（RCT）的计划或初步数据。2. 模型从文本到多模态的延展：研究团队承认当前模型在非文本推理上的不足。如果后续o系列模型或竞品（如Claude、Gemini）在医学影像识别中表现匹配，将大幅扩大LLM在医疗中的覆盖范围。3. 监管机构的反应：随着模型临床推理能力超过医生基线，各国（尤其是FDA和NMPA）如何定义“AI辅助诊断”的审批标准可能会调整，例如是否需要将“人机比对”试验数据作为上市前提交材料的一部分。目前公开信息显示，现有监管指南尚未针对此类高性能推理模型做出明确更新。

来源：Readhub · AI

Science | 大型语言模型在医生临床推理任务中的表现评估