Science | 大型语言模型在医生临床推理任务中的表现评估

Science | 大型语言模型在医生临床推理任务中的表现评估

Science | 大型语言模型在医生临床推理任务中的表现评估

一句话看懂:一项发表在《Science》上的系统性研究显示,OpenAI的o1系列模型在多项临床推理任务(包括差异诊断、检查方案制定、概率推理)中全面超越医生基线,并在真实急诊场景的盲法比较中,在信息最少的急诊分诊阶段表现优于资深内科医生。研究指出,传统医学AI评估基准可能已被首次超越,医疗系统需要转向真实临床部署研究。

事件核心:发生了什么

该研究由科研团队开展,系统评估了OpenAI o1-preview模型在六类临床推理任务中的表现,并与数百名医生及前代模型(如GPT-4)进行直接比较。关键发现包括:1)在70个《新英格兰医学杂志》临床病理病例(NEJM CPCs)中,o1将正确诊断纳入差异诊断列表的比例为78.3%,第一诊断即正确的比例为52%,准确率从GPT-4的72.9%提升至88.6%;2)在NEJM Healer病例中,模型在80个病例中有78个获得临床推理表达满分,优于住院医生和主治医生;3)在真实急诊科盲法实验中,从76个病例中,o1在初始分诊阶段以67.1%的正确/接近正确诊断率,高于两名医生(55.3%和50.0%),且医生无法分辨诊断是否来自AI。研究强调,模型在训练截止日期前后病例上表现无显著差异,说明其具备泛化推理能力,而非简单记忆。

为什么重要

这项研究的关键意义在于,它系统性地证明了大型语言模型(LLM)在医学推理任务中已经跨越了“医生基线”阈值。与过去40多年间基于贝叶斯推断、符号规则等传统AI临床决策支持系统不同,LLM不仅在结构化的诊断任务中胜出,还在病历信息不完善、决策时间紧迫的急诊场景中表现更为突出。这直接挑战了此前医学AI研究中“模型仅在单一、整理过的标准化病例中表现良好”的认知。研究结论暗示,传统以NEJM CPC病例为核心的“黄金标准”评估体系可能已接近饱和,医学AI的评估范式需要从“模型能力验证”转向“医生-AI协作模式”与真实多模态、动态医疗场景中的前瞻性临床试验。这对于医疗AI的监管路径、产品设计逻辑以及医院采购标准均具有信号意义。

对用户/开发者/创作者的影响

对于医疗AI开发者而言,研究数据直接提供了LLM在文本推理任务(如差异诊断、检查计划建议、概率推断)中的性能基线。o1系列模型在“第二意见”能力上的表现,意味着以API形式嵌入医院电子病历系统(EHR)的“实时临床决策支持”工具具备落地潜力。但需要留意研究局限性:当前评估仅基于文本,未覆盖医学影像、声音、患者体征等非文本信息,且场景集中于内科和急诊,外科等操作密集型领域尚待验证。对于AI应用开发者,这意味着可以通过调用LLM API构建面向医生的辅助诊断、查房辅助或住院病例总结工具,但需要预先与医疗合规部门确认输入数据脱敏、输出结果可解释性以及避免直接替代医生决策。对于关注AI产业链的投资人,这是评估“AI+医疗”能否从论文走向临床付费阶段的重要参考,后续需跟踪是否有医院启动或扩大pilot项目。

值得关注的后续

1. 前瞻性临床试验的启动与结果:研究明确指出“迫切需要”开展前瞻性临床试验。未来6至12个月内,应关注是否有主流医院或AI公司(如OpenAI、Epic、或国内企业)公开对基于LLM的“第二意见系统”进行随机对照试验(RCT)的计划或初步数据。2. 模型从文本到多模态的延展:研究团队承认当前模型在非文本推理上的不足。如果后续o系列模型或竞品(如Claude、Gemini)在医学影像识别中表现匹配,将大幅扩大LLM在医疗中的覆盖范围。3. 监管机构的反应:随着模型临床推理能力超过医生基线,各国(尤其是FDA和NMPA)如何定义“AI辅助诊断”的审批标准可能会调整,例如是否需要将“人机比对”试验数据作为上市前提交材料的一部分。目前公开信息显示,现有监管指南尚未针对此类高性能推理模型做出明确更新。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 923

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注