安大略省审计人员发现医生的人工智能记录员经常歪曲基本事实

安大略省审计人员发现医生的人工智能记录员经常歪曲基本事实

安大略省审计人员发现医生的人工智能记录员经常歪曲基本事实

一句话看懂:加拿大安大略省审计总署在年度报告中揭露,该省为医生采购的AI笔记记录员(AI Scribe)在审核中普遍出现编造信息、漏记关键病史、搞错药物名称等问题,部分产品高达60%的样本存在药物记录错误。然而,采购评估体系中,准确率仅占4%的权重,远低于“本地化部署”等非技术指标。

事件核心:发生了什么

安大略省审计总署对20家已获批供应商的AI Scribe系统进行模拟医患录音回放对比测试。结果令人担忧:

1. 九成系统编造信息:9家/20家的AI在笔记中“杜撰”了患者有焦虑情绪或未发现肿块等诊断结论,而这些内容从未在录音对话中出现,属于典型的AI幻觉。12家/20家系统错误记录了患者的药物信息,例如写错药名或记下了未提及的药品。17家/20家系统遗漏了录音中明确讨论的患者精神健康关键细节,部分完全遗漏。

2. 评估权重严重失衡:采购评分体系中,“病历转录准确率”仅占4%,“偏见控制”和“隐私安全评估”各占2%,“SOC 2 Type 2合规”占4%。相反,是否在安大略省拥有本地部署实体这一非技术指标占了30%的权重。审计报告指出,这种权重设置可能导致选中的AI工具本身不准确或缺乏隐私保障。

尽管安大略卫生厅回应称已有5000多名医生在使用AI Scribe且未接到患者伤害报告,但审计结论无疑动摇了公众对医疗AI的基本信任。

为什么重要

此次审计暴露出AI在关键医疗场景落地的两个深层问题:产品可靠性未通过“红队测试”——即便在最接近真实的使用环境中,主流AI笔记产品仍频繁产生高风险的幻觉和事实歪曲,这对任何依赖大模型进行结构化文档生成的团队都是一个警示信号;采购流程被非技术指标绑架——当“本地化”和“合规文档”权重远高于模型实际推理质量时,结果必然是劣币驱逐良币。这也从侧面说明,当前闭源大模型(如GPT-4等)在医学术语抽取、上下文忠实度方面仍存在系统性短板,距离真正替代临床记录员还有巨大差距。

对开发者/医疗机构的影响

对于医疗科技开发者,这意味着简单调用通用大模型API做“听写+结构化”的方案在当前技术上并不可靠。开发者需要在模型输出层叠加严格的规则校验(例如药物名称与知识库交叉匹配)、忠实度评分(LLM-as-judge蒸馏方案)以及强制验证流程。对于采购方和医院CIO,审计结果提示:评估AI临床工具时,应大幅提升“错误率检测”和“幻觉占比”两个KPI的权重,建议引入第三方医学专家进行盲测,而非仅依赖厂商提供的演示或基准测试数据。对普通患者而言,这份报告意味着病历“AI化”后,你不得不更主动地核对处方和诊断记录——错误的笔记可能直接导致开错药或漏诊。

值得关注的后续

1. 监管落地会不会加强:安大略省审计报告建议引入强制性的“医生核验证据”功能(attestation feature),要求医生逐条确认AI笔记后才写入电子病历系统,该功能若被采纳可能成为其他省份或国家(如英国NHS、美国HIPAA监管下)的参照标准。2. 供应商是否会更新评测流程:当前AI笔记市场上如Dragon Ambient eXperience、DeepScribe等头部产品是否修改其模型评测集(包含药物遗漏/幻觉测试),回答该问题的真实程度决定了该技术路线能否继续增长。3. 算力与成本平衡:要减少幻觉,可能需要引入更大的基座模型或增加检索增强生成(RAG)层(目前RAG也难以根治事实性错误),这会提升推理成本——对于预算吃紧的公立医疗系统,可能出现“加速部署低成本但不安全方案”与“慢下来但更准确”的路线拉锯。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

来源:Hacker News · 24h最热

celebrityanime
celebrityanime
文章: 2077

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注