安大略省审计人员发现医生的人工智能记录员经常歪曲基本事实

一句话看懂：加拿大安大略省审计总署在年度报告中揭露，该省为医生采购的AI笔记记录员（AI Scribe）在审核中普遍出现编造信息、漏记关键病史、搞错药物名称等问题，部分产品高达60%的样本存在药物记录错误。然而，采购评估体系中，准确率仅占4%的权重，远低于“本地化部署”等非技术指标。

事件核心：发生了什么

安大略省审计总署对20家已获批供应商的AI Scribe系统进行模拟医患录音回放对比测试。结果令人担忧：

1. 九成系统编造信息：9家/20家的AI在笔记中“杜撰”了患者有焦虑情绪或未发现肿块等诊断结论，而这些内容从未在录音对话中出现，属于典型的AI幻觉。12家/20家系统错误记录了患者的药物信息，例如写错药名或记下了未提及的药品。17家/20家系统遗漏了录音中明确讨论的患者精神健康关键细节，部分完全遗漏。

2. 评估权重严重失衡：采购评分体系中，“病历转录准确率”仅占4%，“偏见控制”和“隐私安全评估”各占2%，“SOC 2 Type 2合规”占4%。相反，是否在安大略省拥有本地部署实体这一非技术指标占了30%的权重。审计报告指出，这种权重设置可能导致选中的AI工具本身不准确或缺乏隐私保障。

尽管安大略卫生厅回应称已有5000多名医生在使用AI Scribe且未接到患者伤害报告，但审计结论无疑动摇了公众对医疗AI的基本信任。

为什么重要

此次审计暴露出AI在关键医疗场景落地的两个深层问题：产品可靠性未通过“红队测试”——即便在最接近真实的使用环境中，主流AI笔记产品仍频繁产生高风险的幻觉和事实歪曲，这对任何依赖大模型进行结构化文档生成的团队都是一个警示信号；采购流程被非技术指标绑架——当“本地化”和“合规文档”权重远高于模型实际推理质量时，结果必然是劣币驱逐良币。这也从侧面说明，当前闭源大模型（如GPT-4等）在医学术语抽取、上下文忠实度方面仍存在系统性短板，距离真正替代临床记录员还有巨大差距。

对开发者/医疗机构的影响

对于医疗科技开发者，这意味着简单调用通用大模型API做“听写+结构化”的方案在当前技术上并不可靠。开发者需要在模型输出层叠加严格的规则校验（例如药物名称与知识库交叉匹配）、忠实度评分（LLM-as-judge蒸馏方案）以及强制验证流程。对于采购方和医院CIO，审计结果提示：评估AI临床工具时，应大幅提升“错误率检测”和“幻觉占比”两个KPI的权重，建议引入第三方医学专家进行盲测，而非仅依赖厂商提供的演示或基准测试数据。对普通患者而言，这份报告意味着病历“AI化”后，你不得不更主动地核对处方和诊断记录——错误的笔记可能直接导致开错药或漏诊。

值得关注的后续

1. 监管落地会不会加强：安大略省审计报告建议引入强制性的“医生核验证据”功能（attestation feature），要求医生逐条确认AI笔记后才写入电子病历系统，该功能若被采纳可能成为其他省份或国家（如英国NHS、美国HIPAA监管下）的参照标准。2. 供应商是否会更新评测流程：当前AI笔记市场上如Dragon Ambient eXperience、DeepScribe等头部产品是否修改其模型评测集（包含药物遗漏/幻觉测试），回答该问题的真实程度决定了该技术路线能否继续增长。3. 算力与成本平衡：要减少幻觉，可能需要引入更大的基座模型或增加检索增强生成（RAG）层（目前RAG也难以根治事实性错误），这会提升推理成本——对于预算吃紧的公立医疗系统，可能出现“加速部署低成本但不安全方案”与“慢下来但更准确”的路线拉锯。