安大略省审计人员发现医生的人工智能记录员经常歪曲基本事实

一句话看懂：加拿大安大略省审计报告指出，医生使用的 AI 语音记录工具在非线性的医患对话中频繁出错，错误率高达到 60%。这一发现打破了 AI 医疗记录“高效准确”的营销叙事，引发了关于 AI 在医疗场景中可靠性和责任归属的广泛讨论。

事件核心：发生了什么

安大略省审计人员对医院使用的 AI 记录系统进行了审查，发现在实际临床记录中，这些大模型驱动的转录工具在处理非结构化、非线性的对话时，经常歪曲基本事实。例如，在医生与安全运营团队（SOC）讨论近期警报或事件的来回交流中，AI 仅能抓住大致意思，但当用户依赖其准确度时，“糟糕透顶”。据从业者观察，这种错误率在常规医疗记录中已达到 60% 左右。值得注意的是，审计对比的基准是现有的、同样存在高错误率的人工记录，部分医生调侃“60% 的错误率在 AI 出现前就已司空见惯”。但目前公开信息显示，审计报告并未详细对比 AI 与人工记录的具体错误类型和后果。

为什么重要

AI 语音记录被视为减轻医生文书负担的“杀手级应用”，诸多创业公司和云平台（如微软的 Nuance DAX Copilot、Amazon HealthLake 等）都在积极布局。安大略审计结果直接挑战了其核心卖点——准确性。如果 AI 记录在大规模推广前就被证实存在系统性的事实扭曲风险，尤其是在技术性极强的医患沟通中，那么它对医疗合规、医疗纠纷举证以及患者安全将构成实质性威胁。此外，这一事件也暴露了 LLM 应用落地的关键矛盾：在“效率提升”与“事实保真”之间，前者容易被夸大，后者往往被低估。审计的公共问责性质意味着，医院和监管机构可能不得不放缓 AI 记录工具的部署速度，直到建立更严格的事后审核机制。

对用户/开发者/创作者的影响

对医院和医生：直接管理要求收紧。医院在采购 AI 记录系统时，必须要求厂商提供针对特定科室（如急诊、ICU、精神科）的“误记率”基准测试，并建立人工审核（例如“只能基于原始转录稿，不能直接修改病历”）的合规流程。
对 AI 记录产品开发者：技术路线需要调整。单纯依赖通用大模型做端到端摘要的风险过高，开发者应引入“对话结构识别”（区分询问、确认、诊断、琐事）和“事实一致性检测”模块，而非仅仅优化流畅度和摘要风格。
对患者：提高了对 AI 医疗记录的警惕性。患者未来在就诊时，有权询问医生“记录是用 AI 生成的吗？”，并要求查看原始的、未经 AI 编辑的录音转录稿，以避免错误被写入病历。

值得关注的后续

第一，安大略省审计报告是否会推动其他联邦或州监管机构（如美国 HIPAA 合规办公室）发布针对 AI 医疗记录的正式指导文件，要求自动记录必须附带置信度评分或人工校验标志。第二，现有医疗 AI 记录产品是否会公开其在不同对话复杂度下的错误率数据，还是继续保持“平均表现”的模糊宣传。第三，这一事件可能促使保险公司重新评估：当 AI 记录出错导致医疗事故时，责任是由医生、医院还是 AI 开发商承担，这将直接影响保险定价和产品推广速度。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

来源：hackernews

安大略省审计人员发现医生的人工智能记录员经常歪曲基本事实