安省审计发现AI医疗记录员存在风险
Ars Technica AI··作者 Kyle Orland
关键信息
审计针对省政府批准、供医疗机构使用的20家供应商,使用两段模拟医患对话进行了转录测试。结果显示,9家出现了患者信息幻觉,12家转录错误,17家遗漏了关键心理健康细节,而“生成医疗笔记准确性”的平均得分只有20分中的12分。
资讯摘要
近年来,许多工作负担沉重的医生开始使用AI医疗记录员,把医患对话自动整理成适合电子病历的结构化笔记。安大略省审计长的一份报告发现,省里推荐的这些AI记录系统经常生成错误、不完整甚至带有幻觉的内容。审计针对两段模拟医患对话进行了测试,涉及20家已被省政府批准并预审合格、可供医疗机构采购的供应商。结果显示,这20家供应商中没有一家在测试里完全没有问题,全部都至少出现了一项准确性或完整性错误。具体来看,9家出现了患者信息幻觉,12家存在错误转录,17家遗漏了对话中有关心理健康问题的关键细节。
报告还举出了一些具体例子,例如AI凭空生成血检或治疗转诊,或者把处方药名称转错,这些错误都可能影响后续治疗。尽管各家供应商在“医疗笔记生成准确性”上的平均得分只有20分中的12分,但这一项在总评分中的权重只有约4%。相比之下,一个衡量“在安大略省的本地存在”的指标却占总分的30%,这使得系统即使在准确性上表现很差,也仍可能轻易达到审批门槛。审计长因此认为,这些AI医疗记录员“没有得到充分评估”,并建议IT部门要求医生在笔记入档前明确确认自己已经审核过内容。

资讯正文
近年来,许多工作负荷过重的医生开始使用所谓的 AI 医疗记录员,帮助自动将患者对话、诊断和护理决定总结为结构化笔记,用于健康记录归档。但安大略省审计长近期的一项审计发现,省政府推荐的 AI 记录员经常生成错误、不完整和“幻觉”信息,这些内容“可能导致不充分或有害的治疗方案,从而可能影响患者的健康结果”。
在最近一份关于安大略省政府使用人工智能的报告中,审计长对省政府批准并预先资质审查、供医疗服务提供者购买的 20 家 AI 记录员供应商进行了两段模拟医患对话的转录测试。上述 20 家供应商在至少一项简单测试中都表现出准确性或完整性方面的问题,其中 9 家编造了患者信息,12 家错误记录了信息,17 家遗漏了关于所讨论心理健康问题的关键细节。
在报告中,审计长指出,这些摘要里有多个令人担忧的错误示例,可能会对患者后续护理产生直接且负面的影响。其中包括:AI 记录员编造了并不存在的血液检查或治疗转诊,错误转录了处方药名称,和/或遗漏了模拟对话中讨论的心理健康问题的“关键细节”。
在所有获批供应商中,接受测试的 AI 记录员在 Supply Ontario 评估量表中的“生成医疗记录的准确性”一项平均仅得 20 分中的 12 分。但这一看似关键的“准确性”指标在供应商总评分中的权重只有大约 4%,这意味着即便 AI 记录员在准确性指标上得了“零分”,也很容易达到批准所需的最低门槛(另一个衡量“在安大略省本地存在”的指标占总评分的 30%)。
所有这些因素共同导致审计长得出总体结论:这些 AI 记录员“未得到充分评估”。报告以克制而含蓄的措辞指出:“测试 AI 记录员系统以确保其生成笔记的质量并尽量减少不准确之处,这一点很重要。”报告还建议,使用这些记录员的信息技术部门应强制医生在将笔记写入患者记录前“确认其已审核所生成的笔记”。
安大略省的公共部门医疗服务在工作中并不要求使用这些 AI 记录员系统,如有需要,也可以从未获批供应商处购买。即便如此,安大略省政府竟然推荐带有如此明显且可能伤害患者的缺陷的 AI 摘要系统,这一事实足以让任何正在使用它们的医生(或他们的患者)提高警惕。
4. Altman 在 OpenAI 诉讼中被迫面对他是“高产骗子”的指控
5. Motorola Razr Fold 评测:寻找优势
来源与参考
收录于 2026-05-15