谷歌DeepMind的AI协诊员在盲测中击败GPT-5.4

The Decoder·5月1日 17:21 UTC·作者 Matthias Bastian

关键信息

该系统采用“三方护理”模式，即AI在医生监督下支持患者；在98个模拟案例中得分高于GPT-5.4（67–26），并在RxQA药物问题测试中表现优异，但所有案例中仍出现一次严重错误。

资讯摘要

谷歌DeepMind正在开发一种‘AI协诊员’，旨在帮助医生在日常诊疗中诊断和治疗病人。在包含98个真实全科医生场景的盲测中，医生更倾向于选择它的回答，优于GPT-5.4和其他临床AI工具。它在药物相关问题上的表现尤为出色，甚至超过了使用参考书的医生。

然而，在涵盖140项咨询质量指标（包括分诊、病史采集和体格检查）的评估中，经验丰富的医生整体表现优于AI，尤其在识别警示信号方面。该系统还在远程医疗模拟中展示了多模态能力，能纠正吸入器使用方法并指导肩部检查。尽管如此，研究人员结论是，它最适合作为医生的助手，而非替代品。

资讯正文

Google Deepmind的‘AI共诊医生’在盲测中击败GPT-5.4，但仍不及经验丰富的医生

要点

- Google Deepmind正在开发一款名为‘AI共诊医生’的系统，旨在帮助医生在日常医疗护理中进行诊断和治疗。

- 在使用真实全科医生场景进行的盲测中，医生对这一系统的回答评分高于其他AI工具，包括GPT-5.4-thinking-with-search。

- 尽管结果令人鼓舞，但模拟研究表明，经验丰富的医生仍优于AI，尤其是在识别关键警示信号和开展体格检查方面。

Google Deepmind正在打造一款‘AI共诊医生’，以协助医生照顾患者。该系统在模拟研究中表现良好，但仍落后于经验丰富的医生。这项研究还揭示了为什么ChatGPT的声音模式尚不适合严肃任务，更不用说医疗咨询了。

这款‘AI共诊医生’围绕研究人员所说的‘三方照护’理念构建：AI代理在医生保持临床权威和监督的前提下，协助患者完成治疗过程。其核心思想是让AI成为医疗团队的一员，在临床医生的指导下支持患者。

为了从临床医生的角度评估该系统，研究团队与学术医生合作，采用了NOHARM框架来检测两类错误：过失性错误（errors of commission）和遗漏性错误（errors of omission）。

在一项包含98个现实初级护理问题的盲测比较中，医生一致选择了AI共诊医生的回答，胜过现有临床AI系统和GPT-5.4-thinking-with-search。AI系统以67比26战胜另一款临床AI系统，以63比30击败GPT-5.4-thinking-with-search。在客观分析中，该系统在98个案例中仅犯下一次严重错误。

在药物相关问题上的优势更为明显。RxQA基准测试涵盖600道题目，涉及活性成分、药物相互作用和剂量，数据来自两个国家的国家级药品目录，并由持证药剂师审核。这些题目对初级医生来说极具挑战：即使参考书籍，他们也只能答对61.3%，不借助参考资料时正确率仅为48.3%。

多模态远程医疗将AI带入诊室

除了文本支持外，Google Deepmind还在测试AI共诊医生如何处理远程医疗中的实时音频和视频。研究团队与哈佛大学和斯坦福大学的医生合作，进行了随机模拟研究，共设计了20个合成临床场景，10名医生扮演患者角色，总计模拟了120次虚拟远程问诊。

AI共诊医生展现出超越纯文本系统的功能。例如，它能纠正患者吸入器使用方法，并指导患者进行肩部检查以发现肩袖损伤。

对于面向患者的对话，AI共诊医生采用双代理架构：一个‘规划模块’监控对话内容，确保另一个‘交谈模块’始终处于安全的临床范围内。当医生使用该系统时，它优先选择可靠的临床证据，并在查询过程中执行验证和引用核查。

经验丰富的医生依然胜出

这项研究评估了咨询质量的140多个方面，涵盖七个领域：分诊、病史采集、临床推理、沟通与辅导、治疗步骤、识别警示信号以及体格检查。对于希望人工智能取代医生的人来说，这一结果令人警醒：经验丰富的医生整体表现优于AI，尤其是在识别‘红色警报’和指导关键体格检查方面。

不过，这款AI辅助医生在140个评估指标中有68项达到了或超过了初级保健医生的表现。OpenAI的GPT-realtime则在所有七个领域均落后于两者。研究人员得出结论，这类系统最适合作为医生的辅助工具，而非替代临床判断。

目前尚不清楚这项研究是否会发展为实际产品。结果显示了人工智能驱动的证据整合和远程问诊方面的进展，但也明确指出，与经验丰富的医生相比，仍存在差距，尤其是在诸如识别警示信号等安全关键任务上。‘虽然现在还处于早期阶段，但前景已经很清晰，’Deepmind研究员艾伦·卡蒂基萨林加姆表示。

AI新闻无炒作——由人类精选

来源与参考

收录于 2026-05-02