谷歌DeepMind的AI协诊员在盲测中击败GPT-5.4

The Decoder··作者 Matthias Bastian

关键信息

该系统采用“三方护理”模式,即AI在医生监督下支持患者;在98个模拟案例中得分高于GPT-5.4(67–26),并在RxQA药物问题测试中表现优异,但所有案例中仍出现一次严重错误。

资讯摘要

谷歌DeepMind正在开发一种‘AI协诊员’,旨在帮助医生在日常诊疗中诊断和治疗病人。在包含98个真实全科医生场景的盲测中,医生更倾向于选择它的回答,优于GPT-5.4和其他临床AI工具。它在药物相关问题上的表现尤为出色,甚至超过了使用参考书的医生。

然而,在涵盖140项咨询质量指标(包括分诊、病史采集和体格检查)的评估中,经验丰富的医生整体表现优于AI,尤其在识别警示信号方面。该系统还在远程医疗模拟中展示了多模态能力,能纠正吸入器使用方法并指导肩部检查。尽管如此,研究人员结论是,它最适合作为医生的助手,而非替代品。

谷歌DeepMind的AI协诊员在盲测中击败GPT-5.4

资讯正文

Google Deepmind的‘AI共诊医生’在盲测中击败GPT-5.4,但仍不及经验丰富的医生

要点

- Google Deepmind正在开发一款名为‘AI共诊医生’的系统,旨在帮助医生在日常医疗护理中进行诊断和治疗。

- 在使用真实全科医生场景进行的盲测中,医生对这一系统的回答评分高于其他AI工具,包括GPT-5.4-thinking-with-search。

- 尽管结果令人鼓舞,但模拟研究表明,经验丰富的医生仍优于AI,尤其是在识别关键警示信号和开展体格检查方面。

Google Deepmind正在打造一款‘AI共诊医生’,以协助医生照顾患者。该系统在模拟研究中表现良好,但仍落后于经验丰富的医生。这项研究还揭示了为什么ChatGPT的声音模式尚不适合严肃任务,更不用说医疗咨询了。

这款‘AI共诊医生’围绕研究人员所说的‘三方照护’理念构建:AI代理在医生保持临床权威和监督的前提下,协助患者完成治疗过程。其核心思想是让AI成为医疗团队的一员,在临床医生的指导下支持患者。

为了从临床医生的角度评估该系统,研究团队与学术医生合作,采用了NOHARM框架来检测两类错误:过失性错误(errors of commission)和遗漏性错误(errors of omission)。

在一项包含98个现实初级护理问题的盲测比较中,医生一致选择了AI共诊医生的回答,胜过现有临床AI系统和GPT-5.4-thinking-with-search。AI系统以67比26战胜另一款临床AI系统,以63比30击败GPT-5.4-thinking-with-search。在客观分析中,该系统在98个案例中仅犯下一次严重错误。

在药物相关问题上的优势更为明显。RxQA基准测试涵盖600道题目,涉及活性成分、药物相互作用和剂量,数据来自两个国家的国家级药品目录,并由持证药剂师审核。这些题目对初级医生来说极具挑战:即使参考书籍,他们也只能答对61.3%,不借助参考资料时正确率仅为48.3%。

多模态远程医疗将AI带入诊室

除了文本支持外,Google Deepmind还在测试AI共诊医生如何处理远程医疗中的实时音频和视频。研究团队与哈佛大学和斯坦福大学的医生合作,进行了随机模拟研究,共设计了20个合成临床场景,10名医生扮演患者角色,总计模拟了120次虚拟远程问诊。

AI共诊医生展现出超越纯文本系统的功能。例如,它能纠正患者吸入器使用方法,并指导患者进行肩部检查以发现肩袖损伤。

对于面向患者的对话,AI共诊医生采用双代理架构:一个‘规划模块’监控对话内容,确保另一个‘交谈模块’始终处于安全的临床范围内。当医生使用该系统时,它优先选择可靠的临床证据,并在查询过程中执行验证和引用核查。

经验丰富的医生依然胜出

这项研究评估了咨询质量的140多个方面,涵盖七个领域:分诊、病史采集、临床推理、沟通与辅导、治疗步骤、识别警示信号以及体格检查。对于希望人工智能取代医生的人来说,这一结果令人警醒:经验丰富的医生整体表现优于AI,尤其是在识别‘红色警报’和指导关键体格检查方面。

不过,这款AI辅助医生在140个评估指标中有68项达到了或超过了初级保健医生的表现。OpenAI的GPT-realtime则在所有七个领域均落后于两者。研究人员得出结论,这类系统最适合作为医生的辅助工具,而非替代临床判断。

目前尚不清楚这项研究是否会发展为实际产品。结果显示了人工智能驱动的证据整合和远程问诊方面的进展,但也明确指出,与经验丰富的医生相比,仍存在差距,尤其是在诸如识别警示信号等安全关键任务上。‘虽然现在还处于早期阶段,但前景已经很清晰,’Deepmind研究员艾伦·卡蒂基萨林加姆表示。

AI新闻无炒作——由人类精选

来源与参考

  1. 原始链接
  2. Google Deepmind's "AI co-clinician" beats GPT-5.4 in blind doctor tests but still trails experienced physicians

收录于 2026-05-02