DeepMind启动AI协诊员研究，助力医生提升诊疗能力

Google DeepMind News·4月30日 20:14 UTC·作者 Alan Karthikesalingam, Vivek Natarajan and Pushmeet Kohli

关键信息

AI协诊员使用NOHARM框架检测“错误发布”（错误信息）和“错误遗漏”（关键信息缺失）。在盲测中优于主流循证工具，并在OpenFDA的RxQA药物推理基准测试中表现优异。

资讯摘要

DeepMind的AI协诊员研究旨在通过创建与医生协同工作的AI系统来缓解全球医护人员短缺问题。该项目建立在MedPaLM和AMIE等前期成果基础上，在98个真实初级护理问题中表现出高准确率——97个案例无关键错误，优于现有AI工具。

它还在复杂的药物问答测试（如OpenFDA的RxQA）中表现突出，展现出更强的推理能力。项目强调可信度、事实依据和医生监督，将AI定位为三元护理模式中的增效工具，而非替代品。

资讯正文

Alan Karthikesalingam、Vivek Natarajan 和 Pushmeet Kohli

全球医疗系统正努力实现更好的治疗效果、更低的成本，以及更优质的患者和临床医生体验。然而，这一进展受到全球临床专家短缺的限制，世界卫生组织预测到2030年全球将短缺超过1000万名医护人员。

尽管人工智能常被视为弥合这一差距的关键，但它尚未能完全满足临床医生和患者的需求。因此，今天我们宣布启动AI共诊员研究计划，探索人工智能如何更好地增强医生的专业能力，从而为患者提供更高品质的医疗服务。

在谷歌DeepMind，我们在医疗AI领域的探索已从掌握医学知识测试（如MedPaLM）发展到在基于文本的模拟诊疗中达到与医生相当的表现（如AMIE），包括在真实世界的可行性试验环境中。我们还长期研究临床医生与AI系统如何协同工作。

我们假设，未来医疗交付模式将演变为“三方协作护理”，即由AI代理在医生的临床权威下协助患者完成整个护理旅程。医学始终是一项团队运动，而AI代理可以带来更多“队友”加入：扩展临床医生的影响力，同时确保他们保留判断力和控制权。

这构成了我们AI共诊员研究计划的基础：设计一种可作为护理团队协作成员的AI，在专业临床监督下与患者互动。我们分别在面向临床医生和面向患者的场景中设计并评估了AI共诊员。兼顾这两方面视角对于提升护理质量、降低成本、扩大可及性并改善体验至关重要。

推动医疗AI研究的进步，使其对临床医生更值得信赖、更实用，从而更好帮助患者。

用AI共诊员赋能临床医生

对医生而言，只有值得信赖且基于事实的工具才真正有用。因此，我们研究了AI共诊员能否通过呈现高质量证据来有效支持临床医生。

我们与学术医生合作，采用“NOHARM”框架测试我们的AI是否存在“错误行为”（提供错误信息）和“遗漏错误”（未能揭示关键信息）。

在盲测对比中，医生一致偏好AI共诊员的回答，胜过主流的证据整合工具。在对98个贴近现实的初级护理问题进行客观分析时，我们的系统在97例中未出现任何重大错误，优于两种广泛被医生使用的AI系统。

这项研究使用了对98个真实初级 care 查询的盲法比较，这些查询来自多样化的来源，并由一组主治医生团队进一步优化。这一多步骤迭代过程包括全面的背景研究以及针对特定查询的答案指标开发，从而能够严格评估临床准确性及是否符合最佳实践指南。通过利用这一专家主导的优化阶段，该方法得以精确描述特定场景下的遗漏和错误类型，确保评估反映了现实临床决策的复杂性。

除了可靠地整合临床证据外，AI系统还应以医生所要求的精度回答关于药物和治疗干预的问题。这对AI来说是一项艰巨任务，但目前仍缺乏深入探索。为填补这一空白，我们评估了AI协诊员在OpenFDA发布的RxQA问题集上的表现，这是一个旨在测试复杂药物知识与推理能力的挑战性基准。我们观察到显著进步，在以实际护理中常见的开放式提问方式提出问题时，其表现超越了其他前沿AI系统。这些发现强调了先进AI在协助临床医生应对日益数据密集型的护理规划与管理需求方面的潜力。

RxQA最初被设计为多项选择题（MCQ）测试，即使是初级 care 医生得分也仅处于中等水平。尽管我们的结果显示AI系统在公开可用的（OpenFDA）RxQA集上MCQ表现显著提升，但在现实世界中，临床医生的需求通常表现为开放式问题，而非从预设选项中识别正确答案。在这一更贴近实际临床情境的开放式药物问答任务中，AI协诊员的表现优于现有前沿模型。综合来看，这些结果表明AI可以在临床推理的某些方面达到人类医生的熟练水平，并且仍有进一步提升的空间。

研究AI协诊员在远程医疗环境中的实时多模态能力

除了面向临床医生的辅助场景，我们还在探索AI协诊员在面向患者的科研环境中如何表现。传统专家临床评估包含细微的视觉和听觉线索，例如观察患者的步态、呼吸模式的细微变化或皮肤状况的变化。虽然之前的研究（包括我们与贝斯以色列女执事医疗中心的合作）已证明AI文本聊天在医生问诊前具有价值，但将交互限制在文本层面会从根本上限制AI的临床价值。医学不仅仅是文字；它需要眼睛、耳朵和声音。

这是为什么我们正在探索实时多模态人工智能作为护理团队辅助组件的潜力。基于Gemini和Project Astra的能力，我们测试了AI协诊员在实时音频和视频交互中与患者互动的能力，模拟远程医疗通话场景——未来具备能力的AI可在专家监督下支持更精准的诊断和管理。更多关于方法和结果的细节请参见我们的技术报告：《迈向拥有眼睛、耳朵和声音的对话式医疗人工智能》。

我们与哈佛大学和斯坦福大学的学术医生合作，设计了一项随机模拟研究，包含20个合成临床场景和10名医生扮演的‘患者演员’。该AI代理展示了超越纯文本系统的全新能力，例如能够实时指导患者完成复杂的体格检查。例如，它成功纠正了一位患者的吸入器使用方法，并指导肩部动作以识别肩袖损伤。

尽管人们经常讨论AI是否能匹配甚至超越人类临床表现，但这些高保真度的模拟更严格地检验了这一假设。我们评估了超过140项咨询技能指标，发现专家医生整体上优于AI系统，尤其是在识别‘警示信号’和引导关键体格检查方面。这表明当前这些系统更适合作为执业医生的支持工具，而非临床判断的替代品。同时，我们的工作也凸显了AI能力的显著进展：AI协诊员在所评估的140个领域中有68个的表现达到或超过初级保健医生（PCPs）的水平。结果突显了巨大的潜力，并指出了进一步研究最可能推动医疗AI发展的具体方向。

一项涉及120次虚拟远程医疗会诊的随机、接口盲法交叉模拟研究的结果，由真实初级保健医生、AI协诊员或GPT-realtime完成。评估过程中，内科住院医师组成患者演员群体，演绎了20个标准化门诊场景。这些场景涵盖多种临床状况，特别设计用于要求主动的听觉和视觉推理能力。针对每个场景的评估标准涵盖七个咨询质量维度，每项采用锚定0–2分制评分，区分遗漏、部分完成和完全适当的表现。误差线代表95%置信区间。

以下视频仅为研究目的展示，不涉及真实患者。它们被分享出来是为了展示当前技术的能力和局限性。我们的初步研究合作尚未涉及文中所示功能，这些功能并非用于疾病诊断、治疗、缓解、预防或提供医疗建议。

这些视频仅用于研究目的，不涉及真实患者。它们被分享出来是为了展示当前技术的能力和局限性。我们最初的研究合作并不包括文中所展示的功能，这些功能并非旨在用于疾病的诊断、治愈、缓解、治疗或预防，也不用于提供医疗建议。

建立临床级人工智能的信任与保障措施

将人工智能引入临床环境需要无妥协的架构和操作保障。在我们对面向患者的远程医疗对话的模拟研究中，AI协诊员采用双代理架构：一个“规划者”模块持续监控对话，确保“说话者”代理保持在安全的临床边界内。

同样，为了满足医生的需求，AI协诊员优先使用临床级别的证据，并对检索结果进行验证和引文核查。我们上述报告中的评估是由医生构建的，以反映他们在现实世界中对证据的各种需求，从假设情景中提出问题，从而严格评估人工智能的能力。

针对AI协诊员的严谨真实世界评估研究合作

为进一步开发和评估AI协诊员，我们目前正在与全球多样化的医疗环境中学术和研究合作伙伴推进分阶段方法，包括美国、印度、澳大利亚、新西兰、新加坡和阿联酋。

随着我们逐步完成这些评估阶段，我们将进一步拓展到更多地区，包括与使命一致的医疗机构和医学中心开展研究。我们的目标是确保医疗人工智能按照相关标准负责任地开发和部署，从而支持全球健康改善。

注：现阶段，我们的研究合作并非旨在用于疾病的诊断、治愈、缓解、治疗或预防，也不用于提供医疗建议。

我们感谢哈佛医学院和斯坦福医学部的研究合作伙伴，以及众多参与进一步可信测试评估的医疗中心和护理机构。本项目涉及与谷歌DeepMind、谷歌研究、谷歌云及谷歌健康团队的多个小组合作，我们感谢团队成员提供的深刻见解和贡献。特别要感谢Aniruddh Raghu、Arthur Chen、Charlie Taylor、CJ Park、David Stutz、Devora Berlowitz、Doug Fritz、Dylan Slack、Eliseo Papa、Jack Chen、JD Velasquez、Jing Rong Lim、Katya Tregubova、Kelvin Guu、Meet Shah、Richard Green、Ryutaro Tanno、Sukhdeep Singh、Victoria Johnston、Adam Rodman等人的核心研究与工程努力，使得AI协诊员成为可能。我们还要感谢众多合作者的宝贵贡献，包括Ali Eslami、Aliya Rysbeck、Andy Song、Anil Palepu、Anna Cupani、Bakul Patel、Bibo Xu、Brett Hatfield、David Wu、Ed Chi、Emma Cooney、Erica Oppenheimer、Erwan Rolland、Euan A. Ashley、Francesca Pietra、Rebeca Santamaria-Fernadez、Gordon Turner、Gregory Wayne、Hannah Gladman、Irene Teinemaa、Jack O'Sullivan、Jacob Koshy、Jan Freyberg、Jason Gusdorf、Joelle Wilson、Katherine Tong、Juraj Gottweis、Michael Howell、Mili Sanwalka、Pavel Dubov、Pete Clardy、Peter Brodeur、Rachelle Sico、SiWai Man、Sumanth Dahathri、Taylan Cemgil、Tim Strother、Uchechi Okereke、Valentin Lievin、Vishnu Ravi、Yana Lunts、Yun Liu、Simon Staffell、Rachel Teo、Adriana Fernandez Lara、Armin Senoner、Danielle Breen、Paula Tesch、Leen Verburgh、Dimple Vijaykumar、Juanita Bawagan、Muinat Abdul、Mariana Montes和Rob Ashley。功能视频由Christopher Godfree、Matt Mager、Emma Moxhay和Simon Waldron制作。

感谢James Manyika和Demis Hassabis在整个研究过程中提供的深刻指导和支持。

开发可靠的医疗AI工具

来源与参考

收录于 2026-05-01