Nature研究显示医疗AI可比肩医生

The Decoder··作者 Maximilian Schreiner

关键信息

MIRA 在一个隔离的电子健康记录环境中运行,可在 11 种工具中选择超过 85,000 个动作,包括开检验、做影像、生成鉴别诊断、开处方和决定住院。AMIE 采用双智能体设计,一个负责与患者对话,另一个在后台核对指南;研究用 NICE 和 BMJ Best Practice 指南,将它与 21 名全科医生在 100 个多次就诊病例上进行比较。

资讯摘要

两篇同时发表于 Nature 的论文展示了医疗 AI 系统在受控临床模拟中已经达到或超过医生水平。德国系统 MIRA 全称是 Medical Intelligence for Reasoning and Action,由德累斯顿工业大学、海德堡大学等机构研究人员开发。它作为一个自主智能体运行在隔离的虚拟电子健康记录中,可以收集病史、开检验、解读结果、生成鉴别诊断,并撰写治疗方案。研究团队用公开的 MIMIC-IV 数据集中的 500 多个真实急诊病例对 MIRA 进行了测试,另一个 AI 智能体扮演患者,只提供真实病历中的信息。在 8 个疾病类别中,MIRA 与病历记录中的诊断一致率达到 88.9%,在 311 个病例的直接对比中,它的得分是 87.8%,而 4 名资深专科医生为 78.1%,住院医师和专科医生混合团队为 71.1%。MIRA 在阑尾炎和胰腺炎上表现尤为出色,但肺炎和尿路感染对人类和 AI 都更难。

盲审专家还检查了安全性,未发现危险药物相互作用、肾功能受损患者的错误剂量,或有风险的止痛药处方;MIRA 还能准确判断所有需要住院的病例。Google 的 AMIE 研究则聚焦于跨多次就诊的初级保健场景。AMIE 采用双智能体设计,一个面向患者进行对话,另一个在后台依据临床指南进行推理,并在 100 个病例上与 21 名全科医生进行了比较,这些病例基于英国 NICE 和 BMJ Best Practice 指南。结果显示,AMIE 在治疗选择上与医生相当,并且在方案准确性和指南遵循方面优于医生,首次就诊时其整体方案被评为合适的比例为 95%,而医生为 72%。研究团队还构建了一个名为 RxQA 的药物知识基准,基于两个国家药品目录并经持证药师验证,AMIE 在更难的问题上超过了全科医生。文章同时提醒,这两个系统都建立在已经过时的基础模型之上,因此它们的优势能否长期保持仍然存在疑问。

Nature研究显示医疗AI可比肩医生

资讯正文

在新的《Nature》研究中,AI 系统在诊断能力上可与医生匹敌,但其中一项结果表明,这项技术的“寿命”可能并不长久。

两项发表在《Nature》上的新研究显示,专用 AI 系统在模拟患者病例中诊断疾病和做出治疗决策的表现与医生一样好,有时甚至更好。不过,这两套系统都运行在已经过时的基础模型之上。

专门为医疗打造的 AI 程序正越来越接近真正的临床价值。这是同时发表在《Nature》上的两篇论文传达出的核心信息。德国系统 MIRA 在胰腺癌和肺炎等疾病的诊断上超过了医生。谷歌的系统 AMIE 则生成了更准确的治疗和检查方案。

MIRA 像医生一样在模拟医院中工作

MIRA 代表 Medical Intelligence for Reasoning and Action。它由德累斯顿工业大学和海德堡大学等机构共同开发。与标准聊天工具不同,这套系统作为一个自主代理运行在一个封闭的虚拟电子健康记录系统中。根据研究,MIRA 可以在 11 种工具中调用超过 85,000 个选项。它会采集病史、安排实验室检查、微生物学检测和影像检查,解读结果,生成鉴别诊断,并撰写治疗方案,包括处方、手术规划和住院收治。

研究团队在公共的 MIMIC-IV 数据集中的 500 多个真实急诊病例上测试了 MIRA。另一个 AI 代理扮演患者,只提供实际病历中的信息。

研究人员还检查了这些建议是否安全。对推荐结果进行盲评、且不知道建议来自 MIRA 还是人类的专科评审者没有发现危险的药物相互作用,没有发现对肾功能受损患者的错误剂量,也没有发现有风险的止痛药处方。MIRA 在识别患者当前用药方面几乎完美。它在判断患者是否需要住院这一问题上也表现出色:没有漏掉任何需要住院治疗的病例。即使测试患者只说德语或法语,或表现得特别焦虑,系统表现也依然稳定。源代码已在 GitHub 上公开。

AMIE 将两个代理与临床指南配合使用

谷歌的 AMIE 采用了不同的方法:管理患者在多次就诊过程中的诊疗。该系统由两部分组成。一个对话代理负责与患者进行快速、友好的交流。第二个代理在后台工作,更加谨慎地思考,并将病例与医学指南进行交叉比对。

在一项严格控制的研究中,Google 将 AMIE 与 21 名全科医生进行了比较,涵盖 100 个跨越多次就诊的病例。评估基准是英国的 NICE 指南和 BMJ Best Practice 指南。演员通过文字聊天扮演患者。根据研究结果,AMIE 在治疗决策方面与这些医生表现相当,并在方案准确性和对指南的遵循方面胜过他们。在首次就诊时,AMIE 的整体方案在 95% 的病例中被评为合适;而医生这一比例为 72%。无论是专家审阅者还是扮演患者的演员,都更常偏好 AMIE,而不是人类医生。

为测试药物知识,团队基于两份国家药品处方集,并经持证药剂师核验,构建了一个名为 RxQA 的专门基准。AMIE 在更难的问题上击败了全科医生。不过,这项测试对双方都很有挑战性。即便在较容易的问题上,最高分也仍低于 75%。

双方团队都警告不要过早下结论

作者对其发现的局限性说得很明确。MIRA 在“少量但非零”的患者身上推荐了“偏离最佳实践的护理”。模拟患者的回答也可能“比急诊科患者的真实表达更结构化”。此外,也不能完全排除这样一种可能:可公开获取的 MIMIC-IV 数据集已经被用于这些模型的训练数据。如果真是这样,测得的表现就更像是上限,而非现实估计。参与比较的医生还在德国急诊系统中工作,而该系统与其他国家不同。

AMIE 的开发者将这项研究称为一个“里程碑”,但强调无论病例选择还是仅限文本的对话,都不能反映真实诊所。该系统展现出“很有前景的能力”,但“尚未准备好用于现实世界转化”。还需要更多工作来解决会渗入系统隐藏推理步骤中的“潜在推理错误”。

与 MIRA 共同开发其研究团队的 Jakob Kather 告诉《金融时报》:“我们正在提前看到 AI 可能如何改变医学。”他将这类 AI 智能体比作飞机的自动驾驶系统:“这些系统可以通过接管日常任务来支持并减轻医疗专业人员的负担,但最终责任始终会落在医生身上。”

独立专家为这股热情降温

未参与这两项研究的研究人员赞扬了严谨的方法学,但指出这些都只是模拟。牛津大学医学社会学教授 Catherine Pope 告诉《金融时报》,这与“日常医疗中混乱、复杂、充满人情味的现实世界”之间“相距甚远”。

爱丁堡大学健康信息学教授 Julie Jacko 表示,报道中的许多优势归结起来更多是“方案的精确性和完整性”,而不是“临床正确性方面的明显差异”。这项研究“展示的是相对于结构化标准的表现,而没有充分捕捉真实临床决策的复杂性”。

支架式辅助对弱模型帮助最大,更强的模型则不需要它

AMIE 的补充实验中埋藏着一个最具启发性的发现。和同行评审研究中常见的情况一样,这两个系统都依赖较旧的 AI 模型。AMIE 仍然运行在 Google 较旧的 Gemini 1.5 Flash 上。MIRA 使用的是 OpenAI 的 GPT-4o 和 o1-preview。此后,这些模型都已被更新一代的模型超越。

Google 的研究人员替换了各个组件,以弄清楚究竟是什么在驱动性能:复杂的双代理架构、指南匹配和专门训练,还是仅仅底层语言模型本身。

在较旧的 Gemini 1.5 Flash 上,这套专门化设置带来了论文所描述的显著性能提升。但当研究人员把同样的设置放到更新的 Gemini 2.5 Flash 上时,这一优势几乎消失了。

换句话说,这套专门化系统通过强制结构化推理、要求模型引用指南并抑制幻觉,弥补了旧模型的弱点。更强的模型可以自行完成这些工作。论文承认,随着基础模型改进,AMIE 的价值会不断缩小。事实上,像 Gemini 2.5 Pro、o3 和 GPT-5 这样的更新通用模型,在 RxQA 药物测试中的得分已经与完整的 AMIE 系统“大致相当”。

在实践中,AMIE 似乎已经被 AI 发展的速度超越了。这种模式一再重演:随着更强的模型出现,围绕语言模型搭建的支架变得多余,有时甚至是因为这些支架本身会进入下一代的训练数据。这并不意味着其中的理念毫无价值:在编程以及越来越多的其他领域里,像 Claude Code、OpenAI Codex 和 Claude Cowork 这样的支架工具,能让模型获得工具、上下文和记忆。即便是更强的模型,在这类支持下处理复杂任务时仍然表现更好。但这些支架也必须跟上模型性能的提升,否则最终就会变成累赘。

MIRA 缺少这类分析。不过,它架构的一部分与其说是用来修补模型弱点,不如说是把 AI 接入医院的临床系统。即便模型更强,这部分也不会变得过时。

来源与参考

  1. 原始链接
  2. AI systems rival doctors in new Nature studies, but one result suggests the tech won't age well

收录于 2026-06-19