AI健康工具激增——它们安全吗？

MIT Technology Review AI·3月31日 00:00 UTC·作者 Grace Huckins

关键信息

尽管OpenAI等公司进行内部研究，但专家强调需要第三方评估来发现安全性、准确性和偏见方面的盲点。这些工具目前处于监管灰色地带，监督有限。

资讯摘要

随着微软和亚马逊推出新的AI健康助手——Copilot Health和Health AI，消费者现在可以通过手机直接获取医疗见解。这些工具承诺通过提供全天候分诊支持，改善医疗服务获取，特别是为弱势群体。然而，研究人员警告称，科技公司的自我评估是不够的，因为它们可能忽视关键缺陷。

即使模型在技术上具备能力，也必须在大规模部署前进行严格的实际测试。对这类工具的需求迅速增长，既源于技术进步，也源于传统医疗系统的缺口。专家呼吁透明、独立的测试，以确保患者安全和对这一新兴领域的信任。

资讯正文

本月早些时候，微软推出了Copilot Health，这是其Copilot应用内的一个新功能空间，用户可以在这里连接自己的医疗记录，并就健康问题提出具体疑问。几天前，亚马逊宣布其基于大语言模型（LLM）的Health AI工具——此前仅限One Medical会员使用——现在将面向大众开放。这些产品加入了年初OpenAI发布的ChatGPT Health以及Anthropic的Claude（在获得授权后可访问用户健康记录）的行列。健康类AI工具面向大众，已成为一种明确趋势。

显然，人们对能够提供健康建议的聊天机器人存在强烈需求，因为许多人很难通过现有医疗系统获取健康信息。一些研究表明，当前的大语言模型有能力做出安全且有用的建议。但研究人员指出，这些工具应由独立专家进行更严格的评估，理想情况下是在广泛发布之前完成。

在医疗这种高风险领域，依赖公司自行评估其产品可能并不明智，特别是如果这些评估结果未向外部专家公开审查。即使公司确实开展了高质量、严谨的研究——一些公司，包括OpenAI，似乎正在这么做——它们仍可能存在盲点，而整个研究社区可以帮助填补这些空白。

牛津互联网研究所博士候选人安德鲁·比恩（Andrew Bean）表示：“只要我们始终需要更多医疗服务，我认为我们应该全力探索所有可行的途径。在我看来，这些模型已经达到了值得推广的阶段。”

“但”他补充道，“证据基础必须扎实。”

临界点

据开发者们所说，这些健康类产品如今得以发布，是因为大型语言模型确实已达到能有效提供医疗建议的程度。微软AI健康业务副总裁多米尼克·金（Dominic King）曾是一名外科医生，他表示，人工智能的进步是微软组建健康团队以及推出Copilot Health的核心原因。“我们看到生成式AI在回答健康问题并给出良好回应方面取得了巨大进步，”他说。

但金认为，这只是故事的一半。另一个关键因素是市场需求。就在Copilot Health发布前不久，微软发布了一份报告及配套博客文章，详细说明了人们如何用Copilot获取健康建议。该公司称，每天收到5000万个健康相关问题，健康话题也是Copilot移动应用中最受欢迎的讨论内容。

其他AI公司也注意到了这一趋势并作出回应。“即便在我们的健康产品问世之前，我们就已经观察到人们使用ChatGPT提问健康相关问题的数量急剧增长，”OpenAI健康AI团队负责人卡兰·辛格哈尔（Karan Singhal）表示。（OpenAI与微软有长期合作关系，Copilot正是基于OpenAI的模型构建的。）

人们可能只是更喜欢向一个随时可用、不会评判的机器人倾诉健康问题。但许多专家认为，这种趋势反映出当前医疗体系的现状。

“这些工具之所以存在并占据一席之地，是有原因的，”纽约西奈山医疗系统首席人工智能官吉里什·纳德卡尼（Girish Nadkarni）表示，“因为获取医疗服务很难，对某些人群来说尤其如此。”

面向消费者的大型语言模型（LLM）健康聊天机器人所描绘的理想图景在于：它们既能改善用户健康，又能减轻医疗系统的压力。这可能包括帮助用户判断是否需要就医——也就是所谓的分诊（triage）。如果聊天机器人的分诊功能有效，那么那些真正需要紧急治疗的患者可能会比以往更早寻求帮助，而症状较轻的患者则可能更放心地根据聊天机器人的建议在家管理症状，而不是盲目挤占急诊室和诊所资源。

但最近由纳德卡尼和其他西奈山研究人员进行的一项广受讨论的研究发现，ChatGPT Health有时会对轻微病症推荐过度护理，并且无法识别紧急情况。尽管辛格哈尔（Singhal）和其他一些专家指出，该研究的方法可能未能全面反映ChatGPT Health的能力，但它引发了人们对这些工具在公开发布前接受外部评估不足的担忧。

接受采访的大多数学术专家都认同，考虑到部分人群获得医疗服务的机会非常有限，LLM健康聊天机器人确实具有实际优势。但六位专家一致表达了担忧：这些工具在未经独立研究人员测试以评估其安全性的情况下就被推向市场。虽然其中一些宣传用途，比如推荐锻炼计划或提示用户向医生提问的问题，风险相对较小，但另一些功能则明显存在风险。分诊是其中之一；另一个是让聊天机器人提供诊断或治疗方案。

ChatGPT Health界面包含一条显著免责声明，说明其不用于诊断或治疗，微软Copilot Health和亚马逊Health AI的相关公告也附有类似警告。但这些警告很容易被忽视。“我们知道，人们一定会用它来做诊断和健康管理，”贝斯以色列女执事医疗中心内科医生兼研究员亚当·罗德曼（Adam Rodman）表示，他同时也是谷歌的访问研究员。

医学测试

企业声称正在测试这些聊天机器人，以确保它们绝大多数情况下都能提供安全的回答。OpenAI设计并发布了HealthBench，这是一个基准测试，用来评估大型语言模型在真实健康对话中的表现——尽管这些对话本身是由其他大模型生成的。去年发布GPT-5（即驱动ChatGPT Health和Copilot Health的模型）时，OpenAI报告了该模型在HealthBench上的得分：相比之前的OpenAI模型有了显著提升，但整体表现仍远未达到完美。

但像HealthBench这样的评估也有局限性。在上个月发表的一项研究中，牛津大学博士生Bean及其同事发现，即使大型语言模型（LLM）能够独立从虚构的书面情景中准确识别出某种疾病，如果让没有医学背景的用户拿到这个情景，并借助LLM的帮助判断病症，他们只有三分之一的概率能正确识别出来。如果用户缺乏医学知识，他们可能不知道哪些情景中的细节或现实生活中的经验是提示中应该包含的关键信息，也可能误解LLM提供的内容。

Bean表示，这种表现差距对OpenAI的模型来说可能具有重要意义。在最初的HealthBench研究中，该公司报告称其模型在需要向用户进一步询问信息的对话中表现相对较差。如果情况属实，那么那些不具备足够医学知识、无法一开始就提供健康聊天机器人所需信息的用户，可能会得到无用甚至错误的建议。

OpenAI负责医疗方向的Singhal指出，公司当前尚未发布的GPT-5系列模型相比前代版本，在获取额外信息方面表现要好得多。不过，OpenAI也承认，目前的旗舰版本GPT-5.4实际上比更早的GPT-5.2在获取上下文信息方面表现更差。

Bean理想中的做法是，在健康聊天机器人面向公众发布之前，应像他的研究一样进行受控的人类测试。但这可能是一项艰巨的任务，特别是考虑到人工智能领域发展迅速，而人类研究往往耗时较长。Bean自己的研究使用的是GPT-4o，该模型几乎一年前才发布，如今已显过时。

本月早些时候，谷歌发布了一项符合Bean标准的研究。在这项研究中，患者先与谷歌开发的医疗大模型聊天机器人Articulate Medical Intelligence Explorer（AMIE）讨论健康问题，然后再与真人医生见面。总体而言，AMIE的诊断准确性与医生相当，且所有对话均未引发研究人员的重大安全担忧。

尽管结果令人鼓舞，谷歌仍不打算很快推出AMIE。谷歌DeepMind的研究科学家Alan Karthikesalingam在一封电子邮件中写道：“虽然研究取得了进展，但在将此类系统用于实际诊断和治疗之前，仍存在显著限制，包括需要进一步研究公平性、公正性和安全性测试。”不过，谷歌最近透露，它与CVS合作开发的健康平台Health100将包含一个由其旗舰Gemini模型驱动的AI助手，但该工具显然不会用于诊断或治疗。

罗德曼与卡蒂克萨林加姆共同领导了AMIE研究，他认为针对像ChatGPT Health和Copilot Health这样的聊天机器人，进行如此长期、多阶段的研究未必是最佳方式。

“生成式AI的临床试验范式并不总是适用，”他说，“这就是为什么我们需要基准测试讨论的原因。是否存在由值得信赖的第三方制定的基准？我们可以达成共识，认为这些基准是有意义的，并且实验室可以自我约束去达到这些标准？”

关键在于“第三方”。无论公司多么全面地评估自己的产品，我们很难完全信任它们的结论。第三方评估不仅带来客观性，如果有多家第三方参与，还能帮助避免盲点。

OpenAI的辛格哈尔表示，他强烈支持外部评估。“我们尽最大努力支持社区，”他说，“我们发布HealthBench的部分原因，就是想向社区和其他模型开发者展示一个高质量评估应该是什么样子。”

他说，由于高质量评估的成本非常高昂，他怀疑任何单一的学术实验室是否能完成他所说的“一统天下”的评估。但他高度评价学术团体将现有和新开发的评估整合成综合评估套件的努力，比如斯坦福大学的MedHELM框架，它在多种医疗任务上测试模型。目前，OpenAI的GPT-5在MedHELM评分中排名第一。

斯坦福大学医学院教授尼加姆·沙阿（Nigam Shah）领导了MedHELM项目，他表示该项目存在局限性。特别是，它仅评估单轮聊天机器人的回复，而寻求医疗建议的人可能与聊天机器人进行多轮对话。他说，他和一些合作者正在准备构建一种能够对这类复杂对话进行评分的新评估工具，但这需要时间，也需要资金。“你我都没有能力阻止这些公司发布健康导向的产品，所以他们只会按自己意愿行事，”他说，“我们这样的人唯一能做的，就是找到办法资助基准测试。”

本文采访的所有人都没有主张健康大语言模型必须通过第三方评估才能发布。医生本身也会犯错——对于那些偶尔才能见到医生的人来说，一个虽然偶尔出错但始终可用的LLM，只要错误不严重，仍然可能比现状带来巨大改进。

然而，根据当前的证据，我们无法确定现有的工具是否真的构成改进，还是其风险超过了收益。

OpenAI正全力以赴打造一个全自动研究平台。

在与OpenAI首席科学家Jakub Pachocki的独家对话中，他谈到了公司最新的宏大挑战以及人工智能的未来。

《Pokémon Go》正在为配送机器人提供精确到厘米的世界视角。

独家报道：Niantic的人工智能衍生公司正利用玩家提供的300亿张城市地标图像，训练一种全新的世界模型。

来源与参考

收录于 2026-03-31