OpenAI新医疗版ChatGPT在临床任务中超越医生

The Decoder··作者 Matthias Bastian

关键信息

HealthBench Professional基准包含红队测试以提高难度,GPT-5.4比基础版本高11分;但该基准由OpenAI自建,实际临床表现可能与测试分数不同。

资讯摘要

OpenAI发布了专为美国医疗专业人员设计的免费AI助手'ChatGPT for Clinicians',并配套推出HealthBench Professional基准测试。在此测试中,GPT-5.4得分为59.0,优于拥有无限时间与网络访问权限的人类医生(得分43.7)。该基准通过红队策略和真实医生对话故意设难。

超过70万条回复经医生评审,99.6%被认定安全准确。功能包括实时临床搜索、可复用模板(如转诊信)、以及继续医学教育学分记录。OpenAI强调此工具旨在辅助而非替代医生。

OpenAI新医疗版ChatGPT在临床任务中超越医生

资讯正文

OpenAI表示,其新推出的面向临床医生的ChatGPT在临床任务上表现优于医生,即使医生拥有无限时间和网络访问权限。

关键要点:

- OpenAI推出了“ChatGPT for Clinicians”,这是一个专为日常医疗实践设计的免费人工智能工具,仅对美国已验证的医疗专业人员开放。

- 该系统包含实时跨专科文献搜索功能、重复性工作流程模板,以及自动识别继续医学教育学分的功能。

- 随着该工具发布,OpenAI还公布了“HealthBench Professional”基准测试,其中定制版GPT-5.4得分达到59.0分,超过了人类医生的43.7分,即便这些医生拥有无限时间与互联网访问权限。

OpenAI正在推出面向临床医生的ChatGPT免费版本,一款专为医疗专业人士打造的聊天机器人。一项新的基准测试表明,GPT-5.4在临床任务上的表现优于人类医生,即使这些医生可以无限使用时间和网络。

OpenAI推出了一个专门为临床工作设计的ChatGPT版本。它对美国已验证的医师、具备高级临床资格的护士、执业助理和药剂师免费开放。同时,该公司发布了HealthBench Professional——一个新的临床AI任务基准测试。根据OpenAI的说法,GPT-5.4在该基准测试中表现优于人类医生。

一个难度很高的基准测试

HealthBench Professional衡量AI在三个临床领域的表现:咨询、写作与文档记录、医学研究。它建立在早期HealthBench的基础上,采用医生撰写的对话、多级医生评分机制以及针对性的数据筛选。

OpenAI表示,这个基准测试被刻意设计得具有挑战性。大约三分之一的示例来自有针对性的“红队测试”,即医生主动寻找模型弱点。最难的对话样本数量被放大了3.5倍。

在临床医生工作区中,GPT-5.4得分比基础版GPT-5.4高出约11分(59.0 vs. 48.1)。目前尚不清楚这种提升究竟来自临床环境设置本身,还是基准测试的设计方式。此外,基准测试分数并不一定直接反映真实临床实践中的效果。

99.6%的回答被评为可靠

这里有一个明显的方法论问题:OpenAI自己构建了基准测试,并用它来测试自己的模型。公司指出第三方评估如斯坦福大学的MedHELM和MedMarks也显示OpenAI模型排名靠前,且该基准测试和数据集都是公开可用的。

OpenAI表示,ChatGPT for Clinicians是与数百名医学顾问共同开发的。在发布前,医生们在日常临床工作中测试了6924次对话,据OpenAI健康部门的Karan Singhal称,其中99.6%的回答被评定为安全且准确。

在一个包含355个例子的子集中,三位独立医生各自指定了正确的参考来源,而ChatGPT for Clinicians引用这些来源的频率高于人类医生。截至目前,已有超过70万条模型回复经过医生审查。OpenAI强调,该工具旨在辅助临床医生,而非取代他们的判断。

临床搜索、可复用的工作流程和继续医学教育学分

据OpenAI称,面向医生的ChatGPT提供免费访问该公司最新的前沿模型,具备从数百万篇同行评审文献中实时获取引用信息的临床搜索功能,并支持深入的医学文献研究。

此外,该平台还引入了“技能”功能,使医务人员可以将重复性工作流程(如转诊信、事前授权或患者指导说明)转化为可复用模板。一个独特之处在于:在ChatGPT中完成的临床研究在美国可计入继续医学教育(CME)学分。

关于隐私问题,OpenAI表示对话内容不会用于模型训练。对于处理受保护健康信息的用户,可通过签署业务伙伴协议(BAA)实现可选的HIPAA合规。

目前仅限美国地区上线,全球推广计划已制定

面向医生的ChatGPT目前仅对已验证的美国医务人员开放。OpenAI计划扩展至国际范围,并正与Better Evidence Network合作开展海外试点项目。公司还发布了《健康蓝图》,提出负责任地将人工智能融入美国医疗体系的建议。

这一举措正值医学领域人工智能应用加速推进之际。美国医学会2026年的一项调查显示,72%的美国医生现在在临床实践中使用人工智能,较前一年的48%显著上升。OpenAI表示,全球已有数百万医务人员每周使用ChatGPT,过去一年的使用量翻了一番以上。

今年早些时候,OpenAI推出了面向机构的ChatGPT for Healthcare,为医疗机构提供机构级别的合规性和管理控制。Anthropic、微软和谷歌也都在各自推出医疗AI模型进入市场,其中谷歌尤其专注于通过DeepMind推动药物研发。

来源与参考

  1. 原始链接
  2. OpenAI says its new ChatGPT for Clinicians outperforms doctors on clinical tasks even when they have unlimited time and web access

收录于 2026-04-24