OpenAI新医疗版ChatGPT在临床任务中超越医生
The Decoder··作者 Matthias Bastian
关键信息
HealthBench Professional基准包含红队测试以提高难度,GPT-5.4比基础版本高11分;但该基准由OpenAI自建,实际临床表现可能与测试分数不同。
资讯摘要
OpenAI发布了专为美国医疗专业人员设计的免费AI助手'ChatGPT for Clinicians',并配套推出HealthBench Professional基准测试。在此测试中,GPT-5.4得分为59.0,优于拥有无限时间与网络访问权限的人类医生(得分43.7)。该基准通过红队策略和真实医生对话故意设难。
超过70万条回复经医生评审,99.6%被认定安全准确。功能包括实时临床搜索、可复用模板(如转诊信)、以及继续医学教育学分记录。OpenAI强调此工具旨在辅助而非替代医生。

资讯正文
OpenAI表示,其新推出的面向临床医生的ChatGPT在临床任务上表现优于医生,即使医生拥有无限时间和网络访问权限。
关键要点:
- OpenAI推出了“ChatGPT for Clinicians”,这是一个专为日常医疗实践设计的免费人工智能工具,仅对美国已验证的医疗专业人员开放。
- 该系统包含实时跨专科文献搜索功能、重复性工作流程模板,以及自动识别继续医学教育学分的功能。
- 随着该工具发布,OpenAI还公布了“HealthBench Professional”基准测试,其中定制版GPT-5.4得分达到59.0分,超过了人类医生的43.7分,即便这些医生拥有无限时间与互联网访问权限。
OpenAI正在推出面向临床医生的ChatGPT免费版本,一款专为医疗专业人士打造的聊天机器人。一项新的基准测试表明,GPT-5.4在临床任务上的表现优于人类医生,即使这些医生可以无限使用时间和网络。
OpenAI推出了一个专门为临床工作设计的ChatGPT版本。它对美国已验证的医师、具备高级临床资格的护士、执业助理和药剂师免费开放。同时,该公司发布了HealthBench Professional——一个新的临床AI任务基准测试。根据OpenAI的说法,GPT-5.4在该基准测试中表现优于人类医生。
一个难度很高的基准测试
HealthBench Professional衡量AI在三个临床领域的表现:咨询、写作与文档记录、医学研究。它建立在早期HealthBench的基础上,采用医生撰写的对话、多级医生评分机制以及针对性的数据筛选。
OpenAI表示,这个基准测试被刻意设计得具有挑战性。大约三分之一的示例来自有针对性的“红队测试”,即医生主动寻找模型弱点。最难的对话样本数量被放大了3.5倍。
在临床医生工作区中,GPT-5.4得分比基础版GPT-5.4高出约11分(59.0 vs. 48.1)。目前尚不清楚这种提升究竟来自临床环境设置本身,还是基准测试的设计方式。此外,基准测试分数并不一定直接反映真实临床实践中的效果。
99.6%的回答被评为可靠
这里有一个明显的方法论问题:OpenAI自己构建了基准测试,并用它来测试自己的模型。公司指出第三方评估如斯坦福大学的MedHELM和MedMarks也显示OpenAI模型排名靠前,且该基准测试和数据集都是公开可用的。
OpenAI表示,ChatGPT for Clinicians是与数百名医学顾问共同开发的。在发布前,医生们在日常临床工作中测试了6924次对话,据OpenAI健康部门的Karan Singhal称,其中99.6%的回答被评定为安全且准确。
在一个包含355个例子的子集中,三位独立医生各自指定了正确的参考来源,而ChatGPT for Clinicians引用这些来源的频率高于人类医生。截至目前,已有超过70万条模型回复经过医生审查。OpenAI强调,该工具旨在辅助临床医生,而非取代他们的判断。
临床搜索、可复用的工作流程和继续医学教育学分
据OpenAI称,面向医生的ChatGPT提供免费访问该公司最新的前沿模型,具备从数百万篇同行评审文献中实时获取引用信息的临床搜索功能,并支持深入的医学文献研究。
此外,该平台还引入了“技能”功能,使医务人员可以将重复性工作流程(如转诊信、事前授权或患者指导说明)转化为可复用模板。一个独特之处在于:在ChatGPT中完成的临床研究在美国可计入继续医学教育(CME)学分。
关于隐私问题,OpenAI表示对话内容不会用于模型训练。对于处理受保护健康信息的用户,可通过签署业务伙伴协议(BAA)实现可选的HIPAA合规。
目前仅限美国地区上线,全球推广计划已制定
面向医生的ChatGPT目前仅对已验证的美国医务人员开放。OpenAI计划扩展至国际范围,并正与Better Evidence Network合作开展海外试点项目。公司还发布了《健康蓝图》,提出负责任地将人工智能融入美国医疗体系的建议。
这一举措正值医学领域人工智能应用加速推进之际。美国医学会2026年的一项调查显示,72%的美国医生现在在临床实践中使用人工智能,较前一年的48%显著上升。OpenAI表示,全球已有数百万医务人员每周使用ChatGPT,过去一年的使用量翻了一番以上。
今年早些时候,OpenAI推出了面向机构的ChatGPT for Healthcare,为医疗机构提供机构级别的合规性和管理控制。Anthropic、微软和谷歌也都在各自推出医疗AI模型进入市场,其中谷歌尤其专注于通过DeepMind推动药物研发。
来源与参考
收录于 2026-04-24