OpenAI新医疗版ChatGPT在临床任务中超越医生

The Decoder·4月23日 18:21 UTC·作者 Matthias Bastian

关键信息

HealthBench Professional基准包含红队测试以提高难度，GPT-5.4比基础版本高11分；但该基准由OpenAI自建，实际临床表现可能与测试分数不同。

资讯摘要

OpenAI发布了专为美国医疗专业人员设计的免费AI助手'ChatGPT for Clinicians'，并配套推出HealthBench Professional基准测试。在此测试中，GPT-5.4得分为59.0，优于拥有无限时间与网络访问权限的人类医生（得分43.7）。该基准通过红队策略和真实医生对话故意设难。

超过70万条回复经医生评审，99.6%被认定安全准确。功能包括实时临床搜索、可复用模板（如转诊信）、以及继续医学教育学分记录。OpenAI强调此工具旨在辅助而非替代医生。

资讯正文

OpenAI表示，其新推出的面向临床医生的ChatGPT在临床任务上表现优于医生，即使医生拥有无限时间和网络访问权限。

关键要点：

- OpenAI推出了“ChatGPT for Clinicians”，这是一个专为日常医疗实践设计的免费人工智能工具，仅对美国已验证的医疗专业人员开放。

- 该系统包含实时跨专科文献搜索功能、重复性工作流程模板，以及自动识别继续医学教育学分的功能。

- 随着该工具发布，OpenAI还公布了“HealthBench Professional”基准测试，其中定制版GPT-5.4得分达到59.0分，超过了人类医生的43.7分，即便这些医生拥有无限时间与互联网访问权限。

OpenAI正在推出面向临床医生的ChatGPT免费版本，一款专为医疗专业人士打造的聊天机器人。一项新的基准测试表明，GPT-5.4在临床任务上的表现优于人类医生，即使这些医生可以无限使用时间和网络。

OpenAI推出了一个专门为临床工作设计的ChatGPT版本。它对美国已验证的医师、具备高级临床资格的护士、执业助理和药剂师免费开放。同时，该公司发布了HealthBench Professional——一个新的临床AI任务基准测试。根据OpenAI的说法，GPT-5.4在该基准测试中表现优于人类医生。

一个难度很高的基准测试

HealthBench Professional衡量AI在三个临床领域的表现：咨询、写作与文档记录、医学研究。它建立在早期HealthBench的基础上，采用医生撰写的对话、多级医生评分机制以及针对性的数据筛选。

OpenAI表示，这个基准测试被刻意设计得具有挑战性。大约三分之一的示例来自有针对性的“红队测试”，即医生主动寻找模型弱点。最难的对话样本数量被放大了3.5倍。

在临床医生工作区中，GPT-5.4得分比基础版GPT-5.4高出约11分（59.0 vs. 48.1）。目前尚不清楚这种提升究竟来自临床环境设置本身，还是基准测试的设计方式。此外，基准测试分数并不一定直接反映真实临床实践中的效果。

99.6%的回答被评为可靠

这里有一个明显的方法论问题：OpenAI自己构建了基准测试，并用它来测试自己的模型。公司指出第三方评估如斯坦福大学的MedHELM和MedMarks也显示OpenAI模型排名靠前，且该基准测试和数据集都是公开可用的。

OpenAI表示，ChatGPT for Clinicians是与数百名医学顾问共同开发的。在发布前，医生们在日常临床工作中测试了6924次对话，据OpenAI健康部门的Karan Singhal称，其中99.6%的回答被评定为安全且准确。

在一个包含355个例子的子集中，三位独立医生各自指定了正确的参考来源，而ChatGPT for Clinicians引用这些来源的频率高于人类医生。截至目前，已有超过70万条模型回复经过医生审查。OpenAI强调，该工具旨在辅助临床医生，而非取代他们的判断。

临床搜索、可复用的工作流程和继续医学教育学分

据OpenAI称，面向医生的ChatGPT提供免费访问该公司最新的前沿模型，具备从数百万篇同行评审文献中实时获取引用信息的临床搜索功能，并支持深入的医学文献研究。

此外，该平台还引入了“技能”功能，使医务人员可以将重复性工作流程（如转诊信、事前授权或患者指导说明）转化为可复用模板。一个独特之处在于：在ChatGPT中完成的临床研究在美国可计入继续医学教育（CME）学分。

关于隐私问题，OpenAI表示对话内容不会用于模型训练。对于处理受保护健康信息的用户，可通过签署业务伙伴协议（BAA）实现可选的HIPAA合规。

目前仅限美国地区上线，全球推广计划已制定

面向医生的ChatGPT目前仅对已验证的美国医务人员开放。OpenAI计划扩展至国际范围，并正与Better Evidence Network合作开展海外试点项目。公司还发布了《健康蓝图》，提出负责任地将人工智能融入美国医疗体系的建议。

这一举措正值医学领域人工智能应用加速推进之际。美国医学会2026年的一项调查显示，72%的美国医生现在在临床实践中使用人工智能，较前一年的48%显著上升。OpenAI表示，全球已有数百万医务人员每周使用ChatGPT，过去一年的使用量翻了一番以上。

今年早些时候，OpenAI推出了面向机构的ChatGPT for Healthcare，为医疗机构提供机构级别的合规性和管理控制。Anthropic、微软和谷歌也都在各自推出医疗AI模型进入市场，其中谷歌尤其专注于通过DeepMind推动药物研发。

来源与参考

收录于 2026-04-24