OpenAI 推出 LifeSciBench

OpenAI News·6月17日 08:00 UTC·作者 OpenAI News

关键信息

该基准被描述为由专家撰写并由专家审核，这意味着它更强调领域有效性和实际可用性。搜索结果还显示，它涵盖的工作流领域包括证据处理、分析、设计与优化、科学推理、验证与运营，以及转化与沟通。

资讯摘要

OpenAI 宣布推出 LifeSciBench，这是一项用于评估 AI 系统在真实世界生命科学研究任务和决策中表现的新基准。该基准明确强调由专家撰写并由专家审核，说明它试图把评估建立在生命科学专业人士真正会做出的判断之上。与抽象或玩具式任务不同，它面向的是实际的科研工作流。根据搜索结果，这个基准覆盖六个方面：证据处理、分析、设计与优化、科学推理、验证与运营，以及转化与沟通。

这种覆盖范围表明，它要测试的不只是简单问答能力。它的目标是了解 AI 是否能够在生物技术和药物发现等场景中支持复杂科研工作。这一发布也属于更大的趋势，即出现越来越多专门化基准，用来衡量模型在真实世界中的实用价值，而不只是通用能力。由于没有提供社区讨论内容，因此没有可总结的争议或共识。

资讯正文

介绍 LifeSciBench：一个由专家撰写、经专家审阅的基准测试，用于评估 AI 系统如何处理真实世界中的生命科学研究任务和决策。

来源与参考

收录于 2026-06-18