OpenAI发布生物学专用大语言模型GPT-Rosalind

Ars Technica AI·4月17日 05:17 UTC·作者 John Timmer

关键信息

该模型经过调整以更具批判性，减少对药物靶点可行性的过度自信。出于安全顾虑（如被用于优化病毒传染性），目前仅限美国实体申请使用。

资讯摘要

OpenAI推出了以罗莎琳德·富兰克林命名的GPT-Rosalind，这是一个专注于生物学的大语言模型，基于50种常见的生命科学工作流程和主要公共数据库进行训练。它旨在帮助因基因组数据庞大而困扰的研究人员，以及应对神经生物学等子领域中的专业术语难题。该模型能根据已知通路推断蛋白质结构与功能关系，并优先筛选潜在药物靶点。

OpenAI强调其‘推理’能力——可处理多步骤任务——及在基准测试中的‘专家级’表现。但幻觉问题仍未解决，且出于防止滥用（如优化病毒传染性）考虑，访问权限目前仅限可信的美国用户。一个基础的生物科研插件将向所有人开放。

资讯正文

OpenAI开始提供专为生物学优化的大语言模型

周四，OpenAI宣布开发出一款专门针对常见生物学工作流程训练的大型语言模型。该模型以罗莎琳德·弗兰克林（Rosalind Franklin）命名，称为GPT-Rosalind，与多数科技巨头推出的通用型科学类模型不同，后者通常适用于多个领域。

在一场新闻简报会上，OpenAI生命科学产品负责人王云云表示，该系统旨在解决当前生物学家面临的两大难题：一是数十年基因测序和蛋白质生化研究产生的海量数据，单个研究人员难以消化；二是生物学包含许多高度专业化的子领域，每个领域都有独特的技术和术语。例如，一名遗传学家若被要求研究一种在脑细胞中活跃的基因，可能很难理解庞大的神经生物学文献。

王云云表示，公司对一个大语言模型进行了训练，涵盖50种最常见的生物学工作流程，以及如何访问主要的公共生物信息数据库。进一步训练后，系统能够建议可能的生物通路并优先筛选潜在药物靶点。“我们正在通过已知的通路和调控机制，将基因型与表型联系起来，推断蛋白质可能的结构或功能特性，并真正利用这种机制性理解，”她说。

为了应对大语言模型容易表现出阿谀奉承和过度乐观的问题，OpenAI表示已对该模型进行调优，使其更具批判性，更有可能告诉你某个靶点是否是个糟糕的药物候选。关于GPT-Rosalind的“推理”能力和“专家级”表现，有大量讨论。据称，“推理”能力是指能处理复杂的多步骤过程，而“专家级”则是基于其在少量基准测试中的表现得出。

目前尚不清楚OpenAI是否解决了困扰各类大语言模型的幻觉问题——即当系统被要求解释其得出结论的过程时，也可能出现错误信息。根据以往经验，我们可能会看到一些关于AI发现意外关联的积极报道，同时也可能遇到明显错误的建议实例。

不过，出于对模型可能产生有害输出的担忧（比如被要求优化病毒传染性），OpenAI目前限制了访问权限。现阶段只有美国实体可以申请加入OpenAI的受信任访问部署体系，且公司将控制谁可以使用它。一个功能受限的生命科学研究插件将向公众开放。

如上所述，其他多家公司也推出了面向科学领域的代理型大语言模型，但它们的专注度远不如GPT-Rosalind这样聚焦于生物学。在我们开始听到关于这款新模型实际效果的报告之前，很难判断这种专注是否提升了它的实用性。

3. 火山号的问题将‘绝对’成为五角大楼下一轮火箭竞赛中的一个因素。

4. “TotalRecall Reloaded”工具找到了一条进入Windows 11 Recall数据库的侧门。

5. 争夺沙克尔顿陨石坑的比赛已经展开——杰夫·贝索斯还是中国会率先抵达？

来源与参考

收录于 2026-04-17