Anthropic推出BioMysteryBench,显示Claude在生物信息学领域达到人类专家水平

The Decoder··作者 Maximilian Schreiner

关键信息

BioMysteryBench中的每个问题都基于真实数据集,并需通过验证笔记本证明信号确实存在,确保答案客观;模型可自由使用工具和数据库,但仅最终答案被评分。

资讯摘要

Anthropic开发了BioMysteryBench,以更真实地评估像Claude这样的AI模型在生物研究中的表现。与传统基准测试不同,后者只测试事实记忆或模拟实验环境,这个新基准使用来自专业人员的真实杂乱数据。在76个“人类可解”的任务中,Claude达到了专家水平;而在23个极其困难的任务中,它成功率为30%,但结果不稳定。

该模型经常结合多种分析策略并利用广泛知识,展现出一种新颖的问题解决方式。Genentech和Roche共同开发的CompBioBench也独立验证了这些结果,且该基准已公开发布在Hugging Face上供使用。

Anthropic推出BioMysteryBench,显示Claude在生物信息学领域达到人类专家水平

资讯正文

Anthropic的新基准声称Claude在生物信息学领域可媲美人类专家

Anthropic推出了BioMysteryBench基准,旨在证明Claude能够以专家水平解决真实的生物信息学问题。结果令人鼓舞,但也存在重要限制。

衡量AI模型在生物学研究中的实际表现十分困难。Anthropic指出,现有基准各有盲点:像MMLU-Pro或GPQA这样的知识测试仅评估事实性知识,而非实际科研能力;像BixBench这样使用真实数据集的基准,则是将模型与个别科学家的结论对比,而这些结论本身具有主观性,并受方法论选择影响;模拟实验室环境如SciGym虽然有明确答案,却无法反映真实生物数据的复杂性和混乱性。

因此,Anthropic开发了BioMysteryBench:包含99个跨多个生物信息学领域的题目,由专业人员编写,并基于真实且杂乱的数据集。其关键设计在于答案并非来自科学解释,而是源自数据本身的可控、客观可验证属性或独立验证过的元数据。每位出题者都必须提交一个验证笔记本,证明该信号确实存在于数据中。这种方法还使得可以提出人类可能无法解答的问题。

典型任务包括识别单细胞RNA测序数据来自哪个器官,或确定实验样本中被敲除的是哪个基因。Claude会获得一个包含生物信息学工具的容器、对NCBI和Ensembl等数据库的访问权限,并能自由选择自己的分析方法。只有最终答案会被评分,而不是达成答案的过程。

在可解问题上表现强劲,但难题仍具脆弱性

Anthropic将任务分为两组:76个被认为“人类可解”,因为至少五名专家中有至少一人找到了正确答案;另外23个问题则难倒了所有专家。另有四个原计划的问题因表述不当被移除。对于剩下的23个问题,Anthropic承认尚不清楚它们是否本质上不可解,还是仅仅极其困难。更大的专家团队或不同构成的专家小组是否能解决这些问题也仍是开放问题。

在可解问题上,Anthropic称Claude的表现已达到人类专家水平。

在无人能解的难题中,Claude Mythos Preview版本取得了30%的成功率。

然而,Anthropic让Claude Mythos Preview对自己进行了一次一致性分析,呈现出更细致的画面:每个任务尝试五次。在可解问题上,Claude几乎总是五次全对或全错;而在难题上,成功通常只出现在五次尝试中的一次或两次。这表明模型是偶然碰到了正确的解决路径,而非遵循可复现的策略。

Anthropic指出,有两种策略使Claude与人类测试者区分开来:该模型依托广泛的知识库,并将信息直接结合到其持续的分析中。当不确定时,Claude还会叠加多种方法,选择不同方法得出一致结果的那个答案。

独立验证来自CompBioBench,这是一个由基因泰克(Genentech)和罗氏(Roche)同期开发的类似基准测试,也显示出相近的结果。BioMysteryBench已上线Hugging Face平台。

AI新闻无夸大——由人类精选

来源与参考

  1. 原始链接
  2. Anthropic's new benchmark claims Claude can match human experts in bioinformatics

收录于 2026-05-01