Fable 5创下新的自由职业AI基准

ZDNET AI·7月3日 04:29 UTC·作者 Radhika Rajkumar

关键信息

CAIS 表示，RLI 评估的是 AI 能否以付费客户可接受的质量完成真实且有经济价值的自由职业项目，任务包括 3D 效果图、视频广告、平面图、设计和数据分析等。CAIS 还表示，尝试用 LLM 作为裁判失败了，而且测试因 Fable 5 在 6 月中旬被关闭而提前中止，不过即便按缺失项目的最坏情况计算，它仍会保持领先。

资讯摘要

Anthropic 的 Fable 5 在 6 月 30 日获得美国政府重新授权后再次受到关注，而 CAIS 的基准测试结果显示，它目前可能是远程劳动任务上表现最强的 AI 模型。在该模型被下线之前，CAIS 用 Remote Labor Index 对它进行了测试；这个基准于 2025 年 10 月发布，旨在衡量 AI 代理能在多大程度上完成真实的自由职业工作，并达到付费客户可以接受的质量。该基准涵盖计算机辅助设计、平面设计、数据分析、视频制作等自由职业式项目。在测试中，CAIS 会向模型提供人类生成的输入文件，以模拟自由职业者拿到客户材料后的工作起点，而不是从零开始。 Fable 5 的自动化率达到 16.1%，CAIS 称这是该基准的最高纪录。

这一成绩大约是 Opus 4.8 的 8.3% 的两倍，也明显高于 GPT-5.5 的 6.3%。 CAIS 指出，这三个模型都是他们迄今测试过的最佳模型，但 Fable 5 仍然明显领先。研究人员还表示，过去不到八个月里，该领域的能力提升超过了四倍，从此前公开的领先成绩 4.17% 和最初 2.5% 的上限一路上升。不过，CAIS 也强调，16.1% 远远不足以让 AI 在整体上取代人类自由职业者。他们还尝试用一个 LLM 评审来替代人工评估者，但最终失败，因为对交付物进行准确评判本身也是一项很难的智能体任务。

资讯正文

ZDNET 的要点：

Fable 5 将 AI 在远程任务上的成功率提升到了 16%。AI 能力仍然参差不齐。不过，CAIS 表示，智能体技能在“不到八个月内增长了四倍”。

在短暂休整之后，Anthropic 备受推崇的 Fable 5 模型回来了，并且正在重新设定工作自动化的基准。美国政府于 6 月 30 日重新授权了该模型——Anthropic 表示，它与 Mythos 5 具有相似的能力；后者目前仍只供少数组织使用——但在被下架之前，人工智能安全中心（Center for AI Safety，CAIS）已经在其 Remote Labor Index（RLI）上测试了 Fable 5。RLI 于 2025 年 10 月发布。Fable 5 的表现远超 Anthropic 的 Opus 4.8 和 OpenAI 的 GPT-5.5，这两款模型都相对较新，并被认为相当出色。

还有：如何战胜 AI 算法，拿到梦想中的工作

CAIS 在研究中解释说，RLI 衡量的是“AI 智能体完成真实、具有经济价值的自由职业项目的频率……以及其成果达到付费客户实际会接受的质量的程度”。这些项目可能包括计算机辅助设计和平面设计、数据分析、视频制作等。和其他类似的人类能力测试一样，模型生成的每一项交付成果都会由人类按照专业标准交付物进行评估。最终得出的自动化率反映了这样一类项目的分布：评估者认为 AI 产出的成果与人类专业作品一样好，甚至更好。

CAIS 让 Fable 5、GPT-5.5 和 Opus 4.8 完成了多项测试，包括设计一枚订婚戒指的 3D 效果图、制作视频广告、绘制平面图等。研究人员为每个模型提供了人类生成的输入文件作为起点，类似于你在把相关文件和信息交给一名人类自由职业者开始工作前所做的准备。

还有：Anthropic 的 Mythos 正以超出预期的速度演进，AI 安全机构称

研究人员说：“即使按最坏情况假设 Fable 5 漏掉的所有项目都算失败，其自动化率仍将达到 14.6%，高于任何其他模型。”

这对自由职业者意味着什么

虽然 AI 模型在短短几个月内的加速发展很显著，但这并不自动意味着自由职业工作会在各个方面被替代或大规模流失。16% 当然还远远不是 100%。

此外，尽管 AI 取得了可观进展，但它并不是适用于每个组织的完美解决方案；安全顾虑和其他采纳障碍往往会让多数公司在整合 AI 工具时，至少在一开始，就面临缓慢而多步骤的流程。要想完全取代人类自由职业者，组织大概需要一个由多个代理组成的网络，去核查工作质量、预算和时间表等要素；这种权衡并不是一对一的。

CAIS 尝试用一个“LLM 法官”来取代人类评估者，表面上是想看看这项实验在多大程度上能够摆脱“人类在环”，但模型失败了。“对一项 RLI 交付成果进行评估，本身就是一项要求很高、需要代理能力的任务，”CAIS 解释道。“要把这件事做好，就意味着要在合适的专业应用程序中打开项目文件，熟练操作这些应用程序，并像客户那样形成判断，这正是当今代理最薄弱的电脑使用技能。”

话虽如此，能力的提升可能会缩减某些已成功将 AI 融入工作流程的公司的部分自由职业机会。此外，如果电脑使用能力是当前的限制，而且随着业界持续投入越来越具代理能力的模型，这一能力有望提升，那么这道障碍最终也可能消失。按模型在衡量代理技能的其他基准上不断改进的速度来看，这一切可能比我们想象的来得更早。

说到时间：CAIS 还发现，当一项任务对人类来说耗时更长时，并不一定意味着 AI 完成它会更困难。例如，这种时间跨度分析对编程成立，但对 RLI 所衡量的更广泛远程任务类型则不成立。就目前而言，很难据此对未来下结论。“一些对熟练专业人士而言很快完成的工作，AI 仍无法触及，例如音乐转录或实时游戏测试；而另一些人类需要花数小时才能完成的工作，例如数字艺术或编程，则已被当前模型在几分钟内完成，”CAIS 写道。

来源与参考

收录于 2026-07-03