AI代理完成16%专业级自由职业任务

The Decoder·7月2日 20:37 UTC·作者 Maximilian Schreiner

关键信息

RLI 涵盖 240 个项目，总价值 144,000 美元，来源于 358 名已验证自由职业者，任务包括 3D/CAD、建筑、平面设计、视频与动画、音频、数据分析和网页应用。Center for AI Safety 的人工评审会将结果与由付费专业人士制作的金标准对比，研究者还发现 AI 评审对结果打分过于宽松，无法替代人工审查。

资讯摘要

Remote Labor Index（RLI）旨在衡量 AI 代理完成真实自由职业任务并达到付费客户可接受质量的频率。与许多只关注孤立推理题的基准不同，RLI 覆盖的是具有商业价值的多种远程工作领域，包括 3D 和 CAD、建筑、平面设计、视频与动画、音频、数据分析以及网页应用。该基准包含 240 个项目，总价值 144,000 美元，任务来源于 358 名已验证自由职业者。Center for AI Safety 的人工评审会把模型结果与由付费专业人士制作的金标准进行对比。作者称，在不到八个月的时间里，最高自动化率从 2.5% 上升到 16.1%。

他们表示，这意味着提升幅度超过四倍，不过这种进步并不总是与模型发布时间线严格对应。文章还提到，较新的系统并不一定在该基准上表现更好，例如 Gemini 3 Pro 在排行榜上接近底部。研究中的案例也显示，即便是顶级模型，在真实工作中仍会出现明显错误，比如生成看似合理、但仔细检查后并不专业的设计或渲染。作者最终认为，AI 代理确实在快速进步，但大多数自由职业项目仍未达到专业质量。

来源与参考

收录于 2026-07-03