AI代理完成16%专业级自由职业任务
The Decoder··作者 Maximilian Schreiner
关键信息
RLI 涵盖 240 个项目,总价值 144,000 美元,来源于 358 名已验证自由职业者,任务包括 3D/CAD、建筑、平面设计、视频与动画、音频、数据分析和网页应用。Center for AI Safety 的人工评审会将结果与由付费专业人士制作的金标准对比,研究者还发现 AI 评审对结果打分过于宽松,无法替代人工审查。
资讯摘要
Remote Labor Index(RLI)旨在衡量 AI 代理完成真实自由职业任务并达到付费客户可接受质量的频率。与许多只关注孤立推理题的基准不同,RLI 覆盖的是具有商业价值的多种远程工作领域,包括 3D 和 CAD、建筑、平面设计、视频与动画、音频、数据分析以及网页应用。该基准包含 240 个项目,总价值 144,000 美元,任务来源于 358 名已验证自由职业者。Center for AI Safety 的人工评审会把模型结果与由付费专业人士制作的金标准进行对比。作者称,在不到八个月的时间里,最高自动化率从 2.5% 上升到 16.1%。
他们表示,这意味着提升幅度超过四倍,不过这种进步并不总是与模型发布时间线严格对应。文章还提到,较新的系统并不一定在该基准上表现更好,例如 Gemini 3 Pro 在排行榜上接近底部。研究中的案例也显示,即便是顶级模型,在真实工作中仍会出现明显错误,比如生成看似合理、但仔细检查后并不专业的设计或渲染。作者最终认为,AI 代理确实在快速进步,但大多数自由职业项目仍未达到专业质量。

来源与参考
收录于 2026-07-03