Topic

#ai-evaluation

按主题聚合的新闻视图。

主题:ai-evaluation

共 7 条

  1. New math benchmark reveals AI models confidently solve problems that have no solution

    The Decoder·

    New math benchmark reveals AI models confidently solve problems that have no solution

    A new benchmark called SOOHAK tests frontier AI models on graduate-level math and their ability to detect unsolvable or contradictory problems.

  2. Forum AI 评测高风险问题回答

    TechCrunch AI·

    Forum AI 评测高风险问题回答

    前 Meta 新闻主管 Campbell Brown 正在创办 Forum AI,用来评测基础模型在地缘政治、心理健康、金融和招聘等高风险、复杂议题上的表现。Forum AI 采用专家设计的评测标准和 AI 裁判进行规模化测试,Brown 表示该系统与人类专家的共识度已经可以达到约 90%。

  3. Claude Mythos 突破评测上限,安全警告升温

    The Decoder·

    Claude Mythos 突破评测上限,安全警告升温

    METR 表示,Claude Mythos Preview 的早期版本已经触及其现有评测方法的上限,50% 成功时间跨度至少达到 16 小时。与此同时,Palo Alto Networks 警告称,像 Mythos 这样的前沿模型正越来越像自主攻击者,开始参与进攻性网络安全工作流。

  4. AI评估成本已与训练费用相当

    Hugging Face Blog·

    AI评估成本已与训练费用相当

    AI评估已成为一个重大财务和计算瓶颈,例如HAL基准测试花费4万美元完成21,730次代理运行,而GAIA单次前沿模型运行可达2,829美元。基于代理的评估因依赖支架且需重复运行,比静态LLM基准测试昂贵得多。

  5. 500位投资银行家评审AI输出:无一达到客户交付标准

    The Decoder·

    500位投资银行家评审AI输出:无一达到客户交付标准

    一项名为BankerToolBench的新基准测试了九款顶级AI模型在真实投资银行任务中的表现,发现没有任何一款模型可以直接用于客户交付,尽管许多银行家愿意将其作为起点使用。

  6. 谷歌研究发现AI基准测试忽视人类分歧

    The Decoder·

    谷歌研究发现AI基准测试忽视人类分歧

    谷歌主导的一项研究表明,当前的AI基准测试通常每条数据仅使用三到五名人类评估者,这不足以捕捉人类意见的真实多样性;研究人员建议每条数据至少需要十名评估者才能获得可靠结果。

  7. AI基准测试已失效——我们需要什么替代方案

    MIT Technology Review AI·

    AI基准测试已失效——我们需要什么替代方案

    文章指出,当前的AI基准测试是在孤立环境中评估模型,而非它们实际部署时的协作环境。作者提出了一种名为HAIC(人机情境特定评估)的新框架,用于在人类团队和组织流程中长期评估AI表现。