Topic
#ai-evaluation
按主题聚合的新闻视图。
Topic Feed
主题:ai-evaluation
共 7 条

New math benchmark reveals AI models confidently solve problems that have no solution
A new benchmark called SOOHAK tests frontier AI models on graduate-level math and their ability to detect unsolvable or contradictory problems.

Forum AI 评测高风险问题回答
前 Meta 新闻主管 Campbell Brown 正在创办 Forum AI,用来评测基础模型在地缘政治、心理健康、金融和招聘等高风险、复杂议题上的表现。Forum AI 采用专家设计的评测标准和 AI 裁判进行规模化测试,Brown 表示该系统与人类专家的共识度已经可以达到约 90%。

Claude Mythos 突破评测上限,安全警告升温
METR 表示,Claude Mythos Preview 的早期版本已经触及其现有评测方法的上限,50% 成功时间跨度至少达到 16 小时。与此同时,Palo Alto Networks 警告称,像 Mythos 这样的前沿模型正越来越像自主攻击者,开始参与进攻性网络安全工作流。

AI评估成本已与训练费用相当
AI评估已成为一个重大财务和计算瓶颈,例如HAL基准测试花费4万美元完成21,730次代理运行,而GAIA单次前沿模型运行可达2,829美元。基于代理的评估因依赖支架且需重复运行,比静态LLM基准测试昂贵得多。

500位投资银行家评审AI输出:无一达到客户交付标准
一项名为BankerToolBench的新基准测试了九款顶级AI模型在真实投资银行任务中的表现,发现没有任何一款模型可以直接用于客户交付,尽管许多银行家愿意将其作为起点使用。

谷歌研究发现AI基准测试忽视人类分歧
谷歌主导的一项研究表明,当前的AI基准测试通常每条数据仅使用三到五名人类评估者,这不足以捕捉人类意见的真实多样性;研究人员建议每条数据至少需要十名评估者才能获得可靠结果。

AI基准测试已失效——我们需要什么替代方案
文章指出,当前的AI基准测试是在孤立环境中评估模型,而非它们实际部署时的协作环境。作者提出了一种名为HAIC(人机情境特定评估)的新框架,用于在人类团队和组织流程中长期评估AI表现。