Topic
#ai-evaluation
按主题聚合的新闻视图。
Topic Feed
主题:ai-evaluation
共 11 条

Hugging Face 增加社区 AI 评测结果
Hugging Face 和 EvalEval 联盟正在推出一套系统,把社区评测结果标准化并直接展示在模型页和基准页上。新机制把 EvalEval 的 JSON 报告格式与 Hugging Face Community Evals 打通,使结果能够更一致地发布、聚合和归因。

Arena年化收入达1亿美元
Arena 这项最初源自加州大学伯克利分校研究项目的众包 AI 模型排行榜,称其在推出商业服务仅八个月后,年化运行收入已达到 1 亿美元。公司于 9 月推出的商业产品 AI Evaluations 面向模型实验室和企业提供深度性能分析,并开始带来收入。

微软 ASSERT 简化 AI 行为测试
微软推出了 ASSERT,这是一套开源框架,可以把对 AI 期望行为的自然语言描述转换成结构化的评估和回归测试。微软表示,它能够生成场景、在目标系统上运行测试,并自动给出评分。

CiteVQA揭示AI答对却引错源
北京大学和上海人工智能实验室的研究人员提出了 CiteVQA 基准,用来测试 AI 模型能否在正确回答文档问题的同时,给出准确的证据来源。论文把这种“答案对但引用错”的现象称为“归因幻觉”。

New math benchmark reveals AI models confidently solve problems that have no solution
A new benchmark called SOOHAK tests frontier AI models on graduate-level math and their ability to detect unsolvable or contradictory problems.

Forum AI 评测高风险问题回答
前 Meta 新闻主管 Campbell Brown 正在创办 Forum AI,用来评测基础模型在地缘政治、心理健康、金融和招聘等高风险、复杂议题上的表现。Forum AI 采用专家设计的评测标准和 AI 裁判进行规模化测试,Brown 表示该系统与人类专家的共识度已经可以达到约 90%。

Claude Mythos 突破评测上限,安全警告升温
METR 表示,Claude Mythos Preview 的早期版本已经触及其现有评测方法的上限,50% 成功时间跨度至少达到 16 小时。与此同时,Palo Alto Networks 警告称,像 Mythos 这样的前沿模型正越来越像自主攻击者,开始参与进攻性网络安全工作流。

AI评估成本已与训练费用相当
AI评估已成为一个重大财务和计算瓶颈,例如HAL基准测试花费4万美元完成21,730次代理运行,而GAIA单次前沿模型运行可达2,829美元。基于代理的评估因依赖支架且需重复运行,比静态LLM基准测试昂贵得多。

500位投资银行家评审AI输出:无一达到客户交付标准
一项名为BankerToolBench的新基准测试了九款顶级AI模型在真实投资银行任务中的表现,发现没有任何一款模型可以直接用于客户交付,尽管许多银行家愿意将其作为起点使用。

谷歌研究发现AI基准测试忽视人类分歧
谷歌主导的一项研究表明,当前的AI基准测试通常每条数据仅使用三到五名人类评估者,这不足以捕捉人类意见的真实多样性;研究人员建议每条数据至少需要十名评估者才能获得可靠结果。

AI基准测试已失效——我们需要什么替代方案
文章指出,当前的AI基准测试是在孤立环境中评估模型,而非它们实际部署时的协作环境。作者提出了一种名为HAIC(人机情境特定评估)的新框架,用于在人类团队和组织流程中长期评估AI表现。