Topic

#ai-evaluation

按主题聚合的新闻视图。

Topic Feed

主题：ai-evaluation

共 11 条

Hugging Face Blog·6月30日 08:00 UTC
Hugging Face 增加社区 AI 评测结果
Hugging Face 和 EvalEval 联盟正在推出一套系统，把社区评测结果标准化并直接展示在模型页和基准页上。新机制把 EvalEval 的 JSON 报告格式与 Hugging Face Community Evals 打通，使结果能够更一致地发布、聚合和归因。
#ai-evaluation评分 8.0
TechCrunch AI·6月30日 01:39 UTC
Arena年化收入达1亿美元
Arena 这项最初源自加州大学伯克利分校研究项目的众包 AI 模型排行榜，称其在推出商业服务仅八个月后，年化运行收入已达到 1 亿美元。公司于 9 月推出的商业产品 AI Evaluations 面向模型实验室和企业提供深度性能分析，并开始带来收入。
#ai-evaluation评分 8.0
TechCrunch AI·6月3日 03:02 UTC
微软 ASSERT 简化 AI 行为测试
微软推出了 ASSERT，这是一套开源框架，可以把对 AI 期望行为的自然语言描述转换成结构化的评估和回归测试。微软表示，它能够生成场景、在目标系统上运行测试，并自动给出评分。
#ai-evaluation评分 7.0
The Decoder·5月25日 15:30 UTC
CiteVQA揭示AI答对却引错源
北京大学和上海人工智能实验室的研究人员提出了 CiteVQA 基准，用来测试 AI 模型能否在正确回答文档问题的同时，给出准确的证据来源。论文把这种“答案对但引用错”的现象称为“归因幻觉”。
#ai-evaluation评分 7.0
The Decoder·5月17日 16:56 UTC
New math benchmark reveals AI models confidently solve problems that have no solution
A new benchmark called SOOHAK tests frontier AI models on graduate-level math and their ability to detect unsolvable or contradictory problems.
#ai-evaluation评分 8.0
TechCrunch AI·5月14日 14:05 UTC
Forum AI 评测高风险问题回答
前 Meta 新闻主管 Campbell Brown 正在创办 Forum AI，用来评测基础模型在地缘政治、心理健康、金融和招聘等高风险、复杂议题上的表现。Forum AI 采用专家设计的评测标准和 AI 裁判进行规模化测试，Brown 表示该系统与人类专家的共识度已经可以达到约 90%。
#ai-evaluation评分 7.0
The Decoder·5月10日 17:25 UTC
Claude Mythos 突破评测上限，安全警告升温
METR 表示，Claude Mythos Preview 的早期版本已经触及其现有评测方法的上限，50% 成功时间跨度至少达到 16 小时。与此同时，Palo Alto Networks 警告称，像 Mythos 这样的前沿模型正越来越像自主攻击者，开始参与进攻性网络安全工作流。
#ai-evaluation评分 8.0
Hugging Face Blog·4月30日 00:45 UTC
AI评估成本已与训练费用相当
AI评估已成为一个重大财务和计算瓶颈，例如HAL基准测试花费4万美元完成21,730次代理运行，而GAIA单次前沿模型运行可达2,829美元。基于代理的评估因依赖支架且需重复运行，比静态LLM基准测试昂贵得多。
#ai-evaluation评分 9.0
The Decoder·4月26日 17:18 UTC
500位投资银行家评审AI输出：无一达到客户交付标准
一项名为BankerToolBench的新基准测试了九款顶级AI模型在真实投资银行任务中的表现，发现没有任何一款模型可以直接用于客户交付，尽管许多银行家愿意将其作为起点使用。
#ai-evaluation评分 9.0
The Decoder·4月5日 16:31 UTC
谷歌研究发现AI基准测试忽视人类分歧
谷歌主导的一项研究表明，当前的AI基准测试通常每条数据仅使用三到五名人类评估者，这不足以捕捉人类意见的真实多样性；研究人员建议每条数据至少需要十名评估者才能获得可靠结果。
#ai-evaluation评分 9.0
MIT Technology Review AI·3月31日 20:01 UTC
AI基准测试已失效——我们需要什么替代方案
文章指出，当前的AI基准测试是在孤立环境中评估模型，而非它们实际部署时的协作环境。作者提出了一种名为HAIC（人机情境特定评估）的新框架，用于在人类团队和组织流程中长期评估AI表现。
#ai-evaluation评分 9.0