Topic
#ai-benchmarks
按主题聚合的新闻视图。
Topic Feed
主题:ai-benchmarks
共 1 条

ITBench-AA 评估企业 IT 代理性能
Artificial Analysis 和 IBM Software Innovation Lab 推出了 ITBench-AA,这是一个用于评估企业 IT 代理任务的新基准系列。首个站点可靠性工程(SRE)评测中,前沿模型全部低于 50%,其中 Claude Opus 4.7 以 47% 领先。
Topic
按主题聚合的新闻视图。
Topic Feed
共 1 条

Artificial Analysis 和 IBM Software Innovation Lab 推出了 ITBench-AA,这是一个用于评估企业 IT 代理任务的新基准系列。首个站点可靠性工程(SRE)评测中,前沿模型全部低于 50%,其中 Claude Opus 4.7 以 47% 领先。