Topic

#ai-benchmarks

按主题聚合的新闻视图。

主题:ai-benchmarks

共 1 条

  1. ITBench-AA 评估企业 IT 代理性能

    Hugging Face Blog·

    ITBench-AA 评估企业 IT 代理性能

    Artificial Analysis 和 IBM Software Innovation Lab 推出了 ITBench-AA,这是一个用于评估企业 IT 代理任务的新基准系列。首个站点可靠性工程(SRE)评测中,前沿模型全部低于 50%,其中 Claude Opus 4.7 以 47% 领先。