AI模型在足球博彩中亏损,暴露现实推理能力短板

Ars Technica AI··作者 Financial Times

关键信息

每个AI代理都获得了历史数据,并有三次机会最大化收益并管理风险;但没有一个能持续成功,有些甚至彻底失败——例如Grok曾破产一次,且无法完成另外两次尝试。

资讯摘要

General Reasoning对2023–24赛季英超联赛进行了模拟,使用了包括OpenAI的GPT系列、Anthropic的Claude Opus 4.6和xAI的Grok 4.20在内的八款领先AI模型。这些AI被要求基于球队数据、球员更新和比赛结果进行投注,且不能联网。尽管接受了海量数据训练,所有模型最终都亏损。

Grok表现最差,曾破产一次,另两次尝试也失败。Claude Opus最接近盈亏平衡,平均仅亏损11%。这表明即使最先进的AI也缺乏长期推理和适应能力,难以胜任如体育博彩这类需要现实世界预测的任务。

AI模型在足球博彩中亏损,暴露现实推理能力短板

资讯正文

AI模型在足球投注上表现糟糕——尤其是xAI的Grok

谷歌、OpenAI和Anthropic的AI模型在英超联赛一个赛季中下注足球比赛时亏损,一项新研究显示,即使最先进的系统也难以长期分析现实世界。

由AI初创公司General Reasoning发布的“KellyBench”报告指出,AI在某些任务(如编写软件)中能力迅速提升,但在处理其他类型的人类问题时仍存在明显短板。

总部位于伦敦的General Reasoning测试了八款顶级AI系统,模拟2023–24赛季英超联赛,向它们提供每支球队和过往比赛的详细历史数据与统计信息。这些AI被要求构建能最大化收益并控制风险的模型。

随后,AI“代理”对比赛结果和进球数进行投注,以检验它们如何适应赛季进程中出现的新事件和更新的球员数据。

这些AI无法联网获取实时结果,且每款模型仅有三次机会尝试盈利。

Anthropic的Claude Opus 4.6表现最佳,平均亏损11%,其中一次几乎实现盈亏平衡。

xAI的Grok 4.20曾有一次破产,另两次未能完成任务。谷歌的Gemini 3.1 Pro虽然有一次实现了34%的盈利,但另一次也破产了。

来源与参考

  1. 原始链接
  2. AI models are terrible at betting on soccer—especially xAI Grok

收录于 2026-04-12