AI模型在足球博彩中亏损，暴露现实推理能力短板

Ars Technica AI·4月11日 19:15 UTC·作者 Financial Times

关键信息

每个AI代理都获得了历史数据，并有三次机会最大化收益并管理风险；但没有一个能持续成功，有些甚至彻底失败——例如Grok曾破产一次，且无法完成另外两次尝试。

资讯摘要

General Reasoning对2023–24赛季英超联赛进行了模拟，使用了包括OpenAI的GPT系列、Anthropic的Claude Opus 4.6和xAI的Grok 4.20在内的八款领先AI模型。这些AI被要求基于球队数据、球员更新和比赛结果进行投注，且不能联网。尽管接受了海量数据训练，所有模型最终都亏损。

Grok表现最差，曾破产一次，另两次尝试也失败。Claude Opus最接近盈亏平衡，平均仅亏损11%。这表明即使最先进的AI也缺乏长期推理和适应能力，难以胜任如体育博彩这类需要现实世界预测的任务。

资讯正文

AI模型在足球投注上表现糟糕——尤其是xAI的Grok

谷歌、OpenAI和Anthropic的AI模型在英超联赛一个赛季中下注足球比赛时亏损，一项新研究显示，即使最先进的系统也难以长期分析现实世界。

由AI初创公司General Reasoning发布的“KellyBench”报告指出，AI在某些任务（如编写软件）中能力迅速提升，但在处理其他类型的人类问题时仍存在明显短板。

总部位于伦敦的General Reasoning测试了八款顶级AI系统，模拟2023–24赛季英超联赛，向它们提供每支球队和过往比赛的详细历史数据与统计信息。这些AI被要求构建能最大化收益并控制风险的模型。

随后，AI“代理”对比赛结果和进球数进行投注，以检验它们如何适应赛季进程中出现的新事件和更新的球员数据。

这些AI无法联网获取实时结果，且每款模型仅有三次机会尝试盈利。

Anthropic的Claude Opus 4.6表现最佳，平均亏损11%，其中一次几乎实现盈亏平衡。

xAI的Grok 4.20曾有一次破产，另两次未能完成任务。谷歌的Gemini 3.1 Pro虽然有一次实现了34%的盈利，但另一次也破产了。

来源与参考

收录于 2026-04-12