桥水微调开源模型胜过GPT和Claude

The Decoder··作者 Maximilian Schreiner

关键信息

报告描述了六项投资者式任务,例如判断一篇金融文章是否与高管相关,或一份央行文件是否预示未来利率变化。作者称,使用基础提示时,GPT、Claude 和 Gemini 的准确率大约只有 50%,即便加入更强的指令,也只能提升到 70% 多一点,低于他们设定的 80% 部署门槛。

资讯摘要

桥水和 Thinking Machines Lab 报告称,他们训练出一个用于金融文档分析的开源权重 AI 模型,并且在内部评测中优于领先的商业系统。这个项目关注的不是更快地阅读文件,而是自动化投资者日常工作中反复进行的判断:哪些信息真正重要。为模拟这一工作流,研究人员定义了六项实际任务,包括判断一篇金融文章是否值得高管关注,以及解读央行文件是否暗示未来利率方向。报告还举例说明,表面相似的标题在金融语境中可能有完全不同的重要性,因为它们对市场的直接影响不同。第一轮测试中,Gemini、Claude 和 GPT 等前沿模型在基础提示下的准确率只有大约 50%。

即便加入更详细的指令和三级相关性分类,成绩也只提升到 70% 多一点,仍低于团队设定的 80% 可信部署门槛。随后,研究人员使用桥水的专有样本对 Qwen3-235B 进行微调。由于廉价外包标注存在较多噪声,他们还采用了模型辅助复核流程,把有争议的样本交给投资专家修正。根据报告,微调后的模型准确率达到 84.7%,高于他们测试过的最强前沿模型 78.2%,运行成本还几乎低了 14 倍。作者也承认这不是独立基准测试,但认为它说明大型模型厂商仍然没有掌握所有有价值的数据,企业私有数据和人类经验依然有很大提升空间。

桥水微调开源模型胜过GPT和Claude

资讯正文

GPT 和 Claude 之所以在 Bridgewater 的金融测试中失败,是因为正确答案从未公开过

要点

- Bridgewater 与 Thinking Machines Lab 训练了一款用于分析金融文件的开源 AI 模型,其表现优于领先的商业模型。

- 经过内部专家知识微调的 Qwen3-235B 模型,在测试中准确率接近 85%,且运行成本低 14 倍。

- 这表明,公司可以利用自己的数据开发强大的 AI 解决方案,而无需向大型供应商共享敏感信息。

对冲基金 Bridgewater 和 Thinking Machines Lab 表示,一款经过微调的开放权重模型在评估金融文件方面,以极低的成本超越了最强的 AI 模型。相关数字来自他们自己的内部评估。

投资者每天都会被新闻、分析、公司文件和电子邮件淹没。根据 Bridgewater 的 AIA Labs 与 Thinking Machines Lab 发布的一份报告,后者是由前 OpenAI 首席技术官 Mira Murati 创办的初创公司,阅读并不是真正的工作。真正的工作是不断做出一连串细小而重复的判断,去决定什么才真正重要。研究人员想要自动化的,正是这种筛选工作。

他们定义了六项取自投资者日常工作的任务。举例来说:判断一篇金融文章是否与某位高管相关;或者某份央行文件是否暗示未来利率变动的方向。对投资者而言,这些判断看似琐碎,但他们几乎难以用语言准确描述自己的推理过程。报告给出了一个颇具说明性的例子:一则关于特朗普声称要“拿下”格陵兰的头条会被判定为不相关,而特朗普威胁要对中国征收新关税则被高度相关。两者都涉及地缘政治和金融。

作者们的测试显示,前沿模型表现不佳。Gemini、Claude 和 GPT 的不同版本在使用基础提示时,准确率都只有大约 50%。而由专家撰写的指令和三档评分系统——“相关且有趣”“相关但无趣”“不相关”——则把准确率提升到了 70% 出头。不过这仍低于作者设定的 80% 可信部署门槛。

报告称,更新的模型在投入产出比上几乎没有改善。GPT 5.4 的成本比 5.2 高 43%,但准确率只略有提升。

真正的价值藏在投资者的脑子里

解决方案是微调,也就是用专有示例对一个开放权重模型重新训练。关键材料是 Bridgewater 投资者的判断:起初,廉价的外包人员负责给文件打标签,但其中许多标签是错的。为了避免让昂贵的专业人士逐一审查所有内容,研究人员采用了一种变通办法。第一个模型先从这些有缺陷的标签中学习,然后重新评估同样的文件。凡是模型判断与原始标签不一致的地方,往往就意味着原标签有误。只有这些存在争议的案例才会交给投资者去更正。

在 Tinker 平台上进行了训练,该平台来自 Thinking Machines Lab,建立在开源模型 Qwen3-235B 之上。在团队自己的评估中,经过微调的模型准确率达到 84.7%,而测试过的最佳前沿模型为 78.2%。运行成本也几乎低了 14 倍。当然,这并不是真正独立的比较。两家公司都显然有动力推销自己的产品。

尽管如此,除了这些数字之外,这一发现仍值得注意。它再次表明,像 OpenAI 这样的头部实验室并没有吸收世上所有的数据。大量专有的企业数据和未经训练的人类专业知识仍然存在,而它们确实还留有很大的改进空间。尤其是在企业有意将最有价值的数据保密的情况下,更是如此。任何把这些数据交给前沿实验室的人,都可能面临与一个建立在这些数据之上的产品竞争的风险。

通过 Tinker 这类工具对开源模型进行微调,为企业提供了另一种选择。它们保留模型权重、数据,以及在某些配置下,连 GPU 本身也一并保留。

来源与参考

  1. 原始链接
  2. GPT and Claude failed Bridgewater's finance tests because the right answers were never public

收录于 2026-07-04