桥水微调开源模型胜过GPT和Claude

The Decoder·7月3日 19:16 UTC·作者 Maximilian Schreiner

关键信息

报告描述了六项投资者式任务，例如判断一篇金融文章是否与高管相关，或一份央行文件是否预示未来利率变化。作者称，使用基础提示时，GPT、Claude 和 Gemini 的准确率大约只有 50%，即便加入更强的指令，也只能提升到 70% 多一点，低于他们设定的 80% 部署门槛。

资讯摘要

桥水和 Thinking Machines Lab 报告称，他们训练出一个用于金融文档分析的开源权重 AI 模型，并且在内部评测中优于领先的商业系统。这个项目关注的不是更快地阅读文件，而是自动化投资者日常工作中反复进行的判断：哪些信息真正重要。为模拟这一工作流，研究人员定义了六项实际任务，包括判断一篇金融文章是否值得高管关注，以及解读央行文件是否暗示未来利率方向。报告还举例说明，表面相似的标题在金融语境中可能有完全不同的重要性，因为它们对市场的直接影响不同。第一轮测试中，Gemini、Claude 和 GPT 等前沿模型在基础提示下的准确率只有大约 50%。

即便加入更详细的指令和三级相关性分类，成绩也只提升到 70% 多一点，仍低于团队设定的 80% 可信部署门槛。随后，研究人员使用桥水的专有样本对 Qwen3-235B 进行微调。由于廉价外包标注存在较多噪声，他们还采用了模型辅助复核流程，把有争议的样本交给投资专家修正。根据报告，微调后的模型准确率达到 84.7%，高于他们测试过的最强前沿模型 78.2%，运行成本还几乎低了 14 倍。作者也承认这不是独立基准测试，但认为它说明大型模型厂商仍然没有掌握所有有价值的数据，企业私有数据和人类经验依然有很大提升空间。

资讯正文

GPT 和 Claude 之所以在 Bridgewater 的金融测试中失败，是因为正确答案从未公开过

要点

- Bridgewater 与 Thinking Machines Lab 训练了一款用于分析金融文件的开源 AI 模型，其表现优于领先的商业模型。

- 经过内部专家知识微调的 Qwen3-235B 模型，在测试中准确率接近 85%，且运行成本低 14 倍。

- 这表明，公司可以利用自己的数据开发强大的 AI 解决方案，而无需向大型供应商共享敏感信息。

对冲基金 Bridgewater 和 Thinking Machines Lab 表示，一款经过微调的开放权重模型在评估金融文件方面，以极低的成本超越了最强的 AI 模型。相关数字来自他们自己的内部评估。

投资者每天都会被新闻、分析、公司文件和电子邮件淹没。根据 Bridgewater 的 AIA Labs 与 Thinking Machines Lab 发布的一份报告，后者是由前 OpenAI 首席技术官 Mira Murati 创办的初创公司，阅读并不是真正的工作。真正的工作是不断做出一连串细小而重复的判断，去决定什么才真正重要。研究人员想要自动化的，正是这种筛选工作。

他们定义了六项取自投资者日常工作的任务。举例来说：判断一篇金融文章是否与某位高管相关；或者某份央行文件是否暗示未来利率变动的方向。对投资者而言，这些判断看似琐碎，但他们几乎难以用语言准确描述自己的推理过程。报告给出了一个颇具说明性的例子：一则关于特朗普声称要“拿下”格陵兰的头条会被判定为不相关，而特朗普威胁要对中国征收新关税则被高度相关。两者都涉及地缘政治和金融。

作者们的测试显示，前沿模型表现不佳。Gemini、Claude 和 GPT 的不同版本在使用基础提示时，准确率都只有大约 50%。而由专家撰写的指令和三档评分系统——“相关且有趣”“相关但无趣”“不相关”——则把准确率提升到了 70% 出头。不过这仍低于作者设定的 80% 可信部署门槛。

报告称，更新的模型在投入产出比上几乎没有改善。GPT 5.4 的成本比 5.2 高 43%，但准确率只略有提升。

真正的价值藏在投资者的脑子里

解决方案是微调，也就是用专有示例对一个开放权重模型重新训练。关键材料是 Bridgewater 投资者的判断：起初，廉价的外包人员负责给文件打标签，但其中许多标签是错的。为了避免让昂贵的专业人士逐一审查所有内容，研究人员采用了一种变通办法。第一个模型先从这些有缺陷的标签中学习，然后重新评估同样的文件。凡是模型判断与原始标签不一致的地方，往往就意味着原标签有误。只有这些存在争议的案例才会交给投资者去更正。

在 Tinker 平台上进行了训练，该平台来自 Thinking Machines Lab，建立在开源模型 Qwen3-235B 之上。在团队自己的评估中，经过微调的模型准确率达到 84.7%，而测试过的最佳前沿模型为 78.2%。运行成本也几乎低了 14 倍。当然，这并不是真正独立的比较。两家公司都显然有动力推销自己的产品。

尽管如此，除了这些数字之外，这一发现仍值得注意。它再次表明，像 OpenAI 这样的头部实验室并没有吸收世上所有的数据。大量专有的企业数据和未经训练的人类专业知识仍然存在，而它们确实还留有很大的改进空间。尤其是在企业有意将最有价值的数据保密的情况下，更是如此。任何把这些数据交给前沿实验室的人，都可能面临与一个建立在这些数据之上的产品竞争的风险。

通过 Tinker 这类工具对开源模型进行微调，为企业提供了另一种选择。它们保留模型权重、数据，以及在某些配置下，连 GPU 本身也一并保留。

来源与参考

收录于 2026-07-04