Springboards 的 Flint 旨在让 LLM 回答不再千篇一律

MIT Technology Review AI·7月1日 22:35 UTC·作者 Will Douglas Heaven

关键信息

Springboards 的创始人表示，Flint 有意把重点放在输出多样性上，而不是像许多模型那样优先抑制幻觉。文章还引用了最近的研究，包括一篇获得 NeurIPS 最佳论文奖的关于开放式同质化的论文，该研究发现不同模型即使来自不同厂商和模型家族，答案也常常高度相似。

资讯摘要

这篇文章认为，大型语言模型在开放式提示上的表现往往比人们想象得更可预测。对于写代码或做研究来说，这种稳定性通常是优点，但在头脑风暴、规划行程或其他创意任务中，它就会变成缺点。澳大利亚初创公司 Springboards 因此推出了 Flint，声称它被训练得比主流 LLM 产生更多样的答案。首席执行官 Pip Bingemann 通过把 Flint 与 ChatGPT 和 Claude 放在一起演示，说明了这种差异。文章中一个例子是随机数游戏：两个主流模型先后都给出 7，而 Flint 在重复运行时给出了 3.7916。另一个例子里，当被问到汽车类型时，主流模型倾向于给出熟悉品牌，而 Flint 给出了更不那么显眼的答案。

文章还提到为 New Balance 跑鞋写广告语的测试，ChatGPT 和 Claude 都回答了“Run your way”，而 Flint 则给出了不同的标语。作者把这种现象与一项名为“Artificial Hivemind”的研究联系起来，该研究发现许多 LLM 在开放式问题上会跨厂商、跨模型家族地收敛到非常相似的回答。这项研究团队还因论文获得了 NeurIPS 最佳论文奖。Springboards 的联合创始人兼 CTO Kieran Browne 认为，这种重复无处不在，只是聊天界面让人误以为自己在和一个独特的“个人”对话。文章最后把 Flint 描述为对这种同质化的回应，尽管它给出的答案未必总是最精致的。

资讯正文

这并不总是奏效——但如果它在你身上奏效了，你或许会怀疑我是不是有什么超能力。其实没有。

事实是，大多数大语言模型都陷入了某种套路。它们给出的回答远比你可能预期的更可预测，也更缺乏创造性。对于编程或研究这类任务来说，这没什么问题，但在头脑风暴或规划下一次度假时，群体思维就是个麻烦。

澳大利亚初创公司 Springboards 有一个解决方案。它打造了一款名为 Flint 的 LLM，经过训练后，它在回答“我应该去欧洲哪里？”这类开放式问题时，能给出比主流 LLM 更丰富多样的回答。

Springboards 联合创始人兼 CEO Pip Bingemann 说：“大多数语言模型都在对抗幻觉。我们欢迎它们。”

当 Bingemann 第一次向我展示他公司的新模型时，他把我带入了一个随机数游戏。那感觉就像在看一个拿着一副扑克牌的魔术师。“这是我们的销售绝招，而且每次都管用，”他说。

在 ChatGPT 和 Claude 都给出 7 之后，Bingemann 转向 Flint。它也给出了 7：“啊，当然会这样，不过没关系——7 是一个合理的答案。”他重新开始对话并再次提问：ChatGPT 给出 7，Claude 给出 7，Flint 给出 3.7916。

照着自己的路走

这不仅仅是数字的问题。当 Bingemann 要求 ChatGPT 和 Claude 说出一种汽车类型时，他预判它们会回答 Toyota 或 Honda——结果他猜对了。Flint 则给出了 Ford F-150。“这些模型里有很多没有被呈现出来的信息，”他说，“它们同样可以说 Buick 或 Tesla。只是它们不会——它们有偏向。”

Bingemann 又给这三个模型各发了最后一个提示：“给我一句用于 New Balance 跑鞋广告活动的标语。只要标语。”Claude：“Run your way。”ChatGPT：“Run your way。”Flint：“Built to last, run to win.” 这句不会拿什么大奖吗，但至少不一样。

LLM 的这种奇怪局限性正开始受到更多关注。11 月，一组研究人员发表了一篇题为《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》的论文，揭示了相当惊人的重复现象，不仅体现在单个 LLM 的回答中，也体现在不同模型之间。他们发现，当面对开放式问题时，不同的 LLM 往往会收敛到非常相似的答案。

目前还不清楚这到底为什么会发生，不过研究人员推测，这可能是因为如今大多数 LLM 都是在相似的数据上，以相似的方式，为相似的任务进行训练的。该团队还凭此论文获得了 NeurIPS 这一重要 AI 会议的最佳论文奖。

当研究人员要求 25 个不同的 LLM（包括来自美国顶级公司的模型，以及来自中国和其他地区的开源模型）各重复 50 次，写一句关于时间的隐喻时，1,250 个回答中的大多数都变成了“时间是一条河流”或“时间是一个织工”的某种变体。

（我也问了几位同事同样的问题，六个人给了我六个不同的答案。我最喜欢的是：“时间是一件最爱的卫衣，一生的穿着把它塑造成了如今的模样。”）

当你开始留意时，会发现这种重复无处不在，Springboards 的联合创始人兼 CTO Kieran Browne 说。“大多数聊天界面的设计方式，会让人感觉你在进行一场私人对话，”他说。“我觉得大多数人并没有真正意识到，他们拿到的内容和其他人是多么相似。”

再举个例子：“我该给我的乐队起什么名字？”Browne 说，大多数模型都会给出一些包含“glass”“neon”“velvet”或“static”的名字。

我自己试了一下，ChatGPT 一口气给出了 56 个乐队名，排在第一位的是“Glass Harbor”。我粗略看了一遍，发现了“Static Empire”“Neon Hearts”和“Velvet Echo”。我又问了 Gemini；它给出了 15 个建议，其中包括“Static Horizon”。

不过，有些建议看起来确实挺酷。ChatGPT 给出的“Sofa Astronauts”引起了我的注意，所以我去谷歌了一下——结果发现，名为 Sofa Astronauts 的乐队已经存在。

（OpenAI 表示，训练模型给出可靠且连贯的答案，可能会让它们趋向于围绕熟悉、概率较高的回应收敛；而过度追求新颖性则可能导致回答变得更弱或更不可靠。OpenAI 还指出，“Artificial Hivemind”论文研究的是 2024 年的模型，而这些模型此后已经更新。）

创意弹弓

Springboards 开发了一款工具，背后接入了多种 LLM，包括 ChatGPT 和 Claude，广告或营销领域的创意专业人士可以用它来集思广益。这款工具允许你拖拽不同模型生成的文本，挑出自己喜欢的部分并把它们组合成新的内容——至少理论上如此。Springboards 正在将 Flint 作为一种替代模型进行推介，供其工具用户在寻求更多变化时选择。

由洛杉矶湖人队球星 Luka Dončić 设立的直接面向粉丝营销平台 77X 的首席战略官、以及商业战略初创公司 Bodacious 的创始人 Zoe Scaman 一直在试用它。“我觉得它非常有用，能把我一下子带到完全不同的方向，”她说。“如果我想让自己天马行空地四处跳跃，我就会用它。”

在一次测试中，Scaman 让 Flint、Claude、Gemini 和 ChatGPT 同台较量，她给每个模型都出了一个经典的 MBA 案例：你会如何为当今的年轻人重塑一家金融公司？她说，三大主流模型都沿着同一条路径展开：“你知道，我们需要以有趣、时髦的方式教授金融素养——嗯，这并不新鲜。”

但 Flint 想出了不同的思路，建议整个“财富积累”的概念都应该重新包装。“那真的很有意思，”Scaman 说。

她指出，Flint 目前仍然只是一个原型，也并非每次都能正常工作。“当你开始把它逼得太过头时，它有时会崩掉，”她说。“但我认为，它背后的前提非常强大。”

感受温度

Springboards 是在阿里巴巴这家中国科技巨头的开源模型 Qwen 3 之上构建 Flint 的。“我们是一个小团队，”Browne 说。“训练一个基础模型对我们来说并不现实。那太贵了。”

大多数 LLM 都有一些设置，可以让你调整其输出中的随机程度。最常见的叫作 temperature。“很显然，那是我们最先探索的东西之一，因为人们都会告诉你：如果你想要更多创造力，就把 temperature 调高，”Browne 说。

但更改这些设置也会让模型变得不连贯。Browne 说，把 OpenAI 某个模型的 temperature 调到最高后，它的回答会在一句话说到一半时，从英语切换成代码。

Springboards 意识到，这些参数对它想做的事情来说过于粗糙。Browne 说，在整体上调高随机性并没有意义；你只想在输出中的特定节点提高随机性。

例如，当你问聊天机器人“我应该去欧洲哪里？”时，模型只需要在它说出目的地之前稍微调整随机性，而不是在回答中的每一个词上都这样做。

为了让 Flint 实现这一点，Springboards 训练了自己的 Qwen 3 版本，去识别其输出中可以出现更多变化的节点，并在这些位置填入稍微更随机的词语或短语。

“Flint 的设定就是要扔出一个出人意料的东西。它更像是一种邀请，让你把思路放得更开，”营销公司 Uncommon 的联合创始人兼首席战略官 Maximilian Weigl 说，“这非常有趣。”

Weigl 的团队把 Flint 与 ChatGPT、Claude 和 Gemini 一起使用。“你其实很难用那些会把你拉回平均值的工具，创造出真正突破边界的东西，”他说。

不过，Weigl 也指出，十有八九，平均水平其实就够了。他说，并不是在所有时候都需要像 Flint 这样去追求极端：“大多数人对‘够好’就满意了。他们想看到的是大众市场熟悉的东西。”

Weigl 还提醒，不要过度使用任何 LLM。“我非常反感人们依赖任何 AI 的输出，包括 Flint，”他说。“如果我看到团队里的人直接把 AI 的内容复制粘贴过来，我会说，‘那不是你的工作！动脑子，和别人交流，用你自己的声音。’”

目前，Flint 面向广告主和营销人员，因为他们正是 Springboards 的客户。但 Bingemann 和 Browne 坚称，缺乏多样性是所有使用聊天机器人的人都会遇到的问题。

Bingemann 说，这个想法是把选择权交给用户，让他们自己决定结果好不好。“当你想要激发灵感时，多样性非常棒，”他说。“让我们走这条路，而不是让机器把一切都做完，最后落入一个灰色、无聊的世界。”

深度阅读

一家初创公司声称，它打破了阻碍 LLM 的一个瓶颈

Subquadratic 现在分享了更多关于其新模型的细节，但仍有一些人持怀疑态度。

对 AI 工作恐慌的一次现实检视

关于人工智能对劳动力市场的影响，数字到底说明了什么？答案可能会让你惊讶。

Anthropic 的 Code with Claude 展示了编程的未来——不管你喜不喜欢

随着 Claude Code 之类的工具变得越来越好，越来越多开发者乐于把编码任务交给它们。软件的构建方式已经发生了永久性的改变。

发现特别优惠、热门报道、即将举行的活动等等。

来源与参考

收录于 2026-07-02