Springboards 的 Flint 旨在让 LLM 回答不再千篇一律

MIT Technology Review AI··作者 Will Douglas Heaven

关键信息

Springboards 的创始人表示,Flint 有意把重点放在输出多样性上,而不是像许多模型那样优先抑制幻觉。文章还引用了最近的研究,包括一篇获得 NeurIPS 最佳论文奖的关于开放式同质化的论文,该研究发现不同模型即使来自不同厂商和模型家族,答案也常常高度相似。

资讯摘要

这篇文章认为,大型语言模型在开放式提示上的表现往往比人们想象得更可预测。对于写代码或做研究来说,这种稳定性通常是优点,但在头脑风暴、规划行程或其他创意任务中,它就会变成缺点。澳大利亚初创公司 Springboards 因此推出了 Flint,声称它被训练得比主流 LLM 产生更多样的答案。首席执行官 Pip Bingemann 通过把 Flint 与 ChatGPT 和 Claude 放在一起演示,说明了这种差异。文章中一个例子是随机数游戏:两个主流模型先后都给出 7,而 Flint 在重复运行时给出了 3.7916。另一个例子里,当被问到汽车类型时,主流模型倾向于给出熟悉品牌,而 Flint 给出了更不那么显眼的答案。

文章还提到为 New Balance 跑鞋写广告语的测试,ChatGPT 和 Claude 都回答了“Run your way”,而 Flint 则给出了不同的标语。作者把这种现象与一项名为“Artificial Hivemind”的研究联系起来,该研究发现许多 LLM 在开放式问题上会跨厂商、跨模型家族地收敛到非常相似的回答。这项研究团队还因论文获得了 NeurIPS 最佳论文奖。Springboards 的联合创始人兼 CTO Kieran Browne 认为,这种重复无处不在,只是聊天界面让人误以为自己在和一个独特的“个人”对话。文章最后把 Flint 描述为对这种同质化的回应,尽管它给出的答案未必总是最精致的。

Springboards 的 Flint 旨在让 LLM 回答不再千篇一律

资讯正文

这并不总是奏效——但如果它在你身上奏效了,你或许会怀疑我是不是有什么超能力。其实没有。

事实是,大多数大语言模型都陷入了某种套路。它们给出的回答远比你可能预期的更可预测,也更缺乏创造性。对于编程或研究这类任务来说,这没什么问题,但在头脑风暴或规划下一次度假时,群体思维就是个麻烦。

澳大利亚初创公司 Springboards 有一个解决方案。它打造了一款名为 Flint 的 LLM,经过训练后,它在回答“我应该去欧洲哪里?”这类开放式问题时,能给出比主流 LLM 更丰富多样的回答。

Springboards 联合创始人兼 CEO Pip Bingemann 说:“大多数语言模型都在对抗幻觉。我们欢迎它们。”

当 Bingemann 第一次向我展示他公司的新模型时,他把我带入了一个随机数游戏。那感觉就像在看一个拿着一副扑克牌的魔术师。“这是我们的销售绝招,而且每次都管用,”他说。

在 ChatGPT 和 Claude 都给出 7 之后,Bingemann 转向 Flint。它也给出了 7:“啊,当然会这样,不过没关系——7 是一个合理的答案。”他重新开始对话并再次提问:ChatGPT 给出 7,Claude 给出 7,Flint 给出 3.7916。

照着自己的路走

这不仅仅是数字的问题。当 Bingemann 要求 ChatGPT 和 Claude 说出一种汽车类型时,他预判它们会回答 Toyota 或 Honda——结果他猜对了。Flint 则给出了 Ford F-150。“这些模型里有很多没有被呈现出来的信息,”他说,“它们同样可以说 Buick 或 Tesla。只是它们不会——它们有偏向。”

Bingemann 又给这三个模型各发了最后一个提示:“给我一句用于 New Balance 跑鞋广告活动的标语。只要标语。”Claude:“Run your way。”ChatGPT:“Run your way。”Flint:“Built to last, run to win.” 这句不会拿什么大奖吗,但至少不一样。

LLM 的这种奇怪局限性正开始受到更多关注。11 月,一组研究人员发表了一篇题为《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》的论文,揭示了相当惊人的重复现象,不仅体现在单个 LLM 的回答中,也体现在不同模型之间。他们发现,当面对开放式问题时,不同的 LLM 往往会收敛到非常相似的答案。

目前还不清楚这到底为什么会发生,不过研究人员推测,这可能是因为如今大多数 LLM 都是在相似的数据上,以相似的方式,为相似的任务进行训练的。该团队还凭此论文获得了 NeurIPS 这一重要 AI 会议的最佳论文奖。

当研究人员要求 25 个不同的 LLM(包括来自美国顶级公司的模型,以及来自中国和其他地区的开源模型)各重复 50 次,写一句关于时间的隐喻时,1,250 个回答中的大多数都变成了“时间是一条河流”或“时间是一个织工”的某种变体。

(我也问了几位同事同样的问题,六个人给了我六个不同的答案。我最喜欢的是:“时间是一件最爱的卫衣,一生的穿着把它塑造成了如今的模样。”)

当你开始留意时,会发现这种重复无处不在,Springboards 的联合创始人兼 CTO Kieran Browne 说。“大多数聊天界面的设计方式,会让人感觉你在进行一场私人对话,”他说。“我觉得大多数人并没有真正意识到,他们拿到的内容和其他人是多么相似。”

再举个例子:“我该给我的乐队起什么名字?”Browne 说,大多数模型都会给出一些包含“glass”“neon”“velvet”或“static”的名字。

我自己试了一下,ChatGPT 一口气给出了 56 个乐队名,排在第一位的是“Glass Harbor”。我粗略看了一遍,发现了“Static Empire”“Neon Hearts”和“Velvet Echo”。我又问了 Gemini;它给出了 15 个建议,其中包括“Static Horizon”。

不过,有些建议看起来确实挺酷。ChatGPT 给出的“Sofa Astronauts”引起了我的注意,所以我去谷歌了一下——结果发现,名为 Sofa Astronauts 的乐队已经存在。

(OpenAI 表示,训练模型给出可靠且连贯的答案,可能会让它们趋向于围绕熟悉、概率较高的回应收敛;而过度追求新颖性则可能导致回答变得更弱或更不可靠。OpenAI 还指出,“Artificial Hivemind”论文研究的是 2024 年的模型,而这些模型此后已经更新。)

创意弹弓

Springboards 开发了一款工具,背后接入了多种 LLM,包括 ChatGPT 和 Claude,广告或营销领域的创意专业人士可以用它来集思广益。这款工具允许你拖拽不同模型生成的文本,挑出自己喜欢的部分并把它们组合成新的内容——至少理论上如此。Springboards 正在将 Flint 作为一种替代模型进行推介,供其工具用户在寻求更多变化时选择。

由洛杉矶湖人队球星 Luka Dončić 设立的直接面向粉丝营销平台 77X 的首席战略官、以及商业战略初创公司 Bodacious 的创始人 Zoe Scaman 一直在试用它。“我觉得它非常有用,能把我一下子带到完全不同的方向,”她说。“如果我想让自己天马行空地四处跳跃,我就会用它。”

在一次测试中,Scaman 让 Flint、Claude、Gemini 和 ChatGPT 同台较量,她给每个模型都出了一个经典的 MBA 案例:你会如何为当今的年轻人重塑一家金融公司?她说,三大主流模型都沿着同一条路径展开:“你知道,我们需要以有趣、时髦的方式教授金融素养——嗯,这并不新鲜。”

但 Flint 想出了不同的思路,建议整个“财富积累”的概念都应该重新包装。“那真的很有意思,”Scaman 说。

她指出,Flint 目前仍然只是一个原型,也并非每次都能正常工作。“当你开始把它逼得太过头时,它有时会崩掉,”她说。“但我认为,它背后的前提非常强大。”

感受温度

Springboards 是在阿里巴巴这家中国科技巨头的开源模型 Qwen 3 之上构建 Flint 的。“我们是一个小团队,”Browne 说。“训练一个基础模型对我们来说并不现实。那太贵了。”

大多数 LLM 都有一些设置,可以让你调整其输出中的随机程度。最常见的叫作 temperature。“很显然,那是我们最先探索的东西之一,因为人们都会告诉你:如果你想要更多创造力,就把 temperature 调高,”Browne 说。

但更改这些设置也会让模型变得不连贯。Browne 说,把 OpenAI 某个模型的 temperature 调到最高后,它的回答会在一句话说到一半时,从英语切换成代码。

Springboards 意识到,这些参数对它想做的事情来说过于粗糙。Browne 说,在整体上调高随机性并没有意义;你只想在输出中的特定节点提高随机性。

例如,当你问聊天机器人“我应该去欧洲哪里?”时,模型只需要在它说出目的地之前稍微调整随机性,而不是在回答中的每一个词上都这样做。

为了让 Flint 实现这一点,Springboards 训练了自己的 Qwen 3 版本,去识别其输出中可以出现更多变化的节点,并在这些位置填入稍微更随机的词语或短语。

“Flint 的设定就是要扔出一个出人意料的东西。它更像是一种邀请,让你把思路放得更开,”营销公司 Uncommon 的联合创始人兼首席战略官 Maximilian Weigl 说,“这非常有趣。”

Weigl 的团队把 Flint 与 ChatGPT、Claude 和 Gemini 一起使用。“你其实很难用那些会把你拉回平均值的工具,创造出真正突破边界的东西,”他说。

不过,Weigl 也指出,十有八九,平均水平其实就够了。他说,并不是在所有时候都需要像 Flint 这样去追求极端:“大多数人对‘够好’就满意了。他们想看到的是大众市场熟悉的东西。”

Weigl 还提醒,不要过度使用任何 LLM。“我非常反感人们依赖任何 AI 的输出,包括 Flint,”他说。“如果我看到团队里的人直接把 AI 的内容复制粘贴过来,我会说,‘那不是你的工作!动脑子,和别人交流,用你自己的声音。’”

目前,Flint 面向广告主和营销人员,因为他们正是 Springboards 的客户。但 Bingemann 和 Browne 坚称,缺乏多样性是所有使用聊天机器人的人都会遇到的问题。

Bingemann 说,这个想法是把选择权交给用户,让他们自己决定结果好不好。“当你想要激发灵感时,多样性非常棒,”他说。“让我们走这条路,而不是让机器把一切都做完,最后落入一个灰色、无聊的世界。”

深度阅读

一家初创公司声称,它打破了阻碍 LLM 的一个瓶颈

Subquadratic 现在分享了更多关于其新模型的细节,但仍有一些人持怀疑态度。

对 AI 工作恐慌的一次现实检视

关于人工智能对劳动力市场的影响,数字到底说明了什么?答案可能会让你惊讶。

Anthropic 的 Code with Claude 展示了编程的未来——不管你喜不喜欢

随着 Claude Code 之类的工具变得越来越好,越来越多开发者乐于把编码任务交给它们。软件的构建方式已经发生了永久性的改变。

发现特别优惠、热门报道、即将举行的活动等等。

来源与参考

  1. 原始链接
  2. LLMs are stuck in a groupthink groove. This startup is trying to get them out.

收录于 2026-07-02