Goodfire发布Silico工具,实现大模型实时调试
MIT Technology Review AI··作者 Will Douglas Heaven
关键信息
Silico适用于Qwen 3等开源模型,允许用户检查单个神经元并追踪神经通路;它使用自主代理自动化此前需人工完成的复杂可解释性任务。
资讯摘要
总部位于旧金山的初创公司Goodfire推出了Silico工具,该工具通过实时参数调整和可解释性功能,为大模型训练提供了前所未有的细粒度控制。与以往仅能分析已训练模型的方法不同,Silico允许工程师在训练过程中修改行为,例如减少幻觉或改变道德推理方式。该公司旨在用‘工程’取代‘炼金术’式的人工智能开发,利用机制可解释性映射神经元连接,理解模型内部运作原理。
早期结果显示它可以精确定位与‘电车难题’等行为相关的特定神经元。尽管一些研究人员指出这仍是试错法的改进而非真正的精密工程,但该工具标志着让大模型更安全可控的重要一步。

资讯正文
这家位于旧金山的初创公司Goodfire刚刚发布了一款名为Silico的新工具,让研究人员和工程师能够在训练过程中深入查看AI模型并调整其参数——这些参数决定了模型的行为方式。这可能使模型开发者对这项技术的构建过程拥有比以往更精细的控制力。
Goodfire声称,Silico是首款现成可用的同类工具,能够帮助开发人员调试从数据集构建到模型训练的整个开发流程的所有阶段。
该公司表示,其使命是让构建AI模型的过程不再像炼金术,而更像科学。诚然,像ChatGPT和Gemini这样的大语言模型(LLM)能完成令人惊叹的任务,但没人确切知道它们是如何或为何工作的,这使得修复缺陷或阻止不良行为变得困难。
Goodfire首席执行官埃里克·霍(Eric Ho)在接受《麻省理工科技评论》独家采访时说:“我们看到模型的理解程度与部署广度之间的差距正在扩大。我认为目前几乎所有前沿实验室的主导情绪都是:你只需要更多规模、更多计算能力和更多数据,就能实现通用人工智能(AGI),其他一切都不重要。而我们则认为不是这样,有更好的方法。”
Goodfire是少数几家正在探索一种称为‘机制可解释性’的技术的公司之一,包括行业巨头Anthropic、OpenAI和谷歌DeepMind也在进行类似研究。该技术旨在通过映射神经元及其连接路径来理解AI模型在执行任务时内部发生了什么。(《麻省理工科技评论》将机制可解释性列为2026年的十大突破技术之一。)
Goodfire希望不仅用这种方法来审计已训练好的模型,还用来辅助设计模型本身。
霍说:“我们想消除试错过程,把模型训练变成精准工程。这意味着要暴露那些旋钮和开关,让你能在训练过程中真正使用它们。”
Goodfire已经利用自身技术和工具调整过大语言模型的行为,例如减少它们产生的幻觉数量。现在,借助Silico,公司正将其许多内部技术打包成产品推出。
这款工具使用代理(agents)自动化大量复杂工作。“代理现在已经足够强大,可以完成我们过去用人做的大部分可解释性工作,”霍说,“这正是之前需要填补的空白,才让这个平台真正对客户可用。”
阿姆斯特丹大学从事机制可解释性研究的学者莱昂纳德·贝雷斯卡(Leonard Bereska)认为Silico看起来是个有用的工具。但他对Goodfire更高的目标提出质疑:“实际上,他们只是给炼金术增加了精度。称其为工程听起来更系统化,其实并非如此。”
这家初创公司推出的新机制可解释性工具让你能调试大型语言模型
Silico 允许你聚焦于训练好的模型的特定部分,比如单个神经元或一组神经元,并运行实验来观察这些神经元的作用。(前提是你要能访问模型内部结构。大多数人无法用 Silico 探索 ChatGPT 或 Gemini 的内部机制,但你可以用它查看许多开源模型中的参数。)然后你可以检查哪些输入会激活不同神经元,并追踪该神经元上下游的路径,以了解其他神经元如何影响它,以及它又如何反过来影响其他神经元。
例如,Goodfire 发现了一个在开源模型 Qwen 3 中与所谓“电车难题”相关的神经元。激活这个神经元改变了模型的回答方式,使其输出更明确地表现为道德困境。“当这个神经元活跃时,各种奇怪的事情都会发生,”霍说。
定位这类异常行为的来源现在已是标准做法。但 Goodfire 希望让调整这种行为变得更简单。使用 Silico,开发者现在可以调整与单个神经元相连的参数,从而增强或抑制某些行为。
在另一个例子中,Goodfire 的研究人员问一个模型:一家公司是否应该披露其 AI 在 0.3% 的情况下表现出欺骗行为,这会影响两亿用户?模型回答否,理由是这样的披露会对业务造成负面影响。
通过深入模型内部,研究人员发现,增强那些与透明度和披露相关的神经元后,模型的答案从‘否’变为‘是’的概率高达十分之九。“模型本身已有伦理推理的电路结构,只是被商业风险评估压过了,”霍表示。
以这种方式微调模型值只是其中一种方法。Silico 还可以通过过滤掉某些训练数据来帮助引导训练过程,从而避免一开始就设定不想要的参数值。
Goodfire 发布 Silico 的目的是将此前仅少数顶尖实验室才能使用的技巧交给小型企业和研究团队,让他们能够构建自己的模型或适配开源模型。该工具将按需收费,费用根据客户的具体需求而定(Goodfire 拒绝提供具体定价细节)。
“如果我们能让训练模型的过程更像开发软件一样,就没有理由不能有更多公司设计出符合自身需求的模型,”霍说。
贝雷斯卡也认为,像 Silico 这样的工具可以帮助企业打造更值得信赖的模型。他说,这些技术对医疗和金融等安全关键领域的应用可能至关重要。
“前沿实验室已经拥有内部可解释性团队,”他补充道,“Silico 让下一级公司也能具备这种能力,而无需聘请可解释性研究人员。”
独家:Niantic的人工智能衍生公司正在利用玩家提供的300亿张城市地标图像,训练一种新的世界模型。
保持联系
获取来自《麻省理工科技评论》的最新更新
发现特别优惠、热门故事、即将举行的活动等内容。
来源与参考
收录于 2026-05-01