Meta无创脑机转文字模型逼近植入式方案

The Decoder··作者 Maximilian Schreiner

关键信息

这项研究使用了9名健康志愿者的MEG记录,每人采集10小时,总计22,000个输入句子。Brain2Qwerty v2不再需要精确的按键时间戳,而是处理连续信号窗口,但由于语言模型可能生成流畅却错误的句子,它在字符级错误上仍比更简单的方法更差。

资讯摘要

Meta 的 FAIR 研究团队推出了 Brain2Qwerty v2,这是一个升级版的无创脑转文字系统,能够根据脑部记录重建句子。该模型被设计为有创脑植入的替代方案,因为脑植入虽然可以帮助失去语言或运动能力的人进行交流,但手术风险较高。研究中,团队使用磁脑电图 MEG 记录了 9 名健康志愿者的脑活动。每位受试者记录了 10 小时,总共收集了 22,000 个输入句子。实验流程是:参与者先听一句话,短暂停顿,然后在不看屏幕文字的情况下把句子打出来。论文指出,可测量的活动主要来自控制手指运动的运动皮层。

与 Brain2Qwerty v1 相比,新版本不再依赖每一次按键的精确时间戳,而是使用连续信号窗口,这减少了走向实时应用的一项关键障碍。研究团队表示,这之所以可行,是因为新数据集比之前大约多了 10 倍,而且句子类型也丰富得多。Brain2Qwerty v2 在字符、单词和句子三个层面都使用深度学习,并通过微调后的 Qwen3 语言模型把噪声很大的神经信号整理成通顺文本。性能方面,它的平均词错误率降到了 39%,相比原始编码器的 55% 和旧版基于 N-gram 的 43% 都有改善。不过在字符错误率上,v2 反而是弱项:它达到 31%,比更简单的基线还差,因为当信号不够明确时,语言模型可能会“补出”一条流畅但错误的句子。

Meta无创脑机转文字模型逼近植入式方案

资讯正文

Meta 的非侵入式脑电转文字 AI 正在缩小与外科植入物的差距

Meta 的 FAIR 研究团队发布了 Brain2Qwerty v2,这是一款能够从非侵入式脑部记录中重建完整句子的模型。平均词错误率降至 39%,表现最好的参与者达到了 22%。

在脑损伤后失去说话或行动能力的人,需要一种沟通方式。脑植入设备已经能够可靠地实现这一点,但它们需要有风险的手术。Meta 的 AI 部门 FAIR 一段时间以来一直在研究一种无需手术的替代方案,如今借助 Brain2Qwerty v2 展示了显著改进。

在这项研究中,研究人员使用脑磁图(MEG)记录了 9 名健康志愿者的大脑活动。MEG 是一种测量头骨外磁场的技术。每个人都被记录了 10 小时。合计下来,他们输入了 22,000 个句子。实验设置如下:参与者先听一句话,短暂停顿,然后在键盘上把它打出来,而且屏幕上并不显示文字。模型则根据打字阶段捕捉到的脑信号重建句子。论文称,可测量的活动主要来自运动皮层,也就是控制手指运动的大脑区域。

数据量增加 10 倍,让模型不再依赖击键时间

其直接前身 Brain2Qwerty v1 仍然需要每一次击键的精确时间戳来对齐信号。而 v2 版本改用连续的信号窗口,并自行分配字符,不再需要时间信息。这种异步方法消除了通往实时应用道路上的一个关键障碍,不过系统目前还没有跨过这道门槛。研究人员表示,这项更难的任务之所以能够实现,是因为新数据集每个人的记录数量增加到了原来的 10 倍,而且句子类型也比最初的数据集丰富得多。

研究团队称,这个模型依赖三块 AI 基础组件。深度学习取代了此前使用的手工识别步骤。系统在字符、单词和完整句子三个层级处理信号。此外,团队还使用 AI 代理自行编写优化代码。在句子层面上,一个语言模型(Qwen3)经过微调,用来将噪声较大的脑信号塑造成连贯的句子。

Brain2Qwerty v2 的平均词错误率达到 39%,而没有语言模型的原始编码器这一数字为 55%。对于表现最好的参与者,28% 的句子能够被完全解码,47% 的句子最多只错一个词。

词更好了,但字符错误更多

研究团队将 Brain2Qwerty v2 与两种更简单的方法进行了比较。第一种是原始编码器,它直接从脑信号读取字符,没有语言模型来平滑输出。第二种是 Brain2Qwerty v1 的方法,其中一个 N-gram 模型会修正编码器输出。此类模型了解来自大型文本语料库的字母序列统计概率,并对单个字符串做局部修补,但它不会形成完整句子。

性能从三个层面衡量。字符错误率(CER)统计错误字母;词错误率(WER)统计错误单词;语义错误率则衡量与目标句子的含义偏离了多少。在单词和语义两个层面上,Brain2Qwerty v2 胜出。词错误率降至 39%,而原始编码器为 55%,v1 中的 N-gram 模型为 43%。

在字符层面,情况则相反。v2 这里的错误率为 31%,反而高于原始编码器的 28% 和 N-gram 模型的 26%。原因在于语言模型:它被训练成生成流畅的句子,即便大脑信号实际上并不支持这些句子。拿不准时,它就会编造出一句语法正确但完全错误的话。

对于表现最差的一名参与者,模型把目标句子“cars are not allowed on this road”解码成了“had she not fallen down the stairs”。这是一次彻底的偏差,也把字符错误率推高了。N-gram 模型只进行局部修正,并且更贴近单个字母,但几乎不会生成真正的词。由于成功的交流取决于语义而不是精确的字符匹配,研究团队认为更好的词错误率和语义分数更能代表有意义的进展。相比之下,一项更早基于 fMRI 的研究在词错误方面达到了 92% 到 94%。

当 AI 优化 AI 研究

这项工作还包含一个自动研究组件:三名基于 Claude Opus 4.6 的独立智能体被要求通过修改代码并运行实验,自己降低错误率。它们找到了标签平滑(label smoothing)、模态 dropout 和更短提示词等技巧,这些方法在所有参与者身上都成立,并且明显优于一种标准优化方法。但在被给予开放式任务时,这些智能体又失败了。它们大幅修改代码,导致大多数计算任务崩溃。研究团队得出结论:到目前为止,人工研究仍是这一过程中的关键部分。

不过,与植入式系统之间的差距依然很大。侵入式接口在打字任务上的词错误率低于 2%。但 Brain2Qwerty v2 的准确率会随着更多数据持续提升,而且目前还看不到上限,因此研究人员认为,收集更多记录是一条直接有效的提升路径。尽管如此,仍有一些悬而未决的问题:不同参与者之间存在显著差异,该研究仅限于做真实打字动作的健康志愿者,实时能力也仍然缺失。作为走向临床应用的一条路径,团队指出了可在室温下工作的便携式 MEG 传感器。测试显示,即便只使用一半的传感器,也能获得几乎完整的性能。

这不仅仅是一个医疗工具,更是一扇通向大脑的窗口

这项工作建立在 FAIR 更长线的研究轨迹之上,由神经科学家 Jean-Rémi King 领导。他的团队早在 2022 年就已经利用 MEG 和 EEG 数据解码了感知到的语音,并在 2023 年用脑活动在毫秒级生成了图像。最近,团队展示了 TRIBE v2,这是一种预测脑活动而不是测量脑活动的模型。其直接前身 Brain2Qwerty v1 已经发表在《Nature Neuroscience》上;该模型能够重建输入键入的句子,字符级准确率最高可达 80%,并且在 35 名参与者的 MEG 和 EEG 测试中分别实现了 29% 和 65% 的字符错误率。

在 Brain2Qwerty 背后,是 King 视为不只是工程挑战的更广泛研究计划。他在接受 The Decoder 采访时表示,神经科学和 AI 从一开始就紧密相连:“AI 现在也清楚表明,我们理所当然接受的一些概念——比如推理或思考——可能需要根据深度学习算法如今所能做到的事情重新评估。”在 King 看来,将脑活动转化为文本的模型不仅仅是一种医疗工具,更是理解大脑本身如何工作的窗口。

来源与参考

  1. 原始链接
  2. Meta's non-invasive brain-to-text AI is closing the gap with surgical implants

收录于 2026-07-02