Meta无创脑机转文字模型逼近植入式方案

The Decoder·7月1日 23:34 UTC·作者 Maximilian Schreiner

关键信息

这项研究使用了9名健康志愿者的MEG记录，每人采集10小时，总计22,000个输入句子。Brain2Qwerty v2不再需要精确的按键时间戳，而是处理连续信号窗口，但由于语言模型可能生成流畅却错误的句子，它在字符级错误上仍比更简单的方法更差。

资讯摘要

Meta 的 FAIR 研究团队推出了 Brain2Qwerty v2，这是一个升级版的无创脑转文字系统，能够根据脑部记录重建句子。该模型被设计为有创脑植入的替代方案，因为脑植入虽然可以帮助失去语言或运动能力的人进行交流，但手术风险较高。研究中，团队使用磁脑电图 MEG 记录了 9 名健康志愿者的脑活动。每位受试者记录了 10 小时，总共收集了 22,000 个输入句子。实验流程是：参与者先听一句话，短暂停顿，然后在不看屏幕文字的情况下把句子打出来。论文指出，可测量的活动主要来自控制手指运动的运动皮层。

与 Brain2Qwerty v1 相比，新版本不再依赖每一次按键的精确时间戳，而是使用连续信号窗口，这减少了走向实时应用的一项关键障碍。研究团队表示，这之所以可行，是因为新数据集比之前大约多了 10 倍，而且句子类型也丰富得多。Brain2Qwerty v2 在字符、单词和句子三个层面都使用深度学习，并通过微调后的 Qwen3 语言模型把噪声很大的神经信号整理成通顺文本。性能方面，它的平均词错误率降到了 39%，相比原始编码器的 55% 和旧版基于 N-gram 的 43% 都有改善。不过在字符错误率上，v2 反而是弱项：它达到 31%，比更简单的基线还差，因为当信号不够明确时，语言模型可能会“补出”一条流畅但错误的句子。

资讯正文

Meta 的非侵入式脑电转文字 AI 正在缩小与外科植入物的差距

Meta 的 FAIR 研究团队发布了 Brain2Qwerty v2，这是一款能够从非侵入式脑部记录中重建完整句子的模型。平均词错误率降至 39%，表现最好的参与者达到了 22%。

在脑损伤后失去说话或行动能力的人，需要一种沟通方式。脑植入设备已经能够可靠地实现这一点，但它们需要有风险的手术。Meta 的 AI 部门 FAIR 一段时间以来一直在研究一种无需手术的替代方案，如今借助 Brain2Qwerty v2 展示了显著改进。

在这项研究中，研究人员使用脑磁图（MEG）记录了 9 名健康志愿者的大脑活动。MEG 是一种测量头骨外磁场的技术。每个人都被记录了 10 小时。合计下来，他们输入了 22,000 个句子。实验设置如下：参与者先听一句话，短暂停顿，然后在键盘上把它打出来，而且屏幕上并不显示文字。模型则根据打字阶段捕捉到的脑信号重建句子。论文称，可测量的活动主要来自运动皮层，也就是控制手指运动的大脑区域。

数据量增加 10 倍，让模型不再依赖击键时间

其直接前身 Brain2Qwerty v1 仍然需要每一次击键的精确时间戳来对齐信号。而 v2 版本改用连续的信号窗口，并自行分配字符，不再需要时间信息。这种异步方法消除了通往实时应用道路上的一个关键障碍，不过系统目前还没有跨过这道门槛。研究人员表示，这项更难的任务之所以能够实现，是因为新数据集每个人的记录数量增加到了原来的 10 倍，而且句子类型也比最初的数据集丰富得多。

研究团队称，这个模型依赖三块 AI 基础组件。深度学习取代了此前使用的手工识别步骤。系统在字符、单词和完整句子三个层级处理信号。此外，团队还使用 AI 代理自行编写优化代码。在句子层面上，一个语言模型（Qwen3）经过微调，用来将噪声较大的脑信号塑造成连贯的句子。

Brain2Qwerty v2 的平均词错误率达到 39%，而没有语言模型的原始编码器这一数字为 55%。对于表现最好的参与者，28% 的句子能够被完全解码，47% 的句子最多只错一个词。

词更好了，但字符错误更多

研究团队将 Brain2Qwerty v2 与两种更简单的方法进行了比较。第一种是原始编码器，它直接从脑信号读取字符，没有语言模型来平滑输出。第二种是 Brain2Qwerty v1 的方法，其中一个 N-gram 模型会修正编码器输出。此类模型了解来自大型文本语料库的字母序列统计概率，并对单个字符串做局部修补，但它不会形成完整句子。

性能从三个层面衡量。字符错误率（CER）统计错误字母；词错误率（WER）统计错误单词；语义错误率则衡量与目标句子的含义偏离了多少。在单词和语义两个层面上，Brain2Qwerty v2 胜出。词错误率降至 39%，而原始编码器为 55%，v1 中的 N-gram 模型为 43%。

在字符层面，情况则相反。v2 这里的错误率为 31%，反而高于原始编码器的 28% 和 N-gram 模型的 26%。原因在于语言模型：它被训练成生成流畅的句子，即便大脑信号实际上并不支持这些句子。拿不准时，它就会编造出一句语法正确但完全错误的话。

对于表现最差的一名参与者，模型把目标句子“cars are not allowed on this road”解码成了“had she not fallen down the stairs”。这是一次彻底的偏差，也把字符错误率推高了。N-gram 模型只进行局部修正，并且更贴近单个字母，但几乎不会生成真正的词。由于成功的交流取决于语义而不是精确的字符匹配，研究团队认为更好的词错误率和语义分数更能代表有意义的进展。相比之下，一项更早基于 fMRI 的研究在词错误方面达到了 92% 到 94%。

当 AI 优化 AI 研究

这项工作还包含一个自动研究组件：三名基于 Claude Opus 4.6 的独立智能体被要求通过修改代码并运行实验，自己降低错误率。它们找到了标签平滑（label smoothing）、模态 dropout 和更短提示词等技巧，这些方法在所有参与者身上都成立，并且明显优于一种标准优化方法。但在被给予开放式任务时，这些智能体又失败了。它们大幅修改代码，导致大多数计算任务崩溃。研究团队得出结论：到目前为止，人工研究仍是这一过程中的关键部分。

不过，与植入式系统之间的差距依然很大。侵入式接口在打字任务上的词错误率低于 2%。但 Brain2Qwerty v2 的准确率会随着更多数据持续提升，而且目前还看不到上限，因此研究人员认为，收集更多记录是一条直接有效的提升路径。尽管如此，仍有一些悬而未决的问题：不同参与者之间存在显著差异，该研究仅限于做真实打字动作的健康志愿者，实时能力也仍然缺失。作为走向临床应用的一条路径，团队指出了可在室温下工作的便携式 MEG 传感器。测试显示，即便只使用一半的传感器，也能获得几乎完整的性能。

这不仅仅是一个医疗工具，更是一扇通向大脑的窗口

这项工作建立在 FAIR 更长线的研究轨迹之上，由神经科学家 Jean-Rémi King 领导。他的团队早在 2022 年就已经利用 MEG 和 EEG 数据解码了感知到的语音，并在 2023 年用脑活动在毫秒级生成了图像。最近，团队展示了 TRIBE v2，这是一种预测脑活动而不是测量脑活动的模型。其直接前身 Brain2Qwerty v1 已经发表在《Nature Neuroscience》上；该模型能够重建输入键入的句子，字符级准确率最高可达 80%，并且在 35 名参与者的 MEG 和 EEG 测试中分别实现了 29% 和 65% 的字符错误率。

在 Brain2Qwerty 背后，是 King 视为不只是工程挑战的更广泛研究计划。他在接受 The Decoder 采访时表示，神经科学和 AI 从一开始就紧密相连：“AI 现在也清楚表明，我们理所当然接受的一些概念——比如推理或思考——可能需要根据深度学习算法如今所能做到的事情重新评估。”在 King 看来，将脑活动转化为文本的模型不仅仅是一种医疗工具，更是理解大脑本身如何工作的窗口。

来源与参考

收录于 2026-07-02