Meta的TRIBE v2模型可预测大脑对感官刺激的反应
The Decoder··作者 Jonathan Kemper
收录于 2026-03-28

关键信息
TRIBE v2预测的是群体平均脑反应而非个体差异,因此其输出比真实fMRI扫描更少噪声。然而,它受限于fMRI的慢时间分辨率,且仅处理视觉、听觉和语言三种感官模态。
资讯摘要
Meta的FAIR团队发布了TRIBE v2模型,该模型利用fMRI数据预测人类大脑对图像、声音和语言的反应。该模型基于720名受试者的超1000小时数据训练,其准确性优于大多数个体扫描结果——尤其是在高精度数据集(如人类连接组计划)中表现突出。模型首先通过Meta的专用AI模型(Llama 3.2用于文本、Wav2Vec-Bert-2.0用于音频、Video-JEPA-2用于视频)处理输入,再用Transformer融合信息生成包含7万个体素的大脑图谱。
它的预测结果比多数个体扫描更接近群体平均值,从而降低了由心跳或头部移动引起的噪声干扰。更重要的是,TRIBE v2是开源的,研究人员可以免费获取代码、权重和交互式演示。
资讯正文
Meta的新AI模型可预测大脑对图像、声音和言语的反应
关键要点
Meta的TRIBE v2 AI模型基于fMRI数据训练,能够预测人类大脑对图像、声音和言语的反应,其准确性往往超过单个个体的实际测量结果。
在受控测试中,该模型成功在计算机上复现了已知的神经科学发现,例如正确识别出专门处理人脸、场景或语言的大脑区域,这可能大幅减少脑科学研究中的昂贵实验室时间。
尽管前景广阔,该模型仍存在局限:它将大脑视为被动接收器,仅涵盖三种感官通道,并受限于fMRI较慢的时间分辨率。Meta已将代码、权重和一个交互式演示免费开放使用。
Meta推出的新AI模型能预测人类大脑对图像、声音和言语的反应。在测试中,它的预测结果往往比任何单一受试者的扫描更贴近典型的大脑反应。
脑科学研究需要为每个新实验重新采集数据,导致神经科学研究进展缓慢且成本高昂。Meta FAIR实验室的AI研究人员希望借助一个能预测脑活动而非直接测量的AI模型,彻底跳过这一瓶颈。
该模型名为TRIBE v2,根据配套论文所述,它基于来自720名受试者的超过1000小时fMRI数据进行训练。功能性磁共振成像(fMRI)通过追踪血流和氧含量的变化间接测量大脑活动。利用这些数据,TRIBE v2旨在预测大脑对任何视觉、听觉或语言刺激的反应。
三个Meta模型负责预处理
TRIBE v2接收三种输入类型:视频、音频和文本。每种通道首先经过一个预训练的Meta AI模型处理:文本使用Llama 3.2,音频使用Wav2Vec-Bert-2.0,视频使用Video-JEPA-2。这些模型将原始数据转化为嵌入向量,捕捉图像中的可见内容、声音中的可听信息或句子中的语义含义。
随后,一个Transformer架构将这三种表示一起处理,提取跨不同刺激、任务和人群的共同模式。最后,一个针对个体的层将输出转换为包含7万个体素(voxels)的大脑图谱——这些体素是构成fMRI扫描的三维像素。
预测结果比实际脑扫描噪声更低
个体fMRI图像本身具有固有噪声:心跳、头部移动和设备伪影都会扭曲信号。为了确定大脑对特定刺激的一般反应,研究人员必须对大量扫描结果取平均值。
TRIBE v2则通过直接预测调整后的平均反应来规避这个问题。在测试中,这种预测与实际群体平均值的相关性,强于大多数个体受试者扫描的结果。这一效应在人类连接组计划(Human Connectome Project)数据集中最为显著,该数据集使用的是7特斯拉扫描仪采集,相比标准的3特斯拉设备提供了更高的信号质量。在此数据集上,TRIBE v2与群体响应的相关性达到了中位数个体受试者的两倍。
Meta的新AI模型可预测大脑对图像、声音和语言的反应
根据论文所述,与之前常用的优化线性模型相比,TRIBE v2在每个数据集上的预测性能均有显著提升。早期版本TRIBE v1仅基于四名受试者训练,且只预测了1000个体素(voxels),而非现在的70000个体素,但它仍赢得了Algonauts 2025竞赛,击败了其他263支团队。
TRIBE v2的预测准确率随着训练数据量的增加而稳步提升,尚未达到饱和状态。这表明随着fMRI数据库的增长,该模型将持续改进——这种趋势与大型语言模型的扩展规律类似,即更多数据通常能带来更优性能。
几十年实验室研究的计算机复现
研究人员使用日常刺激如电影和播客测试了TRIBE v2,这些刺激同时作用于多个感官通道;同时也用经典神经科学中常见的孤立刺激进行测试,在这类控制环境中,一个图像可能仅在屏幕上闪现一秒,以测量特定脑区的反应。研究团队采用了Individual Brain Charting数据集中的测试协议,这是一个由公认的神经科学研究实验组成的集合,并让模型预测哪些脑区应当被激活。
在涉及人脸、场景、身体和角色图像的视觉实验中,TRIBE v2每次都准确识别出已知的专门化脑区。在语言实验中,它定位了语言网络,区分了情绪疼痛与生理疼痛的处理机制,并显示出完整句子相较于词列表更强的左侧半球激活。
这些结果与数十年来针对真实受试者的实证研究发现一致。对于神经科学而言,这一成果意义明确:未来的实验可以在实际预约昂贵实验室时间前先在计算机上初步设计。
揭示不同感官通道如何激活特定脑区
通过逐个关闭各个输入通道,TRIBE v2展示了每种感官对特定脑区活动的影响程度。结果与现有神经科学知识吻合:音频最能预测听觉皮层附近的活动,视频对应视觉皮层,文本则激活语言区域及额叶部分。
在整合多感官输入的大脑区域,同时输入三种通道时效果最佳。例如,在颞叶、顶叶和枕叶交汇处,预测准确性比单一通道单独使用时最高提升了50%。
对模型最后一层的统计分析还发现了五个模式,它们分别对应已知的功能性脑网络:初级听觉皮层、语言网络、运动识别网络、默认模式网络以及视觉系统。默认模式网络在白日梦和自我反思等状态下会被激活。
一个工具有限但被动的观察者
Meta的新AI模型可预测你的大脑对图像、声音和言语的反应
TRIBE v2的局限性仍然显著。fMRI仅通过血流间接测量大脑活动,存在数秒的延迟。毫秒级神经信号的快速动态变化仍无法捕捉。该模型也仅涵盖三种感官通道——嗅觉、触觉和平衡感均未包含。
更根本的是,TRIBE v2将大脑视为被动接收感官输入的器官,而没有模拟大脑如何主动做出决策或驱动行为。它也无法捕捉发育变化或临床状况,研究人员表示这仍是未来版本的重点方向。
Meta认为该模型有三大应用场景:规划神经科学研究实验、构建更具类脑特性的AI架构,以及最终用于诊断脑部疾病。代码、模型权重和一个交互式演示均已公开可用。
Meta的人工智能研究实验室FAIR多年来一直在脑科学与AI交叉领域开展工作。去年,该团队展示了仅通过非侵入式脑扫描,AI模型就能以高达80%的准确率重建打字句子。
无炒作的AI新闻——由人类精选
作为THE DECODER订阅者,您将获得无广告阅读体验、每周AI通讯、独家《AI雷达》前沿报告(每年6次)、评论区访问权限以及完整档案库。
热门新闻
Luma AI的Uni-1可能是首个真正挑战谷歌Nano Banana图像主导地位的对手
Anthropic泄露显示新模型“Claude Mythos”在测试中得分远高于以往任何模型
OpenAI首席执行官山姆·阿尔特曼据报道内部透露了一个“非常强大”的模型,能“真正加速经济”
OpenAI发布提示指南,帮助设计师从GPT-5.4获得更好的前端结果
Meta收购Dreamer团队全体成员,以增强其落后的AI代理雄心
不要错过重要信息
持续了解AI动态,清晰有用,毫无冗余。
最受欢迎的内容
谷歌工程师称Claude Code在一小时内完成她团队耗时一年的工作
“你当然不会告诉像我这样的研究人员该做什么”,勒昆在离开Meta创办自己的公司时表示
前OpenAI研究员称当前AI模型无法从错误中学习,称之为通往通用人工智能(AGI)的障碍
OpenClaw(原Clawdbot)和Moltbook让攻击者轻松从正门进入系统
研究表明,一张打印标志即可劫持自动驾驶汽车并将其引向行人
据报道GPT-5.4带来百万token上下文窗口和极端推理模式
AI社区与洞见
The Decoder
关注The Decoder获取AI新闻、背景故事及专家分析。
配图


Tag
来源与参考