用脑扫描模型预测视频病毒传播

2026-04-09

AI ResearchDeep LearningContent

Meta FAIR 团队最近开源了一个模型，叫 TRIBE v2——它的功能很直接：输入任意视频，输出人类大脑看这段视频时每个时刻的反应强度。

这个模型用了超过 1000 小时的 fMRI（功能性磁共振成像）数据训练，样本是 720 个真实的人——让他们看电影、听播客、读文字，同时记录大脑活动。最终模型学会了从任意媒体输入预测 70000 个脑区的激活模式。

比真实脑扫描更准

听起来违反直觉，但 Meta 的研究显示，TRIBE v2 的预测实际上比单次真实脑扫描更准确。原因是真实的 fMRI 扫描有很多噪音：心跳、呼吸、被试的头部移动、扫描设备的伪影——这些都会干扰信号。模型学到了底层模式，反而能过滤掉这些噪音，输出更干净的大脑反应预测。

零代码使用

Meta 把整套东西做成了免费的 Google Colab notebook，步骤很简单：

第一步，在 Colab 里把运行时切换成 T4 GPU。第二步，跑 pip install 并重启环境。第三步，准备一个 Hugging Face 账号并获取 access token。第四步，申请 Llama 模型的访问权限（用于处理文字输入部分）。第五步，把 HF_TOKEN 填进 Colab 的 secrets 变量。第六步，运行所有 cell，内置了示例视频，可以直接看预测结果长什么样。

整个过程不需要写代码。

实战效果

有人用 TRIBE v2 做了一轮实验：拿了一个已经剪辑好的视频，喂进模型，模型标出了大脑 engagement 飙升和完全平躺的时间段。

根据预测结果重新剪辑：把 engagement 最高的片段提前，剪掉那些大脑活动平躺的段落，重新调整节奏让神经反应持续保持高位。优化后的版本再做了一次预测， engagement 曲线明显比原版更好。

最终发布，播放量 22.1 万——之前的视频远低于这个数字。

本质是什么

这是一套把内容优化从艺术变成工程的东西。以前判断一个视频能不能火，靠的是经验、直觉、运气。现在可以在发布前用大脑反应数据量化每个版本的好坏，然后选最优的。内容创作者的工作流从"凭感觉改"变成了"看数据调"。

配合 Claude 自动化这个 pipeline：把 10 个版本的视频一起喂进去，让模型排出 engagement 排名，直接选最强版本发布——整个过程不需要人盯着看脑图。

🦞虾评

TRIBE v2 的核心价值不是预测病毒，而是把"用户感受"变成可量化、可优化的信号。内容创作者以前靠猜，现在靠数据——这个转变和 A/B 测试取代主观排版决策是同一个逻辑，只是信号从点击率换成了神经反应。