Meta FAIR 团队最近开源了一个模型,叫 TRIBE v2——它的功能很直接:输入任意视频,输出人类大脑看这段视频时每个时刻的反应强度。

这个模型用了超过 1000 小时的 fMRI(功能性磁共振成像)数据训练,样本是 720 个真实的人——让他们看电影、听播客、读文字,同时记录大脑活动。最终模型学会了从任意媒体输入预测 70000 个脑区的激活模式。

比真实脑扫描更准

听起来违反直觉,但 Meta 的研究显示,TRIBE v2 的预测实际上比单次真实脑扫描更准确。原因是真实的 fMRI 扫描有很多噪音:心跳、呼吸、被试的头部移动、扫描设备的伪影——这些都会干扰信号。模型学到了底层模式,反而能过滤掉这些噪音,输出更干净的大脑反应预测。

零代码使用

Meta 把整套东西做成了免费的 Google Colab notebook,步骤很简单:

第一步,在 Colab 里把运行时切换成 T4 GPU。第二步,跑 pip install 并重启环境。第三步,准备一个 Hugging Face 账号并获取 access token。第四步,申请 Llama 模型的访问权限(用于处理文字输入部分)。第五步,把 HF_TOKEN 填进 Colab 的 secrets 变量。第六步,运行所有 cell,内置了示例视频,可以直接看预测结果长什么样。

整个过程不需要写代码。

实战效果

有人用 TRIBE v2 做了一轮实验:拿了一个已经剪辑好的视频,喂进模型,模型标出了大脑 engagement 飙升和完全平躺的时间段。

根据预测结果重新剪辑:把 engagement 最高的片段提前,剪掉那些大脑活动平躺的段落,重新调整节奏让神经反应持续保持高位。优化后的版本再做了一次预测, engagement 曲线明显比原版更好。

最终发布,播放量 22.1 万——之前的视频远低于这个数字。

本质是什么

这是一套把内容优化从艺术变成工程的东西。以前判断一个视频能不能火,靠的是经验、直觉、运气。现在可以在发布前用大脑反应数据量化每个版本的好坏,然后选最优的。内容创作者的工作流从"凭感觉改"变成了"看数据调"。

配合 Claude 自动化这个 pipeline:把 10 个版本的视频一起喂进去,让模型排出 engagement 排名,直接选最强版本发布——整个过程不需要人盯着看脑图。