Karpathy 的 AutoResearch 起效的前提是:你有一个明确的数字可以优化——转化率、通过率,任何可测量的指标。
但大多数营销决策没有这个条件。
什么定位是对的?这版 Landing Page 文案够不够好?这个邮件开头有没有效,还是只是存在而已?
AutoReason 解决的就是这类无法量化的问题。
核心:多智能体对抗循环
第一步:写出初始定位(候选版本 A),或者让一个 Agent 来写。
第二步:一个全新的批评者 Agent 审查 A,把它的弱点全部撕开——哪些是套话,哪些竞争对手可以一字不改地照搬。
第三步:独立的创作者 Agent 读取批评意见,从头开始写候选版本 B。它看不到 A,只能看到批评内容。
第四步:综合 Agent 读取 A 和 B,创作出融合两者优点的 AB 版本。
第五步:盲裁判组——三个全新的 Agent,分别给 A、AB、B 打分,用 Borda 计数法。它们不知道自己评的是哪个版本。
第六步:胜者成为新的 A,循环继续。
第七步:当 A 连续两轮没有被替换过,你就得到了最终输出。
关键设计:全流程隔离
每个角色都是全新的独立 Agent。批评者没有通道接触创作者,裁判看不到批评者的推理过程——轮次之间没有任何信息泄露。
这解决的是常见问题:一个 Agent 反复改自己的稿子,最后只是在自己的第一个想法里打转。
AutoReason 构建的是结构性对立。B 在与 A 竞争,裁判是盲的,能活下来的才是真正强的。
知识层:把历史数据变成判断依据
这个框架真正有价值的一步:给批评者和裁判喂真实的历史表现数据。
知识层包含的内容:
- 过往营销活动的真实数据:打开率、点击率、分众转化率、什么动作真的带动了营收
- 有效文案和无效文案:38% 打开率的标题和 12% 打开率的标题,区别在哪
- 用户调研:用户在评论里怎么描述你、支持工单里反映了什么问题、Reddit 上怎么聊你
- 竞争对手定位:他们怎么描述自己,你们的信息重叠在哪里、差异在哪里
- 品牌声音规则:哪些词汇、语气、模式听起来像你,什么听起来像任何公司
有数据支撑的批评听起来是这样的:
「这封邮件标题的写法,读起来像是我们平均 12% 打开率的那类标题,不是 38% 那类。」
而不是:
「这个标题我觉得不太好。」
与「让 AI 改得更好」的根本区别
普通的做法是问 AI:「帮我把这段话改得更好。」
AutoReason 的本质差异是:它内置了对立。Agent B 与 Agent A 竞争,裁判是盲的,活下来的是经过对抗审查的,不是某个 Agent 的第一反应。
每一次迭代都在剥离套话、精炼独特性。
飞轮效应
每一轮营销活动的结果都沉淀回知识库。下一轮循环时,批评者和裁判拥有更丰富的证据来争论。循环用得越多,它辩论的数据就越扎实,输出质量就越高。
这个框架适合:邮件标题、定位文档、Landing Page 文案、品牌声音规则、营销 Brief——任何「好不好」无法简单量化、但有历史数据可以锚定的创意工作。
这个框架的核心价值是引入了结构性「对立」——不是让一个 Agent 反复改,而是让多个 Agent 相互竞争。知识层的概念才是真正的壁垒。