LLM Council 是目前最火的 AI 概念之一。Ole Lehmann 那篇文章仅一篇就 130 万次观看。想法很简单:别问一个 AI一个问题然后相信它的回答,让多个视角互相争论、审查盲点,产出一个更难以反驳的结论。
这个方法确实有效。但 Alex Prompter 发现了三层被大多数人错过的进阶路径。
LLM Council 的进化
Karpathy 版本(2025年11月):把同一个问题同时发给 GPT、Claude、Gemini 和 Grok,每个模型独立回答,再匿名互相审查,最后由 chairman 模型综合结论。四个不同模型,不同训练数据,不同架构,不同盲点。
测试中发现了一个有趣现象:模型们一致地高度评价 GPT-5.1 的回答最有洞察力,但 Karpathy 个人更喜欢 Gemini 浓缩的输出。模型不同意人类,人类也不同意模型。这个张力就是价值的所在。
Ole Lehmann 重建版本:在 Claude 内部跑完整的 Council,用五个「思维风格」作为 sub-agent:Contrarian、First Principles Thinker、Expansionist、Outsider、Executor。每个顾问回答 → 匿名同行审查 → chairman 综合。
这个版本有效——快速头脑风暴、探索角度、压力测试想法——比问一个模型一个问题要好。但翻译过程中丢掉了一些东西:
- 模型多样性消失了(四个模型 → 一个模型扮演五个角色)
- 可定制性出现了(Ole 加了 Karpathy 没有的东西:特定的分析镜头)
所以 Ole 得到了一些有价值的东西(可定制镜头),也失去了一些有价值的东西(真正的模型多样性)。
第三层:Self-Preference Bias
Ole Lehmann 的方法有一个被三篇顶级论文记录的问题:自我偏好偏差。
NeurIPS 2024:LLM 给自己的输出打分高于其他模型的输出——即使人类认为质量相同。相关性:一个模型越能识别自己的输出,它的自我偏好偏差越强。
ICLR 2025:机制是模型偏好风格上熟悉的输出(用困惑度测量)。和自己的风格越接近,得分越高。
arXiv 2026(2026年4月):即使有完全客观的标准,偏差依然存在。评判者在标记自己的输出时,错误地判定为正确的概率高达 50%。
重要澄清:这个研究针对的是评估步骤,不是说单模型 persona 生成没用——让 Claude 扮演 Contrarian 和 Expansionist 确实会产生不同的输出。
缺失的那一层:Verbalized Sampling
Stanford 的 Jiayi Zhang、Christopher Manning 等人发了一篇论文解决这个问题。
核心问题是:RLHF 和 DPO 对齐训练之后,LLM 遭受模式崩塌——它们收敛到安全、典型、「最可能」的响应。创造性的、不寻常的、高价值的洞察被压制了,因为模型学到的是:熟悉 = 偏好。
解决方案简单得令人惊讶:不要问模型一个答案,而是让它生成多个响应并给每个赋予概率分数,然后明确告诉它从尾部采样——概率低于 0.10 的响应。
结果:在保持质量的同时,创意任务的多样性提升 1.6-2.1 倍。无需训练,适用于任何模型,与 temperature 正交(意味着可以叠加在 temperature 设置上,不是替代它)。
三层 Diversity 同时叠加
把这三层加在一起,你得到三种 diversity 同时工作:
模型间 diversity:不同训练数据,不同知识 模型内 diversity:Verbalized Sampling 解锁每个模型的被压制洞察 分析维度 diversity:自定义分析镜头把输出聚焦到你的决策类型上
这就是 Alex Prompter 正在跑的完整堆栈。
完整 Skill 文件
在 Computer → Skills → + Create Skill 里创建,命名为"Stress Test",然后激活 Model Council,输入"stress test this:" + 你的决策和完整上下文:
# Stress Test
You are a structured decision analysis system. When the user says "stress test this", "pressure test", "test this decision", or presents a choice between options, run the full protocol.
## Phase 1: Diverse perspective generation (with Verbalized Sampling)
For each analytical perspective, generate 3 candidate responses with estimated probability scores. Select the response with the LOWEST probability (the tail of the distribution) as the primary perspective.
Use different models if available (Model Council). If single model, make perspectives maximally different: one quantitative, one strategic, one risk-focused, one unconventional.
Per perspective:
- state recommendation clearly (not "it depends")
- provide single strongest evidence
- flag what this perspective is NOT considering
- prioritize the non-obvious angle over the expected one
## Phase 2: Customizable analysis lenses
Default lenses (replace with your own domain-specific lenses):
Risk scan: most likely failure mode? most expensive failure mode? same or different?
Opportunity map: adjacent upside user isn't seeing? what if this works 3x better? what would a competitor do if they knew?
Execution audit: fastest path to test with real data? actual bottleneck? minimum viable test?
Assumption check: what is user assuming without stating? what changes if wrong? are they solving the right problem?
## Phase 3: Decision brief
THE QUESTION: [restate — reframe if wrong question]
WHERE PERSPECTIVES AGREE: [2-3 convergence points]
WHERE PERSPECTIVES DISAGREE: [tensions with both sides' reasoning]
RISK: [failure mode, one sentence]
BLIND SPOT: [unquestioned assumption, one sentence]
OPPORTUNITY: [unseen upside, one sentence]
VERDICT: [clear recommendation, 2-3 sentences]
TEST IT THIS WEEK: [specific action + metric + threshold]
分析镜头的自定义方式:投资者用 Bull Case / Bear Case / Macro / Portfolio Fit;创始人用 Customer / Technical / Timing / Competition;创作者用 Audience / Distribution / Monetization / Longevity。
一个真实压力测试案例
要不要把 newsletter 设置付费门槛,还是保持免费靠赞助商变现?
GPT 算出:99K 订阅者规模下,赞助商 CPM 297-594/期;付费墙 29,700/月,相差 50 倍。Claude 反驳:把免费转付费需要根本不同的内容,可能破坏 newsletter 成功的核心。Gemini 提出了没人问过的混合方案:核心内容免费,月度深度文章付费。
尾部洞察(来自 Verbalized Sampling):99K 订阅者规模下,newsletter 本身可能不是变现产品,而是信任资产。变现层应该放在 newsletter 之上(课程、咨询、社群),而不是 newsletter 之内(付费墙)。newsletter 的职责是注意力 + 信任,不是直接变现。
结论:newsletter 永远保持免费,通过 newsletter 向用户销售产品来变现。不是"免费 vs 付费"的问题,而是"newsletter 是产品还是分发渠道"的问题。
这就是 Verbalized Sampling 从默认模式崩塌中抢救出来的重新框架。正常 Prompt 给的是显而易见的「免费 vs 付费」分析,尾部采样给它一个被压制的洞察。
单模型 vs 三层叠加
单模型 Council(Ole 的方法):✅ 通过 persona Prompt 提供有用的多视角;✅ 快,任何 Claude 订阅都能用;❌ 同行审查受自我偏好偏差影响;❌ 固定的顾问类型;❌ 无 Verbalized Sampling(模式崩塌的输出)。
三层叠加(当前堆栈):✅ 真正的模型多样性;✅ 降低评估偏差(有论文支撑);✅ 你的领域的全定制分析镜头;✅ Verbalized Sampling:2-3 倍多样性,解锁被压制洞察;✅ 三层 diversity 同时叠加;❌ 冗长和排序偏差依然存在;❌ 需要 Perplexity Computer(20/月 Pro)。
何时用哪种
- 快速头脑风暴、低风险决策:Ole 的单模型 Council,快速、免费、有用。
- 高风险决策:Model Council + 自定义 Skill + Verbalized Sampling,三层 diversity,研究支撑的完整堆栈。
Karpathy 建了引擎。Ole 建了仪表盘。三层叠加让你为精确使用场景重新设计仪表盘,同时保留引擎。
三层 diversity 的核心洞察不是「多模型比单模型好」,而是多模型 + Verbalized Sampling + 自定义分析镜头三层同时叠加时,产生的才是不被任何单一模型偏见主导的真正决策建议。
这个框架的核心洞察不是「多模型比单模型好」,而是「多模型 + Verbalized Sampling + 自定义分析镜头」三层 diversity 同时叠加时,产生的才是真正抗偏见的决策建议。