评估是瓶颈：生产 AI 中人类判断的结构分析

从业者越来越达成共识：生产 AI 中最难的问题不是生成，而是评估。

前沿模型可以生成复杂的代码、架构提案、法律分析、医疗摘要。它们不能可靠做的是告诉你哪些输出是错的——更精确地说，哪些错误对它们嵌入的特定系统来说很重要。

Carlos E. Perez（@IntuitMachine）认为这不是等待被规模消除的临时限制。它是能力源与运营环境之间关系的结构性属性，对 AI 系统设计、劳动力市场演变、领域专家价值都有直接影响。

标量幻觉

思考 AI 系统自我知识的最简单方式是单个数字：它多清楚自己什么时候是对的？这很直观但误导。

QPT 4.16 把这个能力分解为三个结构上独立的组件，分解很重要，因为每个组件有不同的测量方法、经验 profile、设计含义。

校准（Calibration）：模型聚合 confidence signal 与实际准确率匹配的程度。当前前沿模型在这里表现 reasonably well。

区分（Discrimination）：模型在实例层面分离正确与错误输出的能力。这是 fundamentally 不同的问题。模型可以知道某类问题 20% 时间是错的（好校准），却无法告诉你哪些具体答案属于那 20%（差区分）。经验证据清楚：当前前沿模型最多实现 moderate discrimination。它们能把输出分进粗略的 confidence buckets，但 buckets 是 leaky 的。通过选择性 abstention 降低错误率——block 低 confidence 输出——施加 steep utility tax。以当前区分水平，把错误从 25% 降到 5% 需要丢弃约一半所有有效输出。

表达（Expression）：模型语言输出忠实反映其内部不确定性的程度。当前模型 notably poor。它们系统性地 over-express confidence。语言中的 hedging patterns 与它们实际可能错误的程度 weakly correlated。

这三个组件是独立的。模型可以 aggregate 校准良好却无法 flag 具体错误。它可以拥有有用的内部不确定性信号却无法在语言中 surface。它可以忠实报告不确定性但不确定性信号实际上不区分对错。每种组合都需要 wrapping 模型的系统给出不同的架构响应。

Harness 作为调解架构

QPT 用"harness"指 wrapping 能力源的系统——构建输入、解释输出、验证声明、管理跨交互状态。这不是薄的 API 层。它是有自己的 loops、自己的 quality-sensing、自己随时间演化的调解架构。

关键洞察：harness 是人类判断进入系统的地方，不是作为 veto gate，而是作为提供模型缺乏的能力的结构性组件。这重新框架了常见问题"AI 会替代人类吗？"为更精确的问题：人类在 harness 中执行什么结构性功能，这些功能是否可自动化？

两种质量感知

QPT 4.16 在两种模式之间画 sharp line，它们有 fundamentally 不同的可行性 profile。

内部质量感知检查模型是否与自身一致。同一问题多种问法是否给出相同答案？Confidence signals 在扰动下是否稳定？语言 hedging pattern 是否与 sampling behavior 匹配？这是 closed-loop 操作。Harness 总能执行它，因为它只需要访问模型输出，而 harness 按定义拥有这些。它对任何有随机生成的模型都是计算可行的。

外部质量感知检查模型输出是否对应因果现实。法律分析是否与当前 case law 一致？架构提案在实际将面对的生产负载下是否 work？医疗建议是否会对这个具体患者产生预期结果？这是 open-loop 操作。它需要独立访问 ground truth——这种访问可能或可能不存在，通常是领域本身的核心挑战。

这种 asymmetry 是结构性的，不是实现性的。内部感知总是可用。外部感知条件可用，取决于手头任务是否有 ground truth。生成内部连贯但 subtly 错误的软件架构的模型会通过每个内部一致性检查。只有了解实际生产环境——流量模式、监管约束、客户行为——的人才能捕捉错误。

这种 asymmetry 使领域专家有价值。专家对系统的贡献不是生成输出（模型做得更快更好），而是提供外部质量感知——模型结构上无法自己执行的现实对应检查。

中等 regime

自然的问题是这些限制是否是暂时的——scaling、更好的训练、更复杂的架构是否会最终 close the gap。QPT 4.16 认为答案 nuanced，取决于你指哪个 gap。

对任何在特定任务分布上运行的架构类，存在不可约错误 floor——无论 scale、data、训练 recipe 如何，该类架构的模型都无法 beat 的最小错误率。这个 floor 来自信息论限制（训练分布无法推断 truth value 的事实）、架构约束（自回归生成无法在没有外部工具的情况下 mid-generation 验证自己的声明）、分布属性（训练信号稀疏的长尾事实有随 scale 而 plateau 而非 converge to zero 的固有更高错误率）。

实际后果：验证 effort 有 diminishing returns。超过某一点，通过同一验证架构 harder 捕捉错误没有改善，因为错误是架构性的，不是偶然的。适当的响应不是更多验证，而是结构性 shift：要么把剩余不确定性传达给 downstream consumer（而非试图消除它），要么切换到不同错误 floor 的不同架构类（如事实任务的 retrieval-augmented generation），要么通过改变有效架构类的 external tools 和人类 expertise 来 ground 系统。

这是中等 regime——模型的自我知识既不是零也不是足够的结构性条件。它不是过渡阶段。它是所有当前前沿模型在所有领域中的运营条件。它要求一种验证方法，既不是二元的 pass-or-block，也不是 uncritical passage。它要求 annotation——把系统的不确定性 surface 给 downstream consumer，让他们能做出关于依赖的 informed decisions。

为什么生产系统困难

有了这套词汇，我们可以给出生产 AI 系统难以构建的结构性解释，以及为什么大规模自主软件工程仍然 elusive。

生产系统需要在架构、基础设施、安全、可观测性、scaling、用户体验、数据建模、评估 loops 等方面做出数百个相互关联的决策。每个都是前沿模型可能 outperform 任何个人类专家的领域。但决策是耦合的——安全选择约束架构选择约束 scaling 选择——任何单个决策的质量取决于与整个系统的 coherence。

这种耦合意味着 orchestrating harness 不能简单地把决策路由给独立的专家模型然后 merge 结果。它必须协调它们，这需要跨领域质量感知，而没有任何单个模型拥有。评估安全影响的模型没有访问塑造设计的架构约束，反之亦然。跨领域 coherence 是外部质量感知的一种形式——它需要访问完整系统在实际生产环境中将如何实际行为的 ground truth，而这不是任何单个组件可用的。

这种架构中的人类不是要被消除的瓶颈。人类是提供跨领域区分的组件——感知这个具体决策组合是否会在实际运营环境中 work 的能力。这是系统层面的外部质量感知，需要来自运营真实系统、服务真实客户的 integrated domain expertise。

领域优势

这种结构性分析解释了一个 otherwise puzzling 的市场观察：深度嵌入特定领域的 AI 公司似乎有 durable advantage，即使它们使用的模型 increasingly commoditized。

优势不在模型。优势在 harness——具体来说，在四个 domain-specific 且难以复制的 harness 组件。

** grounding proximity**：嵌入领域的公司直接访问 ground truth。它们看到系统输出是否实际 work，在部署的具体上下文中。这是通用提供商无法匹配的外部质量感知。

校准深度：通过 sustained operation，这些公司学习模型在其特定任务分布上的 failure signatures。它们不仅知道模型犯错，还知道什么类型的错误、在什么条件下、频率如何。这种校准数据是专有的，随时间积累。

更紧的演化 loops：当生产结果揭示 harness failure 时，领域嵌入公司可以 trace failure 回其验证架构，识别 gap，演化 harness。从生产结果到 harness 改进的反馈 loop 对直接观察 consequences 的公司更短、更 informative。

更好地测量模型对其领域的实际自我知识 profile。它们有 labeled data 来计算实际任务上的 discrimination scores，而非依赖可能不 transfer 的 benchmark numbers。

换句话说，competitive moat 不是模型，而是围绕它的调解架构——校准质量、grounding 深度、验证复杂度、演化 loop 紧密度。模型在 commoditizing。Harnesses 在 differentiating。

编码例外证明规则

软件工程是模型接受最多强化学习、最多评估基础设施、最多迭代反馈的领域。它也是 ground truth 最易访问的领域——代码编译或不编译，测试通过或不通过，benchmark 产生数字。如果任何领域应该实现 full autonomy，就是这个。

然而 fully autonomous production-grade 系统仍然在 emerging。软件工程中跨耦合架构决策的错误 floor 被 bounded away from zero，因为架构选择的正确性取决于未来运营条件——负载模式、用户行为、监管变化、集成约束——这些不在训练分布中。模型可以生成内部正确的代码，但对将实际运行的环境来说架构错误。内部质量感知捕捉 syntax errors 和 logical bugs。只有外部质量感知——grounded in 对实际生产环境的了解——捕捉 architectural mismatches。

如果这个 gap 在拥有最佳评估基础设施的领域仍然存在，它在基础设施更少的领域会更宽。法律、金融、医疗工作流有更低的 discrimination（正确性取决于模型更少访问的领域特定 ground truth）、更高的不可约错误 floor（训练分布 less thoroughly 覆盖这些领域）、更不易访问的 ground truth（法律正确性取决于 jurisdiction-specific case law，金融正确性取决于 non-public 信息，医疗正确性取决于 patient-specific context）。模型能生成与能自主验证之间的差距在这些领域更大，意味着人类作为外部质量传感器的角色更 critical，不是 less。

能力悖论

最深的结构性洞察是：这个动态随着模型改进而 intensify。弱模型产生明显错误的输出——输出失败内部一致性检查，任何 reviewer 都能捕捉。强模型产生 subtly 错误的输出——输出内部连贯、自信表达，错误方式只有拥有深度领域知识和 ground truth 访问的人才能检测。

随着生成能力 scaling，需要评估的输出变得更难评估，不是更容易。Review burden 不随模型能力 shrink；它 transforms。Reviewer 需要更多 expertise，不是 less，因为错误更 sophisticated。内部质量感知捕捉更少，因为输出更内部一致。外部质量感知成为 binding constraint，而外部质量感知需要不随模型 scaling 的领域 expertise 和因果现实访问。

这 resolve 了更好的 AI 创造更多对人类判断需求的 apparent paradox。需求不是之前需要的那种判断——不是捕捉明显错误或执行 routine checks 的评估。它是 discrimination-supply 在系统能力 frontier：判断 sophisticated、内部连贯、自信表达的输出是否实际上对应于它将被部署的具体上下文中的现实的能力。

含义

三个含义从这个结构性分析 follow。

第一，中等 regime 的设计模式是 surface uncertainty 而非 suppress it。当系统区分正确与错误输出的能力是 moderate——这是当前且可能持久的条件——适当的响应既不是 block 不确定输出（discard 太多价值）也不是 silently pass 它们（向 consumer 隐藏风险）。而是 annotate 它们——surface 系统对自己 confidence 的了解，让 downstream consumer（无论是人类还是机器）能做出 informed decisions。这要求 harness 实际提取并嵌入 quality signals，而非忽略它们或应用不携带 instance-level 信息的 uniform hedging。

第二，组织应该在 harness 质量上至少与模型选择上投入同样多。区分生产 AI 系统的组件——校准、grounding、验证架构、演化基础设施——是 harness 的属性，不是模型的。两个组织使用相同模型但不同 harness，会得到 dramatically 不同的生产结果。Harness 是领域 expertise、工程判断和评估 loops 被架构嵌入的地方。

第三，劳动力市场含义与替代 narrative 相反。如果瓶颈从生成转向评估、orchestration 和领域 expertise，那么高判断、跨领域 expertise 的 premium 增加。能提供外部质量感知的人——能看 sophisticated 模型输出并判断它是否会在实际环境中 work——随着模型生成能力改进变得更 leveraged，不是 less。Leverage 来自结构性 asymmetry：生成随 compute scaling，但针对现实的验证需要访问现实，而这不以同样方式 scaling。

中等 regime 不是通往 full autonomy 的 way station。它是生产 AI 的运营条件，在其中良好构建——with proper uncertainty surfacing、domain-grounded verification 和 tight evolution loops——是这个时代应用人工智能定义工程挑战。