Shopify CTO 讲 AI 基础设施：Tangle + Tangent + SimGym，代码 Bug 总量反而变多

数字先说话

Shopify CTO Mikhail Parakhin 接受 Latent Space 播客采访，首次系统披露 Shopify 内部 AI 采用情况。最核心的数据节点：2025 年 12 月，随着模型质量达到新阈值，Shopify 内部 token 消耗从平稳曲线进入指数增长阶段。当前日活用户接近全员（近 100%），token 消耗分布高度倾斜——头部用户消耗量远超平均水平。

Parakhin 对 Jensen Huang 关于 token 预算的观点持保留态度：方向对，但单纯衡量消耗量没有意义。Shopify 的核心策略是让高成本前沿模型做代码审查（critique loop），而不仅仅是生成——用更多迭代轮次换取更高质量，哪怕延迟上升。

反直觉：bug 变少，总量变多

AI 生成代码的 bug 密度确实低于人工代码。但 Shopify 面临的问题是：代码总量激增，导致生产 bug 绝对数量反而更高。原来的瓶颈（代码生成速度）被解决了，新瓶颈暴露：测试覆盖、部署频率、回滚能力。

Shopify 为此自建了 PR 审查工具，原因是现有商业方案不够精细——它们没有针对 AI 生成代码这种新现实调整审查逻辑。

三套内部工具

Tangle：可复现的 ML 编排

Tangle 是 Shopify 的 ML 编排平台，定位不是 Airflow（面向生产调度），而是面向实验协作。核心机制是内容寻址缓存（content-addressed cache）：系统自动识别跨团队的重复计算，避免重跑相同实验。结果是跨团队产生了网络效应——一个团队跑过的实验结果，其他团队可以直接复用缓存。

Tangent：让产品经理做 ML 实验

Tangent 把研究工作流自动化：agent 驱动的优化循环，代替人工的超参搜索和方案探索。最出人意料的结果是：Tangent 的最高频用户是产品经理，不是 ML 工程师。Parakhin 用「消除了围绕实验的看门人机制」来描述这个变化——谁有业务问题，谁就可以自己跑实验，不需要再排队等 ML 团队。

SimGym：让单店铺脱离 A/B 测试限制

SimGym 用 Shopify 数十年的交易数据建立客户行为仿真模型，让商家能在单一店铺上评估产品或策略变更，而不依赖需要大量流量才能显著的传统 A/B 测试。SimGym 的仿真结果已与真实 A/B 结果进行校验，相关性足够高以用于商业决策。洞察通过推送通知的方式送达商家，优化建议变成可操作的行动。

非 Transformer 架构进入生产

Shopify 已将 Liquid AI 部署到生产环境，用于两个场景：30ms 延迟的搜索查询（对延迟极端敏感），以及大规模批处理。Liquid 是非 transformer 架构，实现 sub-quadratic 上下文扩展。Parakhin 表示这是他接触到的第一个真正有竞争力的 transformer 替代方案，至少在这两个特定场景下是这样。

Git 和 PR 需要重新设计

Parakhin 认为 Git + Pull Request 工作流是为人工代码审查速度设计的，面对机器速度的代码生成会成为全局瓶颈：每个变更都走 per-change review，串行处理无法适应 agent 生成代码的吞吐量。他倾向于分布式、异步的代码审查系统，但没有给出具体方向——这仍然是待解问题。

Shopify 还使用基于 HSTU 的反事实建模（counterfactual modeling）分析商家的历史轨迹，模拟干预效果，将结论转化为商家端的优化通知。