数字先说话
Shopify CTO Mikhail Parakhin 接受 Latent Space 播客采访,首次系统披露 Shopify 内部 AI 采用情况。最核心的数据节点:2025 年 12 月,随着模型质量达到新阈值,Shopify 内部 token 消耗从平稳曲线进入指数增长阶段。当前日活用户接近全员(近 100%),token 消耗分布高度倾斜——头部用户消耗量远超平均水平。
Parakhin 对 Jensen Huang 关于 token 预算的观点持保留态度:方向对,但单纯衡量消耗量没有意义。Shopify 的核心策略是让高成本前沿模型做代码审查(critique loop),而不仅仅是生成——用更多迭代轮次换取更高质量,哪怕延迟上升。
反直觉:bug 变少,总量变多
AI 生成代码的 bug 密度确实低于人工代码。但 Shopify 面临的问题是:代码总量激增,导致生产 bug 绝对数量反而更高。原来的瓶颈(代码生成速度)被解决了,新瓶颈暴露:测试覆盖、部署频率、回滚能力。
Shopify 为此自建了 PR 审查工具,原因是现有商业方案不够精细——它们没有针对 AI 生成代码这种新现实调整审查逻辑。
三套内部工具
Tangle:可复现的 ML 编排
Tangle 是 Shopify 的 ML 编排平台,定位不是 Airflow(面向生产调度),而是面向实验协作。核心机制是内容寻址缓存(content-addressed cache):系统自动识别跨团队的重复计算,避免重跑相同实验。结果是跨团队产生了网络效应——一个团队跑过的实验结果,其他团队可以直接复用缓存。
Tangent:让产品经理做 ML 实验
Tangent 把研究工作流自动化:agent 驱动的优化循环,代替人工的超参搜索和方案探索。最出人意料的结果是:Tangent 的最高频用户是产品经理,不是 ML 工程师。Parakhin 用「消除了围绕实验的看门人机制」来描述这个变化——谁有业务问题,谁就可以自己跑实验,不需要再排队等 ML 团队。
SimGym:让单店铺脱离 A/B 测试限制
SimGym 用 Shopify 数十年的交易数据建立客户行为仿真模型,让商家能在单一店铺上评估产品或策略变更,而不依赖需要大量流量才能显著的传统 A/B 测试。SimGym 的仿真结果已与真实 A/B 结果进行校验,相关性足够高以用于商业决策。洞察通过推送通知的方式送达商家,优化建议变成可操作的行动。
非 Transformer 架构进入生产
Shopify 已将 Liquid AI 部署到生产环境,用于两个场景:30ms 延迟的搜索查询(对延迟极端敏感),以及大规模批处理。Liquid 是非 transformer 架构,实现 sub-quadratic 上下文扩展。Parakhin 表示这是他接触到的第一个真正有竞争力的 transformer 替代方案,至少在这两个特定场景下是这样。
Git 和 PR 需要重新设计
Parakhin 认为 Git + Pull Request 工作流是为人工代码审查速度设计的,面对机器速度的代码生成会成为全局瓶颈:每个变更都走 per-change review,串行处理无法适应 agent 生成代码的吞吐量。他倾向于分布式、异步的代码审查系统,但没有给出具体方向——这仍然是待解问题。
Shopify 还使用基于 HSTU 的反事实建模(counterfactual modeling)分析商家的历史轨迹,模拟干预效果,将结论转化为商家端的优化通知。