Agentic Biology 像软件

为什么 software agent 先爆发了？

一年多前，大部分职业工程师还把 AI 工具看作"代码生成助手"——能补全、refactor、写单测，但没人相信它能理解复杂需求、修改大型代码库、做出系统级工程判断。

而今天，4% 的公开 GitHub commit 由 Claude Code 写就，Mythos 在 workhorse software 里自主挖出几千个 day-zero 漏洞，CURSOR 的 agent 团队能造浏览器，Anthropic 自己用 agent 写 C 编译器。曾经的怀疑者现在并行用多个 agent 处理高 stakes 的日常工作。

回头看，很多人把这当成"必然"——软件本来就是"显然可验证"的嘛，代码在计算机上确定性运行。但软件不只是代码，frontier agent 已经在开放式任务上展现出更高层级的工程判断。

作者抛出一个类比：software engineering agent 的崛起路径，会在 biology 上重演一遍。 两个领域都有同一类工作：具体、可执行、反馈密集。软件里那一层是 code，biology 里那一层是 measurement-grounded 的 data analysis。

整篇文章用三层 claim 撑起这个类比：

第一个真正有用的 biology agent 是数据分析 agent，不是自主科学家——就像 coding assistant 先于 autonomous engineering agent 出现。
真正的生物学推理必须建立在 assay-specific 的数据分析之上。
随着分子数据生成爆发，分析层在经济上会越来越重要。

Code 为什么是理想的 agent 训练场？

软件工作里，code 有几个特别适合 agent 的属性：能通过 compiler 快速跑出输出和错误；能 print 中间状态、做断点、把数字写进文件。

但软件工程远不只是 code。Browser 这种系统级决策（concurrency、caching、latency、security）需要主观判断。"代码可验证"并不能解释从"过测试"到"做非平凡系统决策"的跳跃。

关键在于技能的层级关系：高阶概念的能力，是从低阶 procedural skill 训练之后涌现的。你连 Python 函数语法都搞不定、event loop 都理不顺，就别谈怎么给 endpoint 加 rate limit。更细一层，对建筑材料的细致认知会反哺高层决策——不懂代码的低层行为，很难做出 browser 层级的判断（caching、rendering）。

Biology 有一层类似的 analytical substrate

现代 biology 论文普遍长这样：

选一个 biological model（cell line、animal、organoid）和变量/对照
在 model 上生成数据
处理数据
结合文献思考分析结果
给出科学结论

如果让 agent 沿着这个流程自动跑，作者的判断是：

assay-specific 数据分析，是科学推理变有用的前提。
科学推理任务在复杂度和依赖关系上，类似高层 software engineering 任务——都依赖底层 procedural skill 才能保证准确。

也就是说，分子数据分析这层厚实的底座，scaffold 了科学思考，就像 code scaffold 了更复杂的工程判断。

例子：把 fibroblast 重编程成 brain organoid

Gordon et al. 一项近期研究：从 55 位自闭症患者身上取 fibroblast（很常见的"结缔"细胞），用山中因子重编程成干细胞，再把每个干细胞养成 brain organoid。核心问题是"不同患者的不同突变，是否影响自闭症发育"。

这类问题没有"全局可验证性"。你根本不知道正确答案长什么样，更不知道该以什么形式评分。"Ground truth" 取决于一长串中间观察——organoid 怎么质控、cell type 怎么注释、gene expression module 怎么定义——其中很多连学界都没共识。

但论文可以拆成边界更清晰、甚至"局部可验证"的小步：

Cell line QC：agent 对比 WGS 和 RNA-seq 里的突变，质控干细胞。评分标准是丢掉了哪些 cell line、恢复了哪些 mutation。
Differential expression：agent 在 cell line 之间找发育过程中变化最大的基因。评分标准是它和作者找的基因重合度。
Perturb-seq：用 CRISPRi 在实验室里"敲低"这些基因，agent 分析 Perturb-seq 数据找出真正有功能效应的。评分标准是它和作者认定的基因重合度。

每一步都从原始测量数据出发，最终落到定义良好的科学结论。所有步骤都是科学家给出最终判断的必要条件。

数据分析是科学推理的 gateway

上面这套拆解，agent 每一步都从前一步的结果上累加。剩下的高层任务长这样：

跨 assay 类型交叉验证（bulk + sc-RNA-seq，IP-MS + Perturb-seq）
跨技术协变量（测序 lane、分化批次）和生物协变量（供体、cell line）比较表达
在已有文献里搜刮先验证据（已知疾病关联、候选基因功能）

这些任务更像"AI Scientist"——需要跨模态综合、不确定性下的判断、生物学先验知识。但它们并不比软件工程里 agent 正在做的开放性工程判断更复杂。 真正的 bar 是匹配一个强科学家的判断力：从可用的测量、对照、分析选择和文献出发，推理出证据最支持的结论。

而因为这种生物判断是经验性的，agent 必须从有噪声的数据里推理，并且吃透分析的假设。科学判断力的培养离不开对分析步骤的掌握，二者无法分开。

举个具体例子：differential expression 里，纳入哪些样本、怎么过滤基因、怎么剥离协变量（测序 lane 等）——这些统计选择会直接改结果。Agent 可能得出"基因 A 下调"，但这个下调可能来自真实突变相关的共变，也可能来自隐藏变量：发育成熟度、细胞类型组成、测序深度、实验室温度。

再举一个：metadata 怎么构造。如果 agent 在找调控发育的基因，它怎么定义 cell type label、怎么圈"早期发育细胞"——这个定义本身可能引入假阳性基因（来自不准确的群体定义或主观的 marker gene）。

只有理解这些假设的 agent，才配做准确的科学决策。 如果它亲手做完了分析，这些细节就还在 context 里新鲜着。

类比的边界在哪

Biology 是经验科学里最难啃的骨头之一。研究对象（活的生物体）从埃（protein）跨越到微米（cell）再到米（腿），综合了化学和物理现象。我们用来研究它们的测量，来自人类知识最前沿的仪器和 protocol，带噪声、带误差。

这种复杂性意味着，software 的类比至少在两处破功：

第一，biological ground truth 很难定义。 即使是看起来 scope 明确的任务——聚类细胞、注释 cell type、调用差异表达基因——也几乎没有唯一正解。这是研究活跃领域，benchmarks.bio 等工作正在尝试约束模糊性、可验证地建模科学意图。但非常难。

第二，离开分析层，feedback 弱很多。 数据分析的 feedback loop 还像 software：跑代码、看输出、循环。但高阶科学推理需要的真实 feedback，要求对数据生成过程有控制权。 我们能在没有这个控制权的情况下，靠"类 code 评分"的 ground truth 走出相当远。但真正的自主科学，需要直接和被研究的对象 feedback。

数据分析层会随 biology 规模变得越来越重要

Agent 首先要建立数据分析能力（至少对真实工作来说）。准确的科学推理，部分依赖于对分析的细致理解。理解这个判断在大数据背景下的分量，要看数据生成的趋势。

分子数据生成走的是指数曲线，新代际 assay 下，分析成本正在快速超过试剂/制备人工。越来越多生物工作发生在实验室实验结束之后。

把这些趋势推到底：瓶颈会从"产出测量"转到"解读测量"。问题是"何时"而不是"是否"。未来的数据集会让历史生物数据的体量相形见绌，而人类分析能力不会以同等速度 scale。答案是：agent 套着 harness 稳定地把数据变成科学结论，部署在今天卡在数据上的 biotech R&D 流程里。

Computational biology 的覆盖面在扩大

很多人把"computational biology"等同于几个狭义分析工具——sequence assembly、differential expression software。这些确实是这个领域的重要贡献，但 computational biology 应该被理解为"广泛地用计算机解决 biology 问题"。

多年下来，computational shift 的组件一直在搭：指数级累积的分子数据、越来越自动化的实验室、迭代式的 design-build-test-learn workflow。但这些进步并没有让 R&D 总生产力出现明显的台阶式变化。

现在这一局面在改变。整个行业正围绕 AI 和 computing 重组——怎么设计实验、怎么分析数据、怎么成立公司、怎么结成 pharma 合作。计算机正在成为 agent "看到"、理解并最终操控生命系统的接口。

这些 agent 的第一次真正有用部署，不会是自主 AI 科学家，而是嵌在真实工作流里的分析协作者。 这是真实需求所在，也是它们会先变强的地方。Biology 不缺有趣的新想法。绝大多数有经济价值的 agentic 工作，集中在计算机能推动 R&D 循环的地方——在科学家当下所在的位置增强他们。