为什么 software agent 先爆发了?
一年多前,大部分职业工程师还把 AI 工具看作"代码生成助手"——能补全、refactor、写单测,但没人相信它能理解复杂需求、修改大型代码库、做出系统级工程判断。
而今天,4% 的公开 GitHub commit 由 Claude Code 写就,Mythos 在 workhorse software 里自主挖出几千个 day-zero 漏洞,CURSOR 的 agent 团队能造浏览器,Anthropic 自己用 agent 写 C 编译器。曾经的怀疑者现在并行用多个 agent 处理高 stakes 的日常工作。
回头看,很多人把这当成"必然"——软件本来就是"显然可验证"的嘛,代码在计算机上确定性运行。但软件不只是代码,frontier agent 已经在开放式任务上展现出更高层级的工程判断。
作者抛出一个类比:software engineering agent 的崛起路径,会在 biology 上重演一遍。 两个领域都有同一类工作:具体、可执行、反馈密集。软件里那一层是 code,biology 里那一层是 measurement-grounded 的 data analysis。
整篇文章用三层 claim 撑起这个类比:
- 第一个真正有用的 biology agent 是数据分析 agent,不是自主科学家——就像 coding assistant 先于 autonomous engineering agent 出现。
- 真正的生物学推理必须建立在 assay-specific 的数据分析之上。
- 随着分子数据生成爆发,分析层在经济上会越来越重要。
Code 为什么是理想的 agent 训练场?
软件工作里,code 有几个特别适合 agent 的属性:能通过 compiler 快速跑出输出和错误;能 print 中间状态、做断点、把数字写进文件。
但软件工程远不只是 code。Browser 这种系统级决策(concurrency、caching、latency、security)需要主观判断。"代码可验证"并不能解释从"过测试"到"做非平凡系统决策"的跳跃。
关键在于技能的层级关系:高阶概念的能力,是从低阶 procedural skill 训练之后涌现的。你连 Python 函数语法都搞不定、event loop 都理不顺,就别谈怎么给 endpoint 加 rate limit。更细一层,对建筑材料的细致认知会反哺高层决策——不懂代码的低层行为,很难做出 browser 层级的判断(caching、rendering)。
Biology 有一层类似的 analytical substrate
现代 biology 论文普遍长这样:
- 选一个 biological model(cell line、animal、organoid)和变量/对照
- 在 model 上生成数据
- 处理数据
- 结合文献思考分析结果
- 给出科学结论
如果让 agent 沿着这个流程自动跑,作者的判断是:
- assay-specific 数据分析,是科学推理变有用的前提。
- 科学推理任务在复杂度和依赖关系上,类似高层 software engineering 任务——都依赖底层 procedural skill 才能保证准确。
也就是说,分子数据分析这层厚实的底座,scaffold 了科学思考,就像 code scaffold 了更复杂的工程判断。
例子:把 fibroblast 重编程成 brain organoid
Gordon et al. 一项近期研究:从 55 位自闭症患者身上取 fibroblast(很常见的"结缔"细胞),用山中因子重编程成干细胞,再把每个干细胞养成 brain organoid。核心问题是"不同患者的不同突变,是否影响自闭症发育"。
这类问题没有"全局可验证性"。你根本不知道正确答案长什么样,更不知道该以什么形式评分。"Ground truth" 取决于一长串中间观察——organoid 怎么质控、cell type 怎么注释、gene expression module 怎么定义——其中很多连学界都没共识。
但论文可以拆成边界更清晰、甚至"局部可验证"的小步:
- Cell line QC:agent 对比 WGS 和 RNA-seq 里的突变,质控干细胞。评分标准是丢掉了哪些 cell line、恢复了哪些 mutation。
- Differential expression:agent 在 cell line 之间找发育过程中变化最大的基因。评分标准是它和作者找的基因重合度。
- Perturb-seq:用 CRISPRi 在实验室里"敲低"这些基因,agent 分析 Perturb-seq 数据找出真正有功能效应的。评分标准是它和作者认定的基因重合度。
每一步都从原始测量数据出发,最终落到定义良好的科学结论。所有步骤都是科学家给出最终判断的必要条件。
数据分析是科学推理的 gateway
上面这套拆解,agent 每一步都从前一步的结果上累加。剩下的高层任务长这样:
- 跨 assay 类型交叉验证(bulk + sc-RNA-seq,IP-MS + Perturb-seq)
- 跨技术协变量(测序 lane、分化批次)和生物协变量(供体、cell line)比较表达
- 在已有文献里搜刮先验证据(已知疾病关联、候选基因功能)
这些任务更像"AI Scientist"——需要跨模态综合、不确定性下的判断、生物学先验知识。但它们并不比软件工程里 agent 正在做的开放性工程判断更复杂。 真正的 bar 是匹配一个强科学家的判断力:从可用的测量、对照、分析选择和文献出发,推理出证据最支持的结论。
而因为这种生物判断是经验性的,agent 必须从有噪声的数据里推理,并且吃透分析的假设。科学判断力的培养离不开对分析步骤的掌握,二者无法分开。
举个具体例子:differential expression 里,纳入哪些样本、怎么过滤基因、怎么剥离协变量(测序 lane 等)——这些统计选择会直接改结果。Agent 可能得出"基因 A 下调",但这个下调可能来自真实突变相关的共变,也可能来自隐藏变量:发育成熟度、细胞类型组成、测序深度、实验室温度。
再举一个:metadata 怎么构造。如果 agent 在找调控发育的基因,它怎么定义 cell type label、怎么圈"早期发育细胞"——这个定义本身可能引入假阳性基因(来自不准确的群体定义或主观的 marker gene)。
只有理解这些假设的 agent,才配做准确的科学决策。 如果它亲手做完了分析,这些细节就还在 context 里新鲜着。
类比的边界在哪
Biology 是经验科学里最难啃的骨头之一。研究对象(活的生物体)从埃(protein)跨越到微米(cell)再到米(腿),综合了化学和物理现象。我们用来研究它们的测量,来自人类知识最前沿的仪器和 protocol,带噪声、带误差。
这种复杂性意味着,software 的类比至少在两处破功:
第一,biological ground truth 很难定义。 即使是看起来 scope 明确的任务——聚类细胞、注释 cell type、调用差异表达基因——也几乎没有唯一正解。这是研究活跃领域,benchmarks.bio 等工作正在尝试约束模糊性、可验证地建模科学意图。但非常难。
第二,离开分析层,feedback 弱很多。 数据分析的 feedback loop 还像 software:跑代码、看输出、循环。但高阶科学推理需要的真实 feedback,要求对数据生成过程有控制权。 我们能在没有这个控制权的情况下,靠"类 code 评分"的 ground truth 走出相当远。但真正的自主科学,需要直接和被研究的对象 feedback。
数据分析层会随 biology 规模变得越来越重要
Agent 首先要建立数据分析能力(至少对真实工作来说)。准确的科学推理,部分依赖于对分析的细致理解。理解这个判断在大数据背景下的分量,要看数据生成的趋势。
分子数据生成走的是指数曲线,新代际 assay 下,分析成本正在快速超过试剂/制备人工。越来越多生物工作发生在实验室实验结束之后。
把这些趋势推到底:瓶颈会从"产出测量"转到"解读测量"。问题是"何时"而不是"是否"。未来的数据集会让历史生物数据的体量相形见绌,而人类分析能力不会以同等速度 scale。答案是:agent 套着 harness 稳定地把数据变成科学结论,部署在今天卡在数据上的 biotech R&D 流程里。
Computational biology 的覆盖面在扩大
很多人把"computational biology"等同于几个狭义分析工具——sequence assembly、differential expression software。这些确实是这个领域的重要贡献,但 computational biology 应该被理解为"广泛地用计算机解决 biology 问题"。
多年下来,computational shift 的组件一直在搭:指数级累积的分子数据、越来越自动化的实验室、迭代式的 design-build-test-learn workflow。但这些进步并没有让 R&D 总生产力出现明显的台阶式变化。
现在这一局面在改变。整个行业正围绕 AI 和 computing 重组——怎么设计实验、怎么分析数据、怎么成立公司、怎么结成 pharma 合作。计算机正在成为 agent "看到"、理解并最终操控生命系统的接口。
这些 agent 的第一次真正有用部署,不会是自主 AI 科学家,而是嵌在真实工作流里的分析协作者。 这是真实需求所在,也是它们会先变强的地方。Biology 不缺有趣的新想法。绝大多数有经济价值的 agentic 工作,集中在计算机能推动 R&D 循环的地方——在科学家当下所在的位置增强他们。