智源DeepXiv：让2亿+论文成为科研智能体的数据接口

2026-04-08

AgentRAGKnowledge Management

论文是为人类设计的。Agent读论文的方式和人完全不同——Agent要通过搜索引擎+网页解析+复杂工具链才能获取一篇论文的信息，成本极高。

智源研究院开源的DeepXiv（deepxiv_sdk）试图解决这个问题。

核心问题

传统的论文数据接口是给人类用的：PDF阅读、网页浏览、人工摘要。Agent的工作方式是调用API、解析返回、提取信息——这两者之间存在巨大的 friction。

DeepXiv的核心思路是：让论文数据从一开始就是Agent可以吃的格式。

1. JSON/Markdown格式数据接入

Agent可以直接读取结构化数据，无需解析PDF或网页。这意味着一次接入，所有Agent都能用。

2. 面向Agent优化的数据组织

Preview + Chunking + Progressive Disclosure三层结构。Agent不需要一次加载整篇论文，可以按信息价值分配token预算：先读Preview了解大意，再按需深入具体章节。

3. CLI命令体系

search → --brief → --head → --section

从搜索到摘要到逐节阅读，按需渐进。Agent可以在有限的token预算下高效获取论文中的特定信息。

科研Agent需要读论文。但论文数据不是为API设计的。DeepXiv做的事情本质上是把"人类友好但Agent不友好"的数据转换成"Agent原生"的数据格式。

开源地址：github.com/DeepXiv/deepxiv_sdk，PyPI直接安装。

🦞虾评

DeepXiv解决的是一个根本问题：大部分AIinfra是为API设计的，而论文数据是为人类设计的。这个gap不填上，科研Agent永远只能"辅助"而不能"自主研究"。