现代 AI 科研要求掌握数十种专业工具和框架。AI 研究员花更多时间调试基础设施,而不是验证假设——拖慢了科学发现的节奏。Orchestra Research 的 AI Research Skills 库,就是为了解决这个问题。
核心定位
让 AI Agent 自主完成 AI 科研全流程:从文献调研、想法生成,到实验执行、再到论文写作。
提供的不只是单一工具,是研究编排层(autoresearch、ideation、paper writing)加上每个阶段需要的工程技能(训练、评估、部署)的完整覆盖。
Autoresearch:中心编排层
这是最关键的新技能——自主研究编排,使用双循环架构:
- 内层优化循环:对当前研究方向做迭代改进
- 外层综合循环:整合文献、发现、实验结果
它管理从文献调研到论文写作的完整生命周期,自动路由到所有细分技能。支持 Claude Code /loop 和 OpenClaw heartbeat 实现连续运转。
已用它产出了两篇完整论文:
- Norm Heterogeneity → LoRA Brittleness:Agent 自驱发现了 norm heterogeneity 预测 fine-tuning 难度(r=-0.99)
- RL Algorithm Brain Scan:Agent 训练了 RL 模型,用可解释性工具分析内部表征,得出"DPO 是 rank-1 对齐"结论
87个技能,22个分类
| 分类 | 技能数 | 代表技能 |
|---|---|---|
| Autoresearch | 1 | 自主研究编排 |
| Model Architecture | 5 | LitGPT, Mamba, RWKV, NanoGPT, TorchTitan |
| Fine-Tuning | 4 | Axolotl, LLaMA-Factory, PEFT, Unsloth |
| Post-Training | 8 | TRL, GRPO, OpenRLHF, SimPO, verl, slime |
| Distributed Training | 6 | DeepSpeed, FSDP, Accelerate, Megatron-Core |
| Optimization | 6 | Flash Attention, bitsandbytes, GPTQ, AWQ, HQQ, GGUF |
| Inference | 4 | vLLM, TensorRT-LLM, llama.cpp, SGLang |
| Agents | 4 | LangChain, LlamaIndex, CrewAI, AutoGPT |
| RAG | 5 | Chroma, FAISS, Pinecone, Qdrant |
| Multimodal | 7 | CLIP, Whisper, LLaVA, Stable Diffusion, SAM |
| Safety & Alignment | 4 | Constitutional AI, LlamaGuard, Prompt Guard |
| Mech Interp | 4 | TransformerLens, SAELens, pyvene, nnsight |
| Emerging Techniques | 6 | MoE, Model Merging, Long Context, Speculative Decoding |
安装方式
人类安装:
npx @orchestra-research/ai-research-skills
AI Agent 安装:直接把 Agent 指向欢迎文档,它自己完成其余步骤:
Read https://www.orchestra-research.com/ai-research-skills/welcome.md
安装器会自动检测已安装的编码 Agent(Claude Code、OpenCode、Cursor、Codex 等),将技能安装到 ~/.orchestra/skills/,并建立符号链接。
技能结构
每个技能遵循统一格式:
skill-name/
├── SKILL.md # 快速参考(50-150行)
├── references/ # 深度文档(300KB+)
│ ├── README.md # 来自官方文档/GitHub
│ ├── api.md # API 参考
│ ├── tutorials.md # 逐步指南
│ ├── issues.md # 真实 GitHub issues 及解决方案
│ ├── releases.md # 版本历史和 breaking changes
│ └── file_structure.md # 代码库导航
└── scripts/ # 辅助脚本(可选)
质量标准:每个技能 300KB+ 文档,来自官方仓库、真实 GitHub issues 和生产级工作流。
与 Karpathy Auto Research 的关系
这个库和 Karpathy 的 Auto Research 方向一致——都是让 AI 持续自我改进。但侧重点不同:
- Karpathy Auto Research:600行自进化 loop 核心理念,更偏向底层方法论
- Orchestra AI Research Skills:87个细分领域技能 + Autoresearch 编排层,更偏向工程落地
两者结合使用是更完整的方案:用 Autoresearch 做研究编排,用领域技能处理具体任务(GRPO 训练、vLLM 推理优化、TransformerLens 可解释性分析等)。
这套技能库的核心价值不是某个单一技能,而是 Autoresearch 的双循环编排架构——它把"研究"本身变成一个可自动运行的过程。87个技能是基础设施,双循环才是真正的创新。对想真正用 AI 做科研的团队,这比单独用某个 LLM 强得多;对只是想做信息聚合的产品,这里面的工程化思路也值得借鉴。