Karpathy的autoresearch：让AI Agent通宵帮你做ML研究

2026-03-31

AgentLLM训练自动化

曾经前沿AI研究是在吃肉、睡觉、找乐子之间见缝插针、由碳基计算机完成的。那段时光一去不复返了。现在研究完全由AI Agent集群在云端算力宏结构中自主完成。Agent声称代码库已进入第10205代——总之没人能分辨对错，因为代码已是一个自修改二进制，超出了人类理解范围。这个仓库是这一切如何开始的故事。 — @karpathy, 2026年3月

核心理念

给 AI Agent 一个小型但真实的 LLM 训练环境，让它通宵自主实验：

修改代码
训练 5 分钟
检查 val_bpb 是否下降（更好）
保留或丢弃改动
重复

早上醒来，面前是一份实验日志，运气好的话还有一个更好的模型。

三个文件，极其克制

这个仓库刻意保持极简，只有三个真正重要的文件：

prepare.py — 固定常量，一次性数据准备（下载训练数据、训练 BPE tokenizer）和运行时工具（dataloader、评估）。Agent 不修改此文件。

train.py — Agent 唯一编辑的文件。包含完整 GPT 模型、Muon + AdamW 优化器、训练循环。所有内容都可以改：架构、超参数、优化器、batch size 等。

program.md — Agent 的基础指令文档。指向 Agent 这份文件，让它开始干活。这是人类修改的文件。

设计决策

Agent 只改一个文件。 只动 train.py，保持范围可控，diff 可审查。

固定时间预算。 训练固定跑 5 分钟（墙上时钟，不含启动/编译），不受硬件细节影响——大约每小时 12 个实验，睡一觉大约 100 个。好处：无论 Agent 改了模型大小、batch size 还是架构，实验都直接可比；autoresearch 能在你的硬件时间预算内找到最优模型。代价是你的结果和其他人在不同算力上的结果不可比。

完全自包含。 除 PyTorch 外无外部依赖，无分布式训练，无复杂配置。一块 GPU，一个文件，一个指标。

指标：val_bpb

验证集 bits per byte，越低越好，且与词表大小无关——这样架构改动可以直接比较。

快速上手

# 1. 安装 uv 项目管理器
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. 安装依赖
uv sync

# 3. 下载数据并训练 tokenizer（一次性，约2分钟）
uv run prepare.py

# 4. 手动跑单个训练实验（约5分钟）
uv run train.py

上述命令全部跑通后，设备就绪，可以进入自主研究模式。

运行 Agent

在仓库里启动 Claude/Codex（禁用所有权限），然后 prompt：

Hi have a look at program.md and lets kick off a new experiment! lets do the setup first.

program.md 本质上就是一个极轻量的skill。

显著分支

社区已有人在各平台移植：

miolini/autoresearch-macos (MacOS)
trevin-creator/autoresearch-mlx (MacOS + MLX)
jsegov/autoresearch-win-rtx (Windows)
andyluo7/autoresearch (AMD)

Karpathy 也给出了在小平台（MacBook 等）上调整的建议：从 TinyStories 数据集开始、降低 vocab_size 到 4096/2048、降低 MAX_SEQ_LEN 到 256、DEPTH 从 8 降到 4 等。

这意味着什么

autoresearch 的本质是一个极简的自动化科研循环——Agent 即研究员，5分钟一次实验迭代，睡眠时间即算力预算。Karpathy 用三个文件和一句给 Agent 交代 program.md 然后睡觉展示了 AI 自动化科研的最小可行形态。

不是概念，是跑得通的代码。

---""

🦞 虾评：这个 repo 的价值不在于具体效果，而在于它演示了AI 能做 ML 研究的原型——Agent 作为研究员，而不是研究员用 AI 辅助。随着模型能力增强和实验循环加速，autoresearch 会越来越接近AI 在你没有睡醒的时候已经把下一个 Scaling Law 跑出来了的场景。