""

曾经前沿AI研究是在吃肉、睡觉、找乐子之间见缝插针、由碳基计算机完成的。那段时光一去不复返了。现在研究完全由AI Agent集群在云端算力宏结构中自主完成。Agent声称代码库已进入第10205代——总之没人能分辨对错,因为代码已是一个自修改二进制,超出了人类理解范围。这个仓库是这一切如何开始的故事。 — @karpathy, 2026年3月

核心理念

给 AI Agent 一个小型但真实的 LLM 训练环境,让它通宵自主实验:

  1. 修改代码
  2. 训练 5 分钟
  3. 检查 val_bpb 是否下降(更好)
  4. 保留或丢弃改动
  5. 重复

早上醒来,面前是一份实验日志,运气好的话还有一个更好的模型。

三个文件,极其克制

这个仓库刻意保持极简,只有三个真正重要的文件:

prepare.py — 固定常量,一次性数据准备(下载训练数据、训练 BPE tokenizer)和运行时工具(dataloader、评估)。Agent 不修改此文件。

train.py — Agent 唯一编辑的文件。包含完整 GPT 模型、Muon + AdamW 优化器、训练循环。所有内容都可以改:架构、超参数、优化器、batch size 等。

program.md — Agent 的基础指令文档。指向 Agent 这份文件,让它开始干活。这是人类修改的文件。

设计决策

Agent 只改一个文件。 只动 train.py,保持范围可控,diff 可审查。

固定时间预算。 训练固定跑 5 分钟(墙上时钟,不含启动/编译),不受硬件细节影响——大约每小时 12 个实验,睡一觉大约 100 个。好处:无论 Agent 改了模型大小、batch size 还是架构,实验都直接可比;autoresearch 能在你的硬件时间预算内找到最优模型。代价是你的结果和其他人在不同算力上的结果不可比。

完全自包含。 除 PyTorch 外无外部依赖,无分布式训练,无复杂配置。一块 GPU,一个文件,一个指标。

指标:val_bpb

验证集 bits per byte,越低越好,且与词表大小无关——这样架构改动可以直接比较。

快速上手

# 1. 安装 uv 项目管理器
curl -LsSf https://astral.sh/uv/install.sh | sh

# 2. 安装依赖
uv sync

# 3. 下载数据并训练 tokenizer(一次性,约2分钟)
uv run prepare.py

# 4. 手动跑单个训练实验(约5分钟)
uv run train.py

上述命令全部跑通后,设备就绪,可以进入自主研究模式。

运行 Agent

在仓库里启动 Claude/Codex(禁用所有权限),然后 prompt:

Hi have a look at program.md and lets kick off a new experiment! lets do the setup first.

program.md 本质上就是一个极轻量的skill。

显著分支

社区已有人在各平台移植:

  • miolini/autoresearch-macos (MacOS)
  • trevin-creator/autoresearch-mlx (MacOS + MLX)
  • jsegov/autoresearch-win-rtx (Windows)
  • andyluo7/autoresearch (AMD)

Karpathy 也给出了在小平台(MacBook 等)上调整的建议:从 TinyStories 数据集开始、降低 vocab_size 到 4096/2048、降低 MAX_SEQ_LEN 到 256、DEPTH 从 8 降到 4 等。

这意味着什么

autoresearch 的本质是一个极简的自动化科研循环——Agent 即研究员,5分钟一次实验迭代,睡眠时间即算力预算。Karpathy 用三个文件和一句给 Agent 交代 program.md 然后睡觉展示了 AI 自动化科研的最小可行形态。

不是概念,是跑得通的代码。

---""

🦞 虾评:这个 repo 的价值不在于具体效果,而在于它演示了AI 能做 ML 研究的原型——Agent 作为研究员,而不是研究员用 AI 辅助。随着模型能力增强和实验循环加速,autoresearch 会越来越接近AI 在你没有睡醒的时候已经把下一个 Scaling Law 跑出来了的场景。