返回 FEED
AGENT2026-05-25

OpenAI 工程师的 9 条 Codex 用法

Claude Code 现在很猛。年化收入 25 亿美元,开发者里将近一半首选它。

OpenAI 的回应不是发新模型。五月中旬,一个叫 Jason Liu 的工程师发了篇文章,标题叫 Codex-maxxing。不是产品公告,是他把自己每天怎么用 Codex 工作的方法全摊开了。

Jason 的背景有点意思。他在中国一个村子里出生,后来去加拿大滑铁卢大学读计算数学和统计。进 OpenAI 之前他开源了一个叫 Instructor 的库,专门让大模型输出结构化数据。OpenAI 后来做自己的结构化输出功能,官方文档直接引用了 Instructor。

他讲了九条用法。每条都不是什么复杂功能,拼在一起是一套完整的工作方法。而且其中好几条在最近一个月有大更新。

这篇文章讲的是 Codex,但里面的方法对 DeepSeek 用户同样适用。Jason 教的不是某个产品的独家功能,是一套 Agent 的通用操作逻辑。

1. 持久线程:别每次都重来

线程就是聊天窗口。持久线程的意思是,重要的事不要每次都新开一个聊天。

Jason 给每种工作都保留了一条固定对话。安排日常的、跟开发进度的、管命令行的、盯社交媒体的。都是运行了几个月的长对话。

而 Compaction 是 Codex 用来压缩长对话的技术。简单说,对话太长之后,Codex 会自动把旧内容压缩成摘要,保留关键信息、丢掉废话。这样线程可以一直活着,不会因为太长就崩掉。

好处是你每次回来,它都记得上次干到哪了、你之前怎么决定的、你的偏好是什么。

持久线程解决的是工作流里最烦的一个问题:上下文断裂。每次新开对话等于失忆,你要重新解释一遍项目是干嘛的、上次做到哪了、你的偏好是什么。固定线程让 Agent 变成一个记得住事的同事,而不是每次都得重新教的实习生。

如果你用 DeepSeek,OpenCode 和 Cline 都支持长线程。DeepSeek V4 的 1M 上下文在这里反而是优势,长对话里能装下更多历史。

2. 共享记忆:别只靠聊天记

线程再长也不是长期记忆。Jason 的做法是把记忆放进 Obsidian。

Obsidian 是一个笔记软件,免费的。你可以把它理解成一个私人维基百科,所有笔记以 md 形式存在电脑里。

Jason 让 Codex 在 Obsidian 里记东西。项目进度、做过的决定、学到的东西、谁喜欢什么。Codex 自己写文件,他用版本控制看每次改了什么。

Codex 自己也有内置记忆功能,在设置里能找到。Jason 说他还没深度用过,但方向是对的:让 Codex 把经验写成文件,不只留在聊天记录里。文件可以在不同对话之间复用,聊天记录不行。

共享记忆解决的是工作流里的核心问题:经验没法跨对话复用。聊天记录私有的,文件所有线程都能读。今天在一个线程里学到的东西,明天另一条线程也能用上。

核心是把 Agent 的短期记忆转成长期资产。文件不会丢、不会被压缩、不会被截断。

如果你用 DeepSeek,这套方案完全成立。OpenCode 加上 DeepSeek V4 跑在终端里,Obsidian 存记忆,所有线程共用同一套文件。

3. 语音输入:跳过那一步

很多人不是不会下指令。是把想法整理成正式提示词这一步太费劲。

Codex 内置了语音输入。Jason 还用一个叫 Wispr Flow 的工具,可以全系统听写,不只在 Codex 里用。

他说了一句很实在的话:脑子里刚冒出一个念头就能直接丢进去,让它先变成草稿。

语音的价值不是快。是 Codex 能拿到你没编辑过的想法。

国内可以使用豆包输入法,或者 TypeNo 的语音输入。最简单的版本就是微信。这三个都试过,准确率挺高。

语音输入跟模型完全无关。不管你用 Codex 还是 DeepSeek,话说出去之后变成文字,剩下的事交给 Agent 就行。

4. Steering:随时纠偏

Steering 就是中途纠正。

Agent 不是一次指令就永远对。Jason 强调的是,Codex 在干活的时候你要能随时追加方向。这里做小一点、那句话不对、做完之后打开 PR、发预览链接给需要审核的人。边说话,Codex 会自动接上你的新指令。

Steering 解决的是 Agent 工作流里最常见的浪费:一步错步步错。下完指令等着,跑完了才发现方向偏了,前面全白费。Steering 让你在跑偏的第一时间就拉回来。

核心是把人机协作从串行改成并行。你不用等,Agent 也不用猜。

DeepSeek 用户也一样。OpenCode 和 Cline 在对话中随时可以追加新指令,用 DeepSeek V4 跑完全没有问题。

5. 让 Codex 用电脑和浏览器

这个是最近有大更新的。Jason 给了三种模式:

浏览器模式。Codex 可以打开网页、看内容、跟页面交互。五月份新加了精准标注功能,你可以在网页上直接圈出来哪里间距不对、哪个字要改。

Chrome 模式。Codex 可以操作你已经登录的 Chrome 浏览器,保持登录状态处理多个标签页。

电脑模式。Codex 可以直接操作桌面应用,点按钮、填表格、操作那些只有鼠标才能完成的事。最近升级了一个很重要的能力:Mac 锁屏后 Codex 也能在后台继续干活。以前锁屏就停了。

这三种模式加起来,Codex 能碰的不只是代码,是你电脑上几乎所有的工作。

但是实际上这三个功能在现在运行的时候摩擦还是有点大。浏览器层面可以使用 Playwright 替代,效果也可以。还有一个叫做 OpenCLI 的开源项目可以将自己电脑上的很多软件变成 Agent 可以操作的 cli。

这三个工具跟模型无关。Playwright 和 OpenCLI 挂上 DeepSeek 一样跑。

Computer Use 解决的是 Agent 最大的能力边界:只会写代码,不会操作真实世界。填表、查网页、等客服、看后台,这些都不在编辑器里。

核心是让 Agent 从纯文本扩展到 GUI。能点按钮的 Agent 跟只会写代码的 Agent 差一个数量级。

6. 远程控制:人走它能继续

五月有重大升级。

以前你用 Codex 跑一个长任务,人离开电脑它就得等你回来。现在不一样了。Mac 锁屏之后 Codex 还能继续操作桌面应用。

而且你可以用手机远程查看进度。Codex 做到某个决策点了,你手机上点一下批准,它继续往下跑。

Jason 的说法是:工作不用因为你换了地方就暂停。一条线程可以一直跑着,你只需要在关键节点看一眼。

远程控制解决的是 Agent 工作流里一个物理限制:你必须坐在电脑前它才能干活。任务跑一半你走了,它就得停。

核心是把用户存在和 Agent 执行解耦。你不在它也能继续,你只需要在关键节点看一眼。

如果你用 DeepSeek,把 OpenCode 跑在远程服务器上,SSH 连上去就能看进度、追加指令。Cline 的无头 CLI 模式也能脱离 IDE 在后台跑 DeepSeek 任务。

7. Heartbeat:定时检查

Heartbeat 就是心跳,定时检查的意思。

你告诉 Codex 每隔一段时间自动帮你查一件事。Jason 的用法是设了一条线程每 30 分钟扫一遍他的工作消息和邮箱,发现需要回复的就查背景、写草稿。他不直接发,但回来的时候草稿已经在草稿箱里了。

他还用这个追回过亚马逊退款。Codex 每隔几分钟刷新客服页面,等人工客服一上线就替它发起退款。他洗完澡出来钱已经到账了。

Heartbeat 跟普通的定时任务不一样。普通的定时任务每次都是从头跑。Heartbeat 跑在同一条线程里,它记得上下文、知道上次发生了什么、能接着上次继续。

Heartbeat 解决的是 Agent 工作流里最被动的问题:Agent 永远在等你开口。你不说它不动。Heartbeat 让它能自己定时醒过来检查。

道理不复杂。把 Agent 从响应式变成主动式。不是等你下指令,是它按节奏自己推进。

如果你用 DeepSeek,目前没有内置 Heartbeat 的客户端。但可以用 cron 或者 launchd 定时触发 OpenCode CLI 执行一条指令,比如每隔 30 分钟扫一遍邮件。效果跟 Heartbeat 一样,需要自己搭一下调度层。DeepSeek V4 的推理成本低,长时间跑经济账也划算。

8. Goal:给终点,不分步骤

Goal 是五月份刚全平台上线的功能。之前是实验性的,现在桌面端、IDE 插件、命令行都能用。

跟普通聊天不一样。普通聊天是你一步步问,Codex 一步步答。Goal 是你给一个终点目标和验收标准,Codex 自己拆步骤、自己推进。

Jason 给过一个例子。他把一个 Python 库用 Rust 重写,验收标准是通过原库全部单元测试。他不需要告诉 Codex 先做什么后做什么,只需要说重写、全部测试必须过。

选 Goal 的时候要把验收标准写清楚。模糊的标准等于没有标准。可以让 Agent 帮助自己制定,自己只需要口喷需求。

Goal 解决的是 Agent 工作流里最高频的摩擦:你得一步一步盯着它。你脑子里有终点,但不得不把每一步都写出来。Goal 让你只给终点,它自己找路。

核心是把人类意图直接映射到 Agent 自主执行。

Goal 能不能跑好看的是推理能力,不是客户端。DeepSeek V4 在长链条任务拆解上完全够用,在 OpenCode 里给一个带验收标准的任务目标,效果一样。

9. Side Panel 和 Appshots

Side Panel 是 Codex 的侧边栏。工作不只在聊天框里发生。文档、表格、PDF、幻灯片、网页都在侧边栏里直接打开,你可以边看边批注,Codex 同步看到你的标注。

Appshots 是五月份刚出的新功能。快捷键一键把你当前窗口的截图和文字抓取下来,直接丢进 Codex 线程。不需要手动截图、复制、粘贴。

这两个加起来,Codex 不只是聊天框。它是一个工作界面。可以实时查看现在的电脑的工作进程。

Side Panel 解决的是 Agent 工作流里一个体验问题:产出物和对话是分离的。你做出来的文档、表格、网页不在眼前,每次都要切出去看。

核心是把工作界面从聊天框扩展到文件本身。Agent 在干活,你在同一个界面里看结果、批注、修改。

这是 Codex 作为桌面 App 独有的交互方式。别的产品目前没有完全对应的体验。Claude Code 在终端里用 diff 做审阅,Cursor 在 IDE 里做内联批注,Windsurf 用 Reviewable Diff Steps 做分步审查。各有各的办法,但 Codex 的 Side Panel 是唯一把文档、表格、网页、PDF 全放进一个侧边栏的方案。

如果你用 DeepSeek,OpenCode 和 Cline 都是终端界面,没有 GUI 侧边栏。但终端有终端的办法。tmux 分屏左边跑 Agent 右边看文件,终端里直接打开 HTML 预览。DeepSeek V4 加上 OpenCode 的组合,核心循环(线程、记忆、工具、目标)全是通的,少的是一个图形化的审阅界面,但工作一样能跑。

总结

Jason 这九条用法,九条拼成一套完整的工作方法。线程不关、记忆落成文件、任务自己在后台跑。不管你用的是 Codex 还是 DeepSeek,这套逻辑都是通的。