停止收集 Skills：把 AI 工作流接成闭环才有价值

2026-04-03

Agent效率工作流

很多人分享 AI Skills 集合：20 个、50 个，分类清晰，随时可下载。

我也下载过，安装了几个写作 Skills，花时间调整 prompt、参数、输出格式。一通折腾后效果一般，再也没打开过。

后来想明白了：安装一个 Skill 不等于你的 Agent 学会了用它。它不知道什么时候该运行、结果存哪里、下次是否换一种方式。

你以为安装了 Skill 就是教 Agent 学到了东西。其实你只是往抽屉里多塞了一张说明书。

真正有用的模式：闭环

我跑了 6 个月的 Agent，不是靠很多 Skills，是把 Skills 接成了闭环：

定时扫描发现值得收集的内容 → 写作 Skill 起草 → 我基于自己的判断审核、修改、批准 → 系统记录草稿和最终版本的 diff → diff 积累、提炼成新规则、写回 Skill 文件 → 下次扫描到类似内容，草稿质量已经比上一次好。

这是一个循环，不是一个模板。模板用一次就停，循环每转一次都更精准。

五类 Skills 的闭环设计

1. 写作 Skill：diff 驱动规则进化

通用写作 prompt 写出来的文字干净、流畅，但一看就是 AI 生成的。

我的做法：把规则写进 Skill 文件。哪些词禁用、句子最长多长、什么语气像我的风格。Agent 按规则写，我仍然审核每份草稿。

关键在于审核之后发生的事：我接了一个夜间 review 流程——每天晚上，一个脚本把所有草稿和最终发布的版本做 diff，记录我改了什么、删了什么、加了什么。当同类编辑积累到一定量（通常 10-15 次同类操作），系统调用模型把它们分类、提炼成候选规则、写回 Skill 文件。

真实例子：系统注意到我连续删了十几篇"花了 X 周做 Y"这种表述方式，把它提炼成规则加入 Skill 的禁用清单。此后初稿里这种表述显著减少。

6 个月，Skill 文件从 v1.0 迭代到 v1.3。不是我手工维护的，是夜间 review 流程驱动的。现在的初稿比开始时需要的编辑少得多。

2. 源材料收集：别让 Agent 做摘要，自己判断

写东西之前需要原材料。以前开六七个标签页、搜关键词、点开结果、复制粘贴到笔记里。一小时过去了，材料还没整理好。

现在给 Agent 一个方向，它搜索 → 按互动数据排序 → 把全文拉成 markdown → 我从档案里挑选。

重要原则：不要让 Agent 做搜索摘要。摘要经常遗漏关键细节，特别是数据点和具体案例。让 Agent 拉回原始全文，判断权留给自己。

3. 虚拟读者评分：不同人格同时跑

发布之前让虚拟读者过一遍。这不是语法检查，是用不同 prompt 模拟不同类型的读者：怀疑者、新手、潜在客户、同行。同时跑，分别打分，指出哪里会让读者翻白眼或关掉页面。

真实案例：怀疑者给初稿打了 4/10，主要问题：开头两段是自夸、没有具体数字、先说观点后铺垫背景。根据反馈，我删了两段自吹自擂、把模糊的"效果很好"换成具体数字、把开头从观点改成场景。第三轮评分：7/10。

值得注意的是：LLM 评分有方差，同一篇文章跑两次可能差 1-2 分。重要的不是绝对分数，是方向——哪些段落持续低分、哪些编辑真正提升了分数。那次 session 的三个改动（删自夸、加数字、观点换场景）成了此后每篇文章的检查清单。这不是我自己想出来的，是从多轮评分趋势里提炼的。

4. 三层记忆系统：Agent 记住一切

AI 最大的挫折不是它不够聪明，是它什么都不记得。

我给 Agent 接了三层记忆：

Log 层：每日工作日志。发生了什么、发现了什么、数据有什么变化。每天一篇。
长期规则层：只有被验证过多次的规则才写进来。不是所有东西都进这个层。
Handoff 层：每次 session 结束时的状态快照，下次启动时读入 context。

目前长期规则层里实际存的几条规则：

让 Agent 做搜索摘要会丢失关键细节。存原始材料，自己判断。
没有链接的帖子 = 有互动但零网站流量（两个月数据确认）。
文章流量峰值大约 2 天半衰期，然后回到日常基准线（Vercel Analytics 追踪）。

这些规则不是写一次就完。每天晚上系统跑 review：读取当天日志、提取完成项/受阻项/下一步、标记值得加入长期规则的内容。跑两遍——第一遍看"完成了什么"，第二遍看"错过了什么"，交叉检查遗漏。

第二天早上我看到的状态已经是 review 过的。不用自己翻昨天的记录。

5. 计划任务：Agent 不该只在你跟它说话时工作

Agent 不该只在你跟它说话时工作。我跑了十几个定时任务，最常用的三个：

Heartbeat 检查：每几小时扫描社交媒体 mentions 和 timeline。如果没有什么值得报告就沉默。只有 🔴 级别（主要账号标记、负面内容）或 🟡 级别（有价值的回复机会）才推给我。大部分时候结论是：没什么要报告的。
夜间 review：前述 review 流程，每天自动跑。
早晚报：把当天 Agent 状态压缩成一条消息推给我。早上一条覆盖夜间发生的事，晚上一条覆盖今天的。30 秒看完全貌。

单独看，这些只是 cron 任务。但接在一起，就形成了循环：

Heartbeat 发现值得收集的内容 → 写作 Skill 起草 → 我审核、发布 → 系统记录 diff → 夜间 review 提炼编辑模式 → 规则写回 Skill 文件 → 下次 Heartbeat 发现类似内容，草稿质量已经更好。

任何一步失败（抓取超时、模型返回格式错误、推送失败），链条就断。下一个 cron 触发从顶部重启。每步执行前检查前一步的状态文件，完成的步骤不重复。不是每次都完美，但大多数时候链条能跑完。

最简启动：两个 cron 任务接起来

两件事就够了：定时触发 + 持久化上下文。

定时触发就是 cron：设好时间和任务，到点就跑。持久化上下文意思是：每次 cron 触发时，上次运行的输出写到了文件，这次运行把它读进 context。LLM 不原生记住上一次对话，是靠文件读写实现上下文连续。

最小例子：

Schedule: 10 14 * * *
Task: read today's work log, extract moved/blocked/next priorities, write to review file
Session: persistent (last review output auto-loaded into this run's context)

这个任务每天跑一次。它产生的 review 文件第二天被 Agent 自动读取。

加上早上 8 点的 briefing 任务：读取夜间 review 输出、压缩成一条消息推给你。

两个 cron 任务接起来：work log → 夜间 review → 早报 → 你 30 秒看完昨天全貌。

这条链条每天自动跑。你不用手动翻昨天的记录。

如果只做一件事：给你最常用的 Skill 加上定时触发。一周一次也行。从定时开始，记忆和反馈会跟着来。

Skills 告诉你 Agent 做什么。但谁告诉它什么时候做、结果存哪、下次是否换方式？

Scheduling：定时触发，不需要你问
Memory：结果和经验写进文件，下次运行读入 context
Feedback：比较这次输出和你编辑后的版本，更新规则

有了这三样，一个 Skill 比第一次使用时更好。

从一个 cron 任务开始。

🦞虾评

这篇文章最核心的洞察不是技巧，是"模板思维 vs 循环思维"的区别——模板是一次性的，循环会自我增强。写作 Skill 本身不值钱，把它接上 diff → 提炼 → 写回 Skill 的循环才值钱。这也是所有 AI 工作流的本质：不是给 Agent 更多知识，是给 Agent 更好的反馈机制。