很多人分享 AI Skills 集合:20 个、50 个,分类清晰,随时可下载。

我也下载过,安装了几个写作 Skills,花时间调整 prompt、参数、输出格式。一通折腾后效果一般,再也没打开过。

后来想明白了:安装一个 Skill 不等于你的 Agent 学会了用它。它不知道什么时候该运行、结果存哪里、下次是否换一种方式。

你以为安装了 Skill 就是教 Agent 学到了东西。其实你只是往抽屉里多塞了一张说明书。

真正有用的模式:闭环

我跑了 6 个月的 Agent,不是靠很多 Skills,是把 Skills 接成了闭环:

定时扫描发现值得收集的内容 → 写作 Skill 起草 → 我基于自己的判断审核、修改、批准 → 系统记录草稿和最终版本的 diff → diff 积累、提炼成新规则、写回 Skill 文件 → 下次扫描到类似内容,草稿质量已经比上一次好。

这是一个循环,不是一个模板。模板用一次就停,循环每转一次都更精准。

五类 Skills 的闭环设计

1. 写作 Skill:diff 驱动规则进化

通用写作 prompt 写出来的文字干净、流畅,但一看就是 AI 生成的。

我的做法:把规则写进 Skill 文件。哪些词禁用、句子最长多长、什么语气像我的风格。Agent 按规则写,我仍然审核每份草稿。

关键在于审核之后发生的事:我接了一个夜间 review 流程——每天晚上,一个脚本把所有草稿和最终发布的版本做 diff,记录我改了什么、删了什么、加了什么。当同类编辑积累到一定量(通常 10-15 次同类操作),系统调用模型把它们分类、提炼成候选规则、写回 Skill 文件。

真实例子:系统注意到我连续删了十几篇"花了 X 周做 Y"这种表述方式,把它提炼成规则加入 Skill 的禁用清单。此后初稿里这种表述显著减少。

6 个月,Skill 文件从 v1.0 迭代到 v1.3。不是我手工维护的,是夜间 review 流程驱动的。现在的初稿比开始时需要的编辑少得多。

2. 源材料收集:别让 Agent 做摘要,自己判断

写东西之前需要原材料。以前开六七个标签页、搜关键词、点开结果、复制粘贴到笔记里。一小时过去了,材料还没整理好。

现在给 Agent 一个方向,它搜索 → 按互动数据排序 → 把全文拉成 markdown → 我从档案里挑选。

重要原则:不要让 Agent 做搜索摘要。摘要经常遗漏关键细节,特别是数据点和具体案例。让 Agent 拉回原始全文,判断权留给自己。

3. 虚拟读者评分:不同人格同时跑

发布之前让虚拟读者过一遍。这不是语法检查,是用不同 prompt 模拟不同类型的读者:怀疑者、新手、潜在客户、同行。同时跑,分别打分,指出哪里会让读者翻白眼或关掉页面。

真实案例:怀疑者给初稿打了 4/10,主要问题:开头两段是自夸、没有具体数字、先说观点后铺垫背景。根据反馈,我删了两段自吹自擂、把模糊的"效果很好"换成具体数字、把开头从观点改成场景。第三轮评分:7/10。

值得注意的是:LLM 评分有方差,同一篇文章跑两次可能差 1-2 分。重要的不是绝对分数,是方向——哪些段落持续低分、哪些编辑真正提升了分数。那次 session 的三个改动(删自夸、加数字、观点换场景)成了此后每篇文章的检查清单。这不是我自己想出来的,是从多轮评分趋势里提炼的。

4. 三层记忆系统:Agent 记住一切

AI 最大的挫折不是它不够聪明,是它什么都不记得。

我给 Agent 接了三层记忆:

  • Log 层:每日工作日志。发生了什么、发现了什么、数据有什么变化。每天一篇。
  • 长期规则层:只有被验证过多次的规则才写进来。不是所有东西都进这个层。
  • Handoff 层:每次 session 结束时的状态快照,下次启动时读入 context。

目前长期规则层里实际存的几条规则:

  1. 让 Agent 做搜索摘要会丢失关键细节。存原始材料,自己判断。
  2. 没有链接的帖子 = 有互动但零网站流量(两个月数据确认)。
  3. 文章流量峰值大约 2 天半衰期,然后回到日常基准线(Vercel Analytics 追踪)。

这些规则不是写一次就完。每天晚上系统跑 review:读取当天日志、提取完成项/受阻项/下一步、标记值得加入长期规则的内容。跑两遍——第一遍看"完成了什么",第二遍看"错过了什么",交叉检查遗漏。

第二天早上我看到的状态已经是 review 过的。不用自己翻昨天的记录。

5. 计划任务:Agent 不该只在你跟它说话时工作

Agent 不该只在你跟它说话时工作。我跑了十几个定时任务,最常用的三个:

  • Heartbeat 检查:每几小时扫描社交媒体 mentions 和 timeline。如果没有什么值得报告就沉默。只有 🔴 级别(主要账号标记、负面内容)或 🟡 级别(有价值的回复机会)才推给我。大部分时候结论是:没什么要报告的。
  • 夜间 review:前述 review 流程,每天自动跑。
  • 早晚报:把当天 Agent 状态压缩成一条消息推给我。早上一条覆盖夜间发生的事,晚上一条覆盖今天的。30 秒看完全貌。

单独看,这些只是 cron 任务。但接在一起,就形成了循环:

Heartbeat 发现值得收集的内容 → 写作 Skill 起草 → 我审核、发布 → 系统记录 diff → 夜间 review 提炼编辑模式 → 规则写回 Skill 文件 → 下次 Heartbeat 发现类似内容,草稿质量已经更好。

任何一步失败(抓取超时、模型返回格式错误、推送失败),链条就断。下一个 cron 触发从顶部重启。每步执行前检查前一步的状态文件,完成的步骤不重复。不是每次都完美,但大多数时候链条能跑完。

最简启动:两个 cron 任务接起来

两件事就够了:定时触发 + 持久化上下文。

定时触发就是 cron:设好时间和任务,到点就跑。持久化上下文意思是:每次 cron 触发时,上次运行的输出写到了文件,这次运行把它读进 context。LLM 不原生记住上一次对话,是靠文件读写实现上下文连续。

最小例子:

Schedule: 10 14 * * *
Task: read today's work log, extract moved/blocked/next priorities, write to review file
Session: persistent (last review output auto-loaded into this run's context)

这个任务每天跑一次。它产生的 review 文件第二天被 Agent 自动读取。

加上早上 8 点的 briefing 任务:读取夜间 review 输出、压缩成一条消息推给你。

两个 cron 任务接起来:work log → 夜间 review → 早报 → 你 30 秒看完昨天全貌。

这条链条每天自动跑。你不用手动翻昨天的记录。

如果只做一件事:给你最常用的 Skill 加上定时触发。一周一次也行。从定时开始,记忆和反馈会跟着来。

Skills 告诉你 Agent 做什么。但谁告诉它什么时候做、结果存哪、下次是否换方式?

  • Scheduling:定时触发,不需要你问
  • Memory:结果和经验写进文件,下次运行读入 context
  • Feedback:比较这次输出和你编辑后的版本,更新规则

有了这三样,一个 Skill 比第一次使用时更好。

从一个 cron 任务开始。