不要用 skills 教顶尖模型思考。过去 skills 主要用来补模型不会的能力;现在它的核心任务,是把模型权重里没有的本地规则、流程标准、工具用法和验收规则注入进去。
在 GPT-5.5、Claude Fable 5 这类模型面前,很多旧的 prompt stack、固定步骤、思维链模板,确实已经过时了。强模型不需要我们手把手规定“第一步做什么,第二步做什么”。它们已经能自己规划、查证、调用工具、修正错误,在模糊任务里找到推进路径。
但这不等于 skills 没用了。真正变化的是价值定位:skills 的重心从“教模型怎么想”,移到了“告诉模型什么算做对”上。
换句话说:
强模型负责判断、规划和变通;skills 负责告诉它,在这个具体世界里什么算做对。
顶级模型吃掉了旧脚手架#
过去我们用模型,经常会写很长的指令:
先分析问题,再列计划,再逐步执行,再自我反思,再输出结论。
这种写法在弱模型时代有用,因为模型本身不稳定,需要外部流程把它扶住。但顶级模型出来以后,这类低层脚手架的边际价值在下降。OpenAI 对 GPT-5.5 的说明里,把 skills 定义成“编码流程和约定”的文件包,不再要求模型机械执行每一步。Anthropic 对 Fable 5 的提示工程建议也强调,旧模型时代过度规定的 instructions 和 scaffolding,可能会压制新模型的默认能力。
这件事对人的使用方式影响很大。
我们不应该再把模型当成一个需要一步步遥控的初级员工。更合适的心智是:它已经是一个能独立推进复杂任务的合作者。你要给它目标、约束、材料、成功标准和停止条件,不必把每个动作都写死。
拿改文章这件事来说,旧心智会写:
第一步总结原文,第二步找出问题,第三步重写标题,第四步改段落,第五步润色语言。
新心智应该写:
目标:把这篇文章改成适合公开分享的博客。
成功标准:
- 观点清楚,第一屏能让读者知道结论;
- 不像研究综述,不堆论文数字;
- 保留关键证据,但只服务于论证;
- 语言要像作者本人在表达,不要像报告。
边界:
- 不新增未经证实的数据;
- 不改核心立场;
- 文章长度控制在可读范围内。
强模型不缺“怎么想”的能力,它缺的是“你到底要什么”和“你所在场景的标准是什么”。
Skills 的价值变成了本地智能#
一个好的 skill,应该聚焦在告诉模型:这个领域、这个团队、这个工具链、这个任务类型里,哪些规则必须遵守。通用思考,模型自己会。
可以看几个典型场景:
- 代码审查时,先看行为回归、测试缺口和安全边界,不要先讨论风格;
- 在某个仓库里,临时文件只能放
tmp/,不能新建别的临时目录; - 写论文笔记时,要按固定模板保留摘要、核心问题、方法、实验和自己的疑问;
- 发周目标到日历前,必须先展示给用户确认;
- 做数据分析时,图表标题必须说清楚口径、时间范围和分母。
这些属于本地规则问题。模型再强,也不可能天然知道你的仓库约定、公司流程、私有 API、团队审稿标准、个人写作偏好、内部指标口径。它可以现场理解,但如果这些规则反复出现,每次重新解释就是浪费。把它们沉淀成 skill,才是对强模型的正确使用。
所以我更喜欢这个区分:
模型能力 = general intelligence
skills = local intelligence
研究结果也不支持“skills 必胜”#
2026 年初的 SkillsBench 给了一个很有意思的结果:在 86 个任务、11 个领域、7 种模型-框架组合、7308 条轨迹上,人工策划的 curated skills 平均把通过率提升了 16.2 个百分点。
更反直觉的是,最强组合 Claude Code + Opus 4.5 反而拿到了最大的绝对提升,约 +23.3pp。也就是说,顶级模型同样需要 skills。强模型可能更能吃透好 skill。
但同一组结果也说明,skills 的价值高度依赖场景。医疗、制造这类领域收益很大;软件工程和数学收益很小。原因并不神秘:通用编程、数学、常见写作这些领域,顶级模型的预训练覆盖已经很充分,额外塞一堆流程文档,可能只是噪音。
专门看真实软件工程的 SWE-Skills-Bench 更尖锐:49 个 public SWE skills 中,39 个没有带来通过率提升,平均增益只有 +1.2%。有些 skill 还因为版本不匹配、和项目上下文冲突,导致性能下降。
这说明一个现实问题:skills 有边界,多了没用,有了也不一定有用。
最好的收益来自少量、聚焦、由懂业务的人维护的 skill。SkillsBench 里,2-3 个 focused skills 的效果明显好于堆 4 个以上;精简 skill 也比“大而全”的文档更有效。模型自己生成的 skills 平均没有收益,这一点尤其值得警惕。让模型在任务后记录经验是有价值的;让模型凭空生成一套流程,然后立刻当成可靠 skill 用,是另一回事。
人的心智要从写提示词迁移到设计工作环境#
如果模型越来越强,人的工作会从写更复杂的提示词,转向设计更好的工作环境。
这个工作环境至少包括四件事。
第一,上下文。模型需要知道背景、目标、历史决策、相关材料和不可碰的边界。上下文越清楚,模型越能自主。
第二,标准。什么叫好,什么叫完成,什么叫不能接受。强模型可以自己走路,但你要定义终点。
第三,工具。模型会用工具,不代表它知道你希望它怎么用工具。工具描述、参数约束、错误处理、验证命令,都应该被清晰编码。
第四,记忆和流程。反复出现的任务,不应该靠人反复口述。能沉淀成模板、checklist、脚本、runbook、skill 的,就应该资产化。
这也是为什么我觉得“会不会写提示词”这个说法越来越浅。更底层的能力是:
- 会不会把隐性经验写出来;
- 会不会定义可验证的成功标准;
- 会不会判断哪些流程值得沉淀;
- 会不会删掉已经过时或制造噪音的规则;
- 会不会让模型、工具、记忆和人工判断形成闭环。
这已经从 prompt engineering 进入了 environment engineering。
什么时候靠模型,什么时候靠 skill#
上面说了这么多,落到实践上就是一个判断问题:一个任务来了,该让模型自主,还是该上 skill?
先问:这件事需要模型自己判断,还是需要遵守本地规则?
如果主要是判断,就给目标和材料,让模型自主;如果主要是规则,就用 skill 把规则显性化。开放式分析、战略判断、论文理解、复杂 bug 定位、一次性写作、数学推理,通常应该先让模型自主发挥——你提供目标、材料、约束和验收标准,不要写死路径。尤其是通用编程和常见写作,不要因为有 skill 机制,就把一堆“最佳实践”全塞进去。强模型通常知道常见模式,真正需要的是当前代码库的约束和你要达成的行为变化。
反过来,如果一个任务反复出现,而且每次都需要解释同一套规则,就应该考虑 skill。最典型的几类:
- 领域流程。 医疗、制造、法律、金融、合规、投研、内部数据口径。这些任务中,模型需要遵守领域里的专业判断标准,推理本身不是瓶颈。
- 内部工具链。 私有 CLI、公司 API、特殊部署流程、本地目录约定、权限边界、日志查询方式。模型不可能天然知道这些。
- 固定格式产出。 周报、PR review、会议纪要、论文笔记、复盘报告、数据分析报告、博客发布流程。格式本身服务于背后的质量标准。
- 高频踩坑经验。 哪些命令容易误用,哪些依赖版本不兼容,哪些测试必须跑,哪些输出不能提交。这些经验如果只留在人的脑子里,每次都会重新付成本。
- 验收和停止条件。 顶级模型更会自主推进,也更容易多做。skill 应该明确“做到哪里算完成”“什么时候停”“哪些改动不属于本次任务”。
再问:这套规则是不是会重复出现?
只出现一次,就写在当前任务上下文里。反复出现,就沉淀成 skill、模板、脚本或 runbook。
最后问:这个 skill 会不会比任务本身更重?
如果一个小任务要加载四五个 skill、几十页文档,那大概率已经过度设计了。skills 的成本是真实的:上下文成本、选择成本、维护成本、过时风险都会反噬收益。
好的 skill 更像契约,不像剧本。
差的 skill:
你必须先列计划,再分析,再执行,再反思,再总结。
好的 skill:
使用场景:当任务是审查 PR 时触发。
关注顺序:
- 行为回归和线上风险;
- 测试是否覆盖关键路径;
- 安全、权限、并发、数据一致性;
- 代码可维护性;
- 最后才是风格问题。
输出要求:
- 先列发现,按严重程度排序;
- 每条必须给出文件和行号;
- 没有发现就明确说明剩余风险和未跑的验证。
停止条件:
- 不直接重写代码,除非用户要求修复;
- 不因为个人风格偏好提出阻塞意见。
这类 skill 把专业标准交给模型,不限制它的发挥。
综合起来,实践上可以这样分:
- 通用编程、数学、常见写作:优先靠模型自主,配合测试和人工审查;
- 企业内部流程、私有工具链、领域专业任务:使用少量精选 skills;
- 固定格式、高频重复产出:沉淀成模板或 skill;
- 长程 agent 任务:模型自主 + 工具 + 记忆 + 验收规则一起上;
- 不稳定或刚升级模型时:先测无 skill 基线,再决定保留哪些 skill。
一个简单判断是:如果这个任务主要依赖通用推理,且结果可以通过测试、搜索、人工审查快速验证,就先不用 skill。让模型自由探索,再用验证信号收敛。
Skills 在把经验资产化,不是退回旧时代#
很多人担心:模型都这么强了,还写 skills,是不是在倒退?是不是又回到手写流程、手写规则的旧时代?
我觉得不是。
旧时代的 prompt engineering,是试图用文字补模型的推理缺陷。新时代的 skills,是把人的经验、组织的规则、工具的知识、任务的验收标准,变成模型可以调用的外部资产。
这两者的心智完全不同。
未来真正有价值的,是维护一套高质量的工作资产,不是收藏一堆提示词模板:
- 哪些问题值得交给强模型自主判断;
- 哪些流程值得固化成 skill;
- 哪些经验应该写进记忆;
- 哪些验证应该交给工具;
- 哪些决策必须由人负责。
顶级模型越强,这套资产越重要。强模型会放大好的外部结构,外部结构本身并不会消失。
最终的问题不在于“要不要 skills”,在于:
Skills 的使命是告诉顶级模型,这个世界里什么算做对。思考的事,模型自己会。
参考#
- SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
- SWE-Skills-Bench: Do Agent Skills Actually Help in Real-World Software Engineering?
- OpenAI API Docs: Skills
- OpenAI Developers: Agent Skills for Codex
- Anthropic: Equipping agents for the real world with Agent Skills
- Anthropic: Claude Fable 5
- Anthropic Docs: Prompting Claude Fable 5