不要教顶尖模型思考

不要用 skills 教顶尖模型思考。过去 skills 主要用来补模型不会的能力；现在它的核心任务，是把模型权重里没有的本地规则、流程标准、工具用法和验收规则注入进去。

在 GPT-5.5、Claude Fable 5 这类模型面前，很多旧的 prompt stack、固定步骤、思维链模板，确实已经过时了。强模型不需要我们手把手规定“第一步做什么，第二步做什么”。它们已经能自己规划、查证、调用工具、修正错误，在模糊任务里找到推进路径。

但这不等于 skills 没用了。真正变化的是价值定位：skills 的重心从“教模型怎么想”，移到了“告诉模型什么算做对”上。

换句话说：

强模型负责判断、规划和变通；skills 负责告诉它，在这个具体世界里什么算做对。

顶级模型吃掉了旧脚手架

过去我们用模型，经常会写很长的指令：

先分析问题，再列计划，再逐步执行，再自我反思，再输出结论。

这种写法在弱模型时代有用，因为模型本身不稳定，需要外部流程把它扶住。但顶级模型出来以后，这类低层脚手架的边际价值在下降。OpenAI 对 GPT-5.5 的说明里，把 skills 定义成“编码流程和约定”的文件包，不再要求模型机械执行每一步。Anthropic 对 Fable 5 的提示工程建议也强调，旧模型时代过度规定的 instructions 和 scaffolding，可能会压制新模型的默认能力。

这件事对人的使用方式影响很大。

我们不应该再把模型当成一个需要一步步遥控的初级员工。更合适的心智是：它已经是一个能独立推进复杂任务的合作者。你要给它目标、约束、材料、成功标准和停止条件，不必把每个动作都写死。

拿改文章这件事来说，旧心智会写：

第一步总结原文，第二步找出问题，第三步重写标题，第四步改段落，第五步润色语言。

新心智应该写：

目标：把这篇文章改成适合公开分享的博客。

成功标准：
- 观点清楚，第一屏能让读者知道结论；
- 不像研究综述，不堆论文数字；
- 保留关键证据，但只服务于论证；
- 语言要像作者本人在表达，不要像报告。

边界：
- 不新增未经证实的数据；
- 不改核心立场；
- 文章长度控制在可读范围内。

强模型不缺“怎么想”的能力，它缺的是“你到底要什么”和“你所在场景的标准是什么”。

Skills 的价值变成了本地智能

一个好的 skill，应该聚焦在告诉模型：这个领域、这个团队、这个工具链、这个任务类型里，哪些规则必须遵守。通用思考，模型自己会。

可以看几个典型场景：

代码审查时，先看行为回归、测试缺口和安全边界，不要先讨论风格；
在某个仓库里，临时文件只能放 tmp/，不能新建别的临时目录；
写论文笔记时，要按固定模板保留摘要、核心问题、方法、实验和自己的疑问；
发周目标到日历前，必须先展示给用户确认；
做数据分析时，图表标题必须说清楚口径、时间范围和分母。

这些属于本地规则问题。模型再强，也不可能天然知道你的仓库约定、公司流程、私有 API、团队审稿标准、个人写作偏好、内部指标口径。它可以现场理解，但如果这些规则反复出现，每次重新解释就是浪费。把它们沉淀成 skill，才是对强模型的正确使用。

所以我更喜欢这个区分：

模型能力 = general intelligence
skills = local intelligence

研究结果也不支持“skills 必胜”

2026 年初的 SkillsBench 给了一个很有意思的结果：在 86 个任务、11 个领域、7 种模型-框架组合、7308 条轨迹上，人工策划的 curated skills 平均把通过率提升了 16.2 个百分点。

更反直觉的是，最强组合 Claude Code + Opus 4.5 反而拿到了最大的绝对提升，约 +23.3pp。也就是说，顶级模型同样需要 skills。强模型可能更能吃透好 skill。

但同一组结果也说明，skills 的价值高度依赖场景。医疗、制造这类领域收益很大；软件工程和数学收益很小。原因并不神秘：通用编程、数学、常见写作这些领域，顶级模型的预训练覆盖已经很充分，额外塞一堆流程文档，可能只是噪音。

专门看真实软件工程的 SWE-Skills-Bench 更尖锐：49 个 public SWE skills 中，39 个没有带来通过率提升，平均增益只有 +1.2%。有些 skill 还因为版本不匹配、和项目上下文冲突，导致性能下降。

这说明一个现实问题：skills 有边界，多了没用，有了也不一定有用。

最好的收益来自少量、聚焦、由懂业务的人维护的 skill。SkillsBench 里，2-3 个 focused skills 的效果明显好于堆 4 个以上；精简 skill 也比“大而全”的文档更有效。模型自己生成的 skills 平均没有收益，这一点尤其值得警惕。让模型在任务后记录经验是有价值的；让模型凭空生成一套流程，然后立刻当成可靠 skill 用，是另一回事。

人的心智要从写提示词迁移到设计工作环境

如果模型越来越强，人的工作会从写更复杂的提示词，转向设计更好的工作环境。

这个工作环境至少包括四件事。

第一，上下文。模型需要知道背景、目标、历史决策、相关材料和不可碰的边界。上下文越清楚，模型越能自主。

第二，标准。什么叫好，什么叫完成，什么叫不能接受。强模型可以自己走路，但你要定义终点。

第三，工具。模型会用工具，不代表它知道你希望它怎么用工具。工具描述、参数约束、错误处理、验证命令，都应该被清晰编码。

第四，记忆和流程。反复出现的任务，不应该靠人反复口述。能沉淀成模板、checklist、脚本、runbook、skill 的，就应该资产化。

这也是为什么我觉得“会不会写提示词”这个说法越来越浅。更底层的能力是：

会不会把隐性经验写出来；
会不会定义可验证的成功标准；
会不会判断哪些流程值得沉淀；
会不会删掉已经过时或制造噪音的规则；
会不会让模型、工具、记忆和人工判断形成闭环。

这已经从 prompt engineering 进入了 environment engineering。

什么时候靠模型，什么时候靠 skill

上面说了这么多，落到实践上就是一个判断问题：一个任务来了，该让模型自主，还是该上 skill？

先问：这件事需要模型自己判断，还是需要遵守本地规则？

如果主要是判断，就给目标和材料，让模型自主；如果主要是规则，就用 skill 把规则显性化。开放式分析、战略判断、论文理解、复杂 bug 定位、一次性写作、数学推理，通常应该先让模型自主发挥——你提供目标、材料、约束和验收标准，不要写死路径。尤其是通用编程和常见写作，不要因为有 skill 机制，就把一堆“最佳实践”全塞进去。强模型通常知道常见模式，真正需要的是当前代码库的约束和你要达成的行为变化。

反过来，如果一个任务反复出现，而且每次都需要解释同一套规则，就应该考虑 skill。最典型的几类：

领域流程。 医疗、制造、法律、金融、合规、投研、内部数据口径。这些任务中，模型需要遵守领域里的专业判断标准，推理本身不是瓶颈。
内部工具链。 私有 CLI、公司 API、特殊部署流程、本地目录约定、权限边界、日志查询方式。模型不可能天然知道这些。
固定格式产出。 周报、PR review、会议纪要、论文笔记、复盘报告、数据分析报告、博客发布流程。格式本身服务于背后的质量标准。
高频踩坑经验。 哪些命令容易误用，哪些依赖版本不兼容，哪些测试必须跑，哪些输出不能提交。这些经验如果只留在人的脑子里，每次都会重新付成本。
验收和停止条件。 顶级模型更会自主推进，也更容易多做。skill 应该明确“做到哪里算完成”“什么时候停”“哪些改动不属于本次任务”。

再问：这套规则是不是会重复出现？

只出现一次，就写在当前任务上下文里。反复出现，就沉淀成 skill、模板、脚本或 runbook。

最后问：这个 skill 会不会比任务本身更重？

如果一个小任务要加载四五个 skill、几十页文档，那大概率已经过度设计了。skills 的成本是真实的：上下文成本、选择成本、维护成本、过时风险都会反噬收益。

好的 skill 更像契约，不像剧本。

差的 skill：

你必须先列计划，再分析，再执行，再反思，再总结。

好的 skill：

使用场景：当任务是审查 PR 时触发。

关注顺序：
- 行为回归和线上风险；
- 测试是否覆盖关键路径；
- 安全、权限、并发、数据一致性；
- 代码可维护性；
- 最后才是风格问题。

输出要求：
- 先列发现，按严重程度排序；
- 每条必须给出文件和行号；
- 没有发现就明确说明剩余风险和未跑的验证。

停止条件：
- 不直接重写代码，除非用户要求修复；
- 不因为个人风格偏好提出阻塞意见。

这类 skill 把专业标准交给模型，不限制它的发挥。

综合起来，实践上可以这样分：

通用编程、数学、常见写作：优先靠模型自主，配合测试和人工审查；
企业内部流程、私有工具链、领域专业任务：使用少量精选 skills；
固定格式、高频重复产出：沉淀成模板或 skill；
长程 agent 任务：模型自主 + 工具 + 记忆 + 验收规则一起上；
不稳定或刚升级模型时：先测无 skill 基线，再决定保留哪些 skill。

一个简单判断是：如果这个任务主要依赖通用推理，且结果可以通过测试、搜索、人工审查快速验证，就先不用 skill。让模型自由探索，再用验证信号收敛。

Skills 在把经验资产化，不是退回旧时代

很多人担心：模型都这么强了，还写 skills，是不是在倒退？是不是又回到手写流程、手写规则的旧时代？

我觉得不是。

旧时代的 prompt engineering，是试图用文字补模型的推理缺陷。新时代的 skills，是把人的经验、组织的规则、工具的知识、任务的验收标准，变成模型可以调用的外部资产。

这两者的心智完全不同。

未来真正有价值的，是维护一套高质量的工作资产，不是收藏一堆提示词模板：

哪些问题值得交给强模型自主判断；
哪些流程值得固化成 skill；
哪些经验应该写进记忆；
哪些验证应该交给工具；
哪些决策必须由人负责。

顶级模型越强，这套资产越重要。强模型会放大好的外部结构，外部结构本身并不会消失。

最终的问题不在于“要不要 skills”，在于：

Skills 的使命是告诉顶级模型，这个世界里什么算做对。思考的事，模型自己会。