会分配 Token，才算会管理 AI

很多人用 AI，其实不是在管理 AI，是在消费 AI。

最常见的两种姿势：要么所有任务都丢给最强模型，质量确实不错，但慢、贵，而且把推理能力当自来水用；要么所有任务都交给最便宜的模型，账单好看，但返工、人工审查和错误修正迟早把省下的钱补回来。

两种姿势的问题本质一样：没有做资源分配。

多模型共存的时代，真正重要的不是知道哪个模型最强，而是知道什么任务该花什么级别的 token。

这里说的成本也不只是 API 价格。一次 AI 调用的真实成本至少包括五样东西：API 费用、延迟、返工、人工注意力，以及错误风险。便宜模型如果让你来回改三轮，未必便宜。强模型如果能一次把模糊问题拆清楚，反而更省。自动化如果需要你一直盯着结果，那也不是真正的自动化。

所以 token 分配的目标不是最低账单，而是用最低的总成本，稳定交付可用的结果。

把 AI 看成一个团队

与其把 AI 当成一个单点工具，不如把它看成一个团队。

轻量模型像执行层，适合承担大量边界清晰、标准明确、容易验证、低风险的任务：格式转换、摘要压缩、翻译润色、信息整理、批量分类、模板填充、从结构化文本里抽字段。这些事不一定不重要，但它们通常不需要最强推理。只要输入和验收标准清楚，轻量模型就能跑量。

顶级模型更像架构师和质检员，应该出现在高价值环节：复杂问题拆解、模糊目标澄清、方案优劣判断、跨领域推理、高风险输出审查、最终定稿和关键决策。强模型的价值不在于替你包办一切，而在于关键节点上降低方向性错误。

让最贵的专家每天整理表格，或者让实习生独立拍板关键决策，都不是资源管理。

选模型，不是看它强不强

选模型最容易犯的错，是只问一个问题：这个模型强不强？

但这不是管理问题，只是性能问题。更好的问法是：这个任务值得用多强的模型？

我习惯看四个维度：任务难度、出错代价、标准模糊度、结果可验证性。这四个问题比模型排行榜有用得多。

它们可以组成一个简单的判断方向：任务越难、出错代价越高、标准越模糊，模型预算就应该往上走；结果越容易验证，模型预算就可以往下走。

这不是精确计算，不需要给每个因素打分到小数点后两位。它的作用是提醒我们：模型等级不是由任务名称决定的，而是由任务结构决定的。

同样是“写代码”，写一个一次性脚本和重构支付链路不是同一个任务。同样是“写文案”，整理会议纪要和发布公司立场声明也不是同一个任务。任务名称相同，不代表 token 预算相同。

拿翻译来说。把一段产品说明翻成英文，标准明确、容易人工抽检，用中低端模型生成再抽样复核就够了。但如果是公司公开声明、法律文本或品牌危机回应，错误代价高，语气和边界的拿捏也更微妙，就值得让强模型参与判断，甚至需要人工最终拍板。

写代码也一样。写一个一次性数据清洗脚本，结果可以跑样例和断言验证，不一定需要强模型从头跟到尾。但重构支付链路、权限系统或数据口径，错误代价高，局部测试也可能覆盖不到真实风险，就应该把强模型放在方案设计和最终审查上。

四个维度怎么判断

先说任务难度。难度不只是工作量，而是推理密度。把一百行文本改成统一格式，工作量可能不小，但推理难度低。判断一个产品方向、定位一个线上问题、设计一套数据口径，工作量未必更大，但推理难度高。

一个实用的检查：它需要多步推理吗？需要权衡多个目标吗？依赖隐含上下文吗？容易出现局部正确但整体错误的情况吗？

再说出错代价。有些错误很便宜，翻译里一个句子不够自然，改掉就好；分类标签错了几个，抽样复核即可。有些错误很贵，合同条款理解错、财务口径算错、生产代码改坏、对外发布信息失真，后果不只是多花几次 API 调用。

判断方法是：错了以后能不能快速发现？能不能低成本回滚？错误会不会影响他人、资金、系统或信誉？

第三个维度是模糊度。标准越模糊，越需要强模型或人来判断。“把这段内容压缩到 200 字以内”是清晰任务；“把这段内容改得更有洞察”就是模糊任务。前者可以交给中低端模型，后者需要判断什么是洞察、读者是谁、取舍标准是什么。

可以这样问自己：好结果有没有明确标准？是否存在多个都说得通的答案？是否需要先定义问题再解决问题？

第四个维度是可验证性，这是最容易被低估的一项。如果结果容易验证，就不一定需要最强模型。代码可以跑测试，数据可以对账，格式可以用 parser 校验，事实可以搜索和引用来源，分类可以抽样复核。可验证性越强，越适合用便宜模型加外部校验。可验证性越弱，越需要前置提高模型质量，因为后面很难发现错误。

一个简单的路由思路

日常使用中，可以按下面几条做初步路由：

低难度、低风险、标准清晰、容易验证 -> 轻量模型、规则或脚本就够了。
中等难度、中等风险、标准基本清楚 -> 中端模型生成，强模型抽检或复核。
高难度、高风险、标准模糊、难以验证 -> 强模型主导，人类参与判断。
大批量、单项低风险、可自动校验 -> 轻量模型批处理，程序化验证，失败样本升级。
探索型任务、目标不清 -> 强模型先澄清问题，再把子任务下放。

这个路由的核心不是省钱，而是让不同能力出现在正确位置。便宜模型不等于低价值，它们在清晰任务上非常有价值，能稳定消耗大量低风险工作。强模型也不等于随便用，它们应该负责那些一旦判断错了，后续所有执行都会偏掉的环节。

生产和质检要分开

最实用的结构，是把生产和质检分开。不要让同一个模型既生成答案，又无条件相信自己的答案。

更稳的做法是：中低端模型生成初稿，强模型做审查和判断，工具负责可验证部分，人类处理最终责任。

以写作为例，可以这样分配：

轻量模型：整理素材、压缩要点、生成多个标题候选。
中端模型：写初稿、补段落、调整结构。
强模型：判断论证是否成立、删除空话、检查反例和边界。
人类：决定观点、语气、取舍和发布。

以代码为例，可以这样分配：

轻量模型：改格式、补注释、生成简单测试样例。
中端模型：实现边界清晰的小功能。
强模型：做架构判断、审查风险、定位复杂 bug。
工具：跑测试、lint、typecheck、diff、benchmark。
人类：确认需求、接受风险、决定合并。

这里有一个容易被忽略的点：强模型审查不是唯一验证。对于代码、数据、事实类任务，最可靠的验证往往不是模型自审，而是外部信号，代码要跑测试，数据要能对账，事实要有来源，格式要能解析，策略要有案例回放。模型很擅长解释为什么一个答案看起来合理，但这不等于答案真的正确。

多 Agent 不是越多越好

一旦开始按任务分配模型，自然会遇到下一个问题：多个模型之间怎么协作？

很多多 Agent 设计的问题，是把资源分配做成了角色扮演。

研究员、规划师、执行员、审查员、反思员、总结员，一串角色看起来很完整，但链路越长，错误传播和上下文损耗也越多。

比如一个“研究员”Agent 先输出一大段背景材料，“写作者”Agent 再基于摘要写稿，“审查员”Agent 最后检查。看起来分工明确，但如果第一步遗漏了关键限制，第二步又把摘要里的不确定判断写成确定结论，第三步只检查文风不查来源，错误就会被层层包装，最后变得更难发现。

多模型协作的重点不是角色越多越好，而是每一步是否有必要。一个清晰的 workflow 往往比一群拟人化 Agent 更可靠：

任务分类 -> 模型路由 -> 执行 -> 验证 -> 修正 -> 沉淀经验

这条链路里，每一步都应该回答一个具体问题。

任务分类：这是什么类型的任务，风险在哪里？

模型路由：它值得用什么级别的模型？

执行：谁负责生成或修改？

验证：用什么信号判断结果对不对？

修正：失败样本是重试、升级模型，还是交给人？

沉淀经验：这次判断能不能变成规则、模板、测试或 checklist？

如果一个 Agent 角色不能改善其中任何一步，它大概率只是增加复杂度。一个便宜模型加上强验证，常常比一个强模型裸跑更稳定；一个强模型加上清晰任务拆解，也常常比多个模型互相讨论更有效。

什么时候这套方法不够用

这套分配方法不是万能的，有几个场景需要特别注意。

模型切换本身有成本。不同模型之间迁移上下文、重写 prompt、对齐输出格式、处理细微风格差异，这些都不是免费的。如果任务规模不大，强行路由到多个模型，省下的 token 可能还不够支付切换成本。

验证信号有时不可靠。有些错误不是测试、抽样或格式校验能发现的，比如微妙的文化语气、品牌调性、价值判断、暗含偏见，这些需要人的感知和判断。此时不能只看有没有检查动作，还要看检查信号是否真的覆盖了风险。

还有一些场景，组织责任不能外包。合同、公开声明、医疗、金融、合规、安全，即使强模型给出合理建议，也不能替代专业人员和责任人的最终判断。

所以 token 分配不是机械路由，而是一套管理思路：尽量让便宜能力处理清晰任务，让强能力处理关键判断，让工具验证可验证的部分，让人类承担最终责任。

真正要管理的是智能资源

AI 时代的关键能力，不是记住每个模型的参数、价格和榜单排名。这些当然有用，但它们更新太快。

更底层的能力是资源管理：什么任务应该自动化，什么任务交给便宜模型，什么任务值得用强模型，什么任务必须引入工具验证，什么任务不能放弃人工判断。

会问这些问题，才是在管理 AI。

会分配 token，不是为了显得精打细算，而是为了把模型、工具、流程和人类判断组合成一套稳定交付系统。本质上，就是会管理智能资源。