很多人用 AI,其实不是在管理 AI,是在消费 AI。
最常见的两种姿势:要么所有任务都丢给最强模型,质量确实不错,但慢、贵,而且把推理能力当自来水用;要么所有任务都交给最便宜的模型,账单好看,但返工、人工审查和错误修正迟早把省下的钱补回来。
两种姿势的问题本质一样:没有做资源分配。
多模型共存的时代,真正重要的不是知道哪个模型最强,而是知道什么任务该花什么级别的 token。
这里说的成本也不只是 API 价格。一次 AI 调用的真实成本至少包括五样东西:API 费用、延迟、返工、人工注意力,以及错误风险。便宜模型如果让你来回改三轮,未必便宜。强模型如果能一次把模糊问题拆清楚,反而更省。自动化如果需要你一直盯着结果,那也不是真正的自动化。
所以 token 分配的目标不是最低账单,而是用最低的总成本,稳定交付可用的结果。
把 AI 看成一个团队#
与其把 AI 当成一个单点工具,不如把它看成一个团队。
轻量模型像执行层,适合承担大量边界清晰、标准明确、容易验证、低风险的任务:格式转换、摘要压缩、翻译润色、信息整理、批量分类、模板填充、从结构化文本里抽字段。这些事不一定不重要,但它们通常不需要最强推理。只要输入和验收标准清楚,轻量模型就能跑量。
顶级模型更像架构师和质检员,应该出现在高价值环节:复杂问题拆解、模糊目标澄清、方案优劣判断、跨领域推理、高风险输出审查、最终定稿和关键决策。强模型的价值不在于替你包办一切,而在于关键节点上降低方向性错误。
让最贵的专家每天整理表格,或者让实习生独立拍板关键决策,都不是资源管理。
选模型,不是看它强不强#
选模型最容易犯的错,是只问一个问题:这个模型强不强?
但这不是管理问题,只是性能问题。更好的问法是:这个任务值得用多强的模型?
我习惯看四个维度:任务难度、出错代价、标准模糊度、结果可验证性。这四个问题比模型排行榜有用得多。
它们可以组成一个简单的判断方向:任务越难、出错代价越高、标准越模糊,模型预算就应该往上走;结果越容易验证,模型预算就可以往下走。
这不是精确计算,不需要给每个因素打分到小数点后两位。它的作用是提醒我们:模型等级不是由任务名称决定的,而是由任务结构决定的。
同样是“写代码”,写一个一次性脚本和重构支付链路不是同一个任务。同样是“写文案”,整理会议纪要和发布公司立场声明也不是同一个任务。任务名称相同,不代表 token 预算相同。
拿翻译来说。把一段产品说明翻成英文,标准明确、容易人工抽检,用中低端模型生成再抽样复核就够了。但如果是公司公开声明、法律文本或品牌危机回应,错误代价高,语气和边界的拿捏也更微妙,就值得让强模型参与判断,甚至需要人工最终拍板。
写代码也一样。写一个一次性数据清洗脚本,结果可以跑样例和断言验证,不一定需要强模型从头跟到尾。但重构支付链路、权限系统或数据口径,错误代价高,局部测试也可能覆盖不到真实风险,就应该把强模型放在方案设计和最终审查上。
四个维度怎么判断#
先说任务难度。难度不只是工作量,而是推理密度。把一百行文本改成统一格式,工作量可能不小,但推理难度低。判断一个产品方向、定位一个线上问题、设计一套数据口径,工作量未必更大,但推理难度高。
一个实用的检查:它需要多步推理吗?需要权衡多个目标吗?依赖隐含上下文吗?容易出现局部正确但整体错误的情况吗?
再说出错代价。有些错误很便宜,翻译里一个句子不够自然,改掉就好;分类标签错了几个,抽样复核即可。有些错误很贵,合同条款理解错、财务口径算错、生产代码改坏、对外发布信息失真,后果不只是多花几次 API 调用。
判断方法是:错了以后能不能快速发现?能不能低成本回滚?错误会不会影响他人、资金、系统或信誉?
第三个维度是模糊度。标准越模糊,越需要强模型或人来判断。“把这段内容压缩到 200 字以内”是清晰任务;“把这段内容改得更有洞察”就是模糊任务。前者可以交给中低端模型,后者需要判断什么是洞察、读者是谁、取舍标准是什么。
可以这样问自己:好结果有没有明确标准?是否存在多个都说得通的答案?是否需要先定义问题再解决问题?
第四个维度是可验证性,这是最容易被低估的一项。如果结果容易验证,就不一定需要最强模型。代码可以跑测试,数据可以对账,格式可以用 parser 校验,事实可以搜索和引用来源,分类可以抽样复核。可验证性越强,越适合用便宜模型加外部校验。可验证性越弱,越需要前置提高模型质量,因为后面很难发现错误。
一个简单的路由思路#
日常使用中,可以按下面几条做初步路由:
- 低难度、低风险、标准清晰、容易验证 -> 轻量模型、规则或脚本就够了。
- 中等难度、中等风险、标准基本清楚 -> 中端模型生成,强模型抽检或复核。
- 高难度、高风险、标准模糊、难以验证 -> 强模型主导,人类参与判断。
- 大批量、单项低风险、可自动校验 -> 轻量模型批处理,程序化验证,失败样本升级。
- 探索型任务、目标不清 -> 强模型先澄清问题,再把子任务下放。
这个路由的核心不是省钱,而是让不同能力出现在正确位置。便宜模型不等于低价值,它们在清晰任务上非常有价值,能稳定消耗大量低风险工作。强模型也不等于随便用,它们应该负责那些一旦判断错了,后续所有执行都会偏掉的环节。
生产和质检要分开#
最实用的结构,是把生产和质检分开。不要让同一个模型既生成答案,又无条件相信自己的答案。
更稳的做法是:中低端模型生成初稿,强模型做审查和判断,工具负责可验证部分,人类处理最终责任。
以写作为例,可以这样分配:
- 轻量模型:整理素材、压缩要点、生成多个标题候选。
- 中端模型:写初稿、补段落、调整结构。
- 强模型:判断论证是否成立、删除空话、检查反例和边界。
- 人类:决定观点、语气、取舍和发布。
以代码为例,可以这样分配:
- 轻量模型:改格式、补注释、生成简单测试样例。
- 中端模型:实现边界清晰的小功能。
- 强模型:做架构判断、审查风险、定位复杂 bug。
- 工具:跑测试、lint、typecheck、diff、benchmark。
- 人类:确认需求、接受风险、决定合并。
这里有一个容易被忽略的点:强模型审查不是唯一验证。对于代码、数据、事实类任务,最可靠的验证往往不是模型自审,而是外部信号,代码要跑测试,数据要能对账,事实要有来源,格式要能解析,策略要有案例回放。模型很擅长解释为什么一个答案看起来合理,但这不等于答案真的正确。
多 Agent 不是越多越好#
一旦开始按任务分配模型,自然会遇到下一个问题:多个模型之间怎么协作?
很多多 Agent 设计的问题,是把资源分配做成了角色扮演。
研究员、规划师、执行员、审查员、反思员、总结员,一串角色看起来很完整,但链路越长,错误传播和上下文损耗也越多。
比如一个“研究员”Agent 先输出一大段背景材料,“写作者”Agent 再基于摘要写稿,“审查员”Agent 最后检查。看起来分工明确,但如果第一步遗漏了关键限制,第二步又把摘要里的不确定判断写成确定结论,第三步只检查文风不查来源,错误就会被层层包装,最后变得更难发现。
多模型协作的重点不是角色越多越好,而是每一步是否有必要。一个清晰的 workflow 往往比一群拟人化 Agent 更可靠:
任务分类 -> 模型路由 -> 执行 -> 验证 -> 修正 -> 沉淀经验
这条链路里,每一步都应该回答一个具体问题。
任务分类:这是什么类型的任务,风险在哪里?
模型路由:它值得用什么级别的模型?
执行:谁负责生成或修改?
验证:用什么信号判断结果对不对?
修正:失败样本是重试、升级模型,还是交给人?
沉淀经验:这次判断能不能变成规则、模板、测试或 checklist?
如果一个 Agent 角色不能改善其中任何一步,它大概率只是增加复杂度。一个便宜模型加上强验证,常常比一个强模型裸跑更稳定;一个强模型加上清晰任务拆解,也常常比多个模型互相讨论更有效。
什么时候这套方法不够用#
这套分配方法不是万能的,有几个场景需要特别注意。
模型切换本身有成本。不同模型之间迁移上下文、重写 prompt、对齐输出格式、处理细微风格差异,这些都不是免费的。如果任务规模不大,强行路由到多个模型,省下的 token 可能还不够支付切换成本。
验证信号有时不可靠。有些错误不是测试、抽样或格式校验能发现的,比如微妙的文化语气、品牌调性、价值判断、暗含偏见,这些需要人的感知和判断。此时不能只看有没有检查动作,还要看检查信号是否真的覆盖了风险。
还有一些场景,组织责任不能外包。合同、公开声明、医疗、金融、合规、安全,即使强模型给出合理建议,也不能替代专业人员和责任人的最终判断。
所以 token 分配不是机械路由,而是一套管理思路:尽量让便宜能力处理清晰任务,让强能力处理关键判断,让工具验证可验证的部分,让人类承担最终责任。
真正要管理的是智能资源#
AI 时代的关键能力,不是记住每个模型的参数、价格和榜单排名。这些当然有用,但它们更新太快。
更底层的能力是资源管理:什么任务应该自动化,什么任务交给便宜模型,什么任务值得用强模型,什么任务必须引入工具验证,什么任务不能放弃人工判断。
会问这些问题,才是在管理 AI。
会分配 token,不是为了显得精打细算,而是为了把模型、工具、流程和人类判断组合成一套稳定交付系统。本质上,就是会管理智能资源。