AI 编程接下来真正重要的指标,可能不是“谁的模型最强”,而是谁能用更少的 token、更低的成本、更稳定的流程,完成更多可验收的工作。
这就是 Token Efficiency 的价值。
很多人理解 Token Efficiency,只会想到模型便宜、上下文变长、缓存命中更低价。但这些只是底层条件。真正能把它变成生产力的,是模型分工、任务编排、上下文预算和评估体系。
换句话说,Token Efficiency 不是省钱技巧,而是一套把 token 转换成产出的工程方法。
DeepSeek V4 的定位:把大小模型分工产品化
这篇文章最应该先补上的背景,是 DeepSeek V4 的定位。
DeepSeek V4 不是单纯发布一个更强模型,而是把 Token Efficiency 需要的两层能力直接拆成了 V4 Pro 和 V4 Flash:Pro 更适合做规划、推理、架构判断和关键审查,Flash 更适合做高频执行、批量改写、代码补全、资料整理和 agent 循环里的普通节点。
这正好对应 AI 编程里的两个角色:
V4 Pro:当作 planner / consultant,用在需求拆解、技术方案、复杂 bug 根因、架构审查和最终验收。V4 Flash:当作 executor,用在文件扫描、简单实现、测试补齐、文档整理、候选方案生成和重复性任务。
DeepSeek 官方 API 文档显示,V4 Flash 和 V4 Pro 都支持 1M 上下文、JSON Output、Tool Calls、Chat Prefix Completion 和 FIM Completion;价格页也把缓存命中输入单独计价,并说明全模型 input cache hit 价格已降到发布价的十分之一。这几个点组合起来,才是它和 Token Efficiency 关系最密的地方。
1M 上下文解决的是复杂 agent 任务容易被压缩的问题;低缓存命中价格解决的是长系统 prompt、项目文档、代码片段和历史状态反复进入上下文的成本问题;Flash / Pro 双模型形态解决的是“每一步都用旗舰模型太贵、每一步都用小模型又不稳”的分工问题。
所以 DeepSeek V4 的优势不应该只写成“便宜”或“上下文长”,而应该理解成三件事:
- 执行层便宜:大量 agent 节点可以交给
V4 Flash,让 token 消耗落在低成本模型上。 - 判断层可用:关键步骤仍然可以调用
V4 Pro,避免为了省钱牺牲复杂推理质量。 - 长链路友好:
1M上下文和缓存价格让代码库、文档、工具调用历史更容易留在可用窗口里。
这就是为什么 DeepSeek V4 对 AI 编程的意义,不只是又多了一个模型选项,而是给“顾问模型 + 执行模型 + harness 编排”的模式提供了更现实的成本结构。
不要让最强模型干所有活
过去使用 AI,常见做法是找一个最聪明的模型,让它从需求分析、代码实现、测试、总结一路干到底。
这个方式简单,但不一定高效。因为很多任务并不需要最高级别的推理能力。真正贵的模型,应该更像顾问、架构师或规划员:只在关键决策点介入。
更合理的结构是:
- 大模型负责拆问题、定方向、做关键判断。
- 小模型负责执行、批量处理、重复修改。
- 工具和 harness 负责流程、状态、上下文和验证。
- 人负责定义产品、验收结果和决定取舍。
这样做的好处是,前沿推理能力不会被浪费在机械执行上。大部分 token 消耗可以落到便宜模型和缓存输入里,贵模型只处理真正需要“脑力”的部分。
上下文不是越大越好
长上下文很重要,尤其是 coding agent。代码、文档、历史对话、测试输出、错误日志都会吃掉上下文。上下文一旦接近上限,模型就容易触发压缩、遗忘或误判。
但长上下文不等于可以无限塞资料。
Token Efficiency 的关键,是让每个任务都能在一个清晰、可控的上下文窗口内完成。最理想的状态不是“把整个仓库塞进去”,而是:
- 当前任务只带必要文件。
- 背景文档只带决策相关部分。
- 历史信息只保留当前阶段需要的状态。
- 每个节点有明确输入和输出。
- 完成后把结果压缩成结构化摘要,交给下一个节点。
上下文越便宜,越要警惕浪费。便宜 token 会诱导人把无关信息全塞进去,最后模型不是更聪明,而是更容易被噪声拖慢。
Harness 比单个模型更重要
如果只是把 Claude Code、Codex 或其他 coding agent 接到便宜模型上,效果未必好。小模型容易在长链路任务里跑偏,需要更强的流程控制。
真正让小模型发挥价值的,是 harness。
这里的 harness 可以理解为一套调度系统:它知道任务怎么拆、节点怎么跑、模型怎么选、结果怎么验收、失败怎么重试、上下文怎么传递。
一个可用的编排系统,至少要回答几个问题:
- 哪些任务需要规划?
- 哪些任务可以直接执行?
- 哪些节点可以并行?
- 哪些节点必须串行?
- 哪个节点用大模型,哪个节点用小模型?
- 每个节点最多允许多少上下文?
- 每个节点完成后输出什么结构?
- 谁来 review,谁来决定是否继续?
没有这层软件,小模型只是便宜;有了这层软件,小模型才可能变成杠杆。
用 DAG 拆任务
一个有效的思路,是把复杂任务拆成有向无环图,也就是 DAG。
比如一个功能开发任务,可以拆成:
- 需求澄清
- 方案设计
- 任务拆分
- 编码实现
- 测试补齐
- Code Review
- 修复问题
- 提交 PR
每个节点都可以是一个独立 agent。它们运行在独立环境里,有自己的角色、prompt、工具权限和输出格式。节点之间不靠长篇聊天传递信息,而是靠预先定义好的结构化结果。
这会带来两个直接收益。
第一,单个节点更短。任务越小,越容易被小模型完成,也越不容易撑爆上下文。
第二,流程更可测。你可以单独观察“编码节点失败率高”还是“review 节点漏问题多”,然后针对性优化。
任务可以跑多个副本
当 token 足够便宜时,一个有趣的变化会出现:同一个任务不一定只跑一次。
你可以让同一个任务用不同模型、不同 prompt、不同编排跑多个副本,再从结果里选最好的,或者把多个结果合并。这个思路有点像“抽卡式任务解决”,但前提是必须有评估和验收。
适合多副本的任务包括:
- 方案设计
- 文案生成
- 测试用例补全
- Bug 根因假设
- 重构方案比较
- Code Review
不适合盲目多副本的任务,是那些会直接修改共享状态、会产生外部副作用、或者验收标准不清楚的任务。
多跑几次不是为了碰运气,而是为了获得可比较样本。样本越多,越能反过来优化编排、模型选择和节点技能。
必须建立评估体系
Token Efficiency 不能只看价格。便宜但失败率高,最后会吞掉人的时间,反而更贵。
所以每个团队都应该逐步建立自己的评估体系。它不需要一开始就很复杂,但要能量化。
可以先记录这些指标:
- 任务完成率
- 人工介入次数
- 工具调用失败率
- 测试通过率
- Review 发现的问题数量
- 单任务 token 成本
- 单任务耗时
- 返工次数
- 不同模型组合的差异
有了这些数据,才能知道哪些任务适合小模型,哪些任务必须上大模型,哪些任务应该交给人判断。
真正的优化不是“所有地方都换便宜模型”,而是把每类任务放到最合适的模型和流程里。
业务流程要原子化
普通用户不一定要自己写完整 harness。未来这类工具会越来越多,也会越来越成熟。
但现在就可以做一件事:把自己的业务流程拆成原子节点。
比如内容生产可以拆成:
- 选题
- 资料收集
- 提纲
- 初稿
- 事实核查
- 风格改写
- SEO 标题
- 多语言翻译
- 发布检查
软件开发可以拆成:
- 需求确认
- 技术方案
- 数据结构
- 接口变更
- 单元测试
- 实现
- 迁移脚本
- 文档
- Review
每个节点都要尽量做到输入明确、输出明确、验收明确、上下文可控。这样等 harness 工具成熟时,你的业务流程可以直接接进去。
硬件不是第一优先级
很多人聊 Token Efficiency,很快就会聊到本地部署和显卡。但对大多数人来说,第一选择仍然应该是 API。
原因很简单:在没有跑通经济模型之前,本地硬件只是成本前置。你还不知道 token 怎么转化成收入或生产力,就先买昂贵设备,很容易变成玩具。
更稳的顺序是:
- 先用 API 跑通业务流程。
- 建立任务评估和成本统计。
- 找到稳定高频的执行节点。
- 再考虑哪些节点值得本地化。
- 最后再计算硬件、电费、维护和折旧。
如果只是个人提效,API 往往已经够用。如果是创业团队,要验证模型边界和推理框架,本地 CUDA 平台才更有学习价值。如果已经有明确生产场景和经济模型,多卡部署才有讨论空间。
小结
Token Efficiency 的本质,不是“用便宜模型替代贵模型”,而是重新设计 AI 工作流。
大模型负责关键判断,小模型负责批量执行,harness 负责调度和验证,人负责定义目标和验收结果。只有这四层配合起来,token 才能稳定变成生产力。
接下来真正有价值的能力,不只是会用最新模型,而是能把任务拆小、把上下文控住、把结果量化、把流程编排起来。
模型会继续降价,上下文会继续变长,小模型会继续变强。越是这样,越应该早点理解 Token Efficiency。因为未来的差距,很可能不在谁调用了最强模型,而在谁能用同样的 token 撬动更多真实产出。