DeepSeek V4 降价如何改写 AI Agent 的成本模型

DeepSeek V4 发布时没有制造出特别夸张的声量。没有大型发布会，也没有一眼碾压所有对手的跑分叙事。但几天之后，它真正影响行业的地方开始显现：连续降价。

这次变化的重点不是“模型强了一点”，而是“使用成本被打到另一个层级”。当 Token 价格低到普通 Agent 任务几毛钱、一两块钱就能跑完时，很多 Coding Plan、Token Plan 的商业逻辑都会被重新审视。

发布当天没有炸场

DeepSeek V4 的第一波反馈并不算热烈。很多人期待它像 R1 那样带来强烈冲击：跑分全面领先、国产算力验证、多模态和 Agent 能力一起爆发。但真正发布后，大家发现它更像一次稳健升级。

V4 Pro 确实是强模型，尤其在代码、数学、长上下文和 agentic coding 上表现不错。但它不是那种让所有同类模型瞬间失色的产品。所以发布当天，舆论一度有些尴尬：想夸，但很难找到一个足够爆炸的角度。

真正的转折点不是发布当天，而是后续价格调整。

连续降价才是关键

DeepSeek V4 发布后，价格开始连续下探。按照 DeepSeek 官方价格页和原文整理的信息，当时的大致价格是：

DeepSeek V4 Flash：输入 100 万 Token 约 1 元；缓存命中后 100 万 Token 约 2 分钱；
DeepSeek V4 Pro：输入 100 万 Token 约 3 元；缓存命中后 100 万 Token 约 2.5 分；
全系列模型输入缓存命中价格降到首发价格的 1/10；
V4 Pro 曾处在 2.5 折优惠期，优惠延长到 2026 年 5 月 31 日 23:59。

如果按美元 API 价格看，会更直观：

模型	缓存命中输入	非缓存输入	输出	上下文
`deepseek-v4-flash`	$0.0028 / 100万 Token	$0.14 / 100万 Token	$0.28 / 100万 Token	1M
`deepseek-v4-pro` 促销价	$0.003625 / 100万 Token	$0.435 / 100万 Token	$0.87 / 100万 Token	1M
`deepseek-v4-pro` 原价	$0.0145 / 100万 Token	$1.74 / 100万 Token	$3.48 / 100万 Token	1M

这里要注意两个点。

第一，V4 Pro 的 $0.435 / $0.87 是促销价，不是长期原价。 DeepSeek 官方说明里，这个 75% 折扣延长到 2026 年 5 月 31 日 15:59 UTC。

第二，缓存命中价格才是 Agent 成本模型里的关键。 Flash 的缓存命中输入低到 $0.0028 / 100万 Token，Pro 促销期缓存命中输入是 $0.003625 / 100万 Token。这意味着大量重复项目上下文、工具定义、系统提示词和历史摘要，不再按完整输入价格计费。

这个价格最重要的地方，是它让很多任务的 Token 成本变得“不敏感”。过去开发者会担心一次 Agent 任务吃掉大量上下文、反复读写代码、频繁调用工具。现在只要缓存命中率足够高，成本会被压得很低。

和 GPT、Claude 的价格对比

只看 DeepSeek 自己的价格，还不容易感受到差距。把它和同期常见的闭源模型放在一起，对比会更明显。

模型	输入	缓存输入	输出	适合场景
`deepseek-v4-flash`	$0.14 / M	$0.0028 / M	$0.28 / M	高频 Agent、常规 coding、批量任务
`deepseek-v4-pro` 促销价	$0.435 / M	$0.003625 / M	$0.87 / M	复杂 coding、规划、事实核查
`deepseek-v4-pro` 原价	$1.74 / M	$0.0145 / M	$3.48 / M	促销结束后的 Pro 成本基准
GPT-5.5	$5 / M	$0.50 / M	$30 / M	高质量复杂任务、通用推理
GPT-5.4	$2.50 / M	$0.25 / M	$15 / M	编程和专业任务的中档选择
GPT-5.4 mini	$0.75 / M	$0.075 / M	$4.50 / M	成本更低的通用/子任务模型
Claude Opus 4.7	$5 / M	$0.50 / M	$25 / M	高质量写作、复杂推理、长任务
Claude Sonnet 4.6	$3 / M	$0.30 / M	$15 / M	编程、Agent、综合任务
Claude Haiku 4.5	$1 / M	$0.10 / M	$5 / M	轻量任务、摘要、分类

这张表里最刺眼的是输出价格。 Agent 不只读上下文，还会不断生成计划、补丁、解释、日志和下一步动作。如果输出很多，DeepSeek V4 Pro 促销价的 $0.87 / M 和 GPT-5.5 的 $30 / M、Claude Sonnet 4.6 的 $15 / M 相比，差距会被不断放大。

即使按 V4 Pro 原价 $3.48 / M 输出算，它也明显低于 GPT-5.4、GPT-5.5 和 Claude Sonnet / Opus。如果任务可以用 Flash 承担，输出价会进一步降到 $0.28 / M。

缓存输入差距更夸张。 DeepSeek V4 Flash 的缓存输入是 $0.0028 / M，而 GPT-5.5 和 Claude Opus 4.7 的缓存输入都是 $0.50 / M。这不是同一个数量级。对反复读取同一代码仓库的 Agent 来说，这个差距比普通聊天更重要。

Agent 任务为什么特别受影响

AI Agent 和普通聊天不一样。普通聊天通常是一问一答，输入上下文相对有限。 Agent 任务会反复读取项目文件、生成计划、调用工具、检查结果、再修改代码。

这类任务有两个特点：

Token 消耗大；
重复上下文多。

第二点很关键。在代码项目里，模型会反复读取同一批文件、目录结构、错误日志和修改结果。如果平台支持缓存命中，重复输入的成本会大幅下降。

原文里提到一次实际体验：把 DeepSeek V4 Pro 和 Flash 接到 Claude Code 一类工具中，让它拉取一个提示词仓库并做成本地搜索网站。任务最终完成，总成本大约 8 毛多，其中 Pro 缓存命中率达到 98.7%。

这个例子说明了一个现实问题：Agent 任务越像“围绕同一个项目反复工作”，缓存命中越有价值。如果一次生成网站、修 bug、改前端只花几毛钱到几块钱，订阅套餐的吸引力就会下降。

可以用一个简化任务估算差距。假设一次 coding agent 任务包含：

50 万 Token 输入，其中 80% 能命中缓存；
5 万 Token 输出；
不计算工具调用、搜索和平台加价，只看模型 Token 成本。

大致成本如下：

模型	估算成本
DeepSeek V4 Flash	约 $0.03
DeepSeek V4 Pro 促销价	约 $0.09
DeepSeek V4 Pro 原价	约 $0.36
GPT-5.4 mini	约 $0.30
GPT-5.4	约 $1.01
GPT-5.5	约 $1.75
Claude Sonnet 4.6	约 $1.11
Claude Opus 4.7	约 $1.65

这个估算不是说 DeepSeek 在所有任务上都更好。模型质量、工具调用稳定性、长上下文检索能力、代码风格和事实可靠性都要单独评估。但从成本上看，DeepSeek V4 把“让 Agent 多跑几轮”的边际成本压得很低。这会鼓励开发者设计更长流程、更频繁的自检和更多候选方案，而不是每次都担心 Token 账单。

Coding Plan 和 Token Plan 的差别

很多 AI 产品现在会提供两类套餐：Coding Plan 和 Token Plan。

它们的差别大致是：

Coding Plan 通常主要面向编程；
Token Plan 通常覆盖更多能力，例如 STT、TTS、绘图、搜索、embedding、RAG；
STT 是语音转文字；
TTS 是文字转语音；
Coding Plan 往往把用户限制在编程场景里，其他能力还需要另买。

从商业角度看，Coding Plan 更像自助餐。用户预先付一笔固定费用，厂商赌的是大多数人不会把额度用满。有人用得多，有人用得少，平均下来平台仍然能赚钱。

但如果按量 Token 价格足够低，用户就会开始计算：我为什么一定要买套餐？如果一个月真实使用成本只有几块钱、十几块钱，买 40 元、200 元的套餐就不一定划算。

降价为什么会冲击套餐模式

订阅套餐的成立，需要一个前提：用户觉得单次使用很贵，或者不想计算每次调用成本。当 Token 价格高时，套餐看起来更安心。当 Token 价格低到几乎无感时，按量付费反而更自然。

DeepSeek V4 的降价相当于把底牌亮出来：

Agent 任务可以很便宜；
长上下文不一定贵到不能用；
缓存命中可以显著降低成本；
普通开发者不一定需要固定订阅；
模型入口可以从“套餐平台”转向“低价 API”。

这会让做 Coding Plan 的平台不舒服。如果用户发现按量调用更便宜、更自由，就没必要为了一个平台的套餐被绑定。

Flash 和 Pro 怎么选

DeepSeek V4 的一个实用思路，是把 Flash 和 Pro 分工使用。

Flash 适合高频、轻量、可重复的任务：

改 bug；
写前端；
写脚本；
做常规代码理解；
处理较长上下文里的普通信息整理；
跑大量子任务。

Flash 便宜，速度快，而且同样支持很长上下文。对日常 coding agent 来说，很多任务不需要一上来就用 Pro。

Pro 更适合复杂判断和兜底任务：

多轮规划；
复杂 Agent 流程；
多次 function call；
事实核查；
财经研究；
需要更强知识和判断力的内容生产；
高风险代码修改。

一个合理配置是：Flash 负责跑量，Pro 负责兜底。普通任务先用 Flash，遇到长程规划、复杂判断、事实核查或多工具协作时再切 Pro。这样既能控制成本，也能保留模型质量。

DeepSeek 为什么可以这么定价

DeepSeek 和很多大厂的业务结构不同。它没有电商、社交、短视频、云计算、手机、汽车、办公套件、操作系统、浏览器或大规模企业 SaaS 生态。

这意味着它不需要把用户锁在一个完整平台里。它可以只卖文本模型能力：你在这里用便宜的文本模型，其他能力要调用谁都可以。

大厂的逻辑通常不同。如果你买了它的 Coding Plan 或 Token Plan，就会被拉进它的云、搜索、绘图、语音、数据库和开发工具生态。套餐不是单纯卖模型，而是在争夺用户入口。

DeepSeek 的打法更直接：把文本模型价格压低，争取成为 Agent 的默认模型入口。只要默认入口被占住，很多开发者和工具链就会自然围绕它适配。

开源模型和默认入口

DeepSeek V4 如果保持开放模型路线，第三方云厂商和平台很可能会自行部署并提供服务。这对 DeepSeek 来说既是传播，也可能是分流。

低价官方 API 的意义就在这里。如果官方价格已经足够低，其他平台即使能部署，也很难在价格上明显更有优势。用户会倾向于直接使用默认、便宜、稳定的入口。

对 Agent 工具尤其如此。 Agent 任务依赖长上下文、缓存、工具调用和稳定吞吐。一旦某个模型在这些场景里成本足够低，它就有机会成为默认选项。

Coding Plan 仍然不是完全没用

这并不意味着 Coding Plan 会马上消失。它仍然有适合的人群。

如果某些用户真的是高强度使用者，每天把套餐额度打满，那么固定订阅可能仍然划算。就像自助餐，如果完全没有人能吃回本，用户也不会愿意买。

但问题在于，绝大多数用户不是这种极端高频用户。低频用户、轻量开发者、偶尔写脚本或改项目的人，更适合按量付费。当 DeepSeek 把按量成本压低后，套餐的吸引力会被削弱。

未来更可能出现的是分层选择：

高频重度用户继续买 Coding Plan；
普通用户转向低价 API；
Agent 工具根据任务自动选择 Flash / Pro；
平台套餐需要提供更多非模型价值，例如工作流、IDE 集成、部署、团队管理和安全审计。

小结

DeepSeek V4 的发布并没有靠跑分制造最大冲击。真正改变行业预期的是后续降价。

当输入 Token 和缓存命中价格被压到很低时，AI Agent 的使用成本会发生变化。过去看起来昂贵的长上下文、代码项目分析、多轮工具调用，现在可能变成几毛钱到几块钱的日常消耗。

这会直接冲击 Coding Plan 和 Token Plan 的商业逻辑。如果用户可以按量付费、自由组合模型和工具，而且成本足够低，就不一定愿意被绑定在某个平台套餐里。

DeepSeek V4 这次真正动到的，不只是模型能力排名，而是 AI Agent 的成本结构和默认入口之争。

参考来源：