DeepSeek V4 发布时没有制造出特别夸张的声量。 没有大型发布会,也没有一眼碾压所有对手的跑分叙事。 但几天之后,它真正影响行业的地方开始显现:连续降价。
这次变化的重点不是“模型强了一点”,而是“使用成本被打到另一个层级”。 当 Token 价格低到普通 Agent 任务几毛钱、一两块钱就能跑完时,很多 Coding Plan、Token Plan 的商业逻辑都会被重新审视。
发布当天没有炸场
DeepSeek V4 的第一波反馈并不算热烈。 很多人期待它像 R1 那样带来强烈冲击:跑分全面领先、国产算力验证、多模态和 Agent 能力一起爆发。 但真正发布后,大家发现它更像一次稳健升级。
V4 Pro 确实是强模型,尤其在代码、数学、长上下文和 agentic coding 上表现不错。 但它不是那种让所有同类模型瞬间失色的产品。 所以发布当天,舆论一度有些尴尬:想夸,但很难找到一个足够爆炸的角度。
真正的转折点不是发布当天,而是后续价格调整。
连续降价才是关键
DeepSeek V4 发布后,价格开始连续下探。 按照 DeepSeek 官方价格页和原文整理的信息,当时的大致价格是:
- DeepSeek V4 Flash:输入 100 万 Token 约 1 元;缓存命中后 100 万 Token 约 2 分钱;
- DeepSeek V4 Pro:输入 100 万 Token 约 3 元;缓存命中后 100 万 Token 约 2.5 分;
- 全系列模型输入缓存命中价格降到首发价格的 1/10;
- V4 Pro 曾处在 2.5 折优惠期,优惠延长到 2026 年 5 月 31 日 23:59。
如果按美元 API 价格看,会更直观:
| 模型 | 缓存命中输入 | 非缓存输入 | 输出 | 上下文 |
|---|---|---|---|---|
deepseek-v4-flash |
$0.0028 / 100万 Token | $0.14 / 100万 Token | $0.28 / 100万 Token | 1M |
deepseek-v4-pro 促销价 |
$0.003625 / 100万 Token | $0.435 / 100万 Token | $0.87 / 100万 Token | 1M |
deepseek-v4-pro 原价 |
$0.0145 / 100万 Token | $1.74 / 100万 Token | $3.48 / 100万 Token | 1M |
这里要注意两个点。
第一,V4 Pro 的 $0.435 / $0.87 是促销价,不是长期原价。 DeepSeek 官方说明里,这个 75% 折扣延长到 2026 年 5 月 31 日 15:59 UTC。
第二,缓存命中价格才是 Agent 成本模型里的关键。 Flash 的缓存命中输入低到 $0.0028 / 100万 Token,Pro 促销期缓存命中输入是 $0.003625 / 100万 Token。 这意味着大量重复项目上下文、工具定义、系统提示词和历史摘要,不再按完整输入价格计费。
这个价格最重要的地方,是它让很多任务的 Token 成本变得“不敏感”。 过去开发者会担心一次 Agent 任务吃掉大量上下文、反复读写代码、频繁调用工具。 现在只要缓存命中率足够高,成本会被压得很低。
和 GPT、Claude 的价格对比
只看 DeepSeek 自己的价格,还不容易感受到差距。 把它和同期常见的闭源模型放在一起,对比会更明显。
| 模型 | 输入 | 缓存输入 | 输出 | 适合场景 |
|---|---|---|---|---|
deepseek-v4-flash |
$0.14 / M | $0.0028 / M | $0.28 / M | 高频 Agent、常规 coding、批量任务 |
deepseek-v4-pro 促销价 |
$0.435 / M | $0.003625 / M | $0.87 / M | 复杂 coding、规划、事实核查 |
deepseek-v4-pro 原价 |
$1.74 / M | $0.0145 / M | $3.48 / M | 促销结束后的 Pro 成本基准 |
| GPT-5.5 | $5 / M | $0.50 / M | $30 / M | 高质量复杂任务、通用推理 |
| GPT-5.4 | $2.50 / M | $0.25 / M | $15 / M | 编程和专业任务的中档选择 |
| GPT-5.4 mini | $0.75 / M | $0.075 / M | $4.50 / M | 成本更低的通用/子任务模型 |
| Claude Opus 4.7 | $5 / M | $0.50 / M | $25 / M | 高质量写作、复杂推理、长任务 |
| Claude Sonnet 4.6 | $3 / M | $0.30 / M | $15 / M | 编程、Agent、综合任务 |
| Claude Haiku 4.5 | $1 / M | $0.10 / M | $5 / M | 轻量任务、摘要、分类 |
这张表里最刺眼的是输出价格。 Agent 不只读上下文,还会不断生成计划、补丁、解释、日志和下一步动作。 如果输出很多,DeepSeek V4 Pro 促销价的 $0.87 / M 和 GPT-5.5 的 $30 / M、Claude Sonnet 4.6 的 $15 / M 相比,差距会被不断放大。
即使按 V4 Pro 原价 $3.48 / M 输出算,它也明显低于 GPT-5.4、GPT-5.5 和 Claude Sonnet / Opus。 如果任务可以用 Flash 承担,输出价会进一步降到 $0.28 / M。
缓存输入差距更夸张。 DeepSeek V4 Flash 的缓存输入是 $0.0028 / M,而 GPT-5.5 和 Claude Opus 4.7 的缓存输入都是 $0.50 / M。 这不是同一个数量级。 对反复读取同一代码仓库的 Agent 来说,这个差距比普通聊天更重要。
Agent 任务为什么特别受影响
AI Agent 和普通聊天不一样。 普通聊天通常是一问一答,输入上下文相对有限。 Agent 任务会反复读取项目文件、生成计划、调用工具、检查结果、再修改代码。
这类任务有两个特点:
- Token 消耗大;
- 重复上下文多。
第二点很关键。 在代码项目里,模型会反复读取同一批文件、目录结构、错误日志和修改结果。 如果平台支持缓存命中,重复输入的成本会大幅下降。
原文里提到一次实际体验:把 DeepSeek V4 Pro 和 Flash 接到 Claude Code 一类工具中,让它拉取一个提示词仓库并做成本地搜索网站。 任务最终完成,总成本大约 8 毛多,其中 Pro 缓存命中率达到 98.7%。
这个例子说明了一个现实问题:Agent 任务越像“围绕同一个项目反复工作”,缓存命中越有价值。 如果一次生成网站、修 bug、改前端只花几毛钱到几块钱,订阅套餐的吸引力就会下降。
可以用一个简化任务估算差距。 假设一次 coding agent 任务包含:
- 50 万 Token 输入,其中 80% 能命中缓存;
- 5 万 Token 输出;
- 不计算工具调用、搜索和平台加价,只看模型 Token 成本。
大致成本如下:
| 模型 | 估算成本 |
|---|---|
| DeepSeek V4 Flash | 约 $0.03 |
| DeepSeek V4 Pro 促销价 | 约 $0.09 |
| DeepSeek V4 Pro 原价 | 约 $0.36 |
| GPT-5.4 mini | 约 $0.30 |
| GPT-5.4 | 约 $1.01 |
| GPT-5.5 | 约 $1.75 |
| Claude Sonnet 4.6 | 约 $1.11 |
| Claude Opus 4.7 | 约 $1.65 |
这个估算不是说 DeepSeek 在所有任务上都更好。 模型质量、工具调用稳定性、长上下文检索能力、代码风格和事实可靠性都要单独评估。 但从成本上看,DeepSeek V4 把“让 Agent 多跑几轮”的边际成本压得很低。 这会鼓励开发者设计更长流程、更频繁的自检和更多候选方案,而不是每次都担心 Token 账单。
Coding Plan 和 Token Plan 的差别
很多 AI 产品现在会提供两类套餐:Coding Plan 和 Token Plan。
它们的差别大致是:
- Coding Plan 通常主要面向编程;
- Token Plan 通常覆盖更多能力,例如 STT、TTS、绘图、搜索、embedding、RAG;
- STT 是语音转文字;
- TTS 是文字转语音;
- Coding Plan 往往把用户限制在编程场景里,其他能力还需要另买。
从商业角度看,Coding Plan 更像自助餐。 用户预先付一笔固定费用,厂商赌的是大多数人不会把额度用满。 有人用得多,有人用得少,平均下来平台仍然能赚钱。
但如果按量 Token 价格足够低,用户就会开始计算:我为什么一定要买套餐? 如果一个月真实使用成本只有几块钱、十几块钱,买 40 元、200 元的套餐就不一定划算。
降价为什么会冲击套餐模式
订阅套餐的成立,需要一个前提:用户觉得单次使用很贵,或者不想计算每次调用成本。 当 Token 价格高时,套餐看起来更安心。 当 Token 价格低到几乎无感时,按量付费反而更自然。
DeepSeek V4 的降价相当于把底牌亮出来:
- Agent 任务可以很便宜;
- 长上下文不一定贵到不能用;
- 缓存命中可以显著降低成本;
- 普通开发者不一定需要固定订阅;
- 模型入口可以从“套餐平台”转向“低价 API”。
这会让做 Coding Plan 的平台不舒服。 如果用户发现按量调用更便宜、更自由,就没必要为了一个平台的套餐被绑定。
Flash 和 Pro 怎么选
DeepSeek V4 的一个实用思路,是把 Flash 和 Pro 分工使用。
Flash 适合高频、轻量、可重复的任务:
- 改 bug;
- 写前端;
- 写脚本;
- 做常规代码理解;
- 处理较长上下文里的普通信息整理;
- 跑大量子任务。
Flash 便宜,速度快,而且同样支持很长上下文。 对日常 coding agent 来说,很多任务不需要一上来就用 Pro。
Pro 更适合复杂判断和兜底任务:
- 多轮规划;
- 复杂 Agent 流程;
- 多次 function call;
- 事实核查;
- 财经研究;
- 需要更强知识和判断力的内容生产;
- 高风险代码修改。
一个合理配置是:Flash 负责跑量,Pro 负责兜底。 普通任务先用 Flash,遇到长程规划、复杂判断、事实核查或多工具协作时再切 Pro。 这样既能控制成本,也能保留模型质量。
DeepSeek 为什么可以这么定价
DeepSeek 和很多大厂的业务结构不同。 它没有电商、社交、短视频、云计算、手机、汽车、办公套件、操作系统、浏览器或大规模企业 SaaS 生态。
这意味着它不需要把用户锁在一个完整平台里。 它可以只卖文本模型能力:你在这里用便宜的文本模型,其他能力要调用谁都可以。
大厂的逻辑通常不同。 如果你买了它的 Coding Plan 或 Token Plan,就会被拉进它的云、搜索、绘图、语音、数据库和开发工具生态。 套餐不是单纯卖模型,而是在争夺用户入口。
DeepSeek 的打法更直接:把文本模型价格压低,争取成为 Agent 的默认模型入口。 只要默认入口被占住,很多开发者和工具链就会自然围绕它适配。
开源模型和默认入口
DeepSeek V4 如果保持开放模型路线,第三方云厂商和平台很可能会自行部署并提供服务。 这对 DeepSeek 来说既是传播,也可能是分流。
低价官方 API 的意义就在这里。 如果官方价格已经足够低,其他平台即使能部署,也很难在价格上明显更有优势。 用户会倾向于直接使用默认、便宜、稳定的入口。
对 Agent 工具尤其如此。 Agent 任务依赖长上下文、缓存、工具调用和稳定吞吐。 一旦某个模型在这些场景里成本足够低,它就有机会成为默认选项。
Coding Plan 仍然不是完全没用
这并不意味着 Coding Plan 会马上消失。 它仍然有适合的人群。
如果某些用户真的是高强度使用者,每天把套餐额度打满,那么固定订阅可能仍然划算。 就像自助餐,如果完全没有人能吃回本,用户也不会愿意买。
但问题在于,绝大多数用户不是这种极端高频用户。 低频用户、轻量开发者、偶尔写脚本或改项目的人,更适合按量付费。 当 DeepSeek 把按量成本压低后,套餐的吸引力会被削弱。
未来更可能出现的是分层选择:
- 高频重度用户继续买 Coding Plan;
- 普通用户转向低价 API;
- Agent 工具根据任务自动选择 Flash / Pro;
- 平台套餐需要提供更多非模型价值,例如工作流、IDE 集成、部署、团队管理和安全审计。
小结
DeepSeek V4 的发布并没有靠跑分制造最大冲击。 真正改变行业预期的是后续降价。
当输入 Token 和缓存命中价格被压到很低时,AI Agent 的使用成本会发生变化。 过去看起来昂贵的长上下文、代码项目分析、多轮工具调用,现在可能变成几毛钱到几块钱的日常消耗。
这会直接冲击 Coding Plan 和 Token Plan 的商业逻辑。 如果用户可以按量付费、自由组合模型和工具,而且成本足够低,就不一定愿意被绑定在某个平台套餐里。
DeepSeek V4 这次真正动到的,不只是模型能力排名,而是 AI Agent 的成本结构和默认入口之争。
参考来源: