Deepseek V4 技术报告解读:百万 token、1/9 的价格,AI 进入平权时代

模型 AI 信息 上下文 残差
发布于 2026-06-11
1

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

2026年4月24日,DeepSeek V4 发布了。

它在高难数学、编程竞赛以及编程真实问题验证集中超出了gpt 5.4 xHigh、Claude Opus-4.6Max,但在专家级知识和推理、终端任务、工具使用能力中落后。

但它在1M上下文的每Token的推理计算量、KV Cache 显存占用都大幅降低。

对比Deepseek V3.2,它只需要27% 推理计算量10% KV Cache

这个价格让我们每个人都能用上好的模型,AI拥有了百万上下文的窗口,能够记住和你相关的更多东西,在完成任务的时候也不容易变形。

上一周重听完肖宏去年的播客万字笔记 | 重听Manus创始人肖宏访谈:世界不是线性外推,做博弈中的重要变量,他说deepseek的开放思考过程的创新在于把技术的突破以用户可感知的方式体现了,它只是本分的在解决问题。

这一次,它同样的解决了3个卡住行业很久很久的问题,也同样的把对我们的价值拉满了,以下是从技术报告节选的3个对平民最友好的创新。

压缩注意力机制(CSA/HCA):长上下文不再是天价

我们在调用模型API的时候我们会发现很多很多的模型都是阶梯计费,Token越多价格就越高。

这是因为Transformer的自注意力机制制造了计算和显存的2个非线性开销,它的计算复杂度是 O(n²),当我们想要让AI理解人类的语言,1000字它就需要计算100万次,字数翻倍,仅仅是注意力部分的算力可能就要翻4倍。

当到了100万字的时候,就是万亿次级别了,平民基本不可能拥有百万上下文。

传统的解法是 GQA 和 MLA,前者减少了记忆的份数,后者减少了每份记忆的体积。但由于它们都没有减少上下文长度,所以 Attention 的 $O(n^2)$ 计算量其实没有变少,遇到了百万上下文照样会算力爆炸。

这一次Deepseek V4的突破在于解决了上下文长度的问题。

它使用了两层结构:

HCA(超广角镜):128 倍压缩,把长文本压缩成摘要,低成本的理解上下文

CSA(微距长焦):4 倍压缩 + Top-k 索引,抓住关键点,保留近期上下文细节

HCA架构的核心逻辑是把百万上下文压缩成多张章节摘要,当用户输入问题的时候它让模型把这些摘要都看一遍,并且保留最近几页原文,避免细节丢失。

但这个压缩是非常激进的,它对于更早期的上下文的细节没办法理解的很精准。

解决HCA问题的架构是,这次Deepseek V4的第二个创新CSA。

它在压缩摘要的前提下增加了Lighting Indexer,当用户问题来了的时候,评估什么和当前的问题最相关,然后选择最相关的几个问题和最近的原文进行计算。

HCA负责低成本的保留全局的背景,而CSA则负责准确的找到重点。

Deepseek V4混合采用了这两种架构,来保障模型能够低成本、稳定的理解用户的上下文和持续的工作。

分治训练(OPD + GRM):让 AI 不再偏科

在以前我们需要分辨什么任务要使用什么模型,有的模型擅长编程,有的擅长写作,如果我们在擅长编程的模型里让它写作,它的表现会很奇怪。

这是因为行业里 AI 的后训练阶段,所有人都在用同一种方法:把所有能力,例如编程、数学、写作、聊天都同时一起训练。

很多时候我们发现有的文章一看就是AI写的,大概率就是这类的问题,AI在每个领域都学了个半吊子。

DeepSeek 这一次换了个思路:它不再是同时训练AI去具备所有的能力,它把顺序调整了一下。

它先分别培养多个领域的专家,比如数学、编程、写作等等。每个专家专注在自己领域里去提升,最后OPD让一个学生模型学习专家模型的输出分布。

其中最关键的是 Full-vocabulary Logit Distillation(全词表 Logit 蒸馏)。它不是只让学生模型抄专家最后选出来的答案,而是学习专家对整个词表的概率判断:哪些词更可能要输出,哪些词不该选。

这样蒸馏出来的模型不是去抄答案,而是领域专家在那个领域的判断倾向,所以训练更稳定,也更能保住老师模型的能力。

同时,在评分机制上,DeepSeek-V4 也做了一次革新:它采用了GRM(Generative Reward Model,生成式奖励模型),可以理解成让模型学会按照评分标准自己当评委。

对数学、代码这类容易验证的任务,规则验证器或测试用例就能判断对错,但写作、Agent、多步骤研究这类任务,很难只靠一个标准答案来判断好坏,它需要大量的人工标注。

因为复杂任务的问题可能出在很多地方:可能是问题理解错了,可能是知识查错了,也可能是工具选错了、步骤走偏了。

所以GRM 的重点,不是只给最终答案打一个分,而是评估模型完成任务的整条轨迹。它让模型的推理能力不只用于“回答问题”,也用于“判断这个回答和过程到底好不好”。

这种面对复杂任务的能力,也体现在了后面的评估结果之中。

而在任务完成度、内容质量、格式上都领先于Claude Opus 4.6 max,但在指令遵循中略为逊色。

在分析、生成、编辑类的任务对比4.6max也有着较高的胜率。

这也说明,一个统一模型正在覆盖越来越多样化的任务。过去我们可能要为分析、写作、编辑、代码分别切换不同模型,但如果这类综合模型继续增强,未来我们切换模型的必要性就会下降了。

残差流稳压器(mHC):让深层模型的信息传递更稳定

第3个变化,是残差连接的稳定。

如果说 CSA/HCA 解决的是“AI 怎么低成本读更长的内容”,OPD/GRM 解决的是“AI 怎么把不同能力融合得更均衡”,那 mHC 解决的是另一个更底层的问题:模型信息在不断加工的过程中,层与层之间的信息怎么传得更稳定。

mHC 可以理解成对 Transformer 残差连接的一次升级。

残差连接是模型层与层之间传递中间状态的信息通道,这也是理解语义的关键,每一层都在逐层解读人类的语言。传统做法更像一条主通道:第 1 层算出结果,传给第 2 层;第 2 层把自己的变化加进去,再传给第 3 层……一路传到最后。

Deepseek借鉴了 Hyper-Connections 的多通道思路,把原来一条残差流扩展成多条。这样模型不用把所有中间信息都挤在同一条通道里,而是拥有更多并行的信息通路。

模型可以在训练中自己学会哪些信息要保留,哪些信息要加工,哪些信息要在不同通道之间混合。

例如说:模型在复杂任务里可能要同时维护用户问题、证据线索、推理状态、输出格式等信息。多通道给了模型更多“工作区”,那模型可能会基于上述的维度进行分区

但这个架构同样也会存在问题,当信息不断地分区,不断地传递,信息不断地被混合,这个时候模型的训练和推理都会变得不稳定。

deepseek这次的创新是,既要多通道带来的表达力,又要防止多通道混合失控。

它把残差映射矩阵约束在双随机矩阵的流形上,让这个矩阵的谱范数不超过 1,从而使残差变换不会放大信号。

对普通用户来说,我们能感知到的是模型在复杂任务的稳定性,它影响着模型的上限:模型越深、任务越复杂,越需要稳定的信息通道,否则在多层推理过程中可能传着传着就乱了。

3月份 Kimi 也发了一篇 Attention Residuals 论文(深度思考,不是 AI 变强的核心竞争力。读Kimi论文注意力残差及林俊旸长文笔记),从筛选信息的角度来革新残差连接,结合Deepseek的这条负责信息通道稳定的路线,未来很可能是会叠加使用的。

层数越多,信息可以经过更多轮加工,你未来用到的 AI 模型能力上限也可能更高。

最后

前面讲的长上下文、分治训练、残差稳定器,都是模型能力层的变化。

但我们真正感知到的是这几件事:

CSA/HSA 让模型能够读更长的资料,OPD/GRM让模型在不同的复杂任务都能表现得更好,mHC让模型能够更多轮的处理、理解信息。

Deepseek V4 flash,百万Token输入才1块钱,基本上能够负荷每天的用量。而V4 pro 则是12元,约为GPT 5.5和Claude Opus 4.7的3分之1,官方说明预计下半年价格会大幅下降。

它给出了一个普通人用得起、用得上的百万上下文的开源模型。

历史上每一轮技术革命都是类似的剧本:先驱者修路铺管道,后来者利用基础设施做出改变世界的产品。AI 的故事,也正在经历这个阶段。DeepSeek V4 做的,就是修路的那份苦活。

百万 token上下文、超低的价格,AI 平权的时代,也许从这一刻开始了。

Becomewiser