Deepseek V4 技术报告解读：百万 token、1/9 的价格，AI 进入平权时代

模型 AI 信息上下文残差

发布于 2026-06-11

116

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：Deepseek V4 技术报告解读：百万 token、1/9 的价格，AI 进入平权时代

文章来源：

Becomewiser

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：DeepSeek V4 通过压缩注意力机制、分治训练和残差流稳压器三大创新，以极低成本实现了百万级上下文窗口，推动 AI 平民化。

关键要点：

压缩注意力机制 (CSA/HCA) 突破长上下文计算瓶颈，将百万 Token 输入成本降至 1 元。
分治训练 (OPD + GRM) 通过先分领域训练专家再蒸馏，避免模型偏科，提升复杂任务表现。
残差流稳压器 (mHC) 通过多通道信息传输与双随机矩阵约束，增强深层模型稳定性。
DeepSeek V4 在数学、编程等任务上超越 GPT 5.4 xHigh 等模型，但专家推理、工具使用稍逊。
价格仅为同类模型的 1/3，预计下半年进一步降价，使普通用户能够使用百万上下文能力。

内容结构：

开篇介绍：2026年4月24日 DeepSeek V4 发布，性能部分领先，推理计算量与显存占用大幅降低，价格亲民。
第一项创新：压缩注意力机制 (CSA/HCA)
- 背景：传统 Transformer 计算复杂度 O(n²)，百万上下文计算量巨大。
- HCA（超广角镜）：128 倍压缩，将长文本压缩为摘要，低成本理解上下文。
- CSA（微距长焦）：4 倍压缩 + Top-k 索引，结合 Lighting Indexer，精准定位关键信息。
- 混合使用：HCA 提供全局背景，CSA 负责重点检索。
第二项创新：分治训练 (OPD + GRM)
- 问题：传统后训练同时训练多领域（编程、写作等）导致模型偏科。
- OPD：先分别培养领域专家（数学、编程、写作等），再通过全词表 Logit 蒸馏，让学生模型学习专家的概率分布，而非简单抄答案。
- GRM（生成式奖励模型）：评估任务整体轨迹（如过程与结果），而非仅凭标准答案打分，适用于写作、Agent 等复杂任务。
- 效果：在任务完成度、内容质量、格式上领先 Claude Opus 4.6 Max，指令遵循稍逊。
第三项创新：残差流稳压器 (mHC)
- 问题：深层模型信息传递不稳定，影响复杂任务表现。
- mHC：借鉴 Hyper-Connections 多通道思路，将单条残差流扩展为多条，模型可自主分配信息（如用户问题、推理状态等）。
- 约束：将残差映射矩阵约束在双随机矩阵流形上，谱范数 ≤1，防止信号放大导致不稳定。
- 意义：提升模型上限，未来可叠加其他残差创新（如 Kimi 的 Attention Residuals）。
总结与展望：
- 三项创新分别解决长上下文、多任务均衡、深层稳定性问题。
- 价格：Flash 版百万 Token 输入 1 元，Pro 版 12 元，预计下半年大幅降价。
- 历史类比：先修路（基础设施），再改变世界产品；AI 平权时代或从此开始。