给AI换颗“芯”：DeepSeek用mHC突破算力围墙

模型 mHC 注意力 DeepSeek AI

发布于 2026-06-10

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：给AI换颗“芯”：DeepSeek用mHC突破算力围墙

文章来源：

小南瓜开发平台

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：DeepSeek提出的mHC（流形约束超连接）是一种高效替代传统注意力机制的新型网络架构，通过数学约束实现稳定且可扩展的长文本处理，致力于推动AI模型更普惠、更强。

关键要点：

mHC以Hyena运算符为基础，通过多尺度卷积核捕捉不同粒度的依赖关系，并以多维“立方体”结构进行高效信息交互。
核心创新在于将连接矩阵约束为双随机矩阵（行和列和均为1，元素非负），从数学上杜绝信号爆炸或消失，保证训练稳定性。
工程实现采用Sinkhorn-Knopp算法对自由学习的矩阵进行即时投影，兼顾灵活性与安全性。
相比传统注意力机制（平方级复杂度），mHC的计算量呈线性增长，显著提升处理超长文本的效率和模型可扩展性。
在DeepSeek-V3等模型中验证，mHC在数学、代码、推理等任务上达到或超越同类规模Transformer模型的性能。

内容结构：

一、引言：从“注意力”的瓶颈说起

注意力机制是大型语言模型的核心组件，能动态聚焦于重要词语，但其计算量随序列长度平方级增长，限制长文本处理能力。

二、mHC是什么？—— Hyena与多维度的进化

前身：Hyena运算符：采用卷积和门控机制模拟注意力，计算复杂度接近线性。
进化：mHC的关键创新
- 多尺度：并行使用不同长度的卷积核，同时捕捉短距离和长距离依赖。
- 立方体：在序列长度、模型深度、特征通道等多个维度进行高效卷积和信息交互，形成立体计算结构。

三、mHC的核心优势

传统超连接设计允许多条信息通路，但自由学习可能导致“恒等通道”丢失、信号爆炸或消失，在大模型中极易训练失败。mHC提出：

数学约束：将所有连接矩阵限制为双随机矩阵，其最大特征值不超过1，确保信号能量不爆炸。
工程实现：模型先自由学习普通矩阵，再通过Sinkhorn-Knopp算法即时投影到双随机空间，过程可微且高效。

优势包括：

卓越效率：避免平方级复杂度，经济训练超长文本。
强大性能：在数学、代码、推理等任务上不逊于甚至超越传统注意力模型。
可扩展性：线性增长特性为万亿参数模型铺平道路。

四、它为何重要？

传统Transformer依靠残差连接（x + F(x)）保证训练稳定性。mHC通过数学约束实现了更灵活的超连接设计，同时保持稳定。其成功表明：注意力机制并非唯一路径，效率是解锁通用人工智能的关键。

文章总结：本文以通俗类比解读DeepSeek的mHC技术，强调其在效率、稳定性和可扩展性上的突破，并认为这代表了AI架构从“注意力垄断”向多元化方向演进的重要趋势。

小南瓜开发平台

查看原文：给AI换颗“芯”：DeepSeek用mHC突破算力围墙

文章来源：

小南瓜开发平台

扫码关注公众号

相关推荐

极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

1803

模型世界生成视频

击下方卡片，关注“AI生成未来”>>后台回复“GAI

大语言模型的前世今生：万字长文完整梳理所有里程碑式大语言模型（LLMs）

2164

模型训练语言 GPT

点击下方卡片，关注“AI生成未来”>>后台回复“

理解 DDD：编程中的模型思维

1551

模型业务计算机逻辑

业务设计上往往没有建立起特定的领域模型，这是我们架构腐化和软件开发困难的关键原因。**业务领域建立好的模型，并指导代码实践，这就是 ”编程思维“。** DDD 领域驱动设计就是解决这部分问题，与其叫领域驱动设计，不如叫做模型驱动设计。

具身智能成败之关键！干货长文首次全面回顾具身智能领域中的视觉-语言-动作模型！

1881

模型语言视觉机器人

点击下方卡片，关注“AI生成未来”>>后台回复“

超越CogVideoX-5B、Pika、Kling 和 Gen-3！苹果再发新作，视频生成大模型全面报告

1629

模型视频生成图像

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

大模型推理必看！2025最值得读的14篇论文和2篇博客

1299

模型推理论文 LLM

Datawhale干货作者：曾浩龙，Datawhale团队大模型的

小南瓜开发平台

南瓜树基础能力低代码平台，助力中小企业进行数字化转型

154 篇文章

浏览 205.6K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

查看方案

小南瓜开发平台的其他文章

【26】实战—three.js设置纹理显示算法与mipmap

设置纹理显示算法与mipmap

AI大模型如何在大中型企业落地？

AI大模型成为近两年全社会关注的焦点，从ChatGPT这一划时代的AI技术退出，到国内的“百模大战”竞相角逐.

【云计算必备技能】docker入门及基础命令

Docker是一种容器化技术，它在云计算中扮演着重要的角色.它可以帮助开发人员和系统管理员更轻松地创建、部署、运行和管理应用程序。

企业推进数字化转型时需要明确的四个目标

企业推进数字化转型时需要明确的四个目标：增加收入、增加利润、提高效率、降本增效

关于JAVA拨测kafka的一些细节

今天需要通过代码连接kafka拨测kafka的主题是否正常，查了些资料，用java写了个示例demo。

随机阅读

优秀的测试工程师为什么要懂大型网站的架构设计

08-19

关于Scrum Mastering ... 9件事可以尝试

08-17

Martin Fowler | 敏捷的忠实拥护者

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

给AI换颗“芯”：DeepSeek用mHC突破算力围墙

版权声明

Linux之父：连你自己都懒得解释，那这就是一堆垃圾！

还在用多套工具管项目？

联系我们

融实践库

微信公众号

微信视频号

社区微信群