MiniMax开源首个推理大模型M1,凭什么吊打DeepSeek?

模型 100 MiniMax AI token
发布于 2025-10-25
182

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读
关注公众号
免费领取AI知识库


昨日,MiniMax开源了首个混合注意力架构推理模型-M1,AI圈都炸锅了


AI技术革命的赛马阶段,每个阶段都有一个“神”。

DeepSeek、通义千问....每个厂商都在不断的创新,刷新认知。

而这次的“源神”非MiniMax-M1莫属了。


今天就来聊一聊MiniMax。


01 MiniMax-M1牛在哪儿?

一个字总结:长............

支持长达100万token的上下文长度。


来看一组数据:

  1. 53.47万美元的训练成本就达到了与需要数亿美元训练的GPT模型相当的性能。

  2. 支持100万token的上下文长度,8万token输出长度,比肩Gemini,是DeepSeek的8倍。

M1在性能接近GPT模型的同时,成本仅为其1/188左右。

我愿称之为顶级牛马,干活好要钱少,老板兴奋不已。

别的模型数月训练的成果,M1只需要数周就能达成,仅需512块H800GPU资源。

高产出低投入,干活快的要命,别人1天3顿饭,M1 3天吃一顿饭,这投入产出比,谁不羡慕,这么干到80岁都没问题.....


M1恐怖之处还在于它支持的token上下文长度

以下是主流大模型支持token上下文长度对比图:


可以看到,MiniMax-M1和Gemin支持的100万token上下文长度一骑绝尘,遥遥领先其他大模型。

其他大模型也不过是在20万token以下。

真大胃王模型。


1个token大概相当于1个汉字,100万token就是100万个汉字。

100万字什么概念,相当于1部长篇小说《盗墓笔记》,7部中长篇小说《呐喊》或是100篇常规研究论文的文字数量。

我们普通日常办公打字的数量大概在1000-5000字,100万字需要敲7个月到2年时间。



这下分析论文、小说、代码等内容一次性就可以搞定,不需要分段多次上传了。

怪不得MiniMax官网的logo:内容再长也不在话下。

是真的长????


02 M1凭什么这么牛?

源于MiniMax-M1用的混合专家系统(MoE)架构与闪电注意力机制相结合的设计。

什么是注意力机制。

大模型的“注意力”和人的注意力类似 ,都是 “抓重点” 的能力,就像人看书时会自动盯着关键句子、聊天时会关注重点词语一样。


通过计算不同信息的 “重要程度”,根据重要程度分配权重,让模型把精力集中在关键内容上,忽略无关信息。

那么在输入的文字数很长的情况下,大模型会因为计算量太大(要算所有词的关系)而变得很慢,甚至占满内存(有点像电脑同时开 100 个程序会卡死一样)。


闪电注意力就像给传统注意力加了 “节能模式” 和 “分块处理” 功能。

假设你要让 大模型读一本100万字的书,传统注意力需要让大模型把整本书的每个字都同时记在脑子里,然后计算每个字和其他所有字的关系。


那么就会出现问题:

  • 1:太占脑子(内存):比如书有 100 万字,模型需要存 100 万 ×100 万 = 10万亿“关系对”,显存不够就会 “死机”。

  • 2:算得太慢:算这 10万亿个关系对要花很长时间,尤其是内容越长,计算量像滚雪球一样暴增。

  • 3:容易算错:数字太大时,计算过程容易 “溢出”(比如小数算成整数),导致结果不准。


闪电注意力做的就比较聪明了。

把书分块读,不一口气读完整本书。

把书分成很多小章节(比如每章 20000 字),每次只算一个章节内的字之间的关系,或者相邻章节的关系,算完就扔掉中间结果,需要时再重新算。这样:

  • 原来要存 10万亿个关系对,现在只需要存 20000×20000=4亿个,内存占用从 “ 10万亿” 降到 “4亿”,数据量大大减少。

  • 计算量也从 “ 10万亿次” 降到 “按章节拆分后的少量计算”,速度快很多。


03 实测案例

国内官网

https://chat.minimaxi.com/

打开深度思考。


之前爬取小红书网页数据的时候,需要获取html网页结构分析,每次让claude帮我解析的时候,html代码的长度总是太长而受限,无奈只能分段喂给大模型。

Kimi、豆包都是,直接超过20万无法进行下一步对话,弹出限制:


MiniMax就不一样了,我丢给它完整的html代码,直接就给我分析出来了,果真超长长长长长长长长长长长长长。


另外MiniMax处理小说、论文、拆书这种超长的文本的场景/领域来说也是契合度非常高。


04 聊聊背后的公司

MiniMax(稀宇科技)本身就是一家以技术驱动的公司,核心团队成员大多来自商汤,技术背景实力不凡。


21年成立到现在不到5年的时间,自主研发多模态的语音、音乐大模型、图像大模型以及视频大模型,海螺AI、星野等产品做的都非常牛,性能着实很优秀。


我很喜欢MiniMax的理念:「开源是加速技术迭代的核心驱动力」。


没错,开源更能加速AI的技术发展,一群人的能量比一个人的能量要大,3个臭皮匠顶一个诸葛亮。


目前这个AI发展的混战阶段,大家一起创新,无疑是加速AI成熟落地的最好办法。

相信总会有越来越好的技术迭代出来,有更好的产品给我们。



-End-


如果觉得文章还不错,不妨随手给作者点个赞????和推荐❤️,非常感谢,您的支持是我持续创作的动力。

写到最后

1. 为了帮大家减少信息差,共同学习,北洛建了个AI交流群,扫码或者加微信:beiluo_233













感beiluo_233
     
                                  
  2. 另外有免费开源AI知识库供大家学习交流,后台回复“AI知识库”获取:

????


????可读往期精华文章:
太牛了!扣子(Coze)搭建小红书爆款图文智能体(Agent)全攻略
→ 扣子(Coze)智能体 | 搭建Ai日报智能体,保姆级教程!
→ 扣子(Coze) 智能体 | 搭建热点&行业报告智能体,保姆级教程!
【扣子(Coze)入门指南】一文详细讲解扣子,零基础小白必看!
Cursor+扣子(Coze):一键爬取公众号文章至多维表格
零基础实战:Cursor+扣子(Coze)开发一键同步网页的浏览器插件


北洛AI