深度思考,不是 AI 变强的核心竞争力。读Kimi论文注意力残差及林俊旸长文笔记
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
最近特别的忙碌,直到这个周末才有时间阅读 Kimi 的新论文《注意力残差 Attention Residuals》还有林俊旸老师的《从推理式思考转向智能体式思考 From "Reasoning" Thinking to "Agentic" Thinking》。
前者在调整了模型的信息传递机制,让同样的算力训练出更好的效果;后者讨论的是训练目标:让 AI 不仅仅是停留在思考、跑分这些闭卷考试里,而是要面向智能体训练,进一步提升真实任务完成的质量。
包括今年一直以来 Deep Seek 的 Engram、Dualpath,其实都会发现:靠堆算力、堆数据提升 AI 能力的方式正在转变,AI 的下半场更看重的是架构的创新和智能体能力。
接下来是 2 篇内容的解读和笔记。
注意力残差机制改变了什么?
Kimi 的论文在发布后获得了马斯克的高度评价,它解决的是模型在多层计算时信息传递的效率问题。
Kimi 通过调整模型的信息传递机制,提高了算力的利用率,在论文的 scaling law 实验里,传统方案大约要多花 1.25 倍算力,才能达到同样的训练误差水平(loss)。
loss 代表模型预测错误的程度,越低说明模型越接近正确答案。
传统的 Transformer 残差连接存在什么问题?
Kimi 这篇论文切入的是 Transformer 里一个非常关键的部件:残差连接。
残差连接是模型思考层级的信息通道,在复杂任务里,模型会不断的思考去给出答案,例如先理解用户说什么,去找资料,再逻辑推导等等。
但传统的信息通道是求和累加的机制,第 1 层算出一个结果,传给第 2 层;第 2 层把自己的输出加进去,再传给第 3 层……一路加到最后。
但 Kimi 这一次发现了三个不足:
1)缺乏筛选
每一层拿到的都是同一个混合信号,传统方案里没有一个机制来选择性筛选这些信号。
第 3 层算出来的东西,对第 48 层真的有用吗?
但标准残差不管这些,一视同仁的全部都塞过去。
2)信号稀释
因为标准残差是无差别累加,层数越深,隐藏状态里混在一起的信息就越多。
前面层的贡献还在,但它在整个总和里的占比会越来越小。就像一开始是 1/3,它记住的东西很显眼,后来变成 1/100,它还在,但影响力已经弱很多了。
3)不可恢复
更麻烦的是,前面层的信息一旦被混进这个不断变大的总和里,后面的层就很难把某一层的有用信息精准取回来。
结果真正有价值的早期信息被埋得越来越深,而那些不那么重要的混合成分也会一起留在里面。
Kimi 这一次的突破是什么?
论文有一个核心洞察:Transformer 里沿深度累积信息的方式,在数学结构上和 RNN沿时间步递推信息的方式是对应的。
既然注意力机制当年能在序列维度上,为 RNN 式固定递推提供更灵活的替代方案。那在残差连接上,是不是也可以有条件的挑选信息,替代现在这种无脑叠加的方案呢?
这个方案叫Attention Residuals(AttnRes)。
通过给每一层分配一个筛选器,让它能自己决定应该看哪些信息。有用的就多看一些,没用的就少看一些,不再是一次性看全部的内容。
把标准残差连接换成 AttnRes 之后,模型几乎在所有的测试里都变得更强了,尤其在高难推理、数学和代码任务上更明显。
这也是 Kimi 这篇论文真正有意思的地方:它不是靠多喂数据、多堆算力把分数抬上去,而是回到 Transformer 最底层的信息传递机制,重新改写了"层与层之间该怎么交流"这件事。
某种意义上,这意味着大模型能力的提升,开始越来越依赖结构本身的创新。这也是今年国内 AI 厂的几篇论文的新趋势。
让模型深度思考这件事的天花板到了
如果说 Kimi 这篇论文讨论的是:怎么样更高效的使用算力。
那林俊旸老师这篇长文讨论的,就是另一个更大的问题:这份能力到底该用在哪里。
2025 年上半年我们主要关注的是推理思维:让模型花费更多时间进行推理计算,用更强的奖励来训练它们。
但接下来要做什么呢?
生成更长的推理轨迹,并不意味着模型就自动变得更加智能。在许多情况下,过度的、显性的推理痕迹反而暴露出模型在资源分配上的低效与薄弱。如果模型试图以同样冗长繁琐的方式去对所有事物进行推理,那很可能意味着它未能有效地进行优先级排序、未能对信息进行精简压缩,甚至未能果断地采取行动。 公众号:机器之心林俊旸离职后首度发声:万字复盘,大模型下一站「智能体式思考」
文章这么说表明,更长的推理轨迹并不代表更高的价值,目标也不再是模型能否进行足够长时间的思考?而是模型能否以一种能够支撑有效行动的方式进行思考?
而如果是面向行动,那 Agent 需要判断什么时候思考、什么时候行动,基于失败又怎么去修正,思考是面向工具的。
为什么大家都在卷推理?
OpenAI 的 o1 证明思考可以成为一项核心能力,可以进行训练并向用户展示。于是所有人都在跟进怎么让模型想得更久、想得更深、想得更对。
但想得更久,真的更适合真实世界吗?
现在别说思考了,就连 AI 输出的太长,我都会强制性的打断让它说的简单一些,简单的问题不需要深度思考,深度的思考也应该有简单的输出。
新的方向是智能体
林俊旸把目光投向了 Anthropic。
Anthropic 明确将代码编写、长周期任务处理以及智能体(Agent)工作流视为其主要发展目标。
模型的思考过程不该只是为了生成一段更长的中间过程,而应该服务于它要完成的任务。
如果任务是写代码,那思考就应该帮助模型读代码库、拆任务、跑测试、修 bug。
如果任务是智能体,那思考应该推动任务往前走,保障任务的质量、和效果,而不是产出一段看起来很努力的思考过程,然后最终做出来很烂的东西。
这也是为什么类似任务里 Claude Code 往往比 OpenClaw 更稳定,因为 Anthropic 是在沿着长周期软件工程执行这条路线打磨产品。相比之下,OpenClaw 的定位更偏多渠道个人 AI 助手,而不是专门面向长周期、复杂任务的智能体。
那什么才是合格的智能体式思考呢?
过去我们更关心的是:模型的思考深度、思考强度,但现在应该转变成:模型到底能不能帮助我解决我的问题?
林俊旸老师给出的路线图是:训练模型 -> 训练智能体 -> 训练智能体系统。
从思考,到执行,再到协作,最后考验的是谁才能把思考真正变成执行,再把执行沉淀成可持续协作的系统能力。
Becomewiser
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
白皮书上线