深度思考,不是 AI 变强的核心竞争力。读Kimi论文注意力残差及林俊旸长文笔记

思考 模型 AI 残差 Kimi
发布于 2026-06-11
5

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

最近特别的忙碌,直到这个周末才有时间阅读 Kimi 的新论文《注意力残差 Attention Residuals》还有林俊旸老师的《从推理式思考转向智能体式思考 From "Reasoning" Thinking to "Agentic" Thinking》。

前者在调整了模型的信息传递机制,让同样的算力训练出更好的效果;后者讨论的是训练目标:让 AI 不仅仅是停留在思考、跑分这些闭卷考试里,而是要面向智能体训练,进一步提升真实任务完成的质量。

包括今年一直以来 Deep Seek 的 Engram、Dualpath,其实都会发现:靠堆算力、堆数据提升 AI 能力的方式正在转变,AI 的下半场更看重的是架构的创新和智能体能力。

接下来是 2 篇内容的解读和笔记。

注意力残差机制改变了什么?

Kimi 的论文在发布后获得了马斯克的高度评价,它解决的是模型在多层计算时信息传递的效率问题。

Kimi 通过调整模型的信息传递机制,提高了算力的利用率,在论文的 scaling law 实验里,传统方案大约要多花 1.25 倍算力,才能达到同样的训练误差水平(loss)

loss 代表模型预测错误的程度,越低说明模型越接近正确答案。

传统的 Transformer 残差连接存在什么问题?

Kimi 这篇论文切入的是 Transformer 里一个非常关键的部件:残差连接。

残差连接是模型思考层级的信息通道,在复杂任务里,模型会不断的思考去给出答案,例如先理解用户说什么,去找资料,再逻辑推导等等。

但传统的信息通道是求和累加的机制,第 1 层算出一个结果,传给第 2 层;第 2 层把自己的输出加进去,再传给第 3 层……一路加到最后。

但 Kimi 这一次发现了三个不足:

1)缺乏筛选

每一层拿到的都是同一个混合信号,传统方案里没有一个机制来选择性筛选这些信号。

第 3 层算出来的东西,对第 48 层真的有用吗?

但标准残差不管这些,一视同仁的全部都塞过去。

2)信号稀释

因为标准残差是无差别累加,层数越深,隐藏状态里混在一起的信息就越多。

前面层的贡献还在,但它在整个总和里的占比会越来越小。就像一开始是 1/3,它记住的东西很显眼,后来变成 1/100,它还在,但影响力已经弱很多了。

3)不可恢复

更麻烦的是,前面层的信息一旦被混进这个不断变大的总和里,后面的层就很难把某一层的有用信息精准取回来。

结果真正有价值的早期信息被埋得越来越深,而那些不那么重要的混合成分也会一起留在里面。

Kimi 这一次的突破是什么?

论文有一个核心洞察:Transformer 里沿深度累积信息的方式,在数学结构上和 RNN沿时间步递推信息的方式是对应的。

既然注意力机制当年能在序列维度上,为 RNN 式固定递推提供更灵活的替代方案。那在残差连接上,是不是也可以有条件的挑选信息,替代现在这种无脑叠加的方案呢?

这个方案叫Attention Residuals(AttnRes)。

通过给每一层分配一个筛选器,让它能自己决定应该看哪些信息。有用的就多看一些,没用的就少看一些,不再是一次性看全部的内容。

把标准残差连接换成 AttnRes 之后,模型几乎在所有的测试里都变得更强了,尤其在高难推理、数学和代码任务上更明显。

这也是 Kimi 这篇论文真正有意思的地方:它不是靠多喂数据、多堆算力把分数抬上去,而是回到 Transformer 最底层的信息传递机制,重新改写了"层与层之间该怎么交流"这件事。

某种意义上,这意味着大模型能力的提升,开始越来越依赖结构本身的创新。这也是今年国内 AI 厂的几篇论文的新趋势。

让模型深度思考这件事的天花板到了

如果说 Kimi 这篇论文讨论的是:怎么样更高效的使用算力。

那林俊旸老师这篇长文讨论的,就是另一个更大的问题:这份能力到底该用在哪里。

2025 年上半年我们主要关注的是推理思维:让模型花费更多时间进行推理计算,用更强的奖励来训练它们。

但接下来要做什么呢?

生成更长的推理轨迹,并不意味着模型就自动变得更加智能。在许多情况下,过度的、显性的推理痕迹反而暴露出模型在资源分配上的低效与薄弱。如果模型试图以同样冗长繁琐的方式去对所有事物进行推理,那很可能意味着它未能有效地进行优先级排序、未能对信息进行精简压缩,甚至未能果断地采取行动。
公众号:机器之心林俊旸离职后首度发声:万字复盘,大模型下一站「智能体式思考」

文章这么说表明,更长的推理轨迹并不代表更高的价值,目标也不再是模型能否进行足够长时间的思考?而是模型能否以一种能够支撑有效行动的方式进行思考?

而如果是面向行动,那 Agent 需要判断什么时候思考、什么时候行动,基于失败又怎么去修正,思考是面向工具的。

为什么大家都在卷推理?

OpenAI 的 o1 证明思考可以成为一项核心能力,可以进行训练并向用户展示。于是所有人都在跟进怎么让模型想得更久、想得更深、想得更对。

想得更久,真的更适合真实世界吗?

现在别说思考了,就连 AI 输出的太长,我都会强制性的打断让它说的简单一些,简单的问题不需要深度思考,深度的思考也应该有简单的输出。

新的方向是智能体

林俊旸把目光投向了 Anthropic。

Anthropic 明确将代码编写、长周期任务处理以及智能体(Agent)工作流视为其主要发展目标。

模型的思考过程不该只是为了生成一段更长的中间过程,而应该服务于它要完成的任务。

如果任务是写代码,那思考就应该帮助模型读代码库、拆任务、跑测试、修 bug。

如果任务是智能体,那思考应该推动任务往前走,保障任务的质量、和效果,而不是产出一段看起来很努力的思考过程,然后最终做出来很烂的东西。

这也是为什么类似任务里 Claude Code 往往比 OpenClaw 更稳定,因为 Anthropic 是在沿着长周期软件工程执行这条路线打磨产品。相比之下,OpenClaw 的定位更偏多渠道个人 AI 助手,而不是专门面向长周期、复杂任务的智能体。

那什么才是合格的智能体式思考呢?


推理式思考
智能体式思考
类比
闭卷考试
真实世界
核心问题
想得更久
为了行动而思考
评判标准
答案对不对
能否持续解决问题
关键能力
内部推理
与环境交互、使用工具

过去我们更关心的是:模型的思考深度、思考强度,但现在应该转变成:模型到底能不能帮助我解决我的问题?

林俊旸老师给出的路线图是:训练模型 -> 训练智能体 -> 训练智能体系统。

从思考,到执行,再到协作,最后考验的是谁才能把思考真正变成执行,再把执行沉淀成可持续协作的系统能力。


Becomewiser