深度思考，不是 AI 变强的核心竞争力。读Kimi论文注意力残差及林俊旸长文笔记

思考模型 AI 残差 Kimi

发布于 2026-06-11

128

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：深度思考，不是 AI 变强的核心竞争力。读Kimi论文注意力残差及林俊旸长文笔记

文章来源：

Becomewiser

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：AI发展正从堆算力、堆数据转向架构创新和智能体能力，通过解析Kimi的注意力残差论文与林俊旸的智能体式思考观点，说明模型信息传递机制和训练目标的革新是提升能力的关键。

关键要点：

Kimi提出注意力残差（AttnRes），改进Transformer残差连接的信息筛选机制，同等算力下更低loss，减少约1.25倍算力需求。
传统残差连接存在无差别累加导致信息稀释、早期层贡献被淹没、无法精准恢复有用信息等问题。
AttnRes通过为每层分配筛选器动态决定信息权重，提升高难推理、数学和代码任务性能。
林俊旸指出长推理轨迹不必然带来智能，过度推理暴露低效，应转向智能体式思考：为行动而思考，与环境交互、使用工具。
智能体式思考的路线图：训练模型→训练智能体→训练智能体系统，从内部推理转向可持续协作能力。

内容结构：

一、注意力残差机制改变了什么？

Kimi论文获马斯克认可，解决多层计算信息传递效率。通过调整机制，同样算力下训练误差（loss）更低，传统方案需多花1.25倍算力才能达到同等水平。Loss表示模型预测错误程度，越低越好。

传统Transformer残差连接问题

残差连接是层间信息通道，采用求和累加方式。但存在三个不足：

缺乏筛选：每一层接收同一混合信号，无机制选择性过滤，低层信息对高层未必有用。
信号稀释：无差别累加导致深层隐藏状态中早期信息占比逐渐减小，影响力减弱。
不可恢复：早期信息混入总和后，后续层难以精准提取有用信息。

Kimi的突破：Attention Residuals（AttnRes）

核心洞察：Transformer深度信息累积与RNN时间步递推在数学上对应。借鉴注意力机制替代固定递推的思路，AttnRes为每层分配筛选器，允许模型自主决定关注哪些信息，替代无脑叠加。替换标准残差连接后，几乎所有测试均有提升，尤其在高难推理、数学和代码任务上。这体现能力提升依赖结构创新而非单纯增加数据和算力。

二、让模型深度思考的天花板——从推理转向智能体

林俊旸指出2025年上半年关注推理思维，但更长的推理轨迹不意味着更高价值。过度、显性的推理痕迹反而暴露资源分配低效。目标应从“能否长时间思考”转为“能否以支撑有效行动的方式思考”。智能体需判断何时思考、何时行动，基于失败修正，思考面向工具和任务。

为什么卷推理？

OpenAI o1证明思考可训练展示，但“想得更久”不一定适合真实世界。用户常需简洁输出，简单问题不需要深度思考，深度思考应有简洁输出。

新方向：智能体式思考

Anthropic以代码编写、长周期任务和智能体工作流为目标。思考应服务于任务（如读代码库、拆任务、跑测试、修bug），而非产出发达的思考过程而结果糟糕。Claude Code稳定性优于OpenClaw，因其沿长周期软件工程路线打磨。智能体式思考强调：与环境交互、使用工具、持续解决问题。林俊旸给出路线图：训练模型→训练智能体→训练智能体系统。

文章总结：AI的下半场更依赖架构创新和智能体能力，从闭卷考试般的推理转向为行动而思考，将思考转化为执行和协作系统能力。