在Anthropic和DeepMind训模型的物理博士,说了AI圈最不中听的大实话
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
导读:姚顺宇,清华+斯坦福理论物理博士,先后在Anthropic参与训练Claude 3.7/4.5、在Google DeepMind参与训练Gemini 3。在近4小时的播客访谈中(张小珺商业访谈录第140期),他说了不少AI圈"不中听的大实话"。
如果有人在AI圈说"这个行业不太需要脑子",你会觉得他在凡尔赛。
但如果说这话的人,先后在Anthropic参与训练了Claude 3.7和4.5,又跳到Google DeepMind参与训练了Gemini 3——你可能需要认真听听他的理由。
我花了一个周末反复听了两遍,把最核心的内容整理出来。以下是8个关键观点。
一、"Claude写代码比GPT强,纯属歪打正着"
这可能是整期访谈最劲爆的内幕。
Claude 3发布后,Twitter上突然大量用户说"Claude写代码比GPT-4强"。姚顺宇透露:
这是某个团队做了某个事情的结果,最初是自下而上的偶然尝试。
但Anthropic的执行力在这里体现了——他们迅速把这个"意外发现"变成了自上而下的战略决策。后来Claude 3.5new配合Cursor的爆发,彻底奠定了Anthropic在代码领域的地位。
而Claude 3.7才是真正的分水岭。在3.7之前,后训练都是"小规模、修修补补"。3.7开始,大规模强化学习才真正成为可能。
核心原因是Coding同时具备两个稀缺特质:
① 回馈信号清晰——代码能跑/不能跑,pass/fail
② 数据充分——开源代码+测试用例海量
其他场景很难同时满足这两个条件。这就是为什么Coding成了AI最原生的应用场景。
二、"预训练没到头,撞墙的人大多是有bug"
关于"Scaling Law是否已经见顶",AI圈争论了一整年。他的判断非常直接:
一个人觉得一个规律到头了,无非几种情况:规律适用范围到头了;其中一个条件不能满足了;或者有一个bug自己没发现。从观感上来说,绝大多数撞到墙的人,是因为有bug。
他的论据:Anthropic和Gemini的预训练一直在不断进展,OpenAI自己卡了很久,最近可能刚有点进展。
更深一层——他认为现在AI面临的不是"能力到头了",而是"定义到头了":
模型是一个非常聪明的小孩,但人类作为老师还不知道下一个该教什么——或者不知道用现在的范式怎么合理地教它。
从"能力忧虑"到"定义忧虑"——这个判断精准地描述了2026年AI行业的核心困境。
三、Anthropic vs Google DeepMind
作为少数同时在两家顶级AI实验室工作过的人,他的对比视角非常稀缺:
他选DeepMind而非OpenAI的原因很直白:"觉得踏实做事的人没有Gemini多。"
四、"AI不太需要脑子"
一个清华特奖、斯坦福博士说"AI不需要脑子"——这不是凡尔赛,是真的这么认为。
AI这个事,本来也不太需要脑子——真的不太需要脑子。这个行业最重要的特质,就是靠谱,就是做事细,对自己做的事情负责任。
他的推理链条:
① 现在的AI研究,大部分是"本科生就能干的活"
② 真正的差异不来自智力,来自可靠性
③ 每个评价框架都很容易被hack
④ 关键是——效果好的时候,能不能判断"是不是真的好"
⑤ 人要变成一个更可信可靠的系统组件
对比物理和AI两个领域:
物理有真正比自己聪明太多的人。AI不需要那么高的智力,更需要靠谱和细致。AI像18世纪的物理——理论和实验不分家。
五、"个人英雄主义已过去"
"现在每个人都是冲浪的人,本质上是那个浪,而不是你那个冲浪的人。"
"AI个人英雄主义时代已经过去了,有时候甚至觉得旧时代英雄有点蠢。"
当模型训练已经是几百人协作的工程时,任何个体的贡献都被稀释了。世界在推着我们前进,而不是我们在推着世界前进。
六、对行业格局的犀利判断
关于OpenAI:
"OpenAI救了Google一命——做了chatbot但没做到极致,没把搜索吃掉,让Google追上来。现在难受的是OpenAI。"
关于AI安全:
"Anthropic想通过拥有最前沿模型来推进安全政策,这个想法非常幼稚。"
关于Neo Labs:
"绝大多数的neo lab都会死。有些创始人已经远离专业好久了。"
关于AI产品护城河:
"除了Agentic Coding之外,没有哪个场景是AI真正原生的。"
AI产品活下来两种方式:逃得够快,或市场够小。
七、技术预测:AI自己做实验
他在DeepMind当前的两个核心方向:
ML Coding——让AI自己训练自己:写代码→跑实验→分析结果→提出假设→设计新实验。链条闭合时,AI研究能力会大幅跃升。
Long Horizon——用有限context训练,使用时达到接近无限上下文。
他预测:6-12个月内,AI会自己做实验。
八、给年轻人的建议
"没有哪个老登是你的亲属,觉得他傻就可以直说。"
"只要观点自洽,不是随便喷人,大家最终会尊重你。"
"人这一辈子也没多长,为什么要把时间浪费在伺候老登身上。"
"纯做语言模型,已经不是蓝海了。末班车已经发车了。"
写在最后
听完这4个小时,我最大的感受是:
这个行业最稀缺的不是聪明人,而是靠谱的人。
在一个所有人都在追求"10x工程师""天才研究员"的时代,一个参与训练过Claude和Gemini的人告诉你——真正重要的是把简单的事做得比谁都干净,对自己做的事负责任,以及当实验结果和预期不一样的时候,能系统性地排除各种可能性。
不需要天才,需要的是可靠的系统组件。
这话不好听,但可能是AI圈最需要听到的大实话。
一个数据人的自留地
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
白皮书上线