GPT-5 的深度思考悖论

AI GPT 思考 深度 幻觉
发布于 2025-10-28
146

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读
点击下方????“文宇谈AI”
关注公众号
一起打造个人IP
一起追赶AI时代

大家好,我是文宇。

前几天GPT5上线,蹲了发布会直播,写了个评测。我把我认为最具革新意义的“自主调用深度思考功能”放在了第一条。

我本以为,这是继记忆功能之后,GPT的又一次震撼迭代。这意味着,它越来越接近于人脑了。

但是真正体验下来,发现自己被打脸了。因为,它对问题复杂程度的甄别,仍旧未达到理想的效果。

简单来说,它容易把简单问题复杂化,并自主调用深度思考功能。

深度思考的好处是能够发散思维,但问题是,思考的越深度,幻觉越严重,甚至经常跑题。

这,就是AI正在面对的深度思考悖论。


一、GPT-5很强,但容易“聪明反被聪明误”

从各项数据来说,GPT确实是毫无例外的强者。

  • 编程能力吊打全场,SWE-bench测试准确率飙到74.9%。

  • 健康咨询领域错误率降到1.6%,碾压GPT-4。

很强,它已经不仅仅是“会对话的AI”,更像一个可以推理、分析、提建议的准专家。你让它写代码、做分析、给建议,它不仅能答,还能思考“为什么这么答”。

但问题也随之而来,它思考的越深,反而越容易出问题。


二、思考越深,越容易走偏

1)简单问题,它爱“自我怀疑”

苹果研究团队搞了个实验,用跳棋、汉诺塔、过河问题测试AI。

结果发现,GPT-5在处理简单问题时,居然表现不如一些“没那么聪明”的模型。

原因就是,因为它太爱“思考”了。

本来“2+3=5”这种题,它第一反应答对了。但接下来就开始自我怀疑:“是不是漏掉了什么?”、“换个方式算算看?”……结果越想越乱,最后给出一个错得离谱的答案。

就像学生写数学题,先写对了,又划掉改错,最后交上去老师只想摇头。

2)中等难度,它是个“推理高手”

面对稍复杂的问题,GPT-5倒是发挥得很稳。

它像个侦探一样,左试右试,一路排错,最终找出真相。这时的它,是我们想象中那个聪明、冷静、值得信赖的AI。

3)问题太难,它开始“摆烂”

但当难度再往上提一点,GPT-5就开始迷糊了。

苹果研究团队发现,当问题足够难时,GPT-5竟然思考时间反而变短,就像人类考数学题卡住时直接交白卷一样。而且它想出来的所有路径,几乎全是错的,没有学习,没有收敛,像是在“胡编乱造”。


三、“思维链”技术,也是一把双刃剑

你以为它真在推理?其实只是“模拟”人类的推理方式而已。

GPT-5的深度思考,靠的是“思维链”(Chain of Thought)技术:让模型一步一步想,而不是直接给答案。

听起来很科学,对吧?问题是,每一步都可能错,而错的内容叠加起来,就像盖了一座幻觉的大楼。

有研究指出,即使GPT最后的答案是对的,中间过程也可能全是错的。你没看中间,就会被它最后“看起来合理”的结论骗得团团转。


四、亲身测试

来看一个油管测试题:

如果1=5,2=15,3=215,4等于2145,那么5等于?

GPT得出的结论:5=21435,错误。

deepseek V3答案:5=1,正确。

为什么会出现这种情况?

  • 链条越长,积累的错误越多

  • 语料库的信息越多,越容易迷路,像进了记忆迷宫。


  • 幻觉被放大为了保持逻辑完整,它会补全不存在的信息。


  • 缺少刹车:人会反复推翻假设,但GPT-5 往往一条路走到黑


写在最后

GPT-5的幻觉,并不完全是它的失败,而是在提醒我们:

AI的未来,不在于它能回答多复杂的问题,而在于它能不能分清什么是“事实”,什么是“胡说八道”。

就像我们内容创作者,在创作内容、决策方向时,靠的不是思考的“花样”,而是思考的“质量”。

技术不能代替觉知,模型不能替代判断。

一定要牢记,AI可以给出答案,但人才是最后的裁判。


我是文宇,毕业后不上班,陪女朋友牛津读博,正借助AI和IP两个杠杆打造一人公司。

我整理了一份AI一人公司工具箱,内含100+AI提示词100+AI工具,欢迎扫描下方二维码链接我,备注【AI一人公司】,限时免费领取。

关于我:26岁,我用AI干翻命运,重启人生

文宇谈AI