applogo.png

简介

 前几天,我写了一篇文章(当我把这道小学数学题交给AI来做,懂数学和不懂数学的人都沉默了),用一道小学数学的几何题来考AI,结果发现不论是国内的主流大模型还是国外最先进的大模型 ,都做错了。

这个结果还是很出人意料。
然后有人留言说,可能问题出在“读图”的环节,AI没把图读对,所以后面的计算也就错了。我想有这个可能。还有人说,大模型是语言模型,它能学会各种语言,但是对于数值计算是不擅长的,这是它先天的机制决定的。我觉得也对。
然后正巧昨天,我让娃在家里练数学,其中有一道题我觉得很有意思,它既不是计算题,也不是几何题,而是一道纯的逻辑推理题,我娃做对了,我就想试试,大模型能不能做对。
我先拍了个照,这道题是这样的:
 
转成文本:
五个人站成一排,每个人戴一顶不同的帽子,编号为1、2、3、4、5(每个人只能看到前面的人的帽子)。小黄只看到4号帽子;小李一顶都看不到;小杨看到了有3顶帽子,但没有看到3号帽子;小刘没有看到3号帽子,但看到了1号帽子;小林看到了3号帽子和2号帽子。请问,从前往后数,排到第几位的人,所戴帽子上的号码与所处的位置序号相同?
这道题大家可以自己练练手,试着做一下,比较方便的做法是画一个表格:
 
根据题目中给出的条件,能够比较容易地确定:
小黄排在第二,因为他只能看到一顶帽子。
 
小李排在第一,因为他一顶都看不到。
 
小李戴的是4号帽子,因为小黄在第二位看到的是4号帽子。
 
小杨排第四位,因为他看到了三顶帽子。
 
 
余下的推理会稍微复杂一点,但也不会太难,最后的结果如下:
 
所以最后的答案是小林,他排在第五位,戴的也正好是5号帽子。
从这道题目来看,它不涉及数值计算,也不涉及几何,只是纯粹的逻辑推理(当然推理的前提是对语义的理解),从推理的难度来看,涉及较多轮的推理,不是很简单,但也不是很复杂。放在现在的教育体系中,它就是一道给小学生做的题目。那么,大模型到底能不能做对呢?
我们逐一检验,先从国内主流大模型开始。
一、百度的文心4.0-turbo:
 
回答比较长,我只截了一部分,但是我们可以看到它的第一步推理已经错了:
1.根据条件4,小李一顶都看不到,说明他在最后一位,即第5位。
 
这里就已经完全搞反了,那么后面的推理还能对吗?
 
最后它给出的答案是第3位,这个答案也是错的。
 
二、阿里的通义千问
我让通义千问写高考作文,发现它的完成质量比较高,所以对它还是满怀期待,这是通义千问给出的回答:
 
 
 
这个回答很长,最后还调用了一个“代码执行器”的东西来算了一下,给出的答案是“没有人的帽子编号与他们的位置序号完全匹配”。所以通义千问也做错了。
如果仔细看它的推理过程的话,会发现一开始它得出了几条正确的推理,包括小黄在第二位,小李在第一位,小刘在第四位,这几个基本的判断是对的,但后面渐渐就乱了,我也没完全读懂,因为我已经被绕晕了……
 
三、字节的豆包
 
这个推理显然不对……
 
四、腾讯元宝
 
这个推理也很不对,第一句就错了,错法跟文心一言相同。
 
五、百川智能
 
百川智能的推理像模像样,前面2条是对的,后面推着推着就乱了,它最后的结论也是第3位……
s
六、kimi
 
跟文心、元宝类似,kimi的推理第一条就推反了……
 
七、李开复老师的零一万物:
 
类似的错法……
 
截至目前,国产大模型都已经折戟沉沙,该洋力士登场了。
现在请出的第一位洋力士是GPT-4o,它是OpenAI最先进的模型,且不说响应速度和多模态处理能力,在数学、推理等能力上比前辈也明显的提升:
 
现在看一下GPT-4o的回答:
 
它最后的推理结果也是错的……
但是如果仔细看它的推理过程,会发现它在大部分的推理上是正确的,而错误则发生在这里:
 
小杨看到3顶帽子,但没有看到3号帽子,说明3号帽子可能在小杨头上(第4位),也可能在第5位,但是它直接推出在第五位,这就错了。
再看下一句,它又推出3号帽子在第4位。于是前后两句自相矛盾了,而GPT竟然没有察觉出这种自相矛盾……
所以GPT也失败了,只能请出另一位洋力士Claude-3.5-Sonnet,他可是号称可以打败 GPT-4o 的男人啊,我们期待一下他的表现:
 
对于这个回答,我只能说:离了个大谱。
再联想到之前,他对阴影面积的解答,算出了负数的面积,我只能说,这真是天赋问题啊……
比赛到此为止结束,两位洋力士都倒下了。
综合以上所有,我们发现,对于这道小学生的逻辑题,各家大模型的表现是:
——无一答对——
 
我的本意不是想出大模型的洋相,而是想在一片喧腾之下引发一点冷静的反思:大模型的优点和长处我们要利用,大模型的短板和不足我们也要有充分的认识。
当然我们可以说,大语言模型天生不擅长计算,但是,我们不能说,大语言模型可以不懂逻辑。因为语言的表达,必须是要讲逻辑的。语言的背后就是逻辑。想象一下,如果一个人演讲的时候,滔滔不绝、口若悬河,但是说的内容却毫无逻辑,那会有人愿意去听吗?
再比如说,在高考中,不论是语文、英语,还是数学、物理,考生要回答的每一道题目,都离不开逻辑的思考。逻辑思维能力是大部分认知活动的底层能力。
GPT的原理是对于语言作概率计算,取概率最大的字符来做当下的输出。一个字、一个词,因为拥有最大的概率而跳出在屏幕上,但是它是否是充分的逻辑思考的结果?显然这不是一回事。
当然我相信,随着大语言模型的语言能力的增强,它正逐步地通过语言来自动地去学会语言背后的逻辑,但是到目前为止,它实际拥有的逻辑思维能力,很可能并没有我们想象得那么大。
尽管AI能看上去做推理,它们能煞有介事、一本正经地做一大篇推理,明明推错了,自己却不知道。它们不仅有知识的“幻觉”,还有推理的“幻觉”。
当我们看到AI能轻松、快速地产生优美的文章、绚烂的图画的时候,应该警惕,这些“作品”的背后并没有一个强大的逻辑思维能力来作支撑。AI的逻辑思维能力,到目前为止,可能还不如一个小学生。
AI现在能做很多事情,但是还绝对不能替代人类。目前最好的工作方式,仍旧是人机协同,把两种智能各自的长处结合起来,强强联合,用AI的长处去补人类的短处,也用人类的长处去补AI的短处,这样才能发挥最大的生产力。
我特别反感那些蹭热点,把AI吹上天、认为AI无所不能的人,他们说AI太厉害了,隔天就有一个神器,每每都是王炸,你信吗?这是妥妥的骗子啊!
我们必须投入时间和精力去了解AI、学习AI,然后驾驭它。它当然是一个史无前例的强大的智力工具,关键是我们要了解它的原理,明白它的边界,挖掘它的潜力,摸透它的脾气,只有这样,才能让它真正地成为我们腾飞的杠杆。

二维码

用一道小学数学的逻辑推理题来检验各家大模型的成色

保存图片,微信扫一扫

公众号:

上一页 下一页
其他信息
行业: 文化
地区:
时间:2024-08-23
标签:

上一篇:一上市家居企业副总裁离职

下一篇:顾家家居董事辞职,提名“美的系”杨榕桦为新董事

赞 0
分享
猜你喜欢

账号登录,或者注册个账号?