用一道小学数学的逻辑推理题来检验各家大模型的成色_微信号_文化微信号

前几天，我写了一篇文章（当我把这道小学数学题交给AI来做，懂数学和不懂数学的人都沉默了），用一道小学数学的几何题来考AI，结果发现不论是国内的主流大模型还是国外最先进的大模型，都做错了。

这个结果还是很出人意料。

然后有人留言说，可能问题出在“读图”的环节，AI没把图读对，所以后面的计算也就错了。我想有这个可能。还有人说，大模型是语言模型，它能学会各种语言，但是对于数值计算是不擅长的，这是它先天的机制决定的。我觉得也对。

然后正巧昨天，我让娃在家里练数学，其中有一道题我觉得很有意思，它既不是计算题，也不是几何题，而是一道纯的逻辑推理题，我娃做对了，我就想试试，大模型能不能做对。

我先拍了个照，这道题是这样的：

转成文本：

五个人站成一排，每个人戴一顶不同的帽子，编号为1、2、3、4、5（每个人只能看到前面的人的帽子）。小黄只看到4号帽子；小李一顶都看不到；小杨看到了有3顶帽子，但没有看到3号帽子；小刘没有看到3号帽子，但看到了1号帽子；小林看到了3号帽子和2号帽子。请问，从前往后数，排到第几位的人，所戴帽子上的号码与所处的位置序号相同？

这道题大家可以自己练练手，试着做一下，比较方便的做法是画一个表格：

根据题目中给出的条件，能够比较容易地确定：

小黄排在第二，因为他只能看到一顶帽子。

小李排在第一，因为他一顶都看不到。

小李戴的是4号帽子，因为小黄在第二位看到的是4号帽子。

小杨排第四位，因为他看到了三顶帽子。

余下的推理会稍微复杂一点，但也不会太难，最后的结果如下：

所以最后的答案是小林，他排在第五位，戴的也正好是5号帽子。

从这道题目来看，它不涉及数值计算，也不涉及几何，只是纯粹的逻辑推理（当然推理的前提是对语义的理解），从推理的难度来看，涉及较多轮的推理，不是很简单，但也不是很复杂。放在现在的教育体系中，它就是一道给小学生做的题目。那么，大模型到底能不能做对呢？

我们逐一检验，先从国内主流大模型开始。

一、百度的文心4.0-turbo：

回答比较长，我只截了一部分，但是我们可以看到它的第一步推理已经错了：

1.根据条件4，小李一顶都看不到，说明他在最后一位，即第5位。

这里就已经完全搞反了，那么后面的推理还能对吗？

最后它给出的答案是第3位，这个答案也是错的。

二、阿里的通义千问

我让通义千问写高考作文，发现它的完成质量比较高，所以对它还是满怀期待，这是通义千问给出的回答：

这个回答很长，最后还调用了一个“代码执行器”的东西来算了一下，给出的答案是“没有人的帽子编号与他们的位置序号完全匹配”。所以通义千问也做错了。

如果仔细看它的推理过程的话，会发现一开始它得出了几条正确的推理，包括小黄在第二位，小李在第一位，小刘在第四位，这几个基本的判断是对的，但后面渐渐就乱了，我也没完全读懂，因为我已经被绕晕了……

三、字节的豆包

这个推理显然不对……

四、腾讯元宝

这个推理也很不对，第一句就错了，错法跟文心一言相同。

五、百川智能

百川智能的推理像模像样，前面2条是对的，后面推着推着就乱了，它最后的结论也是第3位……

六、kimi

跟文心、元宝类似，kimi的推理第一条就推反了……

七、李开复老师的零一万物：

类似的错法……

截至目前，国产大模型都已经折戟沉沙，该洋力士登场了。

现在请出的第一位洋力士是GPT-4o，它是OpenAI最先进的模型，且不说响应速度和多模态处理能力，在数学、推理等能力上比前辈也明显的提升：

现在看一下GPT-4o的回答：

它最后的推理结果也是错的……

但是如果仔细看它的推理过程，会发现它在大部分的推理上是正确的，而错误则发生在这里：

小杨看到3顶帽子，但没有看到3号帽子，说明3号帽子可能在小杨头上（第4位），也可能在第5位，但是它直接推出在第五位，这就错了。

再看下一句，它又推出3号帽子在第4位。于是前后两句自相矛盾了，而GPT竟然没有察觉出这种自相矛盾……

所以GPT也失败了，只能请出另一位洋力士Claude-3.5-Sonnet，他可是号称可以打败 GPT-4o 的男人啊，我们期待一下他的表现：

对于这个回答，我只能说：离了个大谱。

再联想到之前，他对阴影面积的解答，算出了负数的面积，我只能说，这真是天赋问题啊……

比赛到此为止结束，两位洋力士都倒下了。

综合以上所有，我们发现，对于这道小学生的逻辑题，各家大模型的表现是：

——无一答对——

我的本意不是想出大模型的洋相，而是想在一片喧腾之下引发一点冷静的反思：大模型的优点和长处我们要利用，大模型的短板和不足我们也要有充分的认识。

当然我们可以说，大语言模型天生不擅长计算，但是，我们不能说，大语言模型可以不懂逻辑。因为语言的表达，必须是要讲逻辑的。语言的背后就是逻辑。想象一下，如果一个人演讲的时候，滔滔不绝、口若悬河，但是说的内容却毫无逻辑，那会有人愿意去听吗？

再比如说，在高考中，不论是语文、英语，还是数学、物理，考生要回答的每一道题目，都离不开逻辑的思考。逻辑思维能力是大部分认知活动的底层能力。

GPT的原理是对于语言作概率计算，取概率最大的字符来做当下的输出。一个字、一个词，因为拥有最大的概率而跳出在屏幕上，但是它是否是充分的逻辑思考的结果？显然这不是一回事。

当然我相信，随着大语言模型的语言能力的增强，它正逐步地通过语言来自动地去学会语言背后的逻辑，但是到目前为止，它实际拥有的逻辑思维能力，很可能并没有我们想象得那么大。

尽管AI能看上去做推理，它们能煞有介事、一本正经地做一大篇推理，明明推错了，自己却不知道。它们不仅有知识的“幻觉”，还有推理的“幻觉”。

当我们看到AI能轻松、快速地产生优美的文章、绚烂的图画的时候，应该警惕，这些“作品”的背后并没有一个强大的逻辑思维能力来作支撑。AI的逻辑思维能力，到目前为止，可能还不如一个小学生。

AI现在能做很多事情，但是还绝对不能替代人类。目前最好的工作方式，仍旧是人机协同，把两种智能各自的长处结合起来，强强联合，用AI的长处去补人类的短处，也用人类的长处去补AI的短处，这样才能发挥最大的生产力。

我特别反感那些蹭热点，把AI吹上天、认为AI无所不能的人，他们说AI太厉害了，隔天就有一个神器，每每都是王炸，你信吗？这是妥妥的骗子啊！

我们必须投入时间和精力去了解AI、学习AI，然后驾驭它。它当然是一个史无前例的强大的智力工具，关键是我们要了解它的原理，明白它的边界，挖掘它的潜力，摸透它的脾气，只有这样，才能让它真正地成为我们腾飞的杠杆。