前天写了一篇我的大模型实验,发现大模型很可能是“单向推理者”,今天讲一讲我的研究后续。
大家先看一下这道题:
大家觉得这道题难不难呢?
答案是不是脱口而出?
我想,不仅是你答得上来,而且你随便走进一家小学,走到一年级的一个班,问小朋友这个问题,估计也是全班同学都能答上来吧?
好,现在我们看一看AI的表现。
这是号称目前最先进的OpenAI公司的GPT-4o的回答。
这是与GPT-4o对标的Claude-3.5-Sonnet的回答。
两个号称无比强大的大模型,连这道题都答错了!
国内的大模型的表现又如何呢?
阿里的通义千问———答错:
腾讯元宝———答错:
文心一言——答对:
讯飞星火——答对:
百川智能——答错:
kimi——答对:
以上中外8家主流大模型的表现,3家答对,5家对错,正确率37.5%
重申一下,这是一道非常简单的、小朋友也能轻松答对的题,但是正确率只有37.5%!
接下来,我做一个变式,给出的信息是“猪八戒”中的“八”,再来一轮测验:
特别说明,所有的测试都需要“开启新对话”,而不是在原来的对话中继续,这样能避免先前信息给出提示,造成测试失真。
这一轮测验的结果是:
答对的有:GPT-4o、Claude-3.5-Sonnet、腾讯元宝、文心一言、讯飞星火、百川智能、kimi。
仍然答错的有:通义千问。
例如GPT-4o的回答是:
讯飞星火的回答是:
而通义千问的回答是:
所以这一轮测试的总体正确率达到了87.5%,相比上一轮有明显的提升。
然后我又测试了给出“猪”字的情况下,各个大模型的表现:
不出所料,这次所有的大模型都给出了正确的答案,正确率达到了100%
通过“猪八戒测试”,我们能发现所给的已知信息所处的位置不同,对于大模型来说,会形成明显的难度差异。令人惊异的是,当只呈现“戒”这个字时,连GPT-4o这样先进的大模型都会给出错误的答案,但是这样的问题对于人类来说却是极其简单的。
这至少说明,在某些形式的推理方面,AI目前的水平还是远远不如人类。
把这篇文章中的研究,跟我上一篇的研究大模型只是单向推理者?我的一系列小实验结合起来看,愈发证明,目前的以transformer为底层算法的大语言模型是一个“单向推理者”,它们更擅长于“从前往后”的推理,却非常不擅长于“倒着推”。
所以说,目前的AI,你说它聪明吧,有时候确实很聪明,你说它蠢吧,有时候确实很蠢,这倒真的有点像猪八戒了,所以我便这一现象起了个名字,叫“猪八戒效应”。
你觉得OK吗?