applogo.png

简介

前天写了一篇我的大模型实验,发现大模型很可能是“单向推理者”,今天讲一讲我的研究后续。

大家先看一下这道题:

 

大家觉得这道题难不难呢?

答案是不是脱口而出?

我想,不仅是你答得上来,而且你随便走进一家小学,走到一年级的一个班,问小朋友这个问题,估计也是全班同学都能答上来吧?

好,现在我们看一看AI的表现。

 

这是号称目前最先进的OpenAI公司的GPT-4o的回答。

 

这是与GPT-4o对标的Claude-3.5-Sonnet的回答。

两个号称无比强大的大模型,连这道题都答错了!

国内的大模型的表现又如何呢?

阿里的通义千问———答错:

 

腾讯元宝———答错:

 

文心一言——答对:

 

讯飞星火——答对:

 

百川智能——答错:

 

kimi——答对:

 

以上中外8家主流大模型的表现,3家答对,5家对错,正确率37.5%

重申一下,这是一道非常简单的、小朋友也能轻松答对的题,但是正确率只有37.5%!

 

接下来,我做一个变式,给出的信息是“猪八戒”中的“八”,再来一轮测验:

 

特别说明,所有的测试都需要“开启新对话”,而不是在原来的对话中继续,这样能避免先前信息给出提示,造成测试失真。

这一轮测验的结果是:

答对的有:GPT-4o、Claude-3.5-Sonnet、腾讯元宝、文心一言、讯飞星火、百川智能、kimi。

仍然答错的有:通义千问。

例如GPT-4o的回答是:

 

讯飞星火的回答是:

 

而通义千问的回答是:

 

所以这一轮测试的总体正确率达到了87.5%,相比上一轮有明显的提升。

 

然后我又测试了给出“猪”字的情况下,各个大模型的表现:

 

不出所料,这次所有的大模型都给出了正确的答案,正确率达到了100%

 

 

通过“猪八戒测试”,我们能发现所给的已知信息所处的位置不同,对于大模型来说,会形成明显的难度差异。令人惊异的是,当只呈现“戒”这个字时,连GPT-4o这样先进的大模型都会给出错误的答案,但是这样的问题对于人类来说却是极其简单的。

这至少说明,在某些形式的推理方面,AI目前的水平还是远远不如人类。

把这篇文章中的研究,跟我上一篇的研究大模型只是单向推理者?我的一系列小实验结合起来看,愈发证明,目前的以transformer为底层算法的大语言模型是一个“单向推理者”,它们更擅长于“从前往后”的推理,却非常不擅长于“倒着推”。

所以说,目前的AI,你说它聪明吧,有时候确实很聪明,你说它蠢吧,有时候确实很蠢,这倒真的有点像猪八戒了,所以我便这一现象起了个名字,叫“猪八戒效应”。

你觉得OK吗? 

二维码

试论大语言模型的“猪八戒效应”

保存图片,微信扫一扫

公众号:

上一页 下一页
其他信息
行业: 招代理商
地区:
时间:2024-08-19
标签:

上一篇:森鹰窗业上半年净利润下降近100%

下一篇:重磅:欧派、索菲亚、志邦等头部企业为何大举推广实木多层板?

赞 0
分享
猜你喜欢

账号登录,或者注册个账号?