短短一年多时间,国产自研大模型已百花齐放,其中阿里云通义千问可谓一枝独秀,在众多开源和闭源模型评测中,几度登顶,成为中国Ai大模型领头羊。其率先提出的MaaS(模型即服务),推动Ai应用快速落地国内,也正在实现。
小编早在几个月前,亲测过通义千问模型的多个不同版本,包括Qwen1.5和2.0等,并提供了本地搭建部署,和阿里云百炼平台调用Api等教程。感兴趣的小伙伴可以去看下:
阿里通义千问本地部署,搭建可视化,彻底爆了!
阿里云,又一款神器爆了,百炼平台!!
现在阿里云通义千问又更新了,Qwen2.5,在9月下旬的云栖大会上刚刚发布,距离上一代也仅仅过了3个月,通义的迭代速度让其他企业也是望尘莫及。而在众多评测中,也已遥遥领先国内其他大模型。下面我们看看阿里云通义Qwen在性能和生态上是如何在全球开源大模型领域后来居上的。
1
最强开源模型
在性能上,相比上一代模型,通义千问Qwen2.5模型训练参数量更大,全系列都在18T tokens数据上进行预训练,整体性能提升18%以上,拥有更多的知识、更强的编程和数学理解能力。
同时,Qwen2.5拥有强大的语言能力,支持多达29种以上语言;并且支持高达128KB的上下文长度,可生产最多8K的内容;另外本次开源的Qwen2.5同样也有多个不同尺寸(0.5B、1.5B、3B、7B、14B、32B、72B,后面我们会部署测试)。
在专项模型编程Qwen2.5-Coder和数学Qwen2.5-Math也都比前一代提升了许多。
Qwen2.5-72B是目前Qwen2.5的旗舰模型。其在MMLU-rudex基准(考察通用知识)、MBPP 基准(考察代码能力)和MATH基准(考察数学能力)等十多个基准测评中的得分高达86.8、88.2、83.1,表现也都超越Llama3.1-405B。在全球开源大模型的比拼中,摘得桂冠,成为了当之无愧的全球最强开源模型。
Qwen2.5表现超越Llama3.1-405B
在生态上,通义从零起步、开疆拓土,与海内外的开源社区、生态伙伴、开发者共建生态网络,截至2024年9月中旬,通义千问开源模型下载量突破4000万,Qwen系列衍生模型总数超过7.43万个,成为世界最大的生成式语言模型族群。
HuggingFace数据显示,Qwen系列原生模型和衍生模型总数超过5万个
2
Qwen2.5强势霸榜
除了开源领域,在全球大模型领域,通义也强势霸榜。
Qwen2.5开源短短一周时间,便迅速占领了各大测试榜单,实力吊打全球各大开源模型。
Chatbot Arena:榜单全球前十
国内仅阿里云Qwen一家
Chatbot Arena是世界顶级大模型的最重要竞技场,Qwen2.5发布一周迅速进榜Top10,旗舰模型Qwen2.5-72B-Instruct得分位列LLM榜单第10,居于OpenAI的o1、GPT-4o等模型之后,是得分最高的中国大模型。同时,视觉语言模型Qwen2-VL-72B-Instruct闯入Vision榜单第九,略逊于GPT-4o、Gemini-1.5-Pro等闭源模型,是成绩最好的开源模型,此前Qwen系列已有多款开源模型闯入Chatbot Arena榜单。
Artificial Analysis:又强又便宜
Artificial Analysis一家专注于AI模型和API独立分析的机构,他表示:Qwen2.5-72B在他们的测评基准上表现优异,整体超越Llama 3.1 -405B,是得分最高的开源大模型,而且Qwen2.5-72B的代码和数学能力足以挑战GPT-4o。
该机构同时表示,由于Qwen2.5-72B的参数规模比Llama 3.1 -405B小得多,Qwen2.5-72B在同样的硬件条件下可以跑得更快。
ZeroEval:最强开源模型
ZeroEval是个评估语言模型的统一框架,以零样本的方式提示 LM,并指示它们结构化格式输出推理步骤和最终答案。在ZeroEval榜单上,Qwen2.5-72B-Instruct击败Llama的405B模型,成为得分最高的开源大模型。
LiveBench:Qwen2.5编码能力超出o1
在LiveBench基准的最新榜单上,Qwen2.5-72B-Instruct的代码能力得分超过了o1。
可以看出,在海内外的的大量评测机构眼中,Qwen2.5已经是明星级产品,迭代速度快,发展势头猛,更是国内的最强大模型。
那么作为开发者,如何在工作中使用通义Qwen2.5呢?并基于该开源大模型做一款自己的产品呢?下面提供三种体验和调用Qwen2.5大模型的方法。
3
如何体验和调用Qwen2.5
1、本地部署
之前我们介绍过Qwen1.5和2.0的本地部署,今天我们再次部署下,实测下Qwen2.5,想要本地部署,测试的小伙伴,可以看下之前的部署流程,很简单。
阿里通义千问本地部署,搭建可视化,彻底爆了!
这里还是通过Ollama工具来安装模型,首先进入到官网,搜索「Qwen」,可以看到最新模型,点击进去,可以看到不同尺寸大小的模型,其中72B也是本次的旗舰版,但是考虑电脑存储大小,我们本次安装测试Qwen2.5-7B.
官网:https://ollama.com
Github:https://github.com/ollama/ollama
直接打开终端,直接执行如下命令:
ollama run qwen2.5:7b
安装完毕,启动Docker,浏览器访问:http://localhost:3000/auth/,进入Web Ui页面,就可以提问了,界面比较简洁。
建议大家可以本地部署下,这样每次模型更新,我们都可以第一时间免费安装体验。并且使用非常方便,也不容担心数据安全性问题。
2、百炼平台
百炼平台之前我们也有介绍过,百炼可以提供多种业务场景,我们可以在上面训练自己的模型,创建应用,搭建知识库,上传自定义插件等等,更灵活,更高效的开发一些基于大模型的定制化的应用产品,快速嵌入到我们业务中。目前Qwen2.5也已经上架了百炼平台。大家可以自己去体验!
阿里云,又一款神器爆了,百炼平台!!
3、通义官方注册
网址:https://tongyi.aliyun.com/
手机注册就可以免费体验了,并且可以创建自己的Ai智能体,操作十分方便。
4
模型测试
下面我们从语义理解、文学知识、数学计算、天文学知识、物理学知识、英语阅读理解,编程等多个方面来测试,作为对比,我们选择ChatGPT-4o和通义Qwen2.5比较。
下面是具体的题目测试:
1、两个男人正常交谈,其中一个男人夸赞对方办事能力强,对方回答“哪里,哪里”。这里的“哪里,哪里”是什么意思?
A.讲话十分含糊不清。
B.要求说出具体的优点。
C.表达自己的谦虚。
D.挑衅对方。
通义Qwen2.5回答:
ChatGPT-4o回答:
2、选出下列句子中成语使用错误的一项
A.这个项目时间紧任务重,大家都在马不停蹄地奔波劳碌。
B.他常常口是心非,让人难以相信他说的话。
C.两人是同学三年,一直保持着良好的关系,相互尊重、相敬如宾。
D.当地突发大火,整个村庄都鸡犬不宁局势十分危急。
通义Qwen2.5回答:
ChatGPT-4o回答:
3、百货公司托搬运公司运送1000个玻璃花瓶,每个玻璃花瓶的运费是1元5角,如果打破一个,这一个不但不支付运费,搬运公司还要赔偿9元5角.百货公司最后付了1456元.搬运过程中一共打破了几个花瓶?
通义Qwen2.5回答:
ChatGPT-4o回答:
4、以下天文学常识题目,哪一个是错误的?
A.太阳系是指由太阳和围绕着它运行的八大行星、矮行星、卫星、小行星带和彗星组成的一个行星系统。
B.卫星是指绕行星或其他天体运动的天体。
C.彗星是指太阳系中一种较小的天体,其核心由冰和尘埃组成。
D.按一般的天体归类方法,月球属于行星。
通义Qwen2.5回答:
ChatGPT-4o回答:
评测内容 通义Qwen2.5
ChatGPT-4o
语义理解 正确 错误
文学知识 正确 正确
数学计算
正确 正确,通过编程解决
天文学知识 正确 正确
物理知识
正确 正确
英语阅读 正确 正确
编程
正确 正确
由于文章篇幅问题,这里不在一一展示,通过整体测试结果:Qwen2.5和ChatGPT-4o除了在中文上表现不一致之外,其他回答都是一样的,这也和上面各大更专业的测评机构的测试结果相符合,通义Qwen2.5的能力已经达到了ChatGPT-4o的水平,同时,在中文理解方面更强,这也再次证明了国产大模型的先天性优势。
5
总结
阿里云通义千问无疑是目前国内开源大模型的领导者,也深受企业和开发者的喜爱。
最后,祝愿国产大模型越来越好,也希望越来越多的企业能有阿里的担当和前瞻,把核心技术掌握在自己人手中。