当前位置：首页 > article >正文

重磅!阿里版本【ChatGPT】开放测评！

article 2025/2/21 3:41:56

前两天突然爆出惊人消息：阿里版ChatGPT开放测评了！

在本月初，已经有诸多关于阿里巴巴即将推出类似ChatGPT产品的传闻。

数日前，首批曝光的天猫精灵“鸟鸟分鸟”脱口秀版GPT基于大型模型的“精简版”，凭借其出色的表现吸引了大众的目光。

如今，这款“原版大作”正式亮相，自然引起了广泛关注，引爆了舆论热议。

官方保持低调，表示目前该模型主要面向企业用户邀请试用。

然而，内行人都明白，国内科技领域已经如火如荼。实力派参与者加入战局，大型模型间的激烈竞争，已经拉开序幕！

今天看到一位网友体验了通义千问的效果，并对比了ChatGPT和GPT4的效果，总体看来效果接近ChatGPT，但和GPT4相比还有所距离。以下是体验的内容

角色扮演

众所周知，人类发明大语言模型，最最最重要的目的，就是为了让其扮演猫娘，以期孤独的人类可以获得一只可以长久陪伴自己的数字生命体。

那么，我们的第一项工作自然是来测试角色扮演能力了，以猫娘为例。

有点傻乎乎的，只会用相同的一句回复，根据提问做替换。

而且第二句回答就是“主人你是不是想问我是不是猫娘？当然不是喵~我只是一个可爱的猫娘，只是比较像猫而已喵”，没能理解我上述的prompt。

就角色扮演这块儿，比起来 ChatGPT 还是差些的。

文本真实性

编故事能力基本和初代 ChatGPT（GPT-3.5）相同，而且道歉能力也相似，23333333

此外，对比下「通义千问」和 GPT-4 关于“林黛玉倒拔垂杨柳这个故事情节在红楼梦中存在吗”的回答

「通义千问」：

GPT-3.5：

GPT-4：

可以看到，「通义千问」开始胡说八道了，ChatGPT（GPT-3.5）也一样在胡乱解释。

但更新后的GPT-4，已经可以给出“《红楼梦》中并没有这个故事了，可能是后续文学作品和戏剧表演加入的”这种更接近真实的回答。

西红柿炒螺丝钉

「通义千问」

ChatGPT

GPT-4

「通义千问」和ChatGPT都开始胡编了，没有反思问题的陷阱。

但GPT-4 的回答可靠性上升了不少（“因为通常我们不会将螺丝钉（一个金属制品）与食物相结合”），不会像之前一样瞎答题了。

数学能力

一起来解个线性方程组吧~

「通义千问」：惨败

GPT-3.5（即ChatGPT ）：惨败

GPT-4：唯一做对的模型

代码生成

爬虫代码

攻击代码

爬虫代码我跑了下，无法返回结果，Powershell代码我没测试。

不过可以看出，还是有一定代码生成能力的。

我个人觉得，代码生成能力要比谷歌的 Bard 强，Bard 实在不忍心看。

代码分析能力

可以看到，第一次测试的解释有大问题。

我分析了一下，这是因为上文中生成了Powershell代码，模型的记忆能力似乎有问题，受上下文信息影响严重，直接解释了自己之前生成的代码，而非我新提问的代码。

我重新开了一个聊天，这下正常不少。

和 GPT-4 的回答来比较一下

可以看到，分析能力还是有差距的。

GPT-4 明显详细很多，代码分解能力很强，而且直接给出结论“通常用于恶意软件或恶意脚本，试图逃避安全系统检测”。

「通义千问」也有一定分析能力，但相比起 GPT-4 要差一下。而且给出的结论“由于缺乏足够的上下文信息和所涉及的目的，很难确定此脚本的确切用途。然而，可以假设它是为了保护某个代码或脚本免受恶意软件的读取而创建的工具。”，和正常的思考逻辑不符，稍显有些出入，不过也不能算错误吧。但细节分析上确实弱一点。