正在阅读:

实测阿里版ChatGPT:回答问题注重逻辑,比想象中更聪明

扫一扫下载界面新闻APP

实测阿里版ChatGPT:回答问题注重逻辑,比想象中更聪明

ChatGPT的出现引领新一轮技术创新,各行各业将会如何被颠覆是2023年外界最关心的话题。

图片来源:界面新闻 范剑磊

文|另镜 刘雨婷

编辑|陈彦旭

科技技术在改变人与工具的交互方式。PC时代的Apple Lisa电脑,是首次采用图形用户界面和鼠标的个人电脑;到智能手机时代,iPhone定义了触控交互。下一步,ChatGPT类的多模态大模型又将影响未来AI的发展方向和人类的工作方式。

未来科技产业注定是变革和颠覆的一年,新时代属于造梦者、勇闯者,甚至是孤独者。在外界看来,新的科技也许在不久的将来会打破现有的商业格局。大浪淘沙,敢为者先。

新浪潮下,另镜推出「Tech潮向」专题系列报道,洞察当下前沿科技新变革和发展趋势,报道前沿科技企业新战略、新思维,提供更多具有前瞻思考的价值信息。此篇为该系列报道第三篇,聚焦新一轮新科技ChatGPT开启。

4月7日,阿里版GPT官宣内测,自研大模型“通义千问”开始邀请用户测试体验,现阶段主要定向邀请企业用户进行体验测试。

最近一段时间以来,ChatGPT成了互联网领域最大的风口,国内受追捧热度同样高涨,百度文心一言率先发布,美团联合创始人王慧文早已宣布入场,360集团创始人周鸿祎也公开演示了其公司的聊天机器人。

ChatGPT的出现引领新一轮技术创新,各行各业将会如何被颠覆是2023年外界最关心的话题。

阿里此次发布的通义千问是达摩院自主研发的超大规模语言模型,可以回答问题、创作文字,以及表达观点、撰写代码。

另镜拿到“通义千问”首批邀测资格,在登陆“通义千问”后,其主页页面主要突出了四个功能:职场助理、撰写短文、写封邮件和电影脚本。

在二级入口“百宝袋”中,通义千问举例了更多应用场景,包括提升工作效率的写提纲、SWOT分析、商品描述生成;生活类的菜谱、小学生作文、接文续写;以及娱乐类的彩虹屁、情书、写诗。

另镜通过邀测码对通义千问进行了体验,从问题回答、观点表达、逻辑计算等多个方面对“通义千问”进行测试,并与文心一言、ChatGPT(GPT-4)的回答进行对比。

能写英文推荐信

首先,另镜测试了几个大模型对于最新热点的了解,提问其是否了解最近刚刚成为网络热点的熊猫“花花”。

通义千问给出了回答,识别出提问者是想了解具体熊猫个体“花花”,但可惜或受限于语料资料,并未能给出正确介绍。

通义千问答案

正确信息:花花,本名和花,雌性大熊猫,2020年7月4日出生在成都大熊猫繁育研究基地月亮产房。

文心一言、ChatGPT则是未能理解提问者的具体意图,均未能将问题回答落实到具体个体上。

文心一言答案

ChatGPT答案

这也在一定程度上体现了几个大模型对于新闻热点的滞后捕捉问题。作为国外的语言大模型,ChatGPT在中英文互译过程中的信息理解偏差也是使用者要面临的问题。

之后,另镜测试了通义千问对于问题的逻辑理解能力。另镜用一个藏有逻辑“陷阱”的问题进行测试:眼镜没发明出来之前,眼镜蛇叫什么?

在首次测试中,通义千问未能正确解答问题,但在第二次重新回答后,其回答眼镜蛇有另一个名字——眼镜王蛇,以及该名称来源,但这也并未能避开“眼镜”这个问题。

通义千问答案

文心一言则是给出了眼镜蛇的其他名称,避开了“眼镜”字眼。

文心一言答案

ChatGPT则是成功理解了问题逻辑,解开了文字矛盾,并介绍了眼镜蛇的命名方式。

ChatGPT答案

在接下来的提问中,另镜特意测试了“通义千问”对于中文诗句的理解:“云渺渺,水茫茫。征人归路许多长。相思本是无凭语,莫向花笺费泪行”是什么意思?

通义千问答案

与百度文心一言、ChatGPT相比,通义千问的回答要更简洁一些,文心一言、ChatGPT详细解释了每句诗词的意思和情感表达。

文心一言答案

ChatGPT答案

接下来,另镜测试了通义千问对中文诗句的更深层理解,细化到具体诗句词语:“凄凄惨惨戚戚中”的戚戚是什么意思?

在这个问题上,通义千问并未能识别诗句出处,在中文文学理解方面还略有不足。

通义千问答案

文心一言回答出了诗句原文,但并没能对具体词语进行解释。

文心一言答案

ChatGPT虽然回答出了具体词语意思,但也并未回答诗句出处,并将“凄凄惨惨戚戚”错误理解成了四个形容词。

ChatGPT答案

除中文语料测试外,另镜也测试了通义千问的英文输出能力。另镜要求通义千问用英文写一封推荐信,推荐学生申请硕士,通义千问给出了相应推荐信模板。

通义千问答案

有理科生气质

在观点表达方面,通义千问、文心一言、ChatGPT体现了不同的分析框架。

另镜要求三者评价马斯克和他的登月计划:

通义千问从技术才华、商业才华、人品道德三方面,分条展现了评价马斯克的角度,这个评价框架具有一定的通用性、

通义千问答案

与通义千问偏“理科生”的逻辑性回答不同,文心一言的回答更像是一篇“文科生”的感性作文。

文心一言答案

ChatGPT则是回答了大众对于马斯克的看法,直接介绍了马斯克的身上的标签,更加有针对性。

ChatGPT答案

在评价马斯克后,另镜要求三者分析其太空移民计划能否成功。与上个问题相似,通义千问分条回答了该问题,文心一言写了一段小作文。

通义千问答案

文心一言答案

ChatGPT则是深入分析了太空移民计划目前面对的困难,有针对性的分析了能否成功的具体因素,回答也更实际。

ChatGPT答案

还不能替小学生写作业

在数学逻辑方面,通义千问、文心一言、ChatGPT都遇到了困难。另镜挑选了两道小学六年级奥数题,在回答第一道逻辑判断题问题时,通义千问和ChatGPT回答正确,文心一言则出现判断错误。

通义千问和ChatGPT通过语言逻辑解答了问题,但在更具体的数学公式搭建上却遇到困难。

在回答第二道数学计算问题时,通义千问、文心一言、ChatGPT都出现错误。三者给出了解答公式,进行推算,但是都未能给出正确答案。

正确答案是:20小时。

写在最后

目前,各个大模型的表现都不算完美。但正如通义千问所介绍的,语言大模型的未来是非常广阔的。

随着人工智能技术的不断发展和普及,语言大模型将被越来越多的应用于自然语言处理领域的各种任务。例如,语言大模型可以用于翻译、问答系统、智能客服、机器翻译、文本分类等。

同时,语言大模型也将促进人工智能技术在其他领域的应用,例如智能驾驶、医疗健康、金融服务等。未来,语言大模型将会持续发展和创新,为人类社会带来更多的便利和效益。

无论现在OpenAI、百度、阿里旗下的聊天机器人表现如何,这也只是AI技术迭代的最开始,未来的路还有很长。

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

实测阿里版ChatGPT:回答问题注重逻辑,比想象中更聪明

ChatGPT的出现引领新一轮技术创新,各行各业将会如何被颠覆是2023年外界最关心的话题。

图片来源:界面新闻 范剑磊

文|另镜 刘雨婷

编辑|陈彦旭

科技技术在改变人与工具的交互方式。PC时代的Apple Lisa电脑,是首次采用图形用户界面和鼠标的个人电脑;到智能手机时代,iPhone定义了触控交互。下一步,ChatGPT类的多模态大模型又将影响未来AI的发展方向和人类的工作方式。

未来科技产业注定是变革和颠覆的一年,新时代属于造梦者、勇闯者,甚至是孤独者。在外界看来,新的科技也许在不久的将来会打破现有的商业格局。大浪淘沙,敢为者先。

新浪潮下,另镜推出「Tech潮向」专题系列报道,洞察当下前沿科技新变革和发展趋势,报道前沿科技企业新战略、新思维,提供更多具有前瞻思考的价值信息。此篇为该系列报道第三篇,聚焦新一轮新科技ChatGPT开启。

4月7日,阿里版GPT官宣内测,自研大模型“通义千问”开始邀请用户测试体验,现阶段主要定向邀请企业用户进行体验测试。

最近一段时间以来,ChatGPT成了互联网领域最大的风口,国内受追捧热度同样高涨,百度文心一言率先发布,美团联合创始人王慧文早已宣布入场,360集团创始人周鸿祎也公开演示了其公司的聊天机器人。

ChatGPT的出现引领新一轮技术创新,各行各业将会如何被颠覆是2023年外界最关心的话题。

阿里此次发布的通义千问是达摩院自主研发的超大规模语言模型,可以回答问题、创作文字,以及表达观点、撰写代码。

另镜拿到“通义千问”首批邀测资格,在登陆“通义千问”后,其主页页面主要突出了四个功能:职场助理、撰写短文、写封邮件和电影脚本。

在二级入口“百宝袋”中,通义千问举例了更多应用场景,包括提升工作效率的写提纲、SWOT分析、商品描述生成;生活类的菜谱、小学生作文、接文续写;以及娱乐类的彩虹屁、情书、写诗。

另镜通过邀测码对通义千问进行了体验,从问题回答、观点表达、逻辑计算等多个方面对“通义千问”进行测试,并与文心一言、ChatGPT(GPT-4)的回答进行对比。

能写英文推荐信

首先,另镜测试了几个大模型对于最新热点的了解,提问其是否了解最近刚刚成为网络热点的熊猫“花花”。

通义千问给出了回答,识别出提问者是想了解具体熊猫个体“花花”,但可惜或受限于语料资料,并未能给出正确介绍。

通义千问答案

正确信息:花花,本名和花,雌性大熊猫,2020年7月4日出生在成都大熊猫繁育研究基地月亮产房。

文心一言、ChatGPT则是未能理解提问者的具体意图,均未能将问题回答落实到具体个体上。

文心一言答案

ChatGPT答案

这也在一定程度上体现了几个大模型对于新闻热点的滞后捕捉问题。作为国外的语言大模型,ChatGPT在中英文互译过程中的信息理解偏差也是使用者要面临的问题。

之后,另镜测试了通义千问对于问题的逻辑理解能力。另镜用一个藏有逻辑“陷阱”的问题进行测试:眼镜没发明出来之前,眼镜蛇叫什么?

在首次测试中,通义千问未能正确解答问题,但在第二次重新回答后,其回答眼镜蛇有另一个名字——眼镜王蛇,以及该名称来源,但这也并未能避开“眼镜”这个问题。

通义千问答案

文心一言则是给出了眼镜蛇的其他名称,避开了“眼镜”字眼。

文心一言答案

ChatGPT则是成功理解了问题逻辑,解开了文字矛盾,并介绍了眼镜蛇的命名方式。

ChatGPT答案

在接下来的提问中,另镜特意测试了“通义千问”对于中文诗句的理解:“云渺渺,水茫茫。征人归路许多长。相思本是无凭语,莫向花笺费泪行”是什么意思?

通义千问答案

与百度文心一言、ChatGPT相比,通义千问的回答要更简洁一些,文心一言、ChatGPT详细解释了每句诗词的意思和情感表达。

文心一言答案

ChatGPT答案

接下来,另镜测试了通义千问对中文诗句的更深层理解,细化到具体诗句词语:“凄凄惨惨戚戚中”的戚戚是什么意思?

在这个问题上,通义千问并未能识别诗句出处,在中文文学理解方面还略有不足。

通义千问答案

文心一言回答出了诗句原文,但并没能对具体词语进行解释。

文心一言答案

ChatGPT虽然回答出了具体词语意思,但也并未回答诗句出处,并将“凄凄惨惨戚戚”错误理解成了四个形容词。

ChatGPT答案

除中文语料测试外,另镜也测试了通义千问的英文输出能力。另镜要求通义千问用英文写一封推荐信,推荐学生申请硕士,通义千问给出了相应推荐信模板。

通义千问答案

有理科生气质

在观点表达方面,通义千问、文心一言、ChatGPT体现了不同的分析框架。

另镜要求三者评价马斯克和他的登月计划:

通义千问从技术才华、商业才华、人品道德三方面,分条展现了评价马斯克的角度,这个评价框架具有一定的通用性、

通义千问答案

与通义千问偏“理科生”的逻辑性回答不同,文心一言的回答更像是一篇“文科生”的感性作文。

文心一言答案

ChatGPT则是回答了大众对于马斯克的看法,直接介绍了马斯克的身上的标签,更加有针对性。

ChatGPT答案

在评价马斯克后,另镜要求三者分析其太空移民计划能否成功。与上个问题相似,通义千问分条回答了该问题,文心一言写了一段小作文。

通义千问答案

文心一言答案

ChatGPT则是深入分析了太空移民计划目前面对的困难,有针对性的分析了能否成功的具体因素,回答也更实际。

ChatGPT答案

还不能替小学生写作业

在数学逻辑方面,通义千问、文心一言、ChatGPT都遇到了困难。另镜挑选了两道小学六年级奥数题,在回答第一道逻辑判断题问题时,通义千问和ChatGPT回答正确,文心一言则出现判断错误。

通义千问和ChatGPT通过语言逻辑解答了问题,但在更具体的数学公式搭建上却遇到困难。

在回答第二道数学计算问题时,通义千问、文心一言、ChatGPT都出现错误。三者给出了解答公式,进行推算,但是都未能给出正确答案。

正确答案是:20小时。

写在最后

目前,各个大模型的表现都不算完美。但正如通义千问所介绍的,语言大模型的未来是非常广阔的。

随着人工智能技术的不断发展和普及,语言大模型将被越来越多的应用于自然语言处理领域的各种任务。例如,语言大模型可以用于翻译、问答系统、智能客服、机器翻译、文本分类等。

同时,语言大模型也将促进人工智能技术在其他领域的应用,例如智能驾驶、医疗健康、金融服务等。未来,语言大模型将会持续发展和创新,为人类社会带来更多的便利和效益。

无论现在OpenAI、百度、阿里旗下的聊天机器人表现如何,这也只是AI技术迭代的最开始,未来的路还有很长。

本文为转载内容,授权事宜请联系原著作权人。