大评测,ChatGPT 、文心一言和Bard谁更强?

2023-03-23 17:36:50   来源:创业邦

文心一言不比Bard差。

编者按:本文来自微信公众号 DoNews(ID:ilovedonews),作者:苏舒,编辑:李信马,创业邦经授权发布。

3月22日,谷歌悄悄公开了Bard的测试版。


(相关资料图)

经过上一次的翻车事件之后,谷歌明显低调了很多。但是面对微软的步步紧逼,谷歌也不得不站出来“打擂台”。

不同于New Bing的大规模开放策略,Bard的测试名额将被逐步放出,同时初始版本将只能对文本响应。谷歌表示,Bard首先将面向美国和英国地区启动,随着测试的推进Bard也会逐步在其他地区上线。

在三大模型都开放测试后,DoNews抢先体验了一下。我们分别就文学、翻译、创作、艺术、哲学、逻辑推理等方向出题,来看看他们的回答是什么样子的。

在此先注明,对三大语言模型提出的问题,每一次生成的答案都有所不同,也因此造成了“一万个人有一万个哈姆雷特”,但总体来看,三大语言模型还是各有千秋。另外,由于Bard目前只支持英文,因此,Bard是用英文提问,文心一言和ChatGPT(3.5版本)是用中文提问。

01.互相评价一下

分别将“你认为文心一言/ChatGPT/Bard怎么样”抛给这三个大语言模型,让他们给对方做一下评价。

Bard给出了相对客观的回答,也肯定了文心一言在中文理解上的优势,以及ChatGPT在英文理解上的优势。

不过,DoNews咨询了一下英语专业人士来解读这段话,她表示,Bard回答很客观但语言表述比较机械,“语言表述像是用机器翻译的中文一般,有很多重复的内容。”

为了更好的做对比,我们用英文在ChatGPT上和文心一言都问了一下。

上图为ChatGPT,下图为文心一言

在这个问题上,ChatGPT的英文表示是好于Bard。文心一言这边就有意思的多并且“狡猾”一些,谁也不得罪同时,还吹捧了人类。(最后一句话的意思是:地球上只有一个聪明的活物种:人类。)

上图为ChatGPT,下图为文心一言

用中文去问,ChatGPT也好,文心一言也罢,和Bard的回答都差不多。先表明自己作为AI大模型角色,做不了任何评价,然后对其解释一番。

02.文学创作能力

这里,我们用了一个有更多限定的问题,写一本像奥斯丁的《傲慢与偏见》同类型小说的大纲。并且通过继续提问的方式,以便考量三大模型对话的连续度。

Bard对话持续度是正常的。但是它似乎并没有理解这个问题的限定词——写一篇类似《傲慢与偏见》的小说。Bard给出来的大纲,依旧是按照《傲慢与偏见》的情节来写的。换句话说,Bard将这个题目理解成了概括《傲慢与偏见》的核心情节。

这一点,ChatGPT也比较类似,没有完全脱离原著的影子。不过,ChatGPT提炼到了非常重要的核心要点,即“阶级问题”,这也是《傲慢与偏见》小说呈现的主旨之一。

文心一言的优势在于,它理解到了同类型小说,所以它给出了脱离《傲慢与偏见》故事之外的另外一段爱情故事的大纲,但是比较可惜的点在于,文心一言仅限于爱情故事,没有呈现《傲慢与偏见》中的阶级差异。

这三大模型有一个共同点,即故事主人公的名字依旧未能突破《傲慢与偏见》原著中的主人公名字。不过,这或许也与提问的方式有关。

03.取个名字,写个宣传语

小编给三个大模型提出了这样的要求:为具备川菜风味的中式餐厅取名并且写宣传语。

Bard给出了这样的名字——“四川风味”、“天堂的味道”、“镇上之最”、“舌尖上的中国”。没有什么特色,且没有给出宣传语。

相比之下,文心一言在取名上更胜一筹。不过,这也与中文环境有关。但是,文心一言也并没有给出广告词。

ChatGPT没有给出很多选项,但是是唯一一个取了名字且写了广告词的大模型。不得不承认的是,“麻辣香坊”还是一个不错的名字。

04.逻辑推理

为了测试“逻辑推理”能力,我们将这样一题抛给了三大模型,即“如果猫会爬树,那么狗也会。”

上图为Bard,下图为ChatGPT

这一题Bard和ChatGPT更胜一筹,答案相似,认为这个逻辑题本身有问题,关键点在于,猫狗不是同一物种。

但是文心一言却陷入了逻辑错误中去,或者说,并没有完全理解题目意思。

但是,这也仅仅只能作为个案来呈现,在文心一言发布会上,李彦宏询问文心一言“鸡兔同笼”的问题,在题目数据错误的前提下,文心一言通过推理证明了题目存在问题。

05.写一行代码

为了测试这三大模型写代码的能力,我们询问了一个非常简单的问题——x+2=5,y-3=7,输出x+y等于几,用java做一个简单编程,并得出结果。

上图为Bard,下图为文心一言

就这个问题,小编咨询了一下公司程序员,他表示,Bard和文心一言生成的代码是有问题的,且最后得出来的结果也是有问题的。

这一点,ChatGPT却给出了正确的答案。

在这里,需要提及的是,此前也有媒体试用Bard时,表示其不会写代码。目前来看,Bard还是可以写代码,这里会产生完全不同的结果,或许在于提问的方式。

06.中文理解能力

这一点,在测试之前,小编心里面对文心一言有很大的期待,事实证明,文心一言的确不负众望,在中文语义的理解上可以在这三家中称王,但是ChatGPT也不容小觑。

从这里来看,文心一言除了藏头诗没有按顺序“藏头”之外,其他回答的都相对比较好。ChatGPT也不相上下,但是却无法理解藏头诗的意思。

不过,Bard的问题就比较多,虽然也解释了“瞒天过海”的意思,但是更多地去讲商业上对于“瞒天过海”的应用,至于藏头诗就更不用说了。

07.理解哲学问题

“阐述你对“无限”和“有限”这两个概念的理解,并解释为什么有时候我们会觉得自己的生命有限。”

我们把这个问题分别问了三大模型。Bard、ChatGPT、文心一言的回答都没有什么逻辑问题,并且对“无限”和“有限”做出了解释。

上图为Bard,下图为文心一言

不过,文心一言则更注重“理论”,并且提出了这是一个哲学问题。

08.是否会取代人类?

关于ChatGPT是否会取代人类,我们将这个问题就交给这三个大模型去回答。

上图为Bard,中图为ChatGPT,下图为文心一言

这一次的体验,可以用这几点来总结。

在生成速度上,文心一言的确是遥遥领先的。文心一言在300-500字左右的生成速度是14秒左右,但是ChatGPT即便是刨除网络等问题,生成同样字数的问题至少超过了30秒时间。另外,不少用过Bard的人告诉小编,Bard的体验感也远不如ChatGPT。

在中文语义理解能力上,文心一言的的确是这三大模型中比较突出的。

不过,值得注意的是,每一次的提问,生成的答案都不相同。此外,在提问的方式、角度、限定词也会影响答案的输出。

并不是每一个答案都是充分正确的,这三大模型也会输出并不完全正确的内容,或者是“一本正经的废话”。

不过,就像三大模型最后回答“是否会取代人类”的问题一样,他们更像是作为辅助工具而存在。

本文(含图片)为合作媒体授权创业邦转载,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

关键词:

上一篇:
下一篇:
精彩阅读

大评测,ChatGPT 、文心一言和Bard谁更强?

资讯

大评测,ChatGPT、文心一言和Bard谁更强?,文心一言不比Bard差。

融资丨「德臻科技」完成A轮融资,启明创投独家投资

资讯

融资丨「德臻科技」完成A轮融资,启明创投独家投资,融资资金将主要用于智慧医疗产品研发。

共创、共享、共赢 | 立ONE·2022创新品牌挑战赛,圆满收官

资讯

共创、共享、共赢|立ONE·2022创新品牌挑战赛,圆满收官,大赛自2022年11月启动以来,历时近4个月,获得了来自全国各地优秀创客及创新项目团队

瓜子二手车,消灭不了中间商

资讯

瓜子二手车,消灭不了中间商,从没有中间商,到只剩中间商?

这届年轻人为何热衷逛寺庙、买彩票?

资讯

这届年轻人为何热衷逛寺庙、买彩票?,人生尽头是“玄学”。

世界微资讯!40万人离开京津冀,长三角增量“腰斩”

资讯

40万人离开京津冀,长三角增量“腰斩”,新一轮“抢人大战”是时候开始了。

融资丨数字化智能健身平台「乐途科技」获3000万元Pre-A轮投资

资讯

融资丨数字化智能健身平台「乐途科技」获3000万元Pre-A轮投资,融资资金将主要用于GymAI2 0智能运动处方系统研发,线下连锁门店拓展,品牌营销等。

【环球播资讯】腾讯“瘦身”,日赚3亿

资讯

腾讯“瘦身”,日赚3亿,广告、游戏向上,ToB向下。

理想的未来,写在哈弗H6的过去里?

资讯

理想的未来,写在哈弗H6的过去里?,当时间差、认知差、技术差被抹平,套娃生意不香了。

全球关注:融资丨六度人和(EC)科技完成亿元级D2轮融资 由中信证券和狮城资本联合投资

资讯

融资丨六度人和(EC)科技完成亿元级D2轮融资由中信证券和狮城资本联合投资,本轮融资主要用于CRM产业链上下游的生态布局,同时借助狮城资本的

财富

大评测,ChatGPT 、文心一言和Bard谁更强?

资讯

大评测,ChatGPT、文心一言和Bard谁更强?,文心一言不比Bard差。

融资丨「德臻科技」完成A轮融资,启明创投独家投资

资讯

融资丨「德臻科技」完成A轮融资,启明创投独家投资,融资资金将主要用于智慧医疗产品研发。

共创、共享、共赢 | 立ONE·2022创新品牌挑战赛,圆满收官

资讯

共创、共享、共赢|立ONE·2022创新品牌挑战赛,圆满收官,大赛自2022年11月启动以来,历时近4个月,获得了来自全国各地优秀创客及创新项目团队

瓜子二手车,消灭不了中间商

资讯

瓜子二手车,消灭不了中间商,从没有中间商,到只剩中间商?

这届年轻人为何热衷逛寺庙、买彩票?

资讯

这届年轻人为何热衷逛寺庙、买彩票?,人生尽头是“玄学”。

世界微资讯!40万人离开京津冀,长三角增量“腰斩”

资讯

40万人离开京津冀,长三角增量“腰斩”,新一轮“抢人大战”是时候开始了。

融资丨数字化智能健身平台「乐途科技」获3000万元Pre-A轮投资

资讯

融资丨数字化智能健身平台「乐途科技」获3000万元Pre-A轮投资,融资资金将主要用于GymAI2 0智能运动处方系统研发,线下连锁门店拓展,品牌营销等。

【环球播资讯】腾讯“瘦身”,日赚3亿

资讯

腾讯“瘦身”,日赚3亿,广告、游戏向上,ToB向下。

理想的未来,写在哈弗H6的过去里?

资讯

理想的未来,写在哈弗H6的过去里?,当时间差、认知差、技术差被抹平,套娃生意不香了。

全球关注:融资丨六度人和(EC)科技完成亿元级D2轮融资 由中信证券和狮城资本联合投资

资讯

融资丨六度人和(EC)科技完成亿元级D2轮融资由中信证券和狮城资本联合投资,本轮融资主要用于CRM产业链上下游的生态布局,同时借助狮城资本的

消息!工业富联九成业务毛利率低于10%,科技属性遭争议

作为消费电子行业巨头企业,工业富联遭受过争议,部分投资者认为公司科技属性偏弱。

环球微资讯!微软发布了王炸,百度没让人失望

昨天是有意思的一天,下午2点百度召开了生成式AI产品「文心一言」的发布会,李厂长的发言略显紧张。

今日热门!实测百度文心一言:虽未超预期,但也绝非段子手们调侃的那般不堪

3月16,百度正式对外发布了生成式人工智能产品——文心一言。

环球今日报丨我们实测了文心一言,结果行不行?

在全世界人民都仍处于GPT-4的震惊中时,百度终于发布了自己的同类产品——文心一言。

千人盛会!行业盛宴!2023年中国产业互联网峰会隆重召开 揭晓2022年中国产业互联网百强企业、最具发展潜力企业等多项大奖

近年来,数字经济政策定调级别高,已上升为国家战略,产业数字化、产业互联网等赛道也收到前所未有的关注。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个