国产AI大模型全满贯,实测文心一言到底如何惊艳

2023-08-16 16:23:27   来源:商业新知网

大模型火爆,针对大模型的评测报告也层出不穷。近日,天津大学和信创海河实验室刚刚发布《大模型评测报告》,显示国产大模型中最领先的文心一言已经在大部分中文任务中实现了对ChatGPT的超越,并逐步缩小与GPT-4的差距,中美大模型正在形成两强领跑的格局。

5月以来,超过10多家国内外多家调研机构、权威媒体和高校等发布大模型评测报告,从最核心的十大测评来看,百度文心一言扛起中国大语言模型大旗,遥遥领先其他大模型,十大权威评测拿下十项冠军,稳居国内第一。同时,报告显示,国内大模型能力从5月至今不断提升,正在逐渐赶上甚至在部分领域超越国外大模型。

早在今年5月,在新华社研究院中国企业发展研究中心、InfoQ等机构和媒体的评测报告中,中国的大语言模型跟ChatGPT 3.5还存在差距,到了7、8月,在IDC、人民数据、新华网、清华大学等报告中,国内大模型“一哥”文心一言已经实现了对GPT-3.5的超越,与GPT-4的差距也越来越小。百度文心大模型展现出的强大进化能力,可以称之为国内最有希望在短期内超越国际最高水准的大模型。


【资料图】

举几个例子来看看文心一言在这几个月里回答的变化,就能直观感受百度大模型技术上的升级了。

「疯狂星期四是什么?」「为什么很多人都在说 V 我 50?」如果问3月刚刚发布的文心一言,得到的回答可能是左边这样。而现在,文心大模型3.5 版本加持的文心一言不仅能够给出正确答案,还能进一步解释「疯狂星期四」的名词来源、活动背景等信息,甚至还能指导你参与活动。

代码能力也实现了大幅的提升,文心一言背后的逻辑推理能力进一步升级。

尤其是在中文领域,文心一言更是一骑绝尘。清华大学《大语言模型综合性能评估报告》等测评显示,文心一言具备更好的中文理解能力,更懂中国文化,能够更好处理与本土文化相关的主题和背景,如诗歌、方言等,具备更强的国内落地空间。

在《中国科学报》评测中,包含13948个多项选择题、涵盖52个不同的学科,设置了四个难度级别的全中评测集“C-Eval”评测中,“文心一言”3.5直接将ChatGPT和GPT-4斩落马下。这都源于其知识增强、检索增强和对话增强的技术创新。

随便举一个成语,就可以看出在诗词歌赋这类中国传统文化方面的表现,文心一言相当出色。不仅对答如流,而且还能分析出诗句的含义和妙处。甚至,还给难读的词语标上了拼音。

在中文领域文案的生成上,文心一言还可以根据不同平台的风格调性,创作贴合的文案。知乎体、小红书体都不在话下。

技术创新背后是百度在人才上的持续投入。在中国信息通信研究院发布的《中国人工智能产业创新人才竞争力报告(2023)》中,百度人才密度大幅领先,尤其在人工智能全部7项关键技术竞争力排名中均获得第一,在预训练大模型、深度学习、自然语音处理、知识图谱、计算机视觉等领域优势明显。

在关注大模型评测的同时,也要关注大模型的落地生态。目前大模型正在进入规模可复制的产业落地阶段,百度文心在大模型生态的构建上具备先发优势。全球领先的IT市场研究和咨询公司IDC最新发布的《AI大模型技术能力评估报告,2023》显示,百度文心大模型3.5拿下12项指标的7个满分,不仅算法模型第一,在落地行业覆盖更是绝对第一,体现了百度文心大模型的基础技术深度和产业应用覆盖广度。公开资料显示,文心大模型已经拥有中国最大的产业应用规模。

关键词:

精彩阅读

国产AI大模型全满贯,实测文心一言到底如何惊艳

热点

大模型火爆,针对大模型的评测报告也层出不穷。

成长性仍是行业“锚” BAT云计算估值在修复

热点

随着AI发展,企业对云计算的需求越发细化,这将提高多云的使用规模。

谷歌称在人工智能领域取得突破,可减少飞机对全球变暖的影响

热点

近日,谷歌表示其在人工智能领域取得了重大突破,可以大大减少飞行对气

从“智能涌现”到“价值涌现”,讯飞星火又一次“登月”

热点

狂飙200多天后,国产大模型的数量已超过百家,正式迈入“百模大战”阶

曾索赔1元!“大模型数据被盗第一案”和解

热点

笔神作文6月13日宣布起诉学而思,称其用爬虫盗取数据,这被称为国内大

央媒发话:中国宽带费全球第二低,手机流量费远低于全球平均!

热点

中国用户的通信费用负担进一步降低,固定宽带费用仅高于列支敦士登,位

滴普科技 x 国贸地产再牵手,数字化驱动地产行业破局增长

热点

近日,滴普科技再次牵手国贸地产,双方将共同建设国贸地产客户数据平台

张勇重塑阿里云,估值将达8000亿

热点

张勇亲自带队半年,阿里云终于重回增长,行业龙头的气魄也回来了。

电信改口不拆,联通则已获得批复要拆分上市......

热点

此次中国联通的分拆上市公告一出,算是给几年前画的“饼”一个实在的答

金智维快讯 | 金智维受邀出席第三届78CIO峰会,分享数字化转型最佳实践

热点

8月12日,金智维受邀出席由78CIO协会主办的第三届78CIO峰会·企业数字

财富

1家只有1个人的公司,年赚1个亿!

资讯

1家只有1个人的公司,年赚1个亿!,“盖哥”和他的公司能给创业者哪些启

OpenAI向美国专利局提交“GPT-5”商标申请

资讯

OpenAI向美国专利局提交“GPT-5”商标申请,7月31日,美国商标律师JoshG

澳大利亚数据服务公司Vocus提出以42亿美元收购TPG资产

资讯

澳大利亚数据服务公司Vocus提出以42亿美元收购TPG资产,8月1日消息,澳

部分新款iPhone或推迟至10月以后发售

资讯

部分新款iPhone或推迟至10月以后发售,由于OLED屏的量产推迟,部分新机

恒大地产:所有存续公司债将继续停牌

资讯

恒大地产:所有存续公司债将继续停牌,恒大地产发布公告称,为保证公平

马斯克将领导X平台的产品及工程师团队

资讯

马斯克将领导X平台的产品及工程师团队,社交媒体平台X(前身为推特)表

多个AIGC应用在苹果应用商店下架

资讯

多个AIGC应用在苹果应用商店下架,包括讯飞星火在内的多个AIGC相关App,

上汽集团:7月份上汽销售新能源汽车9.1万辆

资讯

上汽集团:7月份上汽销售新能源汽车9 1万辆,据上汽集团官微,据初步统

京东回复收购永辉传闻:目前没有这个意向

资讯

京东回复收购永辉传闻:目前没有这个意向,针对“京东洽谈收购永辉”的

成长性仍是行业“锚” BAT云计算估值在修复

随着AI发展,企业对云计算的需求越发细化,这将提高多云的使用规模。

谷歌称在人工智能领域取得突破,可减少飞机对全球变暖的影响

近日,谷歌表示其在人工智能领域取得了重大突破,可以大大减少飞行对气

从“智能涌现”到“价值涌现”,讯飞星火又一次“登月”

狂飙200多天后,国产大模型的数量已超过百家,正式迈入“百模大战”阶

曾索赔1元!“大模型数据被盗第一案”和解

笔神作文6月13日宣布起诉学而思,称其用爬虫盗取数据,这被称为国内大

央媒发话:中国宽带费全球第二低,手机流量费远低于全球平均!

中国用户的通信费用负担进一步降低,固定宽带费用仅高于列支敦士登,位

追光·暖新闻|为爱续杯 广安市江苏商会加入“爱心冰柜”行列

川观新闻爱心冰柜清凉接力公益活动在广安城区持续推行。

云南红河东山镇自然能提水(二期)工程正式通水运行

云南网讯(记者 彭锡 通讯员 海婷)近日,由中冶天工承建的云南红河

让您大饱眼福这个巨大的Jabra Elite 10和Elite 8 Active泄漏

大多数我们最喜欢的Jabra无线耳机不太可能因其美观而赢得任何奖项,但

公安部交管局公布一批近期酒驾醉驾典型交通事故案例

法治日报讯记者董凡超近期,云南、西藏、广东、山西等地接连发生醉驾导

男子地铁扫码乞讨被乘客锁喉制服地铁禁止乞讨网友纷纷拍手叫好 具体是啥状况呢

今天“【男子地铁扫码乞讨被乘客锁喉制服,地铁禁止乞讨网友纷纷拍手叫