UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5-天天观天下

2023-05-05 14:15:06   来源:商业新知网

来 源|新智元


(资料图片)

最近,来自LMSYS Org(UC伯克利主导)的研究人员又搞了个大新闻——大语言模型版排位赛!

顾名思义,「LLM排位赛」就是让一群大语言模型随机进行battle,并根据它们的Elo得分进行排名。

然后,我们就能一眼看出,某个聊天机器人到底是「嘴强王者」还是「最强王者」。

划重点:团队还计划把国内和国外的这些「闭源」模型都搞进来,是骡子是马溜溜就知道了!(GPT-3.5现在就已经在匿名竞技场里了)

匿名聊天机器人竞技场长下面这样:

很明显,模型B回答正确,拿下这局;而模型A连题都没读懂……

项目地址:https://arena.lmsys.org/

在当前的排行榜中,130亿参数的Vicuna以1169分稳居第一,同样130亿参数的Koala位列第二,LAION的Open Assistant排在第三。

清华提出的ChatGLM,虽然只有60亿参数,但依然冲进了前五,只比130亿参数的Alpaca落后了23分。

相比之下,Meta原版的LLaMa只排到了第八(倒数第二),而Stability AI的StableLM则获得了唯一的800+分,排名倒数第一。

团队表示,之后不仅会定期更新排位赛榜单,而且还会优化算法和机制,并根据不同的任务类型提供更加细化的排名。

目前,所有的评估代码以及数据分析均已公布。

拉着LLM打排位

在这次的评估中,团队选择了目前比较出名的9个开源聊天机器人。

每次1v1对战,系统都会随机拉两个上场PK。用户则需要同时和这两个机器人聊天,然后决定哪个聊天机器人聊的更好。

可以看到,页面下面有4个选项,左边(A)更好,右边(B)更好,一样好,或者都很差。

当用户提交投票之后,系统就会显示模型的名称。这时,用户可以继续聊天,或者选择新的模型重新开启一轮对战。

不过,团队在分析时,只会采用模型是匿名时的投票结果。在经过差不多一周的数据收集之后,团队共收获了4.7k个有效的匿名投票。

在开始之前,团队先根据基准测试的结果,掌握了各个模型可能的排名。

根据这个排名,团队会让模型去优先选择更合适的对手。

然后,再通过均匀采样,来获得对排名的更好总体覆盖。

在排位赛结束时,团队又引入了一种新模型fastchat-t5-3b。

以上这些操作最终导致了非均匀的模型频率。

每个模型组合的对战次数

从统计数据来看,大多数用户所用的都是英语,中文排在第二位。

排名前15的语言的对战次数

评估LLM,真的很难

自从ChatGPT爆火之后,经过指令跟随微调的开源大语言模型如雨后春笋一般大量涌现。可以说,几乎每周都有新的开源LLM在发布。

但问题是,评估这些大语言模型非常难。

具体来说,目前用来衡量一个模型好不好的东西基本都是基于一些学术的benchmark,比如在一个某个NLP任务上构建一个测试数据集,然后看测试数据集上准确率多少。

然而,这些学术benchmark(如HELM)在大模型和聊天机器人上就不好用了。其原因在于:

1. 由于评判聊天机器人聊得好不好这件事是非常主观的,因此现有的方法很难对其进行衡量。

2. 这些大模型在训练的时候就几乎把整个互联网的数据都扫了一个遍,因此很难保证测试用的数据集没有被看到过。甚至更进一步,用测试集直接对模型进行「特训」,如此一来表现必然更好。

3. 理论上我们可以和聊天机器人聊任何事情,但很多话题或者任务在现存的benchmark里面根本就不存在。

那如果不想采用这些benchmark的话,其实还有一条路可以走——花钱请人来给模型打分。

实际上,OpenAI就是这么搞的。但是这个方法明显很慢,而且更重要的是,太贵了……

为了解决这个棘手的问题,来自UC伯克利、UCSD、CMU的团队发明了一种既好玩又实用的全新机制——聊天机器人竞技场(Chatbot Arena)。

相比而言,基于对战的基准系统具有以下优势:

可扩展性(Scalability)

当不能为所有潜在的模型对收集足够的数据时,系统应能扩展到尽可能多的模型。

增量性(Incrementality)

系统应能够使用相对较少的试验次数评估新模型。

唯一顺序(Unique order)

系统应为所有模型提供唯一顺序。给定任意两个模型,我们应该能够判断哪个排名更高或它们是否并列。

Elo评分系统

Elo等级分制度(Elo rating system)是一种计算玩家相对技能水平的方法,广泛应用在竞技游戏和各类运动当中。其中,Elo评分越高,那么就说明这个玩家越厉害。

比如英雄联盟、Dota 2以及吃鸡等等,系统给玩家进行排名的就是这个机制。

举个例子,当你在英雄联盟里面打了很多场排位赛后,就会出现一个隐藏分。这个隐藏分不仅决定了你的段位,也决定了你打排位时碰到的对手基本也是类似水平的。

而且,这个Elo评分的数值是绝对的。也就是说,当未来加入新的聊天机器人时,我们依然可以直接通过Elo的评分来判断哪个聊天机器人更厉害。

具体来说,如果玩家A的评分为Ra,玩家B的评分为Rb,玩家A获胜概率的精确公式(使用以10为底的logistic曲线)为:

然后,玩家的评分会在每场对战后线性更新。

假设玩家A(评分为Ra)预计获得Ea分,但实际获得Sa分。更新该玩家评分的公式为:

1v1胜率

此外,作者还展示了排位赛中每个模型的对战胜率以及使用Elo评分估算的预测对战胜率。

结果显示,Elo评分确实可以相对准确地进行预测

所有非平局A对B战斗中模型A胜利的比例

在A对B战斗中,使用Elo评分预测的模型A的胜率

作者介绍

「聊天机器人竞技场」由前小羊驼作者机构LMSYS Org发布。

该机构由UC伯克利博士Lianmin Zheng和UCSD准教授Hao Zhang创立,目标是通过共同开发开放的数据集、模型、系统和评估工具,使每个人都能获得大型模型。

Lianmin Zheng

Lianmin Zheng是加州大学伯克利分校EECS系的博士生,他的研究兴趣包括机器学习系统、编译器和分布式系统。

Hao Zhang

Hao Zhang目前是加州大学伯克利分校的博士后研究员。他将于2023年秋季开始在加州大学圣地亚哥分校Halıcıoğlu数据科学研究所和计算机系担任助理教授。

关键词:

精彩阅读

UC伯克利发布大语言模型排行榜!Vicuna夺冠,清华ChatGLM进前5-天天观天下

热点

自从ChatGPT爆火之后,经过指令跟随微调的开源大语言模型如雨后春笋一般大量涌现。

环球速讯:AI革命之算力|前瞻行业

热点

不同的国家会因为人工智能技术的差异,取代速度也会有所差异。

七五速递 | 新加坡AI公司Advance Intelligence Group获8000万美元融资_最新

热点

我们采取了规范化的方法,并在推进区域的未来数字生态系统方面取得了良好进展。

从2023到2030,看懂趋势的人,打的就是时间差 天天时快讯

热点

做决策的人要面对的变化,越来越快,越来越多,越来越复杂。

环球时讯:数商资讯 | 锘崴科技荣获“第六届数字中国建设峰会最佳成果”案例

热点

锘崴科技荣获“第六届数字中国建设峰会最佳成果”案例。

AI在劳动节淘汰7800打工人,永久的

热点

换而言之,IBM打响了科技巨头用AI取代人类岗位的第一枪。

从华为CIO陶景文2021年12月的公开演讲中,探究华为自研ERP产品的研发策略与市场意义(五)-环球今亮点

热点

华为已经花了两年时间自研的ERP产品系统,项目总体进展还是比较顺利,已经进入到了可以具体实施“替换”的

【世界播资讯】Web3数据云Oort获EMURGO Ventures战略投资并建立合作伙伴关系

热点

Oort和Cardano生态系统拥有共同的科学理念传统,两个团队都强调以研究为导向的方法来打造我们的产品。

AI杀入协同办公,谁能拿到安全牌?|前沿资讯

热点

大模型落地的第一场交锋,精准落在协同办公。

财富

AI正在改写互联网,也在改变「生产力」_环球播报

资讯

AI正在改写互联网,也在改变「生产力」,这场办公软件的AI变革不过才刚刚开始,

滚动:漫威也入局,我们和从业者聊了聊「功能游戏」到底有“钱途”吗?

资讯

漫威也入局,我们和从业者聊了聊「功能游戏」到底有“钱途”吗?,漫威宣布与SixtoStart达成合作

融资丨「峰禾科技」完成数千万元天使+轮融资,啟赋资本独家投资_全球新视野

资讯

融资丨「峰禾科技」完成数千万元天使+轮融资,啟赋资本独家投资,以“互联网+智慧医疗供应链服务”为核心业务

融资丨商用服务机器人企业「普渡科技」完成数亿元C4轮融资|当前热议

资讯

融资丨商用服务机器人企业「普渡科技」完成数亿元C4轮融资,普渡科技已获数轮融资,总金额超10亿元

【时快讯】融资丨「昇印光电」完成超亿元人民币A轮融资

资讯

融资丨「昇印光电」完成超亿元人民币A轮融资,资金将主要用于精密电路板、太阳能网板等方面的设备投资

油烟净化器清洗方法?dustie空气净化器怎么清洗?

资讯

油烟净化器清洗方法?1 、配置清洗液: 在清洗容器中,按每10千克水加洗涤剂(洗洁精即可)0 5千克的比例配制清洗液,并进行搅拌,使两者充

冰箱冷藏和变温室不工作怎么回事?冰箱的变温室在哪个位置?

资讯

冰箱冷藏和变温室不工作怎么回事?电冰箱温控器是安装在冷藏室的,冷藏室温度没达到温控器要求温度所以不停机。压缩机昼夜不停机的话,冷冻

方太嵌入式洗碗机下水尺寸?方太洗碗机的水位传感器在哪里?

资讯

方太嵌入式洗碗机下水尺寸?Step1:先打开上翻盖,将待洗的碗筷、杯勺等合理摆放在内置的独立碗架上。Step2:加入适量洗碗粉,放入一勺半(约

志高蒸汽挂烫机如何修理?志高手持式蒸汽挂烫机怎么用?

资讯

志高蒸汽挂烫机如何修理?一般这种情况是因为长时间积留水垢导致的。可以在盖子边缘倒一点醋,醋可使水垢溶解,稍等片刻,即可拧开,如拧不

五一生意经盘点:热闹的,复苏的,失宠的|环球快看点

资讯

五一生意经盘点:热闹的,复苏的,失宠的,热闹的:淄博烧烤、线下音乐节火出圈

环球速讯:AI革命之算力|前瞻行业

不同的国家会因为人工智能技术的差异,取代速度也会有所差异。

七五速递 | 新加坡AI公司Advance Intelligence Group获8000万美元融资_最新

我们采取了规范化的方法,并在推进区域的未来数字生态系统方面取得了良好进展。

从2023到2030,看懂趋势的人,打的就是时间差 天天时快讯

做决策的人要面对的变化,越来越快,越来越多,越来越复杂。

环球时讯:数商资讯 | 锘崴科技荣获“第六届数字中国建设峰会最佳成果”案例

锘崴科技荣获“第六届数字中国建设峰会最佳成果”案例。

AI在劳动节淘汰7800打工人,永久的

换而言之,IBM打响了科技巨头用AI取代人类岗位的第一枪。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个