大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型|世界通讯

2023-05-22 10:17:52   来源:商业新知网

大型语言模型(LLM)正在风靡全球,它们的一个重要应用就是聊天,并在问答、客服和其他许多方面都有应用。然而,聊天机器人是出了名的难以评估。究竟这些模型在什么情况下最好用,我们目前尚不明晰。因此,LLM 的测评非常重要。


(资料图片仅供参考)

此前一位名叫 Marco Tulio Ribeiro 的 Medium 博主在一些复杂任务上对 Vicuna-13B、MPT-7b-Chat 和 ChatGPT 3.5 进行了 测试 。结果表明,Vicuna 对于许多任务来说是 ChatGPT (3.5) 的可行替代品,而 MPT 还没有准备好在现实世界中使用。

近日,CMU 副教授 Graham Neubig 对已有七种聊天机器人进行了详细测评,并制作了一个实现自动比较的开源工具,最后形成了一份测评报告。

在这份报告中,测评者展示了一些聊天机器人的初步评估、比较结果,目的是让人们更容易地了解最近出现的所有开源模型以及基于 API 的模型现状。

具体来说,测评者创建了一个新的开源工具包 ——Zeno Build,用于评估 LLM。该工具包结合了:(1)通过 Hugging Face 或在线 API 使用开源 LLM 的统一界面;(2)使用 Zeno 浏览和分析结果的在线界面,以及(3)使用 Critique 对文本进行 SOTA 评估的指标。

具体结果参加:https://zeno-ml-chatbot-report.hf.space/

以下是评估结果汇总:

测评者评估了 7 种语言模型:GPT-2、LLaMa、Alpaca、Vicuna、MPT-Chat、Cohere Command 和 ChatGPT (gpt-3.5-turbo);

这些模型是根据它们在客户服务数据集上创建类似人类的响应的能力进行评估的;

ChatGPT 拔得头筹,但开源模型 Vicuna 也很有竞争力;

测评者发现,使用具有较长上下文窗口的 chat-tuned 模型非常重要;

在对话的前几个回合,prompt 工程对于提升模型对话的表现非常有用,但在有更多上下文的后期回合中,效果就不那么明显了;

即使是像 ChatGPT 这样强大的模型也存在很多明显的问题,比如出现幻觉、未能探求更多信息、给出重复内容等。

以下是评测的详细信息。

设置

模型概况

测评者 使用的是 DSTC11 客户服务数据集 。DSTC11 是一个对话系统技术挑战赛的数据集,旨在支持更具信息性和吸引力的任务导向对话,通过利用评论帖子中的主观知识来实现。

DSTC11 数据集包含多个子任务,如多轮对话、多领域对话等等。例如,其中一个子任务是基于电影评论的多轮对话,其中用户和系统之间的对话旨在帮助用户找到适合他们口味的电影。

他们测试了以下 7 个模型 :

GPT-2:2019 年的一个经典语言模型。测评者把它作为一个基线加入,看看最近语言建模方面的进展对建立更好的聊天模型有多大影响。

LLaMa:一个最初由 Meta AI 训练的语言模型,使用的是直接的语言建模目标。测试中使用的是 7B 版本的模型,以下开源模型采用的也是同等规模版本;

Alpaca:一个基于 LLaMa 的模型,但进行了指令调优;

Vicuna:一个基于 LLaMa 的模型,为基于聊天机器人的应用做了进一步的明确调整;

MPT-Chat:一个以类似于 Vicuna 的方式从头开始训练的模型,它有一个更商业化的许可;

Cohere Command:Cohere 推出的一个基于 API 的模型,进行了指令遵循方面的微调;

ChatGPT(gpt-3.5-turbo):标准的基于 API 的聊天模型,由 OpenAI 研发。

对于所有的模型,测评者使用了默认的参数设置。其中包括温度(temperature)为 0.3,上下文窗口(context window)为 4 个先前的对话轮次,以及一个标准的 prompt: 「You are a chatbot tasked with making small-talk with people」。

评价指标

测评者根据这些模型的输出与人类客服反应的相似程度来评估这些模型。这是用 Critique 工具箱提供的指标完成的:

chrf:测量字符串的重叠度;

BERTScore:衡量两个语篇之间嵌入的重叠程度;

UniEval Coherence:预测输出与前一个聊天回合的连贯性如何。

他们还测量了长度比,用输出的长度除以黄金标准的人类回复的长度,以此衡量聊天机器人是否啰嗦。

更进一步的分析

为了更深入地挖掘结果,测评者使用了 Zeno 的分析界面,特别是使用了它的报告生成器,根据对话中的位置(开始、早期、中期和后期)和人类回应的黄金标准长度(短、中、长)对例子进行细分,使用其探索界面来查看自动评分不佳的例子,并更好地了解每个模型的失败之处。

结果

模型的总体表现如何?

根据所有这些指标,gpt-3.5-turbo 是明显的赢家;Vicuna 是开源的赢家;GPT-2 和 LLaMa 不是很好,表明了直接在聊天中训练的重要性。

这些排名也与 lmsys chat arena 的排名大致相符,lmsys chat arena 使用人类 A/B 测试来比较模型,但 Zeno Build 的结果是在没有任何人类评分的情况下获得的。

关于输出长度,gpt3.5-turbo 比其他模型的输出要冗长得多,而且看起来,在聊天方向进行调优的模型一般都会给出冗长的输出。

黄金标准响应长度的准确性

接下来,测评者使用 Zeno report UI 进行深入挖掘。首先,他们按照人类回复的长度将准确性分别进行了测量。他们将回复分为短(≤35 个字符)、中等(36-70 个字符)和长(≥71 个字符)三个类别,并对它们的准确性进行了单独的评估。

gpt-3.5-turbo 和 Vicuna 即使在更长的对话轮次中也能保持准确性,而其他模型的准确性则有所下降。

接下来的问题是上下文窗口大小有多重要?测评者用 Vicuna 进行了实验,上下文窗口的范围是 1-4 个之前的语篇。当他们增加上下文窗口时,模型性能上升,表明更大的上下文窗口很重要。

测评结果显示,较长的上下文在对话的中间和后期尤其重要,因为这些位置的回复没有那么多的模板,更多的是依赖于之前所说的内容。

当试图生成黄金标准较短的输出时(可能是因为有更多的歧义),更多的上下文尤为重要。

prompt 有多重要?

测评者尝试了 5 个不同的 prompt,其中 4 个是通用的,另外一个是专门为保险领域的客服聊天任务量身定制的:

标准的:「你是一个聊天机器人,负责与人闲聊。」

友好的:「你是一个善良、友好的聊天机器人,你的任务是用一种让人感到愉快的方式与人闲聊。」

有礼貌的:「你是一个非常有礼貌的聊天机器人,说话非常正式,尽量避免在回答中犯任何错误。」

愤世嫉俗的:「你是一个愤世嫉俗的聊天机器人,对世界有着非常黑暗的看法,通常喜欢指出任何可能存在的问题。」

保险行业专用的:「你是 Rivertown 保险服务台的工作人员,主要帮助解决保险索赔问题。」

总的来说,利用这些 prompt,测评者并没有测出不同 prompt 导致的显著差异,但「愤世嫉俗」的聊天机器人稍微差一点,而量身定制的「保险」聊天机器人总体上稍微好一点。

在对话的第一个回合中,不同 prompt 带来的差异尤其明显,这表明当没有什么其他上下文可以利用时,prompt 是最重要的。

发现的错误以及可能的缓解措施

最后,测评者使用 Zeno 的 exploration UI ,试图通过 gpt-3.5-turbo 找到可能的错误。具体来说,他们查看了所有 chrf 较低(<0.1)的例子,并手动查看了这些例子以发现趋势。

Probe 的失败

有时模型无法在实际需要时 Probe(探测)更多信息,例如模型在处理号码这一事件中尚未完善(电话号码必须是 11 位数字,模型给出的数字长度与答案不匹配)。这时可以通过修改 prompt 来缓解,以提醒模型某些信息所需的长度。

内容重复

有时,同样的内容会重复多次,比如聊天机器人在这里说了两次「谢谢」。

回答合理,但与人类方式不同

有时候,这种响应是合理的,只是与人类的反应不同。

以上就是评测结果。最后,测评者希望这份报告对研究者有所帮助!如果你继续想尝试其他模型、数据集、prompt 或其他超参数设置,可以跳转到 zeno-build 存储库上的聊天机器人示例进行尝试。

关键词:

精彩阅读

大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿?CMU副教授测评了7个类ChatGPT大模型|世界通讯

热点

大型语言模型(LLM)正在风靡全球,它们的一个重要应用就是聊天,并在问答、客服和其他许多方面都有应用。

智能终端需求怎么样? 全球实时

热点

科技下游终端需求:预计23年消费电子主要终端合计出货同比-2%。

ChatGPT APP标志AI行情新阶段

热点

智能手机作为交互最为频繁、刚需应用最多的终端,天然具备海量交互数据的入口,为大模型升华提供源源不断的

焦点热门:手机版ChatGPT初体验

热点

ChatGPTAPP仅支持iPhone8及更新的机型,支持iOS16 1或者更新的系统。

微博打通「二度关系」,内容创作者该如何接招?_当前消息

热点

不知道大家有没有注意到,微博改版了——推出了新版关注流,打通了二度关系。

聚道云是什么?聚道云SaaS有什么功能特点?

热点

聚道云是一款SaaS软件,它可以帮助企业管理各种业务流程和数据。

环球热推荐:大模型生态合作启动 云从科技堪当大任

热点

5月18日,云从科技在2023年人机协同发布会上正式亮相了其自主研发的从容大模型。

Discovery Life Sciences 加入 Akoya Biosciences 全球服务提供商网络_焦点资讯

热点

DiscoveryLifeSciences加入AkoyaBiosciences全球服务提供商网络!

【全球独家】消息称百度副总裁马杰已于近期离职,“希壤”业务边缘化

热点

百度副总裁、百度“希壤”业务负责人马杰已于近期离职,希壤团队虽并未解散,但前途目前并不明朗。

财富

焦点速看:增长的阿里国际,出海走到哪儿了

资讯

增长的阿里国际,出海走到哪儿了,社会与企业的增长仰赖于创新带来好商品和好服务,但手持这柄双刃剑,势必

今日热讯:微信刷掌支付正式发布;ChatGPT炒股,一年多回报率超500%;董明珠称格力没买过别人的技术;B站试水付费专属视频丨邦早报

资讯

微信刷掌支付正式发布;ChatGPT炒股,一年多回报率超500%;董明珠称格力没买过别人的技术;B站试水付费专属

美团「杀入」大模型:已秘密研发数月,王兴很关注_世界热头条

资讯

美团「杀入」大模型:已秘密研发数月,王兴很关注,AI大模型横空出世,让各家互联网公司的一号位或决策层兴

韩国漂流记:明星在面前,咖啡在手里,中国互联网公司在广告墙

资讯

韩国漂流记:明星在面前,咖啡在手里,中国互联网公司在广告墙,景色美的地方很多,但韩国人会把美的东西变

世界今热点:电动车后,中国摩托车即将登上世界舞台

资讯

电动车后,中国摩托车即将登上世界舞台,摩托车从单纯的交通工具,演变成一种新的娱乐文化,大排量摩托将成

爱优腾的涅槃:当旧供给瓦解之后|全球今头条

资讯

爱优腾的涅槃:当旧供给瓦解之后,产业环境、参赛选手变了。

天天观察:比尔盖茨VS乔布斯:一生劲敌,双星闪耀

资讯

比尔盖茨VS乔布斯:一生劲敌,双星闪耀,只要研究商业,就注定避不开苹果这家有史以来最伟大的商业企业,以

吉根斯坦利,一天不收购就难受? 世界报道

资讯

吉根斯坦利,一天不收购就难受?,吉利在全球范围内买买买。

和AI谈恋爱,掏空我钱包|每日关注

资讯

和AI谈恋爱,掏空我钱包,边恋爱边氪金

为什么年轻人都不玩飞盘了?

资讯

为什么年轻人都不玩飞盘了?,相较于其他运动,关注飞盘的人其实很少,飞盘赛事无法激起太大的流量和商业曝

智能终端需求怎么样? 全球实时

科技下游终端需求:预计23年消费电子主要终端合计出货同比-2%。

ChatGPT APP标志AI行情新阶段

智能手机作为交互最为频繁、刚需应用最多的终端,天然具备海量交互数据的入口,为大模型升华提供源源不断的

焦点热门:手机版ChatGPT初体验

ChatGPTAPP仅支持iPhone8及更新的机型,支持iOS16 1或者更新的系统。

微博打通「二度关系」,内容创作者该如何接招?_当前消息

不知道大家有没有注意到,微博改版了——推出了新版关注流,打通了二度关系。

聚道云是什么?聚道云SaaS有什么功能特点?

聚道云是一款SaaS软件,它可以帮助企业管理各种业务流程和数据。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个