环球观焦点:Meta发布全新检索增强语言模型Atlas,110亿参数反超5400亿的PaLM

2022-08-16 10:05:28   来源:商业新知网

来源 | 新智元

编辑|好困

【导读】 这个模型只用了64个例子,就在自然问题上达到了42%的准确率,并且超过了5400亿参数的PaLM。

最近,Meta推出了一个全新的检索增强的语言模型——Atlas。


(资料图)

和那些动辄上千亿参数的前辈们不同,Atlas只有110亿的参数。

不过值得注意的是,Atlas虽然只有PaLM的1/50,但它只用了64个例子就在NaturalQuestions达到了42%以上的准确率,比PaLM这个5400亿参数的模型还高出了3%。

论文链接: https://arxiv.org/abs/2208.03299

再突破! 曹原新年首篇Nature

众所周知,世界知识对于自然语言处理来说是一个特别棘手的挑战,模型不仅需要理解任务的要求和如何产生输出,还必须存储和精确回忆大量的信息。

虽然在不需要世界知识的时候,小模型可以通过few-shot学习完成任务,但到目前为止,只有超大体量的模型在知识密集型的任务(如问题回答和事实核查)中显示出良好的效果。

而Atlas作为一个检索增强型的模型,往往可以超越上述限制。

结果表明,Atlas在few-shot问题回答(NaturalQuestions和TriviaQA)和事实核查(FEVER)上的表现优于更大的非增强模型,分别是超出了2.8%,3.3%和5.1%。

并且,Atlas在各种真实世界的测试(MMLU)上能与具有15倍以上参数的模型相当或更强。

此外,Atlas在全数据集设置中也刷新了SOTA。在NaturalQuestions上把准确率提高了8.1%,在TriviaQA上提高了9.3%,在5个KILT任务上也是如此。

更重要的是,Atlas检索到的段落可以被直接查验,从而获得更好的可解释性。此外还可以通过编辑甚至完全替换Atlas用于检索的语料库的方式,来保持模型一直都是最新的,无需重新训练。

LeCun表示,Atlas能够在问题回答和事实核查方面击败更大的模型,正是因为它可以从语料库中检索事实。

再突破! 曹原新年首篇Nature

Atlas遵循文本到文本的框架,也就是说,系统会得到一个文本查询作为输入,并生成一个文本输出。

例如,在回答问题的情况下,查询与问题相对应,模型需要生成答案。在分类任务中,查询对应于文本输入,模型生成词汇化的类别标签,即标签所对应的词。

Atlas基于两个子模型:检索器和语言模型。

当执行一项任务时,模型首先用检索器从大型文本语料库中检索出前k个相关文档。然后,这些文档和查询一起被送入语言模型,再由语言模型生成输出。检索器和语言模型都是基于预训练的Transformer网络。

检索器模块基于Contriever,一种基于连续密集嵌入的信息检索技术。Contriever使用一个双编码器结构,其中查询和文档由一个变换器编码器独立嵌入。在最后一层的输出上应用平均池化,以获得每个查询或文档的一个向量表示。然后,通过计算查询和每个文档的相应嵌入之间的点积,得到查询和每个文档之间的相似度分数。Contriever模型使用MoCo对比损失进行预训练,并且只使用无监督的数据。

密集检索器的一个优点是,查询和文档编码器都可以在没有文档注释的情况下,利用如梯度下降和蒸馏等技术进行训练。

语言模型依靠序列到序列模型的Fusion-in-Decoder modification,并在编码器中独立处理每个文档。然后,将对应于不同文档的编码器的输出连接起来,并在解码器中对这一单一序列进行交叉注意。在语言模型中处理检索到的文档的另一种方法是将查询和所有的文档连接起来,并将这个长序列作为模型的输入。

再突破! 曹原新年首篇Nature

具体来说,作者使用Perplexity Distillation目标函数,以及掩码语言建模作为前置任务。并使用维基百科和Common Crawl的混合数据对这些模型进行预训练,用于训练数据和索引的内容。

作者检索了20个文档,每2500步更新一次索引,并对前100个文档进行重新排名。并使用AdamW对模型进行10,000次迭代的预训练,批大小为128。

MMLU的结果

作者将110亿参数的Atlas与诸如GPT-3和Chinchilla这些SOTA进行了比较。

结果显示,Atlas在zero-shot中的表现明显优于随机。结合去偏推理,Atlas的zero-shot得分甚至超过了5-shot的GPT-3(47.1% vs 43.9%)。

对于5-shot的设置,Atlas比GPT-3高出4%,同时使用的参数少了15倍,预训练计算量少了10倍。集合多任务训练之后,Atlas提高到56.6%,接近Gopher的5-shot性能(60.0%)。

最后,在全数据设置中,Atlas达到了65.6%的整体准确率,接近SOTA的水平。有趣的是,在这种设置下,Atlas的表现明显优于GPT-3,而在5-shot的设置下,它们的表现相似。

FEVER的结果

在15-shot的设置中,Atlas的得分是56.2%,比Gopher高出5.1分。

在64-shot的设置中,作者从整个训练集中均匀地选出用于训练的实例。而由此产生的训练集中,正样本是要多于负样本的。不过,Atlas依然达到了64.3%的准确率。

最后,作者在完整的训练集上对模型进行了微调,并取得了78%的准确率,只比ProoFVer低了不到1.5%。

其中,ProoFVer的架构采用的是一个用句子级注释训练的检索器,并提供与FEVER一起发布的维基百科语料库,而Atlas则是从CCNet和陈旧(2021年12月)的维基百科中检索。

于是,作者尝试着也采用由FEVER维基百科语料库组成的索引,果然Atlas刷新了SOTA,达到80.1%的水平。

再突破! 曹原新年首篇Nature

在本文中,作者介绍了Atlas,一个检索增强的 大型 语言模型。

结果表明,通过联合预训练检索器模块和语言模型,Atlas在广泛的知识密集型任务上具有强大的few-shot学习能力,包括NaturalQuestions、TriviaQA、FEVER、8个KILT任务和57个MMLU任务。

例如,Atlas在对64个例子进行训练时,在NaturalQuestions上达到了42%以上的准确率,在TriviaQA上达到了84.7%的准确率,与PaLM这个5400亿参数的模型相比,提高了近3个百分点,后者需要50倍的预训练计算。

作者还就训练这种检索增强模型时,哪些因素是重要的提供了详细的分析,并证明了Atlas的可更新性、可解释性和可控制性能力。

最后,作者证明了Atlas在全数据集设置中也很出色,在NaturalQuestions、TriviaQA、FEVER和5个KILT任务中都刷新了SOTA。

关键词: 语言模型 的情况下

上一篇:
下一篇:
精彩阅读

环球观焦点:Meta发布全新检索增强语言模型Atlas,110亿参数反超5400亿的PaLM

热点

这个模型只用了64个例子,就在自然问题上达到了42%的准确率,并且超过了5400亿参数的PaLM。

当前短讯!客户生命周期管理和移动营销SaaS平台CleverTap完成1.05亿美元D轮融资

热点

CleverTap表示,本轮资金将用于加强公司在全球关键地区的影响力,并扩大团队规模。

环球速讯:被乐视「自嘲」圈粉

热点

有一家“没有老板”的公司,成为行业一股清流,没有996、不内卷、居家办公待遇不减。

视点!北美矿业专栏(十二):熊市中的矿企

热点

到目前为止,矿业无疑还处在熊市之中。

环球新消息丨WEB3.0,互联网的下一站?

热点

过去一年,Web3 0概念火爆出圈,走进大众视野。那么Web3 0来自哪里?又将往何处去?

环球微动态丨数据说|数字经济,山东16市谁最“炫”?排行榜来了

热点

发展数字经济是把握新一轮科技革命和产业变革新机遇的战略选择。

今亮点!隆基绿能:时代洪流下的“ 孤勇者”

热点

一生只做一件事,李振国的光伏故事还在继续。

财富

消息!融资丨「全宇工业」获数千万元Pre-A轮融资,云启资本独家投资

资讯

融资丨「全宇工业」获数千万元Pre-A轮融资,云启资本独家投资,资金将主要用于产品量产、市场拓展等事务。

天天即时看!可编程平台Superblocks获3700万美元A轮融资,KPCB领投,众科技公司CEO联合跟投

资讯

可编程平台Superblocks获3700万美元A轮融资,KPCB领投,众科技公司CEO联合跟投,跟投者包括Yelp、Instacart、Twilio、Fivetran、Okta的创始人。

环球实时:美宝莲,少女时代的眼泪

资讯

美宝莲,少女时代的眼泪,这是一个彩妆品牌在中国二十多年的故事

微速讯:骑得好好的共享单车,怎么就涨价了?

资讯

骑得好好的共享单车,怎么就涨价了?,共享单车派出的“价格刺客”还可能会“大数据杀熟”

微资讯!融资丨 「昇科能源」获数千万元A轮投资,致力于电池智能化研究

资讯

融资丨「昇科能源」获数千万元A轮投资,致力于电池智能化研究,据悉,本轮资金将主要用于产品迭代、市场拓展以及技术团队扩充。

焦点消息!中国电商“前老大”,被淘宝击溃,消失那天静悄悄

资讯

中国电商“前老大”,被淘宝击溃,消失那天静悄悄,三年,从辉煌到溃败。

今日热讯:海外创投丨「Stimulus」获超额认购的250万美元种子轮投资,Black Ops Ventures领投

资讯

海外创投丨「Stimulus」获超额认购的250万美元种子轮投资,BlackOpsVentures领投,创始人Stanard计划用这笔钱雇佣更多的销售、数据和工程人员,

当前时讯:海外创投丨「Penfold」获850万美元A轮融资,Bridford Group领投

资讯

海外创投丨「Penfold」获850万美元A轮融资,BridfordGroup领投,融资资金将用于扩大Penfold的工作场所养老金部门。

环球焦点!融资丨「毕诺济生物」完成逾亿人民币天使+轮融资,渶策资本领投

资讯

融资丨「毕诺济生物」完成逾亿人民币天使+轮融资,渶策资本领投,本轮筹集的资金将主要用于公司在全球范围内推进产品管线的临床前研究及临床开

【天天聚看点】融资丨「纵苇自动化」完成千万元级别天使轮融资,顺为资本投资

资讯

融资丨「纵苇自动化」完成千万元级别天使轮融资,顺为资本投资,融资资金将主要用于团队扩张和生产建设等业务用途。

当前短讯!客户生命周期管理和移动营销SaaS平台CleverTap完成1.05亿美元D轮融资

CleverTap表示,本轮资金将用于加强公司在全球关键地区的影响力,并扩大团队规模。

环球速讯:被乐视「自嘲」圈粉

有一家“没有老板”的公司,成为行业一股清流,没有996、不内卷、居家办公待遇不减。

视点!北美矿业专栏(十二):熊市中的矿企

到目前为止,矿业无疑还处在熊市之中。

环球新消息丨WEB3.0,互联网的下一站?

过去一年,Web3 0概念火爆出圈,走进大众视野。那么Web3 0来自哪里?又将往何处去?

环球微动态丨数据说|数字经济,山东16市谁最“炫”?排行榜来了

发展数字经济是把握新一轮科技革命和产业变革新机遇的战略选择。

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个

吉利几何EX3功夫牛高居榜首,4月投诉量230起

近日,车质网发布了2022年4月车型投诉排行八卦(前30名),其中有不少产品的出现属实让人没想到。具体来看,吉利几何EX3功夫牛高居榜首,4月

“说好了未达到目标全额退款,结果都是骗人的!”

春天不减肥,夏天徒伤悲。一波减肥大军抱着坚定的信念踏上征途,发现身边各式各样的高端减肥训练营正打着健康减肥封闭管理保质保量包吃包住