首页> 热点 >

天天微动态丨参数量1/50，Meta发布110亿参数模型，击败谷歌PaLM

2022-08-19 16:06:57 来源：商业新知网

【导读】 Yann LeCun 表示：Atlas 是一个不太大的语言模型，具有 110 亿参数，在问答和事实核查方面击败了「大家伙」。

我们可以将大型语言模型（LLMs）理解为小样本学习者，其能够通过很少的例子就能学习新任务，甚至仅通过简单的说明就能学习，其中对模型参数量和训练数据的大小进行扩展是模型拥有泛化能力的关键。LLMs 的这种提升归功于更强大算力和存储能力。直观上，推理能力的提高会带来更好的泛化，从而减少样本的学习，然而目前还不清楚有效的小样本学习在多大程度上需要大量的模型参数知识。

(资料图片)

目前为止检索增强模型还没有展示出令人信服的小样本学习能力。论文中，来自 Meta AI Research 等机构的研究者提出小样本学习是否需要模型在其参数中存储大量信息，以及存储是否可以与泛化解耦。他们提出 Atlas，其是检索增强语言模型的一种，拥有很强的小样本学习能力，即使参数量低于目前其它强大的小样本学习模型。

模型采用非参数存储，即使用基于大型外部非静态知识源上的神经检索器去增强参数语言模型。除了存储能力，此类架构在适应性、可解释性和效率方面都存在优势，因此很有吸引力。

论文地址：https://arxiv.org/pdf/2208.03299.pdf

Atlas 检索相关文档是基于 Contriever 双编码器架构的通用密度检索器，检索文件时基于当前上下文检索相关文件。检索到的文档与当前上下文一起交由序列到序列模型处理，该模型使用 Fusion-in-Decoder 架构生成相应的输出。

作者研究了不同技术对训练 Atlas 在一系列下游任务（包括问答和事实检查）上的小样本数据集性能的影响。研究发现联合预训练组件对于小样本性能至关重要，作者评估了许多现有和新颖的预训练任务和方案，Atlas 在小样本和资源丰富的环境中都拥有强大的下游性能。

在只有 11B 个参数的情况下，Atlas 使用 64 个训练示例在 NaturalQuestions（NQ）上实现了 42.4% 准确率，比 540B 参数模型 PaLM（ 39.6% ）高出近 3 个百分点，在全数据集设置中（Full）达到 64.0% 准确率。

Yann LeCun 表示：Atlas 是一个不太大的语言模型（11B 参数），在问答和事实核查方面击败了「大家伙」。Atlas 主要区别在于它可以从语料库中检索事实。

方法概览

Atlas 遵循文本到文本框架。这意味着所有任务的总体框架是：系统以文本查询作为输入，生成文本输出。例如，在问答任务情况下，查询对应于问题，模型需要生成答案。在分类任务情况下，查询对应于文本输入，模型生成类标签，即标签对应的词。图 2 中的 KILT 基准给出了更多下游任务的示例。许多自然语言处理任务需要知识，Atlas 的目标是通过检索增强标准文本到文本模型，因为检索可能对于模型小样本场景下的学习能力至关重要。

架构

Atlas 模型基于两个子模型：检索器和语言模型。当执行任务时，从问答到生成 Wikipedia 文章，模型首先通过检索器从大型文本语料库中检索前 k 个相关文档。然后，这些文档连同查询一起作为输入给到语言模型，生成输出。检索器和语言模型都基于预训练的 transformer 网络，下面对它们做详细介绍。

检索器：Atlas 的检索器模块基于 Contriever，这是一种基于连续密度嵌入的信息检索技术。Contriever 使用双编码器架构，其中查询和文档由 transformer 编码器独立嵌入。平均池化应用于最后一层的输出，以获得每个查询或文档的向量表示。然后通过计算查询和每个文档间的相互嵌入的点积，得到它们的相似度分数。Contriever 模型使用 MoCo 对比损失进行预训练，并且仅使用无监督数据。密度检索器的优点之一是查询和文档编码器都可以在没有文档注释的情况下使用标准技术（例如梯度下降和蒸馏）进行训练。

语言模型：对于语言模型，Atlas 依赖于 T5 序列到序列架构。模型同时也依赖于对序列到序列模型的 Fusion-in-Decoder 修改，并在编码器中独立处理每个文档。之后模型连接对应于不同文档的编码器的输出，并在解码器中对单个序列执行 cross-attention。模型把查询连接到编码器中的每个文档。在语言模型中处理检索到的文档的另一种方法是将查询和所有文档连接起来，并使用这个长序列作为模型的输入。但这种方法可扩展性较差，即它不会随着文档的数量增多而扩展，因为编码器中的自注意力机制会导致 O(n^2)的时间复杂度(这里 n 是文档数量)。

实验结果

作者在 NaturalQuestions 和 TriviaQA 这两个开放域问答基准上评估 Atlas。并且分别使用 64 个样例的小样本数据集和完整的训练集，与之前的工作进行比较，详细对比见下表。

NaturalQuestions 和 TriviaQA 的 64-shot 问答中表现最优。特别是它优于更大的模型 (PaLM) 或需要更多训练计算的模型(Chinchilla)。在使用全量的训练集时，Atlas 也能到最优结果，例如把 NaturalQuestions 的准确率从 55.9% 提高到 60.4%。这个结果是在 Atlas 的默认设置下，使用由 CCNet 和 2021 年 12 月 Wikipedia 语料库组成的索引获得的。

下表展示了在事实核查数据集 FEVER 上的测试结果。

Atlas 在 64-shot 情况下，训练样例采样自全量训练集。Atlas 达到了 64.3% 的准确率。而在 15-shot 的情况下，从每个类中统一采样 5 个样例，与 Gopher 结果比较，Atlas 准确率为 56.2%，比 Gopher 高 5.1 个百分点。在全量训练集上微调 Atlas 模型，达到 78% 的准确率，比 ProoFVer 低 1.5%。ProoFVer 使用专门的架构，用句子级注释训练的检索器，并由维基百科语料库提供与 FEVER 一起发布，而 Atlas 从 CCNet 和 2021 年 12 月的维基百科转储中检索。当给 Atlas 由 FEVER Wikipedia 语料库组成的索引，Atlas 取得了 80.1% 最优水平。

为验证 Atlas 的性能，Atlas 在 KILT 进行了评估，KILT 是由几个不同的知识密集型任务组成的基准。下表展示了测试集的结果。

Atlas 64-shot 在实验中远远超过随机算法，甚至与排行榜上的某些经过微调的模型不相上下。如在 FEVER 上，Atlas 64-shot 仅落后 Sphere、SEAL 和 Re2G 2-2.5 分，而在 zero-shot RE 上的表现优于 Sphere 和 SEAL。在全量数据集上，Atlas 在 3 个数据集的表现与最好的模型相差在 3% 以内，但在其余 5 个数据集中是表现最好的。

关键词：语言模型的情况下

上一篇：
下一篇：

精彩阅读

天天微动态丨参数量1/50，Meta发布110亿参数模型，击败谷歌PaLM
热点
目前为止检索增强模型还没有展示出令人信服的小样本学习能力。

视讯！未来10年Web3/区块链最重要的解决方案之一，花10分钟了解一下？
热点
零知识证明就像三箭资本的SuZhu和KyleDavies一样，他们出生于上世纪八十年代，但直到最近才成为热门话题。

当前播报:突发，Adobe旗下设计社区Behance封停中国账户，全面断供还远吗？
热点
Adobe通过40多年的努力，打造了一个庞大的商业帝国。

世界快资讯丨解放周报 | 科技部等六部门发文：推动人工智能场景创新；南阳：奋力打造数字政府“南阳范本”等
热点
科技部等六部门发文：推动人工智能场景创新。

今日快讯：工具出海：抛弃“旧地图”，寻找“新大陆”
热点
再加之互联网商业模式的变幻风云诡谲，未来随着技术升级、人们需求变化，很难断言工具出海没戏了。机会小，不代表没有。

每日快报!歌华有线、中广电移动北京分公司与北京移动签署《政企业务合作框架协议》
热点
第一份省级广电网络、中广电移动分公司与移动省级分公司的《政企业务合作框架协议》签订。

快讯：2022年新兴技术成熟度曲线
热点
近日，Gartner发布2022年新兴技术成熟度曲线，并列出了25项值得关注的新兴技术。

天天新消息丨做赚钱的SaaS，一定要懂增长
热点
优秀的SaaS产品经理，一定可以站在整个客户旅程的高度，对产品增长策略有较为全面的认识。

苹果9月7日发布iPhone14系列价格或上涨100美元
热点
有知情人士透露，苹果计划于9月7日召开秋季发布会，发布iPhone 14系列。目前苹果已经通知零售店为9月16日星期五的新产品发布做准备，这意

看热讯：当元宇宙遇上FE赛车，感受虚拟世界的速度与激情
热点
不同等级的虚拟数字赛车均配备专属打造的“DV编号”悬浮式车头LOGO，彰显独特的元宇宙数字赛车手身份。

财富

全球即时：网易发布Q2财报：游戏全球化提速数字技术焕发传统文化新活力
资讯
网易发布Q2财报：游戏全球化提速数字技术焕发传统文化新活力,本季度起网易公司财报中的“在线游戏服务”部分，已更名为“游戏及相关增值服务”

全球即时：海外创投丨「Gorgias」获3000万美元C轮融资，持续升级电子商务客服工具
资讯
海外创投丨「Gorgias」获3000万美元C轮融资，持续升级电子商务客服工具,融资资金将用于加速其自动化工具的开发，为消费者提供即时客服回复。

全球信息:海外创投丨「Remedium Bio」获230万美元种子轮融资，Sherwood Ventures领投
资讯
海外创投丨「RemediumBio」获230万美元种子轮融资，SherwoodVentures领投,RemediumBio是一家处于临床前阶段的生物技术公司，为多种高度衰弱的

世界快讯:海外创投丨「Aero」获6500万美元融资，深耕私人航空服务领域
资讯
海外创投丨「Aero」获6500万美元融资，深耕私人航空服务领域,该公司计划利用新资金拓展新市场。

全球视讯！融资丨「长运通半导体」完成A轮融资，深耕功率IC和SIP微模块设计
资讯
融资丨「长运通半导体」完成A轮融资，深耕功率IC和SIP微模块设计,本轮融资将主要用于加大产能及备货。

9月20日推送！微软Windows1122H2正式版全面推送
资讯
据外媒WindowsCentral获得的消息，微软Windows1122H2(太阳谷2)正式版目前的全面推送日期为9月20日，版本号确认Build22621。此外，消息称微

9月20日推送！微软Windows1122H2正式版全面推送
资讯
据外媒WindowsCentral获得的消息，微软Windows1122H2(太阳谷2)正式版目前的全面推送日期为9月20日，版本号确认Build22621。此外，消息称微

今日视点：新式茶饮集体“杀入”咖啡，茶颜悦色、喜茶、奈雪们的“局中局”
资讯
新式茶饮集体“杀入”咖啡，茶颜悦色、喜茶、奈雪们的“局中局”,资本市场，咖啡已比奶茶“香”。

视焦点讯！工具出海：抛弃“旧地图”，寻找“新大陆”
资讯
工具出海：抛弃“旧地图”，寻找“新大陆”,工具出海，正在重生。

天天动态:融资丨「胜达克半导体」完成亿元级融资，专注于半导体研究
资讯
融资丨「胜达克半导体」完成亿元级融资，专注于半导体研究,胜达克半导体科技是一家专注于半导体行业后道封装测试领域专用设备的研发、生产和销

MORE+ 资讯

全球即时：网易发布Q2财报：游戏全球化提速数字技术焕发传统文化新活力

全球即时：海外创投丨「Gorgias」获3000万美元C轮融资，持续升级电子商务客服工具

全球信息:海外创投丨「Remedium Bio」获230万美元种子轮融资，Sherwood Ventures领投

世界快讯:海外创投丨「Aero」获6500万美元融资，深耕私人航空服务领域

全球视讯！融资丨「长运通半导体」完成A轮融资，深耕功率IC和SIP微模块设计

9月20日推送！微软Windows1122H2正式版全面推送

9月20日推送！微软Windows1122H2正式版全面推送

今日视点：新式茶饮集体“杀入”咖啡，茶颜悦色、喜茶、奈雪们的“局中局”

视焦点讯！工具出海：抛弃“旧地图”，寻找“新大陆”

天天动态:融资丨「胜达克半导体」完成亿元级融资，专注于半导体研究

MORE+ 热点

天天微动态丨参数量1/50，Meta发布110亿参数模型，击败谷歌PaLM

视讯！未来10年Web3/区块链最重要的解决方案之一，花10分钟了解一下？

零知识证明就像三箭资本的SuZhu和KyleDavies一样，他们出生于上世纪八十年代，但直到最近才成为热门话题。

当前播报:突发，Adobe旗下设计社区Behance封停中国账户，全面断供还远吗？

Adobe通过40多年的努力，打造了一个庞大的商业帝国。

世界快资讯丨解放周报 | 科技部等六部门发文：推动人工智能场景创新；南阳：奋力打造数字政府“南阳范本”等

科技部等六部门发文：推动人工智能场景创新。

今日快讯：工具出海：抛弃“旧地图”，寻找“新大陆”

再加之互联网商业模式的变幻风云诡谲，未来随着技术升级、人们需求变化，很难断言工具出海没戏了。机会小，不代表没有。

每日快报!歌华有线、中广电移动北京分公司与北京移动签署《政企业务合作框架协议》

第一份省级广电网络、中广电移动分公司与移动省级分公司的《政企业务合作框架协议》签订。

MORE+ 焦点

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息，一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap，旨在为盲人和视

2022年情况又要变了！华硕高管：今年PC恐怕要供过于求

这两年来，由于疫情导致的居家办公及远程教育需求爆发，一直在下跌的PC市场枯木逢春，2021年更是创下了2012年以来的最快增长，然而2022年情

垃圾佬的心头好！西数新款固态盘SN740曝光

对于DIY垃圾佬来说，散片、拆机件、工包……这些名词怕是并不陌生。本周，西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足，如果可以背靠巨头享受大树底下好乘凉的红利，那自然是皆大欢喜，没有这个福气，也大可凭借自己一步一个

吉利几何EX3功夫牛高居榜首，4月投诉量230起

近日，车质网发布了2022年4月车型投诉排行八卦(前30名)，其中有不少产品的出现属实让人没想到。具体来看，吉利几何EX3功夫牛高居榜首，4月

“说好了未达到目标全额退款，结果都是骗人的！”

春天不减肥，夏天徒伤悲。一波减肥大军抱着坚定的信念踏上征途，发现身边各式各样的高端减肥训练营正打着健康减肥封闭管理保质保量包吃包住

MORE+ 智能

人的大脑相当于什么级别的CPU？超低功耗的神奇作品

如何“监视”作业本上的笔迹？这支笔告诉你答案

三星首批第二代3nm GAA工艺芯片交付有望于2024年量产

苹果2000年以来申请248项自动驾驶专利总数或创纪录

外国博主用AI修复秦代兵马俑穿越千年来和你对话

英伟达复制成功经验到量子计算领域强调要开创新的产品和市场

意大利对小米处以320万欧元罚款指控其违反电子设备维修保修规则

“618”全平台销量同比增长超160% 小家电产业寻找新战法

非三星设备将不再适用于非设备？三星回应了

2021年全球PC出货量3.488亿部高通仅3%

精彩推送

天天微动态丨参数量1/50，Meta发布110亿参数模型，击败谷歌PaLM

当前播报:突发，Adobe旗下设计社区Behance封停中国账户，全面断供还远吗？

视讯！未来10年Web3/区块链最重要的解决方案之一，花10分钟了解一下？

全球信息:海外创投丨「Remedium Bio」获230万美元种子轮融资，Sherwood Ventures领投

全球视讯！融资丨「长运通半导体」完成A轮融资，深耕功率IC和SIP微模块设计

全球即时：海外创投丨「Gorgias」获3000万美元C轮融资，持续升级电子商务客服工具

世界快讯:海外创投丨「Aero」获6500万美元融资，深耕私人航空服务领域

全球即时：网易发布Q2财报：游戏全球化提速数字技术焕发传统文化新活力

每日快报!歌华有线、中广电移动北京分公司与北京移动签署《政企业务合作框架协议》

快讯：2022年新兴技术成熟度曲线

今日快讯：工具出海：抛弃“旧地图”，寻找“新大陆”

世界快资讯丨解放周报 | 科技部等六部门发文：推动人工智能场景创新；南阳：奋力打造数字政府“南阳范本”等

天天新消息丨做赚钱的SaaS，一定要懂增长

9月20日推送！微软Windows1122H2正式版全面推送

9月20日推送！微软Windows1122H2正式版全面推送

苹果9月7日发布iPhone14系列价格或上涨100美元

看热讯：当元宇宙遇上FE赛车，感受虚拟世界的速度与激情

新消息丨天威视讯经营范围新增电信业务

今日视点：新式茶饮集体“杀入”咖啡，茶颜悦色、喜茶、奈雪们的“局中局”

视焦点讯！工具出海：抛弃“旧地图”，寻找“新大陆”

天天动态:融资丨「胜达克半导体」完成亿元级融资，专注于半导体研究

全球百事通！融资丨「隐冠半导体」完成超2亿元战略融资，持续深耕半导体高端精密装备研发

每日速读!打破中国企业类软件成长的怪圈，我找到了方法！

速递！广州上线开物工业互联网平台 AI算法帮企业年节省千万元成本

全球微速讯：腾讯，回到2018 || 深度

焦点要闻：腾讯的资本收缩是为了“跳”的更高？

环球报道:融资丨「瑞为技术」完成数亿元D轮融资，招商局资本、泓宇资本联合领投

【全球速看料】融资丨「天辰生物」完成数千万元A+轮融资，专注于解决自身免疫疾病

快资讯：融资丨「臻格生物」完成1亿人民币C+轮融资，持续提升CDMO服务

天天信息:融资丨「光域生物医学」完成数千万天使轮融资，苇渡创投独家投资

全球时讯：融资丨「绿舟科技」再获数千万元A+轮战略融资，同创伟业领投

今日快看!高压科学研究中心，再发Nature！

世界消息！《Horizon Worlds》正式登陆法国和西班牙；Valve发布SteamVR 1.23更新，为VR空间新增一系列“死虫子”

快看：解构 | 中国广电对外投资多家企业变更！

天天即时看！江苏有线5G电子渠道平台上线

全球快资讯丨Soul递交港股上市申请，平台捏脸师或成年轻人就业新选择

【全球播资讯】融资丨「氦星光联」完成Pre-A轮融资，中关村发展前沿基金领投

最新快讯!海外创投丨「Wire」获2400万欧元C轮融资，致力于数据安全领域

焦点！海外创投丨「Venue」获400万美元种子轮融资，打造新型视频会议

环球观焦点：15元一瓶的矿泉水，“刺”痛了多少人？

焦点短讯！海外创投丨「Bluejay Therapeutics」获4100万美元B轮融资，大力推进乙肝治疗

Canonical正式发布适用于 VisionFive RISC-V单板机的Ubuntu 22.04.1 LTS

微软员工：加薪幅度还赶不上通胀速度打算跳槽

天天信息:对腾讯最新一期季报的六条点评

全球观速讯丨元境副总经理龙志勇：爆款云原生游戏出现有两个前提 | 元宇宙100人

全球要闻：撸空投 | A16z 领投！社区驱动类DAO最高估值——PartyBid 交互攻略

【天天新视野】腾讯的六次减持

全球聚焦：通信行业上半年最新成绩单三朵“云”强势出圈！

环球热头条丨海迈科技2022年半年度净利676.70万元同比增长19.79%

今日关注：天天把数字化放在口头的，都是些什么人？｜张杰说

当前关注：腾讯发布第二季度财报，净利润下滑56%

当前滚动:阿里不养闲鱼

世界通讯！腾讯的六次减持

百事通！新能源“卷”向越野车

环球焦点！“砸锅卖铁”，斗鱼虎牙还是亏了

热点在线丨融资丨「锦源晟」完成超10亿元融资，正心谷资本领投

环球快报:融资丨「融通高科」完成超50亿元D轮融资，继续研发磷酸铁锂电池

头条：爱拍照的老司机有福了，照片马赛克玩法，装X表白都能用！

每日讯息!中国信通院发布“2022人工智能十大关键词”

世界热头条丨我要找人做密评

实时：钉钉召开智能硬件生态服务商峰会，宣布未来三年新增百款生态硬件

当前速讯：及时互联，通信无阻 | 以科技推动应急通信发展

观天下！SaaS领域连续创业多年的实践与反思

全球快看：2022年有哪些企业费控管理系统？费控SaaS大盘点，附对比资料

【快播报】离谱！杭州热到手机网速变慢，背后是什么原理？

当前观察：国内首款情感陪伴型数字人亮相：将服务超6亿用户

天天关注：融资丨「枫叶租车」完成A轮融资，上海联创领投

全球热点！网球名将小威廉姆斯领投，红杉、光速下注，心理健康公司Wondermind获500万美元A轮融资｜海外邦

每日看点!海外创投丨「Caraway」获1050万美元融资，专注于女性医疗

当前速读：海外创投丨「Arc」获2000万美元A轮融资，Left Lane领投

【全球新要闻】融资丨「瑞顺生物」完成5900万元A+轮融资，致力于细胞药物研发

抖音上线溯源、打标等多项新功能全面治理不实消息

每日焦点！「山洪」没过小红书

世界新动态：腾讯关停幻核平台，用户可自行申请退款

今日快看!腾讯抛弃美团，在王兴的极端假设里

当前观点：信贷10亿！北京银行支持700MHz广电5G项目建设

最新：六部门发文：支持优先探索家庭智慧互联等智能场景

环球滚动:9.9元的福利也要赚50%的主播，真是你的“家人”？

视讯！金沙地理2022年半年度净利14.63万元同比扭亏为盈

快看：危险的“野沟”，怎么成了“打卡地”？

天天实时：网红打卡地遭遇致命山洪，平台被卷入洪水滔天中

【速看料】2022年上半年，哪些行业出口强劲？

热头条丨字节盯上了“月子”市场这块蛋糕？

天天热消息：中国游戏崛起之路：从东南亚一路打到美日韩

天天实时：抖音正在汲取淘宝的灵魂

今日快看!百余门店闭门谢客，韩妆如何败给了国潮？

世界热议:每日优鲜“毕业”，生鲜电商如何价值回归？

环球微头条丨红杉中国成立创业加速器YUÈ，打造「中国创业者第一课」

世界视讯！Lululemon打江山容易，守江山难

全球球精选！吃再多益生菌，我的肠胃也不好

时讯：融资丨「微容科技」完成近20亿元融资，持续打造中国高端MLCC产品

每日讯息!融资丨「泰拉能源」获7.5亿美元融资，致力于为企业提供零碳能源

热消息：硅谷押注的pancake技术，第一个多国批量出货的是中国玩家

天天热消息：对话纳德光学创始人彭华军：VR光学领域没有摩尔定律

天天新动态：分析 NFT AMM 创新方案 SudoSwap 的未来应用场景

每日视讯：Prometheus-v2新增地面站，助力高效研发！

天天热门:幻核停售：体面退出背后，腾讯的战略选择

速讯：融资丨「海纳医药」完成亿元新一轮融资，中金传化基金领投

环球视点！维密、优衣库和Lululemon内衣核心供应链伙伴，为品牌带来的变化是什么

全球快看：融资丨「福寿康」完成数亿元C轮融资，致力于长者服务