彻底解决ChatGPT健忘症!突破Transformer输入限制:实测支持200万个有效token

2023-05-04 16:15:35   来源:商业新知网

转自 | 新智元


(相关资料图)

编辑 |LRS

【导读】 用RMT模型提升Transformer类模型的脑容量,内存需求不变,输入序列可以无限长。

ChatGPT,或者说 Transformer类的模型 都有一个致命缺陷,就是太容易健忘,一旦输入序列的token超过上下文窗口阈值,后续输出的内容和前文逻辑就对不上了。

ChatGPT只能支持4000个token(约3000个词)的输入,即便最新发布的GPT-4也只支持最大32000的token窗口,如果继续加大输入序列长度,计算复杂度也会成二次方增长。

最近来自DeepPavlov, AIRI, 伦敦数学科学研究所的研究人员发布了一篇技术报告,使用 循环记忆Transformer(RMT) 将BERT的有效上下文长度提升到 「前所未有的200万tokens」 ,同时保持了很高的记忆检索准确性。

论文链接: https://arxiv.org/pdf/2304.11062.pdf

该方法可以存储和处理局部和全局信息,并通过使用循环让信息在输入序列的各segment之间流动。

实验部分证明了该方法的有效性,在增强自然语言理解和生成任务中的长期依赖处理方面具有非凡的潜力,可以为记忆密集型应用程序实现大规模上下文处理。

不过天下没有免费的午餐,虽然RMT可以不增加内存消耗,可以扩展到近乎无限的序列长度,但 仍然存在RNN中的记忆衰减问题,并且需要更长的推理时间 。

但也有网友提出了解决方案,RMT用于长期记忆,大上下文用于短期记忆,然后在夜间/维修期间进行模型训练。

循环记忆Transformer

2022年,该团队提出循环记忆Transformer(RMT)模型,通过在输入或输出序列中添加一个特殊的memory token,然后对模型进行训练以控制记忆操作和序列表征处理,能够在不改变原始Transformer模型的前提下,实现一个全新的记忆机制。

论文链接: https://arxiv.org/abs/2207.06881

发表会议:NeurIPS 2022

与Transformer-XL相比,RMT需要的内存更少,并可以处理更长序列的任务。

具体来说,RMT由m个实值的可训练向量组成,过长的输入序列被切分为几个segments,记忆向量被预置到第一个segment embedding中,并与segment token一起处理。

与2022年提出的原始RMT模型不同的是,对于像BERT这样的纯编码器模型,只在segment的开始部分添加一次记忆;解码模型将记忆分成读和写两部分。

在每个时间步长和segment中,按以下方式进行循环,其中N为Transformer的层数,t为时间步,H为segment

按顺序处理输入序列的segments后,为了实现递归连接,研究人员将当前segment的memory token的输出传递给下一个segment的输入:

RMT中的记忆和循环都只基于全局memory token,可以保持骨干Transformer模型不变,使得RMT的记忆增强能力可以与任意的Transformer模型兼容。

计算效率

按照公式可以估算不同大小和序列长度的RMT和Transformer模型所需的FLOPs

在词汇量大小、层数、隐藏大小、中间隐藏大小和注意头数的参数配置上,研究人员遵循OPT模型的配置,并计算了前向传递后的FLOPs数量,同时考虑到RMT循环的影响。

通过将一个输入序列划分为若干段,并仅在segment的边界内计算全部注意力矩阵来实现线性扩展,结果可以看到,如果segment长度固定,RMT的推理速度对任意模型尺寸都是线性增长的。

由于FFN层的计算量较大,所以较大的Transformer模型往往表现出相对于序列长度较慢的二次方增长速度,不过在长度大于32,000的极长序列上,FLOPs又回到了二次增长的状态。

对于有一个以上segment的序列(在本研究中大于512),RMT比非循环模型有更低的FLOPs,在尺寸较小的模型上最多可以将FLOPs的效率提升×295倍;在尺寸较大的模型如OPT-175B,可以提升×29倍。

记忆任务

为了测试记忆能力,研究人员构建了一个合成数据集,要求模型记忆简单的事实和基本推理。

任务输入包括一个或几个事实和一个只能用所有这些事实来回答的问题。

为了增加任务的难度,任务中还添加了与问题或答案无关的自然语言文本,这些文本可以看作是噪音,所以模型的任务实际上是将事实与不相关的文本分开,并使用事实文本来回答问题。

事实记忆

测试RMT在记忆中长时间写入和存储信息的能力:在最简单的情况下,事实位于输入的开头,问题在输入的最后,并逐渐增加问题和答案之间的不相关文本数量,直到模型无法一次性接受所有输入。

事实检测和记忆

事实检测通过将事实移到输入中的一个随机位置来增加任务难度,要求模型首先将事实与不相关的文本区分开来,将其写入记忆,然后回答位于最后的问题。

基于记忆事实进行推理

记忆的另一个重要操作是利用记忆的事实和当前的背景进行推理。

为了评估这个功能,研究人员引入了一个更复杂的任务,将生成两个事实并随机地放置在输入序列;在序列末尾提出的问题是必须选择用正确的事实来回答问 题。

实验结果

研究人员使用HuggingFace Transformers中预训练的Bert-base-cased模型作为所有实验中RMT的主干,所有模型以记忆大小为10进行增强。

在4-8块英伟达1080Ti GPU上进行训练和评估;对于更长的序列,则切换到单张40GB的英伟达A100上进行加速评估。

课程学习(Curriculum Learning)

研究人员观察到,使用训练调度可以显著改善解决方案的准确性和稳定性。

刚开始让RMT在较短的任务版本上进行训练,在训练收敛后,通过增加一个segment来增加任务长度,将课程学习过程一直持续到达到理想的输入长度。

从适合单个segment的序列开始实验,实际segment的大小为499,因为从模型输入中保留了3个BERT的特殊标记和10个记忆占位符,总共大小为512。

可以注意到,在对较短的任务进行训练后,RMT更容易解决较长的任务,因为使用较少的训练步骤就能收敛到完美的解决方案。

外推能力(Extrapolation Abilities)

为了观察RMT对不同序列长度的泛化能力,研究人员评估了在不同数量的segment上训练的模型,以解决更大长度的任务。

可以观察到,模型在较短的任务上往往表现良好,但在较长的序列上训练模型后,就很难处理单segment推理任务。

一个可能的解释是,由于任务规模超过了一个segment,模型在第一个segment就停止了对问题的预期,导致质量下降。

有趣的是,随着训练segment数量的增加,RMT对较长序列的泛化能力也出现了,在对5个或更多的segment进行训练后,RMT可以对两倍长的任务进行近乎完美的泛化。

为了测试泛化的极限,研究人员验证任务的规模增加到4096个segment(即2,043,904个tokens)。

RMT在如此长的序列上保持得出奇的好,其中「检测和记忆」任务是最简单的,推理任务是最复杂的。

关键词:

精彩阅读

彻底解决ChatGPT健忘症!突破Transformer输入限制:实测支持200万个有效token

热点

用RMT模型提升Transformer类模型的脑容量,内存需求不变,输入序列可以无限长。

5G共建共享基站数超150万(05月04日 | 通信事儿全知道~)

热点

我国数字经济进一步实现量的合理增长。

人大高瓴AI研究院、软通、千方与立方数科巅峰论剑-动态焦点

热点

交互的界面很重要,这个是我们在ToC端数字人这块的业务。

AI 3D创作来了?“抢饭碗”成真-世界观察

热点

近期,生成式AI爆火,从AIGC到3D模型,各大公司都开始自研或发布AI3D创作解决方案。

【热闻】FTTR如何成为巴西运营商Oi新增长点?

热点

Oi作为巴西最大的电信运营商之一,拥有超过400,000公里的光纤,为2,300多个城市提供光纤接入网络。

李雨浛:在数据、网络与民意之间——用计算社会科学方法探讨数字媒体与可持续未来 | 提升之路系列(八)

热点

作为一名文科生,我在学习统计和编程语言的路上一直以来都磕磕绊绊,十分艰难。

马云被东京大学聘为客座教授 ;“五一”最热十大景区出炉...

热点

当地时间5月2日,苹果宣布和谷歌联合提交了一份拟议的行业规范,以帮助打击滥用蓝牙位置跟踪。

当CRM遇见ChatGPT,AI如何帮销售打造“最强大脑”

热点

ChatGPT诞生至今不过100多天,但它已经对很多行业产生了巨大影响。

微软关玮雅:每个应用程序都可以由 AI 来驱动 | 中国AIGC产业峰会

热点

作为当前全球最受瞩目的AIGC玩家之一,微软相继发布两款在搜索引擎、生产力工具上面的颠覆级应用。

本周值得读的 AI 论文(4.24-4.30)

热点

本设计也存在一些局限性,例如缺乏统一的机制模型之间的通信。

财富

影视剧取景地,五一也“狂飙”

资讯

影视剧取景地,五一也“狂飙”,要想持续火热,不比其他旅游地容易。

【世界播资讯】中国互联网大厂的"ChatGPT"追赶之旅现状

资讯

中国互联网大厂的 "ChatGPT "追赶之旅现状,在跟熟悉内情的朋友沟通之后,我感觉更有信心一点了,但也只是“

第一共和银行收购后的大赢家:摩根大通 焦点热讯

资讯

第一共和银行收购后的大赢家:摩根大通,摩根大通入手了一家非常干净的银行,而且是以最干净的方式。

中式面馆的“麦肯梦”,还有戏吗?|环球今日报

资讯

中式面馆的“麦肯梦”,还有戏吗?,中式面馆的“麦肯梦”,还有戏吗?

全球快看:六年开万店,让年轻人爱上在家吃饭的锅圈食汇冲上市

资讯

六年开万店,让年轻人爱上在家吃饭的锅圈食汇冲上市,为港股开锅

出海厂商“战场收缩”,2023年的三消市场还有机会吗?|全球视点

资讯

出海厂商“战场收缩”,2023年的三消市场还有机会吗?,《RoyalMatch》的“横空出世”改变了三消赛道的竞争格局

特斯拉「象征性」涨价,销售催「等等党」赶紧下单 | 次世代车研所

资讯

特斯拉「象征性」涨价,销售催「等等党」赶紧下单|次世代车研所,在车企们纷纷跟进价格战之下,特斯拉却突然

全球热讯:天涯“沦落”,web 3.0的世界不懂BBS

资讯

天涯“沦落”,web3 0的世界不懂BBS,天涯路远,后会无期。

DIY投资者最容易犯下的错误|焦点热讯

资讯

DIY投资者最容易犯下的错误,不要“搬石头砸自己脚”。

这个五一,我带娃办婚礼

资讯

这个五一,我带娃办婚礼,线下办婚礼,遭遇“价格刺客”。

5G共建共享基站数超150万(05月04日 | 通信事儿全知道~)

我国数字经济进一步实现量的合理增长。

人大高瓴AI研究院、软通、千方与立方数科巅峰论剑-动态焦点

交互的界面很重要,这个是我们在ToC端数字人这块的业务。

AI 3D创作来了?“抢饭碗”成真-世界观察

近期,生成式AI爆火,从AIGC到3D模型,各大公司都开始自研或发布AI3D创作解决方案。

【热闻】FTTR如何成为巴西运营商Oi新增长点?

Oi作为巴西最大的电信运营商之一,拥有超过400,000公里的光纤,为2,300多个城市提供光纤接入网络。

李雨浛:在数据、网络与民意之间——用计算社会科学方法探讨数字媒体与可持续未来 | 提升之路系列(八)

作为一名文科生,我在学习统计和编程语言的路上一直以来都磕磕绊绊,十分艰难。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个