首页> 热点 >

彻底解决ChatGPT健忘症！突破Transformer输入限制：实测支持200万个有效token

2023-05-04 16:15:35 来源：商业新知网

转自 | 新智元

(相关资料图)

编辑 |LRS

【导读】用RMT模型提升Transformer类模型的脑容量，内存需求不变，输入序列可以无限长。

ChatGPT，或者说 Transformer类的模型都有一个致命缺陷，就是太容易健忘，一旦输入序列的token超过上下文窗口阈值，后续输出的内容和前文逻辑就对不上了。

ChatGPT只能支持4000个token（约3000个词）的输入，即便最新发布的GPT-4也只支持最大32000的token窗口，如果继续加大输入序列长度，计算复杂度也会成二次方增长。

最近来自DeepPavlov, AIRI, 伦敦数学科学研究所的研究人员发布了一篇技术报告，使用循环记忆Transformer（RMT）将BERT的有效上下文长度提升到「前所未有的200万tokens」，同时保持了很高的记忆检索准确性。

论文链接： https://arxiv.org/pdf/2304.11062.pdf

该方法可以存储和处理局部和全局信息，并通过使用循环让信息在输入序列的各segment之间流动。

实验部分证明了该方法的有效性，在增强自然语言理解和生成任务中的长期依赖处理方面具有非凡的潜力，可以为记忆密集型应用程序实现大规模上下文处理。

不过天下没有免费的午餐，虽然RMT可以不增加内存消耗，可以扩展到近乎无限的序列长度，但仍然存在RNN中的记忆衰减问题，并且需要更长的推理时间。

但也有网友提出了解决方案，RMT用于长期记忆，大上下文用于短期记忆，然后在夜间/维修期间进行模型训练。

循环记忆Transformer

2022年，该团队提出循环记忆Transformer（RMT）模型，通过在输入或输出序列中添加一个特殊的memory token，然后对模型进行训练以控制记忆操作和序列表征处理，能够在不改变原始Transformer模型的前提下，实现一个全新的记忆机制。

论文链接： https://arxiv.org/abs/2207.06881

发表会议：NeurIPS 2022

与Transformer-XL相比，RMT需要的内存更少，并可以处理更长序列的任务。

具体来说，RMT由m个实值的可训练向量组成，过长的输入序列被切分为几个segments，记忆向量被预置到第一个segment embedding中，并与segment token一起处理。

与2022年提出的原始RMT模型不同的是，对于像BERT这样的纯编码器模型，只在segment的开始部分添加一次记忆；解码模型将记忆分成读和写两部分。

在每个时间步长和segment中，按以下方式进行循环，其中N为Transformer的层数，t为时间步，H为segment

按顺序处理输入序列的segments后，为了实现递归连接，研究人员将当前segment的memory token的输出传递给下一个segment的输入：

RMT中的记忆和循环都只基于全局memory token，可以保持骨干Transformer模型不变，使得RMT的记忆增强能力可以与任意的Transformer模型兼容。

计算效率

按照公式可以估算不同大小和序列长度的RMT和Transformer模型所需的FLOPs

在词汇量大小、层数、隐藏大小、中间隐藏大小和注意头数的参数配置上，研究人员遵循OPT模型的配置，并计算了前向传递后的FLOPs数量，同时考虑到RMT循环的影响。

通过将一个输入序列划分为若干段，并仅在segment的边界内计算全部注意力矩阵来实现线性扩展，结果可以看到，如果segment长度固定，RMT的推理速度对任意模型尺寸都是线性增长的。

由于FFN层的计算量较大，所以较大的Transformer模型往往表现出相对于序列长度较慢的二次方增长速度，不过在长度大于32,000的极长序列上，FLOPs又回到了二次增长的状态。

对于有一个以上segment的序列（在本研究中大于512），RMT比非循环模型有更低的FLOPs，在尺寸较小的模型上最多可以将FLOPs的效率提升×295倍；在尺寸较大的模型如OPT-175B，可以提升×29倍。

记忆任务

为了测试记忆能力，研究人员构建了一个合成数据集，要求模型记忆简单的事实和基本推理。

任务输入包括一个或几个事实和一个只能用所有这些事实来回答的问题。

为了增加任务的难度，任务中还添加了与问题或答案无关的自然语言文本，这些文本可以看作是噪音，所以模型的任务实际上是将事实与不相关的文本分开，并使用事实文本来回答问题。

事实记忆

测试RMT在记忆中长时间写入和存储信息的能力：在最简单的情况下，事实位于输入的开头，问题在输入的最后，并逐渐增加问题和答案之间的不相关文本数量，直到模型无法一次性接受所有输入。

事实检测和记忆

事实检测通过将事实移到输入中的一个随机位置来增加任务难度，要求模型首先将事实与不相关的文本区分开来，将其写入记忆，然后回答位于最后的问题。

基于记忆事实进行推理

记忆的另一个重要操作是利用记忆的事实和当前的背景进行推理。

为了评估这个功能，研究人员引入了一个更复杂的任务，将生成两个事实并随机地放置在输入序列；在序列末尾提出的问题是必须选择用正确的事实来回答问题。

实验结果

研究人员使用HuggingFace Transformers中预训练的Bert-base-cased模型作为所有实验中RMT的主干，所有模型以记忆大小为10进行增强。

在4-8块英伟达1080Ti GPU上进行训练和评估；对于更长的序列，则切换到单张40GB的英伟达A100上进行加速评估。

课程学习（Curriculum Learning）

研究人员观察到，使用训练调度可以显著改善解决方案的准确性和稳定性。

刚开始让RMT在较短的任务版本上进行训练，在训练收敛后，通过增加一个segment来增加任务长度，将课程学习过程一直持续到达到理想的输入长度。

从适合单个segment的序列开始实验，实际segment的大小为499，因为从模型输入中保留了3个BERT的特殊标记和10个记忆占位符，总共大小为512。

可以注意到，在对较短的任务进行训练后，RMT更容易解决较长的任务，因为使用较少的训练步骤就能收敛到完美的解决方案。

外推能力（Extrapolation Abilities）

为了观察RMT对不同序列长度的泛化能力，研究人员评估了在不同数量的segment上训练的模型，以解决更大长度的任务。

可以观察到，模型在较短的任务上往往表现良好，但在较长的序列上训练模型后，就很难处理单segment推理任务。

一个可能的解释是，由于任务规模超过了一个segment，模型在第一个segment就停止了对问题的预期，导致质量下降。

有趣的是，随着训练segment数量的增加，RMT对较长序列的泛化能力也出现了，在对5个或更多的segment进行训练后，RMT可以对两倍长的任务进行近乎完美的泛化。

为了测试泛化的极限，研究人员验证任务的规模增加到4096个segment（即2,043,904个tokens）。

RMT在如此长的序列上保持得出奇的好，其中「检测和记忆」任务是最简单的，推理任务是最复杂的。

关键词：

上一篇： 5G共建共享基站数超150万（05月04日 | 通信事儿全知道~）
下一篇： 最后一页

精彩阅读

彻底解决ChatGPT健忘症！突破Transformer输入限制：实测支持200万个有效token
热点
用RMT模型提升Transformer类模型的脑容量，内存需求不变，输入序列可以无限长。

5G共建共享基站数超150万（05月04日 | 通信事儿全知道~）
热点
我国数字经济进一步实现量的合理增长。

人大高瓴AI研究院、软通、千方与立方数科巅峰论剑-动态焦点
热点
交互的界面很重要，这个是我们在ToC端数字人这块的业务。

AI 3D创作来了？“抢饭碗”成真-世界观察
热点
近期，生成式AI爆火，从AIGC到3D模型，各大公司都开始自研或发布AI3D创作解决方案。

【热闻】FTTR如何成为巴西运营商Oi新增长点？
热点
Oi作为巴西最大的电信运营商之一，拥有超过400,000公里的光纤，为2,300多个城市提供光纤接入网络。

李雨浛：在数据、网络与民意之间——用计算社会科学方法探讨数字媒体与可持续未来 | 提升之路系列（八）
热点
作为一名文科生，我在学习统计和编程语言的路上一直以来都磕磕绊绊，十分艰难。

马云被东京大学聘为客座教授；“五一”最热十大景区出炉...
热点
当地时间5月2日，苹果宣布和谷歌联合提交了一份拟议的行业规范，以帮助打击滥用蓝牙位置跟踪。

当CRM遇见ChatGPT，AI如何帮销售打造“最强大脑”
热点
ChatGPT诞生至今不过100多天，但它已经对很多行业产生了巨大影响。

微软关玮雅：每个应用程序都可以由 AI 来驱动 | 中国AIGC产业峰会
热点
作为当前全球最受瞩目的AIGC玩家之一，微软相继发布两款在搜索引擎、生产力工具上面的颠覆级应用。

本周值得读的 AI 论文（4.24-4.30）
热点
本设计也存在一些局限性，例如缺乏统一的机制模型之间的通信。

财富

影视剧取景地，五一也“狂飙”
资讯
影视剧取景地，五一也“狂飙”,要想持续火热，不比其他旅游地容易。

【世界播资讯】中国互联网大厂的"ChatGPT"追赶之旅现状
资讯
中国互联网大厂的 "ChatGPT "追赶之旅现状,在跟熟悉内情的朋友沟通之后，我感觉更有信心一点了，但也只是“

第一共和银行收购后的大赢家：摩根大通焦点热讯
资讯
第一共和银行收购后的大赢家：摩根大通,摩根大通入手了一家非常干净的银行，而且是以最干净的方式。

中式面馆的“麦肯梦”，还有戏吗？|环球今日报
资讯
中式面馆的“麦肯梦”，还有戏吗？,中式面馆的“麦肯梦”，还有戏吗？

全球快看：六年开万店，让年轻人爱上在家吃饭的锅圈食汇冲上市
资讯
六年开万店，让年轻人爱上在家吃饭的锅圈食汇冲上市,为港股开锅

出海厂商“战场收缩”，2023年的三消市场还有机会吗？|全球视点
资讯
出海厂商“战场收缩”，2023年的三消市场还有机会吗？,《RoyalMatch》的“横空出世”改变了三消赛道的竞争格局

特斯拉「象征性」涨价，销售催「等等党」赶紧下单 | 次世代车研所
资讯
特斯拉「象征性」涨价，销售催「等等党」赶紧下单|次世代车研所,在车企们纷纷跟进价格战之下，特斯拉却突然

全球热讯:天涯“沦落”，web 3.0的世界不懂BBS
资讯
天涯“沦落”，web3 0的世界不懂BBS,天涯路远，后会无期。

DIY投资者最容易犯下的错误|焦点热讯
资讯
DIY投资者最容易犯下的错误,不要“搬石头砸自己脚”。

这个五一，我带娃办婚礼
资讯
这个五一，我带娃办婚礼,线下办婚礼，遭遇“价格刺客”。

MORE+ 资讯

影视剧取景地，五一也“狂飙”

【世界播资讯】中国互联网大厂的"ChatGPT"追赶之旅现状

第一共和银行收购后的大赢家：摩根大通焦点热讯

中式面馆的“麦肯梦”，还有戏吗？|环球今日报

全球快看：六年开万店，让年轻人爱上在家吃饭的锅圈食汇冲上市

出海厂商“战场收缩”，2023年的三消市场还有机会吗？|全球视点

特斯拉「象征性」涨价，销售催「等等党」赶紧下单 | 次世代车研所

全球热讯:天涯“沦落”，web 3.0的世界不懂BBS

DIY投资者最容易犯下的错误|焦点热讯

这个五一，我带娃办婚礼

MORE+ 热点

彻底解决ChatGPT健忘症！突破Transformer输入限制：实测支持200万个有效token

5G共建共享基站数超150万（05月04日 | 通信事儿全知道~）

我国数字经济进一步实现量的合理增长。

人大高瓴AI研究院、软通、千方与立方数科巅峰论剑-动态焦点

交互的界面很重要，这个是我们在ToC端数字人这块的业务。

AI 3D创作来了？“抢饭碗”成真-世界观察

近期，生成式AI爆火，从AIGC到3D模型，各大公司都开始自研或发布AI3D创作解决方案。

【热闻】FTTR如何成为巴西运营商Oi新增长点？

Oi作为巴西最大的电信运营商之一，拥有超过400,000公里的光纤，为2,300多个城市提供光纤接入网络。

李雨浛：在数据、网络与民意之间——用计算社会科学方法探讨数字媒体与可持续未来 | 提升之路系列（八）

作为一名文科生，我在学习统计和编程语言的路上一直以来都磕磕绊绊，十分艰难。

MORE+ 焦点

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨，苹果举行主题为超前瞻的秋季新品发布会，在此次发布会上，备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架提升新老显卡性能

Windows 12系统可能会在2024年到来，按照正常的节奏，其开发工作应该早已秘密进行。日前，有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息，一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap，旨在为盲人和视

2022年情况又要变了！华硕高管：今年PC恐怕要供过于求

这两年来，由于疫情导致的居家办公及远程教育需求爆发，一直在下跌的PC市场枯木逢春，2021年更是创下了2012年以来的最快增长，然而2022年情

垃圾佬的心头好！西数新款固态盘SN740曝光

对于DIY垃圾佬来说，散片、拆机件、工包……这些名词怕是并不陌生。本周，西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足，如果可以背靠巨头享受大树底下好乘凉的红利，那自然是皆大欢喜，没有这个福气，也大可凭借自己一步一个

MORE+ 智能

外交部：遏制打压阻挡不了中国发展

二十四小时播报：科尔有些接触在季后赛不会吹犯规科尔杰迈克尔格林对国王出场不多出于对位考虑但他时刻准备着|观热点

红宝丽(002165.SZ)：16万吨技改项目建设预计年底中交，春节后试生产

戳爷回应自己攻原文_戳爷是攻是受

大额存单转让由“让利”到“加价”，长期存款利率持续走低|环球快资讯

比萨斜塔为什么是斜的英文_比萨斜塔为什么是斜的全球微资讯

“五一”假期曹操高陵遗址博物馆获高度关注

武汉这些道路何时完工？最新回应来了

予菲视点：千亿锂矿巨头一季度营收翻倍

游客超千万内蒙古实现“五一”假日文化和旅游业全面恢复发展-速递

精彩推送

外交部：遏制打压阻挡不了中国发展

彻底解决ChatGPT健忘症！突破Transformer输入限制：实测支持200万个有效token

新希望：2022年食品业务营收破百亿将打造“爆品”预制菜世界快消息

二十四小时播报：科尔有些接触在季后赛不会吹犯规科尔杰迈克尔格林对国王出场不多出于对位考虑但他时刻准备着|观热点

【世界播资讯】中国互联网大厂的"ChatGPT"追赶之旅现状

【当前热闻】天府宝贝迎大运！成都十七幼健康柚宝向未来

红宝丽(002165.SZ)：16万吨技改项目建设预计年底中交，春节后试生产

影视剧取景地，五一也“狂飙”

AI 3D创作来了？“抢饭碗”成真-世界观察

5G共建共享基站数超150万（05月04日 | 通信事儿全知道~）

人大高瓴AI研究院、软通、千方与立方数科巅峰论剑-动态焦点

戳爷回应自己攻原文_戳爷是攻是受

南威软件：公司控制权拟发生变更事宜正在正常稳步推进中

大额存单转让由“让利”到“加价”，长期存款利率持续走低|环球快资讯

李雨浛：在数据、网络与民意之间——用计算社会科学方法探讨数字媒体与可持续未来 | 提升之路系列（八）

深圳起家的机器人悄悄进驻全球餐厅

【热闻】FTTR如何成为巴西运营商Oi新增长点？

比萨斜塔为什么是斜的英文_比萨斜塔为什么是斜的全球微资讯

第一共和银行收购后的大赢家：摩根大通焦点热讯

全球快消息！鹏博士携手中传腾文启动“行业边缘算力应用网”北京试点

中式面馆的“麦肯梦”，还有戏吗？|环球今日报

特斯拉「象征性」涨价，销售催「等等党」赶紧下单 | 次世代车研所

全球快看：六年开万店，让年轻人爱上在家吃饭的锅圈食汇冲上市

出海厂商“战场收缩”，2023年的三消市场还有机会吗？|全球视点

“五一”假期曹操高陵遗址博物馆获高度关注

当CRM遇见ChatGPT，AI如何帮销售打造“最强大脑”

马云被东京大学聘为客座教授；“五一”最热十大景区出炉...

女子作死将一只鸡放进油桶里，结果让她兴奋不已！当前焦点

武汉这些道路何时完工？最新回应来了

微软关玮雅：每个应用程序都可以由 AI 来驱动 | 中国AIGC产业峰会

予菲视点：千亿锂矿巨头一季度营收翻倍

维峰电子：4月25日接受机构调研，包括知名机构趣时资产，正圆投资，高毅资产的多家机构参与_全球视讯

2023年熊猫金币5枚套装价目表（2023年05月04日）

游客超千万内蒙古实现“五一”假日文化和旅游业全面恢复发展-速递

这个五一，我带娃办婚礼

安必平“宫颈细胞病理+人工智能”临床试验正式启动

全球热讯:天涯“沦落”，web 3.0的世界不懂BBS

DIY投资者最容易犯下的错误|焦点热讯

消费者谨慎消费、安全使用太阳镜当前观察

开关电源漏电怎么回事？空调专用漏电保护开关？

GPT-4 API免费用？？OpenAI：律师函警告，快删了

热水器装软管还是硬管?燃气热水器几根管?

本周值得读的 AI 论文（4.24-4.30）

用AI把哪些行业重做一遍，能比大公司更超前？｜圆桌论坛@中国AIGC产业峰会_全球独家

九阳豆浆机一直鸣叫?九阳豆浆机报警一直响?

AI专属社交平台爆火，全体人类被禁言只能围观当前简讯

组建超级人工智能公司的5大关键要素

罗麦派馨空气净化器的功能?健馨空气净化器怎么清洗?

超百万消费券等你拿！ 2023福州文旅消费季启动

中国软件联合中国物流集团等共设数字科技公司，注册资本5亿元全球视点

2匹空调用多大漏电保护开关?一般家漏电开关多少安?

美的空调插座怎么拆?没留空调插座怎么补救?

即时看！木鸟民宿：平台五一民宿订单达2019年同期5.17倍

武汉入选携程五一热门旅游目的地前十环球热点

冰箱结冰大多是什么原因?冰箱为啥会结冰怎么处理?

冰箱独立变温室放什么?冰箱变温室的温度升高的原因?

小米电视没有遥控器怎么手动操作？万能遥控器怎么匹配电视?

志高手持挂烫机外壳怎么拿掉？志高手持蒸汽挂烫机怎么用？

融资丨3D相机硬科技企业「知象光电」完成新一轮战略融资

预期利差将收窄美元未来仍将保持强韧世界看热讯

【机器学习】列举几种常见的机器学习分类模型（附代码）

斯坦福最新研究警告：别太迷信大模型涌现能力，那是度量选择的结果

TCL中环单季净赚22.53亿高速扩张总资产三年增逾1.5倍

速度惊人！手机跑Stable Diffusion，12秒出图，谷歌YYDS-焦点观察

用Meta「分割一切」搞定一切关系，唱跳偷袭效果拔群！NTU等提出全新RAM模型

深度学习泰斗、谷歌副总裁 Hinton离职！对毕生工作感到后悔和恐惧！

“五一”假期西湖景区共接待游客282.78万人次|全球短讯

一季度钢铁行业效益逐月回升

北京至奥克兰直飞航班复飞

朱永盛：从城市到农村一路绽放“志愿红”

天天即时：三个理工男登上全球富豪榜，被苹果CEO点赞

智通港股通资金流向统计(T+2)|5月4日

环球头条：AI数字人惊艳亮相AWE CeMeta引领智慧家庭升级

昆仑万维业绩交流会要点摘要

再一次创造中国男子网球历史张之臻晋级马德里大师赛8强

全球百事通！中科创达董事长赵鸿飞在民生AI峰会上的讲话

看不下去AI胡说八道，英伟达出手给大模型安了个“护栏”

幻觉？马斯克TruthGPT也搞不定，OpenAI联合创始人直言很复杂

遵义石油易捷商品销售实现一季度开门红-天天热头条

微视频｜劳动者之光

湖北棉花发展迎来新机遇今年试点2000亩机采棉-天天短讯

下2019年高考分数线在2019年高考分数线是多少-天天报资讯

白发怎么解决最好_白发怎么治愈

环球快看：霍金斯打出2单杆50+2-1战胜名将里奇-沃顿

客运市场的激烈竞争迫使捷豹提供更多

蔡琴经典歌曲你的眼神歌词_蔡琴经典歌曲

环球速递！漫画《Pomegranate (石榴) 》

带鱼有什么功效呢_带鱼有什么功效

kemono插画_kemon

游客在海南万宁游玩遭人群殴？当地政府：正在调查

今日聚焦!快乐斗地主

焦点观察：中学奥数_12999初中数学网

科贝：门德斯手中还没有对法蒂的报价，法蒂的留队意愿坚定-世界新消息

手链的编法大全_手链的编法_焦点信息

在教育过程中受教育者的主体性表现有哪些特点在教育过程中受教育者的主体性表现有哪些

岁晚三首

Altman的灵魂拷问：谁来投资长周期、激进型的实体创新？-世界热点

全球新资讯：六人被刑拘！作案26起盗窃百余万财物，“电缆大盗”在武汉青山落网

海风教育怎么样有上过的_海风教育怎么样

将于4月24日开启预订新款吉利ICON主角官图发布

彻底解决ChatGPT健忘症！突破Transformer输入限制：实测支持200万个有效token

转自 | 新智元(相关资料图)

【导读】 用RMT模型提升Transformer类模型的脑容量，内存需求不变，输入序列可以无限长。

转自 | 新智元

(相关资料图)

【导读】用RMT模型提升Transformer类模型的脑容量，内存需求不变，输入序列可以无限长。