真·量子速读:突破GPT-4一次只能理解50页文本限制,新研究扩展到百万token

2023-04-26 11:22:54   来源:商业新知网

来源 | 机器之心

编辑|机器之心编辑部


(资料图片仅供参考)

【导读】 能容纳 50 页文档的输入框不够用,那几千页呢?

一个多月前,OpenAI 的 GPT-4 问世。除了各种出色的直观演示外,它还实现了一个重要更新:可以处理的上下文 token 长度默认为 8k,但最长可达 32K(大约 50 页文本)。这意味着,在向 GPT-4 提问时,我们可以输入比之前长得多的文本。这使得 GPT-4 的应用场景大大扩展,能更好地处理长对话、长文本以及文件搜索和分析。

不过,这一记录很快就被打破了: 来自谷歌研究院的 CoLT5 将模型可以处理的上下文 token 长度扩展到了 64k 。

这样的突破并不容易,因为这些使用 Transformer 架构的模型都要面临一个问题:Transformer 处理长文档在计算上是非常昂贵的,因为注意力成本随输入长度呈二次增长,这使得大型模型越来越难以应用于更长的输入。

尽管如此,研究者依然在此方向上不断突破。前几天,一篇来自开源对话 AI 技术栈 DeepPavlov 等机构的研究表明: 通过采用一种名为 Recurrent Memory Transformer(RMT)的架构,他们可以将 BERT 模型的有效上下文长度增加到 200 万个 token(按照 OpenAI 的计算方式,大约相当于 3200 页文本),同时保持了较高的记忆检索准确性(注:Recurrent Memory Transformer 是 Aydar Bulatov 等人在 NeurIPS 2022 的一篇论文中提出的方法) 。新方法允许存储和处理局部和全局信息,并通过使用 recurrence 使信息在输入序列的各 segment 之间流动。

作者表示,通过使用 Bulatov 等人在「Recurrent Memory Transformer」一文中介绍的简单的基于 token 的记忆机制,他们可以将 RMT 与 BERT 这样的预训练 Transformer 模型结合起来,用一个 Nvidia GTX 1080Ti GPU 就可以对超过 100 万个 token 的序列进行全注意和全精度操作。

论文地址:https://arxiv.org/pdf/2304.11062.pdf

不过,也有人提醒说,这并不是真正的「免费的午餐」,上述论文的提升是用「更长的推理时间 + 实质性的质量下降」换来的。因此,它还不能算是一次变革,但它可能成为下一个范式(token 可能无限长)的基础。

Recurrent Memory Transformer

该研究采用 Bulatov 等人 2022 年提出的方法 Recurrent Memory Transformer(RMT),并将其改成即插即用的方法,主要机制如下图所示:

冗长的输入被分成多个 segment,记忆向量(memory vector)被添加到第一个 segment 嵌入之前,并与 segment token 一起处理。对于像 BERT 这样的纯编码器模型,记忆只在 segment 的开头添加一次,这一点与 (Bulatov et al., 2022) 不同,纯解码器模型将记忆分为读取和写入两部分。对于时间步长 τ 和 segment ,循环按照如下步骤执行:

其中,N 是 Transformer 的层数。 前向传播之后, 包含 segment τ 的更新记忆 token。

输入序列的 segment 按照顺序处理。为了启用循环连接,该研究将记忆 token 的输出从当前 segment 传递到下一个 segment 的输入:

RMT 中的记忆和循环都仅基于全局记忆 token。这允许主干 Transformer 保持不变,从而使 RMT 的记忆增强能力与任何 Transformer 模型都兼容。

计算效率

该研究估算了不同大小和序列长度的 RMT 和 Transformer 模型所需的 FLOP。

如下图 3 所示,如果 segment 的长度固定,RMT 可针对任何模型大小进行线性扩展。该研究通过将输入序列分成 segment,并仅在 segment 边界内计算完整的注意力矩阵来实现线性扩展。

由于 FFN 层的计算量很大,较大的 Transformer 模型往往会表现出较慢的随序列长度的二次扩展(quadratic scaling)。然而,对于大于 32000 的超长序列,它们会退回到二次扩展。对于多于一个 segment 的序列(本研究中 > 512),RMT 比非循环模型需要更少的 FLOP,并且可以将 FLOP 的数量减少多达 295 倍。RMT 为较小的模型提供了更大的 FLOP 相对减少,但在绝对数量上,OPT-175B 模型的 FLOP 减少了 29 倍是非常显著的。

记忆任务

为了测试记忆能力,该研究构建了需要记忆简单事实和基本推理的合成数据集。任务输入由一个或多个事实和一个只有使用所有事实才能回答的问题组成。为了增加任务难度,该研究还添加了与问题或答案无关的自然语言文本来充当噪声,因此模型的任务是将事实与不相关的文本分开,并使用事实来回答问题。

事实记忆

第一项任务是检测 RMT 在记忆中长时间写入和存储信息的能力,如下图 4 顶部所示。在最简单的情况下,事实往往位于输入开头,而问题总是在末尾。问题和答案之间不相关文本的数量逐渐增加,以至于整个输入不适合单个模型输入。

事实检测与记忆

事实检测通过将一个事实移动到输入中的随机位置来增加任务难度,如上图 4 中部所示。这需要模型首先将事实与不相关文本区分开来,把事实写入记忆中,然后用它回答位于末尾的问题。

利用记忆事实进行推理

记忆的另一个操作是使用记忆事实和当前上下文进行推理。为了评估这一功能,研究者使用了一个更复杂的任务,其中生成了两个事实并将它们放置在了输入序列之中,如上图 4 底部所示。在序列末尾提出的问题是以一种「必须使用任意事实来正确回答问题」的方式来描述。

实验结果

研究者使用 4 到 8 块英伟达 1080ti GPU 来训练和评估模型。对于更长的序列,他们则使用单个 40GB 的英伟达 A100 来加快评估速度。

课程学习

研究者观察到,使用训练计划能够显著提升解决方案的准确性和稳定性。最开始,RMT 在较短版本的任务上进行训练,并在训练收敛时通过添加另一个 segment 来增加任务长度。课程学习过程一直持续,直到达到所需的输入长度。

在实验中,研究者首先从适合单个 segment 的序列开始。实际 segment 的大小为 499,但由于 BERT 的 3 个特殊 token 和 10 个记忆占位符从模型输入中保留下来,大小为 512。他们注意到, 在较短任务上训练后,RMT 更容易解决更长版本任务,这得益于它使用更少训练步收敛到完美的解决方案。

外推能力

RMT 对不同序列长度的泛化能力如何呢?为了回答这个问题,研究者评估了在不同数量 segment 上训练的模型,以解决更长的任务,具体如下图 5 所示。

他们观察到,模型往往在较短任务上表现更好,唯一的例外是单 segment 推理任务,一旦模型在更长序列上训练,则该任务变得很难解决。一个可能的解释是:由于任务大小超过了一个 segment,则模型不再「期待」第一个 segment 中的问题,导致质量下降。

有趣的是,RMT 泛化到更长序列的能力也随着训练 segment 的增加而出现。在 5 个或更多 segment 上训练后,RMT 可以近乎完美地泛化到两倍长的任务。

为了测试泛化的局限性,研究者将验证任务大小增至 4096 个 segment 或 2,043,904 个 token(如上图 1 所示),RMT 在如此长的序列上表现得出奇的好。检测和记忆任务最简单,推理任务最复杂。

记忆操作的注意力模式

在下图 6 中,通过检查特定 segment 上的 RMT 注意力,研究者观察到了记忆操作对应特定的注意力模式。此外 5.2 节中极长序列上的高外推性能证明了学得记忆操作的有效性,即使使用数千次也是如此。

关键词:

精彩阅读

焦点日报:国外人工智能安全相关法律法规情况

热点

美国为确保自身在人工智能领域的全球领导地位,近几年在行政条令和立法层面进行了诸多尝试。

大航海时代来临|4月,属于香港Web3 每日视讯

热点

大航海时代,志者同行,共赴山海。

做小红书,写1000篇笔记不如看懂一个趋势

热点

从品牌操盘手们的反馈中,我发现小红书作为生活方式平台,不仅能传播、放大、总结趋势,而是有创造趋势的潜

Yann LeCun:ChatGPT局限巨大,彻底禁止没必要|每日速看

热点

LeCun最后表示,目前,阻止这类开放的开源AI平台的关键,是法律上的问题。

【AI】一觉睡醒,ChatGPT 竟然被淘汰了?

热点

近日,AI界貌似出现了一种新的趋势:自主人工智能。

面对AI音乐恐慌,人类艺术家们决定反抗

热点

从ChatGPT全球爆红开始,各种AI翻唱开始涌现。

互联网公司投入大模型的原动力:反哺自己的「根据地」_实时

热点

超大规模的大模型已经到了一个临界点,下一个阶段应该用更多专业的子模型来协同训练,获得更可靠的成效。

财富

怎么看收音机支持不支持蓝牙?安卓蓝牙耳机能当收音麦吗?

资讯

怎么看收音机支持不支持蓝牙?安卓蓝牙耳机能当收音麦吗?第一种:车载收音机上有AUX接口,这是音频辅助接口,通俗点说就是外部来的信号接入到

一加8手机在哪开启查找手机?一加8怎样进入恢复模式?

资讯

一加8手机在哪开启查找手机?1 第一步。 打开手机以后,打开设置。2 第二步。 然后下拉设置界面,找到隐私打开。3 第三步。 进到隐私,打开

电信卡如何二次复机?中国电信在线复机方法?

资讯

电信卡如何二次复机?1、电信网上营业厅 用户登陆网厅,在自助服务>业务办理>业务功能设置与变更>手机>手机停机 手机复机处,按提示填写表

手机相机扫码功能在哪开启?手机拍照怎么录入电话号码?

资讯

手机相机扫码功能在哪开启?首先点击手机通讯录里的扫一扫,进入到扫描界面。在扫描界面的右上角处,有一个竖排省略号,点击后,下面有一个

你三十年前买水浒卡扔方便面的同桌,又被割了

资讯

你三十年前买水浒卡扔方便面的同桌,又被割了,喜茶冰箱贴互换群

王健林三过IPO而不能入

资讯

王健林三过IPO而不能入,万达不会躺平,更不会破产

美团B端“加速度”

资讯

美团B端“加速度”,餐饮外卖是本地生活服务的重要组成部分之一

首发丨「周子未来」再获数千万元人民币A+轮融资,启明创投独家投资 ​|最新资讯

资讯

首发丨「周子未来」再获数千万元人民币A+轮融资,启明创投独家投资​,中国第一块细胞培养肉缔造者

手机拍视频删除了还能恢复吗?手机录像视频删除还能恢复吗?

资讯

手机拍视频删除了还能恢复吗?1、打开华为图库,在相册界面点击【最近删除】。3、打开需要恢复的视频,点击下方的【恢复】即可。手机录像视

手机摄像头打开失败怎么回事?华为手机前置摄像头怎么设置?

资讯

手机摄像头打开失败怎么回事?1、备份好数据,进入设置--应用与权限 更多设置--应用管理--找到相机--存储--清除数据和缓存,后重新打开。2、

每日速讯:讯飞版ChatGPT突然开始内测!我们连夜一手实测

科大讯飞版ChatGPT产品,提前交卷了。

焦点日报:国外人工智能安全相关法律法规情况

美国为确保自身在人工智能领域的全球领导地位,近几年在行政条令和立法层面进行了诸多尝试。

大航海时代来临|4月,属于香港Web3 每日视讯

大航海时代,志者同行,共赴山海。

做小红书,写1000篇笔记不如看懂一个趋势

从品牌操盘手们的反馈中,我发现小红书作为生活方式平台,不仅能传播、放大、总结趋势,而是有创造趋势的潜

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个