在注意力中重新思考Softmax,多个任务达到SOTA

2022-03-17 10:15:41   来源:商业新知网

来源:机器之心

来自 商汤、上海人工智能实验室等机构的研究者用线性 COSFORMER 来取代 transformer 中的 softmax 注意力机制,在多项任务上达到最优。

Transformer 在自然语言处理、计算机视觉和音频处理方面取得了巨大的成功。作为其核心组件之一,softmax 注意力有助于捕获长程依赖关系,但由于序列长度的二次空间和时间复杂度而禁止其扩展。研究者通常采用核(Kernel)方法通过逼近 softmax 算子来降低复杂度。然而,由于近似误差,它们的性能在不同的任务 / 语料库中有所不同,与普通的 softmax 注意力相比,其性能会下降。

研究者认为 softmax 算子是主要障碍,而对 softmax 高效而准确的逼近很难实现,因此很自然地提出一个问题:我们能否用线性函数代替 softmax 算子,同时保持其关键属性?

通过对 softmax 注意力的深入研究,研究发现了影响其经验性能的两个关键性质:

(i) 注意力矩阵的非负性;

(ii) 一种非线性重重加权方案,可以聚集注意力矩阵分布。

这些发现揭示了当前方法的一些新见解。例如,线性 transformer 使用指数线性单元激活函数来实现属性 (i)。然而,由于缺乏重重加权(re-weighting )方案,表现不佳。

本文中,来自商汤、上海人工智能实验室等机构的研究者提出了一种称为 COSFORMER 的线性 transformer,它能同时满足上述两个特性。具体来说,在计算相似度分数之前,该研究将特征传递给 ReLU 激活函数来强制执行非负属性。通过这种方式使得模型避免聚合负相关的上下文信息。此外,该研究还基于余弦距离重加权机制来稳定注意力权值。这有助于模型放大局部相关性,而局部相关性通常包含更多自然语言任务的相关信息。

在语言建模和文本理解任务的大量实验证明 COSFORMER 方法的有效性,并且在长序列 Long-Range Arena 基准上实现了 SOTA 性能,这一结果很好地证明了 COSFORMER 在建模长序列输入方面的强大能力。

论文地址:https://arxiv.org/pdf/2202.08791.pdf

方法

研究者表示,COSFORMER 的关键思路在于将不可分解非线性 softmax 操作替换为具有可分解非线性重加权机制的线性操作。该模型适用于随机注意力和交叉注意力,并且输入序列长度具有线性时间和空间复杂度,从而在建模长程依赖中显示出强大的能力。

一般而言,我们可以选择任意相似度函数来计算注意力矩阵,如下公式(2)所示

下图 2 为原始自注意力(左)与线性注意力(右)的计算示意图。

大多数现有线性 transformers 想要找到针对 softmax 注意力的无偏估计。然而,研究者实证发现,这些方法对采样率的选择非常敏感,一旦采样率过高,则会变得不稳定。并且,考虑到近期偏差,门机制可以用来更好地探索较新的上下文。另一类工作则试图直接用线性操作替换 softmax。

研究者提出了 softmax 的一种新替换,不仅可以在一系列任务中实现与 softmax 相当甚至更好的性能,而且具有线性空间和时间复杂度。

研究者经过实证确认了 softmax 操作的两种可能在性能表现中发挥重要作用的关键特性,其一是确保注意力矩阵 A 中的所有值是非负的,其二是提供一种非线性重加权机制来聚集注意力连接的分布并稳定训练。为了验证这些假设,研究者设计了如下表 1 中的初步研究。

通过将 的结果与 softmax 相比较,研究者发现,具有 softmax 重加权的模型收敛速度更快,到下游任务的泛化表现更好。

COSFORMER

基于以上发现,研究者提出了模型 COSFORMER,它完全丢弃了 softmax 归一化,同时具有非负性和重加权机制。 COSFORMER 包含两个主要的组件,分别为线性投影核 和 cos-Based 重加权机制。

首先来看线性投影核 。 基于上文公式 2 中注意力的通用格式,研究者将线性相似度定义如下公式(6)所示。

具体地,为了确保全正(full positive)的注意力矩阵 A 并避免聚合负相关的信息,研究者将 ReLU(·) 用作转换函数,从而可以有效地消除负值,如下公式(7)所示。

研究者还重新调整了点积(dot-product)的顺序,并得到了线性复杂度中所提注意力的公式(9)。

在 softmax 注意力中引入非线性重加权机制可以聚集注意力权重的分布,因而稳定训练过程。研究者还通过实证发现,这种做法可以惩罚远距离连接,并在某些情况下加强局部性。实际上,这类局部性偏差,也即是一大部分上下文依赖来自邻近 token,通常可以在下游 NLP 任务上发现,如下图(3)所示。

基于上述假设,要满足 softmax 的第二种特性需要一种可分解的重加权机制,该机制可以将近期偏差引入到注意力矩阵。研究者提出了一种能够完美满足目标的 cos-based 重加权机制。通过上图 3(2)和(3)中比较注意力矩阵,可以看到,COSFORMER 能够比不具有重加权机制的 COSFORMER 执行更多的局部性。

具有余弦重加权机制的模型可以定义如下公式(10)所示。

同时,COSFORMER 还可以看作一种将相对位置偏差引入到高效 transformer 中的新方法。

实验

实验验证了 COSFORMER 在多种设置中的有效性。

首先,该研究使用 WikiText-103,通过自回归和双向语言模型(bidirectional)设置验证了 COSFORMER 在语言建模中的能力。通过这种方式,该研究验证了所提出的线性注意力模块在因果和非因果情况下的有效性。

自回归建模语言:该研究采用 (Baevski & Auli, 2018) 作为基线模型,并用所提出的线性注意力模块替换自注意力模块,在 8 个 Nvidia Tesla A100 GPU 上进行训练,表 2 中报告了结果。

由结果可得,尽管基线模型是一个性能强大的标准 transformer,但它需要二次计算复杂度,但 COSFORMER 在线性计算复杂度方面明显优于基线模型。此外,该研究在验证集上实现了与其他方法相当的困惑度(perplexity),并且在测试集上明显优于其他方法,这进一步证明了 COSFORMER 的有效性。

双向语言模型:对于双向语言建模,该研究采用 RoBERTa (Liu et al., 2019) 作为基线模型。同样的将 RoBERTa 中的自注意力模块替换为线性注意力模块,并保持其他结构不变,该研究在 2 个 Nvidia Tesla A100 GPU 上训练双向任务。如图 4 所示,COSFORMER 在训练集和验证集上的收敛速度都比 vanilla Transformer 快,具有可比或更小的损失值。此外,与没有重重加权的模型相比,具有重重加权机制的 COSFORMER 变体具有明显更好的收敛速度和最终结果,这进一步验证了基于余弦的距离矩阵的有效性。

其次,该研究通过与其他现有的 Transformer 变体进行比较,研究了 COSFORMER 在下游任务上的泛化能力。

从表 3 中,我们可以看到 COSFORMER 在多个数据集上优于基线(Liu et al., 2019),此外与其他高效的 transformer 相比,COSFORMER 在所有五个下游数据集上均达到最佳或次要位置。值得注意的是,尽管 Longformer (Beltagy et al., 2020) 在 MNLI 上取得了比 COSFORMER 更好的结果,但它需要 O(Nw) 的计算复杂度。如图 1 所示,Longformer 比 COSFORMER 更慢并且需要更多的内存开销。

该研究进一步在 long-range-arena 基准上将 COSFORMER 与其他 transformer 变体进行比较,以了解其建模远程依赖关系的能力并展示对模型效率的比较分析 。

如表 4 所示,总体上来说 COSFORMER 在所有任务中都取得了具有竞争力的结果,同时在 ListOps 和文档检索方面取得了最佳性能。值得一提的是,COSFORMER 在 Long-range-arena 基准测试中取得了最好的整体分数,是仅有的两个超越 vanilla transformer 架构的模型之一。

如表 5 和图 1 所示,大多数基于模式、vanilla transformer 的方法都比 COSFORMER 更慢并且需要更大的内存。COSFORMER 在保持卓越建模和泛化能力的同时,总体上比其他线性变体实现了更好的效率。

最后,该研究进行消融实验,以了解 COFORMER 中具有和不具有重重加权机制的影响,如表 6 所示,COSFORMER 在没有重重加权的情况下取得了更好的整体结果,显着提高了双向微调和 long-range-arena 的平均分数。这验证了所提出的重重加权有效地结合了自然语言任务的局部归纳偏差。

关键词: 计算复杂度 收敛速度

上一篇:
下一篇:
精彩阅读

在注意力中重新思考Softmax,多个任务达到SOTA

热点

Transformer在自然语言处理、计算机视觉和音频处理方面取得了巨大的成功。

你,有几个互联网身份?

热点

说到身份系统,业内可以讨论个三天三夜不带停的。

一向“躺平”的联通为啥突然对广电这么硬气?

热点

联通集团副总公开表示,预计广电5G商用对行业竞争格局不会有重大影响。

3·15再提个人信息安全:免费WiFi软件暗藏陷阱、浏览网页导致电话泄漏......

热点

应用市场上,打着提供“免费WiFi连接”服务的应用程序也比比皆是。

阿里国际站和Inc.联合发布海外数字采购四大趋势

热点

过去三个月中,国际站上健康产品的平均订单量是其他产品的2 5倍。瑜伽垫等健康相关产品销售额都取得了快速增长。

3·15再提个人信息安全:免费WiFi软件暗藏陷阱、浏览网页导致电话泄漏......

热点

监管在加大对用户信息安全保护力度的同时,消费者们也应当从自身保护好个人信息。

315曝光的免费Wi-Fi,其实还有更严重的问题

热点

在今年的315晚会上,相关部门和央视对免费Wi-Fi的骗局进行了曝光。

大厂围攻,频频转向,小红书的困境谁能解?

热点

种草赛道拥挤,谁能挤下小红书?

3.15启示:您的产品安全吗?

热点

3·15晚会昨晚落幕,晚会总导演尹文有一个观点值得所有互联网人深思:信息安全在万物互联时代,比产品本身更重要。

315曝光!这些国产资源网站,终于凉了

热点

节目一播出,出事行业免不了要被监督整改一番,也算一件大好事儿。

财富

企业:做电商专供家电是为了渠道差异化

资讯

在嗅觉敏锐的华强北商人眼中,食品正在成为这里的新标签。3月2日,时代财经来到深圳华强北实地探访发现,华强北的几大主要商场如今都已有了

做不做高端,厨电企业摁下“高端键”背后有何深意?

资讯

中国人对厨房和烹饪的关注历史是源远流长的,一张餐桌的背后演绎着国民经济的发展脉络,也展示着居民生活水平的不断提高,而对于厨电企业而

清洁电器行业又迎来新品类,如何布局?

资讯

继洗地机之后,清洁电器行业又迎来了一个新品类。近期,中国家电网记者注意到了某品牌推出了一款名为多功能蒸汽清洁器的产品,据了解该产品

废旧家电回收体系亟待完善

资讯

我国家电行业已从增量市场转为存量市场,家电保有量已超过21亿台。如今我国家电需求以换新为主,每销售一台家电新品就要处理一台废旧电器,

安吉尔净水机滤芯货不对板,厂家同意三倍赔偿

资讯

此前齐鲁晚报·齐鲁壹点报道《巩俐代言安吉尔净水机,用户三年后发现RO膜非原厂》之后,记者报道安吉尔方面松口与用户协商。13日,记者了解

商家承诺“免费安装家电”成噱头 家电安装二次消费遭投诉

资讯

每年3月开始,家装进入旺季,也带动家电销售进入小高峰。花几千元买台空调,在安装中被告知要收取几百元的安装费;新买的热水器要另外付费购

50亿元!闻泰科技向境外特定客户正式出货

资讯

今日,国内知名果链公司闻泰科技发布一份《关于产品集成业务向境外特定客户正式出货的公告》。公告中提到,公司的产品集成业务与境外特定客

三星高管:希望在今年上半年结束前取代苹果

资讯

据印度经济时报报道,韩国智能手机巨头三星的一位高管表示,凭借其最新推出的高端设备,三星希望在今年上半年结束前取代苹果,在高端手机领

锐科激光:2021年净利润同比增长60.17%

资讯

光纤激光器供应商武汉锐科光纤激光技术股份有限公司发布了2021年度业绩快报。报告显示,2021年实现营收34 10亿元,同比增长47 18%;净利润4

销量首破百万!小牛电动2021年营收37.05亿元

资讯

近日,小牛电动发布了2021年第四季度和全年财务业绩报告。报告显示,小牛电动2021年全年营业收入37 05亿元,同比增长51 6%;净收入2 258亿元

你,有几个互联网身份?

说到身份系统,业内可以讨论个三天三夜不带停的。

一向“躺平”的联通为啥突然对广电这么硬气?

联通集团副总公开表示,预计广电5G商用对行业竞争格局不会有重大影响。

3·15再提个人信息安全:免费WiFi软件暗藏陷阱、浏览网页导致电话泄漏......

应用市场上,打着提供“免费WiFi连接”服务的应用程序也比比皆是。

阿里国际站和Inc.联合发布海外数字采购四大趋势

过去三个月中,国际站上健康产品的平均订单量是其他产品的2 5倍。瑜伽垫等健康相关产品销售额都取得了快速增长。

3·15再提个人信息安全:免费WiFi软件暗藏陷阱、浏览网页导致电话泄漏......

监管在加大对用户信息安全保护力度的同时,消费者们也应当从自身保护好个人信息。

为户外劳动者提供便利 重庆已建成665座“劳动者港湾”

  中新网重庆4月22日电 (韩璐 王雪宇)记者22日从重庆市城市管理局获悉,2020年重庆市已建成“劳动者港湾”665座。今年,重庆还将继续建

沈阳警方侦破特大贩卖毒品案 抓获88名涉毒违法犯罪嫌疑人

  中新社沈阳4月22日电 (王景巍)沈阳市公安局22日发布消息,近日,在中国公安部和辽宁省公安厅的指导协调下,历经9个多月,沈阳市公安局

上海警方侦破特大制售假普洱茶案 市场价值高达18亿元

  中新网上海4月22日电 (记者 李姝徵)记者22日从上海警方获悉,2021年3月,上海警方全链条侦破一起销售假冒知名品牌普洱茶案,捣毁制售

西安强化知识产权司法保护 商标权案件占比高

  中新网西安4月22日电 (记者 张一辰)在世界知识产权日即将到来之际,西安市中级人民法院(以下简称:西安中院)22日召开新闻发布会,发

今年5月至明年2月底 江西4A级及以上景区对全国学子免门票

  中新网南昌4月22日电 (记者 李韵涵)记者22日从“红五月·嘉游赣”江西五一假日旅游工作媒体吹风会上获悉,2021年5月1日至2022年2月28

福州乡村公益图书馆:图书“接地气” 门口即是农田

  中新网福州4月22日电 (叶秋云 曾路淇)世界读书日即将来临之际,驾车五十余分钟,记者来到距离福建省福州市30多公里的闽侯县白沙镇马