首页> 热点 >

无需训练，自动扩展的视觉Transformer来了

2022-04-13 10:43:02 来源：商业新知网

来自德克萨斯大学奥斯汀分校、悉尼科技大学和谷歌的研究者提出了一个无需训练就能自动扩展框架 As-ViT，其能以高效和有原则的方式自动发现和扩展 ViT。

当前 Vision Transformers （ViT）领域有两个主要的痛点：1、缺少对 ViT 进行设计和扩展的有效方法；2、训练 ViT 的计算成本比卷积网络要大得多。

为了解决这两个问题，来自得克萨斯大学奥斯汀分校、悉尼科技大学和谷歌的研究者提出了 As-ViT（Auto-scaling Vision Transformers），这是一个无需训练的 ViT 自动扩展框架，它能以高效且有原则的方式自动设计和扩展 ViT。

论文链接：https://arxiv.org/abs/2202.11921

具体来说，研究人员首先利用无训练搜索过程设计了 ViT 拓扑的「种子」，这种极快的搜索是通过对 ViT 网络复杂性的全面研究来实现的，从而产生了与真实准确度的强 Kendall-tau 相关性。其次，从「种子」拓扑开始，通过将宽度 / 深度增加到不同的 ViT 层来自动化 ViT 的扩展规则，实现了在一次运行中具有不同数量参数的一系列架构。最后，基于 ViT 在早期训练阶段可以容忍粗粒度 tokenization 的经验，该研究提出了一种渐进式 tokenization 策略来更快、更节约地训练 ViT。

作为统一的框架，As-ViT 在分类（ImageNet-1k 上 83.5% 的 top1）和检测（COCO 上 52.7% 的 mAP）任务上实现了强大的性能，无需任何手动调整或扩展 ViT 架构，端到端模型设计和扩展过程在一块 V100 GPU 上只需 12 小时。

具有网络复杂度的 ViT 自动设计和扩展

为加快 ViT 设计并避免繁琐的手动工作，该研究希望以高效、自动化和有原则的 ViT 搜索和扩展为目标。具体来说有两个问题需要解决：1）在训练成本最小甚至为零的情况下，如何高效地找到最优的 ViT 架构拓扑？2）如何扩大 ViT 拓扑的深度和宽度以满足模型尺寸的不同需求？

扩展 ViT 的拓扑空间

在设计和扩展之前，首先是为 As-ViT 扩展的拓扑搜索空间：首先将输入图像嵌入到 1/4 尺度分辨率的块中，并采用逐级空间缩减和通道加倍策略。这是为了方便密集预测任务，例如需要多尺度特征的检测。

通过流形传播评估初始化时的 ViT 复杂性

ViT 训练速度很慢，因此，通过评估训练模型的准确率来进行架构搜索的成本将高得让人难以承受。最近学界出现很多用基于 ReLU 的 CNN 的免训练神经架构搜索方法，利用局部线性图 (Mellor et al., 2020)、梯度敏感性 (Abdelfattah et al., 2021)、线性区域数量 (Chen et al., 2021e;f) 或网络拓扑（Bhardwaj et al., 2021）等方式。

然而 ViT 配备了更复杂的非线性函数如 self-attention、softmax 和 GeLU。因此需要以更一般的方式衡量其学习能力。在新研究中，研究者考虑通过 ViT 测量流形传播的复杂性，以估计复杂函数可以如何被 ViT 逼近。直观地说，一个复杂的网络可以在其输出层将一个简单的输入传播到一个复杂的流形中，因此可能具有很强的学习能力。在 UT Austin 的工作中，他们通过 ViT 映射简单圆输入的多种复杂性：h(θ) = √ N [u^0 cos(θ) + u^1 sin(θ)]。这里，N 是 ViT 输入的维度（例如，对于 ImageNet 图像，N = 3 × 224 × 224），u^0 和 u^1 形成了圆所在的 R^N 的二维子空间的标准正交基。

搜索 ViT 拓扑奖励

研究者提出了基于 L^E 的免训练搜索（算法 1），大多数 NAS（神经架构搜索）方法将单路径或超级网络的准确率或损失值评估为代理推理。当应用于 ViT 时，这种基于训练的搜索将需要更多的计算成本。对于采样的每个架构，这里不是训练 ViT，而是计算 L^E 并将其视为指导搜索过程的奖励。

除了 L^E，还包括 NTK 条件数 κΘ = λ_max/λ_min ，以指示 ViT 的可训练性（Chen et al., 2021e; Xiao et al., 2019; Yang, 2020; Hron et al., 2020）。λ_max 和 λ_min 是 NTK 矩阵 Θ 的最大和最小特征值。

搜索使用强化学习方法，策略被定为联合分类分布，并通过策略梯度进行更新，该研究将策略更新为 500 step，观察到足以使策略收敛（熵从 15.3 下降到 5.7）。搜索过程非常快：在 ImageNet-1k 数据集上只有七个 GPU 小时 (V100)，这要归功于绕过 ViT 训练的 L^E 的简单计算。为了解决 L^E 和 κΘ 的不同大小，该研究通过它们的相对值范围对它们进行归一化（算法 1 中的第 5 行）。

表 3 总结了新搜索方法的 ViT 拓扑统计数据。我们可以看到 L^E 和 κΘ 高度偏好：（1）具有重叠的 token （K_1∼K_4 都大于 stride ），以及（2）在更深层中更大的 FFN 扩展率（E_1 < E_2 < E_3 < E_4）。在注意力分裂和正面数量上没有发现 L^E 和 κΘ 的明显偏好。

ViT 自主的原则型扩展

得到最优拓扑后，接下来要解决的一个问题是：如何平衡网络的深度和宽度？

目前，对于 ViT 扩展没有这样的经验法则。最近的工作试图扩大或增长不同大小的卷积网络以满足各种资源限制（Liu et al., 2019a; Tan & Le, 2019）。然而，为了自动找到一个有原则的扩展规则，训练 ViT 将花费巨大的计算成本。也可以搜索不同的 ViT 变体（如第 3.3 节中所述），但这需要多次运行。相反，「向上扩展，scaling-up」是在一个实验中生成多个模型变体的更自然的方式。因此，该研究试图以一种免训练且有原则的有效方法将搜索到的基本「种子」ViT 扩展到更大的模型。算法 2 中描述了这种自动扩展方法：

初始架构的每个阶段都有一个注意力块，初始隐藏维度 C = 32。每次迭代找出最佳深度和宽度，以进行进一步向上扩展。对于深度，该研究尝试找出要加深哪个阶段（即，在哪个阶段添加一个注意力块）；对于宽度，该研究尝试发现最佳扩展比（即，将通道数扩大到什么程度）。

扩展轨迹如下图 3 所示。比较自主扩展和随机扩展，研究者发现扩展原则更喜欢舍弃深度来换取更多宽度，使用更浅但更宽的网络。这种扩展更类似于 Zhai et al. (2021) 开发的规则。相比之下，ResNet 和 Swin Transformer (Liu et al., 2021) 选择更窄更深。

通过渐进灵活的 re-tokenization 进行高效的 ViT 训练

该研究通过提出渐进灵活的 re-tokenization 训练策略来提供肯定的答案。为了在训练期间更新 token 的数量而不影响线性投影中权重的形状，该研究在第一个线性投影层中采用不同的采样粒度。以第一个投影核 K_1 = 4 且 stride = 4 为例：训练时研究者逐渐将第一个投影核的 (stride, dilation) 对逐渐变为 (16, 5), (8, 2) 和 (4 , 1)，保持权重的形状和架构不变。

这种 re-tokenization 的策略激发了 ViT 的课程学习（curriculum learning）：训练开始时引入粗采样以显着减少 token 的数量。换句话说，As-ViT 在早期训练阶段以极低的计算成本（仅全分辨率训练的 13.2% FLOPs）快速从图像中学习粗略信息。在训练的后期阶段，该研究逐渐切换到细粒度采样，恢复完整的 token 分辨率，并保持有竞争力的准确率。如图 4 所示，当在早期训练阶段使用粗采样训练 ViT 时，它仍然可以获得很高的准确率，同时需要极低的计算成本。不同采样粒度之间的转换引入了性能的跳跃，最终网络恢复了具有竞争力的最终性能。

如图 4 所示，当 ViT 在早期训练阶段使用粗采样训练 ViT 时，它仍然可以获得很高的准确率，同时需要极低的计算成本。不同采样粒度之间的转换引入了性能的跳跃，最终网络恢复了具有竞争力的最终性能。

实验

AS-VIT：自动扩展 VIT

该研究在表 4 中展示了搜索到的 As-ViT 拓扑。这种架构在第一个投影（tokenization）step 和三个重新嵌入 step 中，促进了 token 之间的强烈重叠。FFN 扩展比首先变窄，然后在更深的层变宽。利用少量注意力拆分来更好地聚合全局信息。

图像分类

下表 5 展示了 As-ViT 与其他模型的比较。与之前基于 Transformer 和基于 CNN 的架构相比，As-ViT 以相当数量的参数和 FLOP 实现了 SOTA 性能。

高效训练

研究者调整了表 6 中为每个 token 减少阶段的时期，并将结果显示在表 6 中。标准训练需要 42.8 TPU 天，而高效训练可节省高达 56.2% 的训练 FLOP 和 41.1% 的训练 TPU 天，仍然达到很高的准确率。

拓扑和扩展的贡献

为了更好地验证搜索型拓扑和扩展规则的贡献，该研究进行了更多的消融研究（表 7）。首先，在扩展之前直接训练搜索到的拓扑。该研究搜索的种子拓扑优于图 2 中 87 个随机拓扑中的最佳拓扑。

第二，该研究将基于复杂度的规则与「随机扩展 + As-ViT 拓扑」进行比较。在不同的扩展下，该研究的自动扩展也优于随机扩展。

COCO 数据集上的目标检测

该研究将 As-ViT 与标准 CNN 和之前的 Transformer 网络进行了比较。比较是通过仅更改主干而其他设置未更改来进行的。从下表 8 的结果可以看出，As-ViT 也可以捕获多尺度特征并实现最先进的检测性能，尽管它是在 ImageNet 上设计的，并且它的复杂性是为分类而测量的。

©THE END

转载请联系本公众号获得授权

关键词：学习能力科技大学

上一篇：
下一篇：

精彩阅读

无需训练，自动扩展的视觉Transformer来了
热点
为加快ViT设计并避免繁琐的手动工作，该研究希望以高效、自动化和有原则的ViT搜索和扩展为目标。

MasterGo怎么样好用吗？蓝湖MasterGo如何收费、服务怎么样？
热点
本篇为互联网产品设计工具，产品原型设计软件MasterGo的介绍。

联通的移网质量不弱于电信，为什么业绩上却节节败退？
热点
通信行业的竞争，随着三家2021年年度业绩的发布，可以很明朗的下一个结论——“此”消“彼”长的步伐越拉越大。

微信朋友圈十周年：有人重度依赖，也有人想逃离
热点
作为日常生活中使用频率最频繁的社交软件，微信的每一个新功能，每一次变化都能引起我们的注意。

360打造“最强”核心安全大脑
热点
当前，360的所有产品都集成了核心安全大脑。

谈谈让数据创造价值的4大核心要素
热点
从收集数据到使其成为可指导操作的知识并形成对业务决策的影响。

中国广电经营分析系统二期项目开标！附体系建设汇总
热点
日前，中国广电网络股份有限公司公示了经营分析系统二期项目中标候选人情况。

中国广电5G核心网上海节点提前完成广电5G首呼
热点
近日，中国广电5G核心网上海省级节点建设顺利打通数据业务首呼和语音业务首呼，提前完成了广电5G首呼任务。

花几千“P图”的虚拟裙子，谁买谁是大怨种？
热点
最近在小红书上，发现时尚圈掀起了一股虚拟服装秀，不少时尚博主们晒出了自己赛博朋克的虚拟礼服照。

参与标准制定，中关村科金获信通院“护脸计划”突出贡献奖！
热点
近日，可信人脸应用守护计划（以下简称“护脸计划”）在线上成功召开了2022年度第一次全体成员大会。

财富

刷了几百块进去，得不到推流，准备放弃了吗？
资讯
打开美颜，大眼瘦脸，刘梅穿一身红裙，本就漂亮的她在镜头里显得更年轻了。53岁的刘梅从小嗓门儿清亮，喜欢唱歌，玩儿了一年直播，她也想当

Cocos宣布完成5000万美元B轮融资，投资方为建信信托
资讯
4月11日消息，日前，Cocos宣布完成5000万美元B轮融资，投资方为建信信托、GGV纪源资本、声网Agora等。据悉，本轮融资后，Cocos将借助资本的

一天50条动态招揽生意“反催收”“债闹”是逃废债
资讯
你听说过反催收债闹吗?北京商报记者注意到，最近有不少黑产已经盯上这个生意。一些所谓的债务咨询或债务管理专家，在微博、QQ、贴吧、抖音

微软又加强安全提醒：Win11系统将关闭内存完整性功能
资讯
从微软前几天公布的发展方向来看，安全在Win11接下来的更新升级中会越来越重要，微软会带来多项重磅安全功能更新，比如网络防钓鱼保护，这

三星高端机型将率先尝鲜AndroidUI5.0系统
资讯
据 SamMobile 报道，Android 13开发者预览版已经上线，谷歌Pixel机型可以更新尝鲜。值得注意的是，三星正在紧锣密鼓开发基于Android 13

三星将为Galaxy系列手机制造“独一无二”的芯片
资讯
近日，韩国媒体Inews24报道，三星正计划开发新一代芯片组。报道称，三星总裁和MX业务负责人TM Roh表示，三星将专门为Galaxy系列手机制造独

4800万像素！iPhone14系列后置主摄镜头曝光
资讯
据外媒最新消息称，今年要登场的iPhone 14系列中，Pro版本机型的后置主摄镜头会非常的夸张，传感器尺寸巨大。从曝光的数据来看，iPhone 1

曾是“家居十大质量黑榜”主角的板材巨头佳诺威申请获证监会受理
资讯
曾是家居十大质量黑榜主角的板材巨头佳诺威，品质问题未能阻止其向资本市场迈进的脚步。2022年4月6日，北京商报记者获悉，佳诺威集团股份有

六部门发文：推动文旅融合赋能乡村振兴
资讯
4月7日，文化和旅游部、教育部、自然资源部等六部门发布关于推动文化产业赋能乡村振兴的意见(以下简称《意见》)，提出文旅融合赋能是推动文

苹果的节奏晚了些？iOS16系统测试机出现活跃迹象
资讯
当前，iOS 15系统已经推进到15 4 x，从版本号来看，已经进入生命期中后段。事实上，按计划苹果会在6月份左右举办WWDC22大会(据说邀请函下

MORE+ 资讯

融资丨「泽森科工」获数千万元天使轮融资，高榕资本领投

融资丨「玻色量子」完成第三轮数千万元融资，海贝资本独家投资

融资丨「深维智信」完成近千万美元Pre-A轮融资，致力用真实数据驱动，打造销售赢单引擎

融资丨「Geeklamp」完成数百万元种子轮融资，国宏嘉信独家投资

融资丨「领骏科技」完成数千万元PreA+轮融资，在城市物流领域取得重大进展

如何把一碗菜叶子卖上天价？

“小蓝杯”让年轻人排队3小时，为何“小马杯”送礼也难讨欢心？

椰树傍上瑞幸，土得无法拒绝

合伙模式有瘾，名创优品难戒

活下去才有希望，餐饮人需要具备这些“反脆弱能力”

MORE+ 热点

无需训练，自动扩展的视觉Transformer来了

MasterGo怎么样好用吗？蓝湖MasterGo如何收费、服务怎么样？

本篇为互联网产品设计工具，产品原型设计软件MasterGo的介绍。

联通的移网质量不弱于电信，为什么业绩上却节节败退？

通信行业的竞争，随着三家2021年年度业绩的发布，可以很明朗的下一个结论——“此”消“彼”长的步伐越拉越大。

微信朋友圈十周年：有人重度依赖，也有人想逃离

作为日常生活中使用频率最频繁的社交软件，微信的每一个新功能，每一次变化都能引起我们的注意。

360打造“最强”核心安全大脑

当前，360的所有产品都集成了核心安全大脑。

谈谈让数据创造价值的4大核心要素

从收集数据到使其成为可指导操作的知识并形成对业务决策的影响。

MORE+ 焦点

时隔263天获批版号，中概股逆势上涨

这是自2021年7月22日以来，国家新闻出版署首次下发的游戏版号，总共时隔263天。在此次获批版号的游戏中，重点游戏包括百度的《进击的兔子》

中保研汽车技术研究试验中心发布7款车型测评结果

在中国保险行业协会的指导下，在中保研汽车技术研究院有限公司和通用技术中国汽车工程研究院股份有限公司的支持下，中保研汽车技术研究试验

机器人时代，座舱的人机交互将走向何方？

智能汽车是机器人的第一形态，对应的智能座舱也引领了机器人时代人机交互发展的新方向。历史上，每一次交互方式的改变，都重塑了智能设备的

研究公司：2021年全球电信市场资本支出同比增长9%

来自市场研究公司Dell& 39;Oro Group的最新报告显示，初步估算表明，2021年全球电信市场资本支出(包括无线和有线电信投资总和)按名义美元

为户外劳动者提供便利重庆已建成665座“劳动者港湾”

　　中新网重庆4月22日电 (韩璐王雪宇)记者22日从重庆市城市管理局获悉，2020年重庆市已建成“劳动者港湾”665座。今年，重庆还将继续建

沈阳警方侦破特大贩卖毒品案抓获88名涉毒违法犯罪嫌疑人

　　中新社沈阳4月22日电 (王景巍)沈阳市公安局22日发布消息，近日，在中国公安部和辽宁省公安厅的指导协调下，历经9个多月，沈阳市公安局

MORE+ 智能

耶路撒冷希伯来大学和巴伊兰大学就量子技术进行研究合作

小菲电子推出双USB-C快充充电器

前华为产品经理，搭上“米链”快车，素士科技冲刺电动牙刷第一股

统信桌面操作系统V20专业版正式发布新增一系列全新特性

铠侠宣布为第二代PCIe5.0SSD提供样品

一半盖泡面，一半挂闲鱼！电子纸平板或成最具潜力电子纸终端

年内五连涨！2022款欧拉好猫全系车型价格调整

Q-CTRL：量子计算算法成功率提高1000倍以上

韩媒：三星被限制旗下GalaxyS22手机游戏性能

人才缺口高达500万！人工智能行业“抢人大战”来了

精彩推送

无需训练，自动扩展的视觉Transformer来了

融资丨「深维智信」完成近千万美元Pre-A轮融资，致力用真实数据驱动，打造销售赢单引擎

融资丨「泽森科工」获数千万元天使轮融资，高榕资本领投

苹果最新专利曝光：屏下FaceID将在2024年出现

耶路撒冷希伯来大学和巴伊兰大学就量子技术进行研究合作

东南亚网约车巨头GoTo在印尼上市市值超300亿元

时隔263天获批版号，中概股逆势上涨

融资丨「Geeklamp」完成数百万元种子轮融资，国宏嘉信独家投资

本田大力投资电动汽车，未来10年将投资5万亿日元

融资丨「玻色量子」完成第三轮数千万元融资，海贝资本独家投资

爆料达人：微软为Xbox开发芯片尺寸更小

360打造“最强”核心安全大脑

微信朋友圈十周年：有人重度依赖，也有人想逃离

谈谈让数据创造价值的4大核心要素

联通的移网质量不弱于电信，为什么业绩上却节节败退？

无开孔、无刘海！苹果iPhone14新专利获批，或已开始试产

Intel18A工艺提前半年投产，最快2024年三季度登场

MasterGo怎么样好用吗？蓝湖MasterGo如何收费、服务怎么样？

融资丨「领骏科技」完成数千万元PreA+轮融资，在城市物流领域取得重大进展

花几千“P图”的虚拟裙子，谁买谁是大怨种？

合伙模式有瘾，名创优品难戒

中国广电经营分析系统二期项目开标！附体系建设汇总

如何把一碗菜叶子卖上天价？

“小蓝杯”让年轻人排队3小时，为何“小马杯”送礼也难讨欢心？

中国广电5G核心网上海节点提前完成广电5G首呼

椰树傍上瑞幸，土得无法拒绝

餐饮股大涨，但这不是真正的行情反转

这个书香节，我又上了当当的当

活下去才有希望，餐饮人需要具备这些“反脆弱能力”

囤货焦虑催火的不止冰柜

直面行业沉疴，长视频大破大立度寒冬

孔襄是谁

微信农场，第二个QQ秀？

版号已松绑，游戏未解冻

张朝阳为什么还不退休？

千亿“锂王”赣锋锂业，面临周期性大考？

爱奇艺修改分账规则，“网大”已不再是非主流

45款新发游戏版号藏着三条行业暗语

为什么知乎不缺钱但还要「双重上市」？

药品新零售三小巨头的苦与忧

参与标准制定，中关村科金获信通院“护脸计划”突出贡献奖！

虚拟数字人爆发式增长，第二个洛天依没有出现，为什么？

诚品书店都关了，我却在18线小城开了家年入2000万的实体书店

撬动万亿数字化服务市场，联想中国定下两大目标

阿里云盘能否革新网盘市场？

蕉下的招股书里，藏着一个成为Lululemon的美梦

知乎二次上市，“知识第一股”赴港求生

民航局印发《“十四五”民航适航发展专项规划》

民宿人被偷走的两年：逃离的血亏20万，留下的给房东打工，“死了五一涨价的心”

千亿美金的创业机会在哪儿? 投资人：娱乐科技谁能做到这些，我一定投

牛津大学最新调研：AI面临基准危机，NLP集中“攻关”推理测试

中国广电报送共计12项商标注册申请

狂奔与内卷并存，自嗨锅、莫小仙们如何寻找“破局之道”？

游戏版号重启发放，中概股的春天到了？

我国中等收入群体资产70%以上竟然是它

微盟的痛点与新机

区块链行业热门词汇，你知道几个？

刷了几百块进去，得不到推流，准备放弃了吗？

真正的猛男，敢于直面“粉色消费”

时代在变，万科AI审图，平均每年避免损失超3.1亿。

涨得整整齐齐，三大运营商的净增宽带用户都是从哪来的？

到底什么是相干光通信？

知识和信息传播时代：上游失责，中游失序，下游失智——我们需要走出新无知时代

Relation：探索Web3应用赋能，打造社交网络新范式

到了重新去讨论国产香水的时候了

考过就送9.9ETH起的NFT？顶级学府的加密课程越来越有意思了

定了！目标1000万！京东疯涨200%！字节加钱加人！国产VR销售爆棚，元宇宙终于要“开门”了？

斯坦福学生攻破两个约会软件！用GAN模型「女扮男装」骗过人脸识别系统

被阿里猛砸3.8亿，一副“眼镜”如何破局“元宇宙”？

这届00后，开始用存折了

从 2012-2021百款VR/AR硬件，看行业发展态势

200亿买下推特后，马斯克宣布推特已死

一年收购6家AR企业，Snap从社交到AR公司的逆袭之路

【新闻资讯】樊硕：人工智能为“数字中国”提速增效

经纬创投的数字科技投资布局

融资丨「云庐科技」完成近亿元A轮融资，广建科投资、基石基金联合投资

融资丨「FOODBOWL超级碗」完成天使轮、天使+轮融资，重新定义轻食

融资丨「恒普激光」完成数千万元A轮融资，同创伟业领投

腾讯游戏，站在十字路口

年入24亿，毛利率近60%，新消费终于跑出了一个不亏的“异类”

你和谷爱凌，就差100道MBTI测试题

趣链科技推出区块链破产管理平台，助力优化营商环境

长时间不更新的APP被谷歌清理：用户再也搜不到了

陌陌没落了

Nutanix把超融合变“没了”

一包方便面，难倒新消费

中亦科技：从“易维”服务到“亦维”产品

电子牵：会是电子签约市场发展的标准答案吗？

电子签约再进化：电子牵，小动作，大价值

瑞幸被椰树“带坏”了？

汇量科技：Mintegral一季度营收翻倍至超2亿美元

苦撑263天！游戏公司终于熬过「饥荒」，腾讯网易继续「断粮」……

酸奶红海如何破局？看看美国

Cocos宣布完成5000万美元B轮融资，投资方为建信信托

宋起柱检查中国广电5G北方大区节点，确保按期开网放号

科创50指数首次跌破1000点中航证券张郁峰：被低估了

为乔丹和麦当娜等体娱大佬定制夹克，这个品牌到底有何魔力？

艾瑞咨询：隐私计算卓越者（2022，中国市场）

首批45个游戏版号，厂商先海外再国内策略不变

一文解读消费者对元宇宙中新兴VR企业的兴趣和担忧