首页> 热点 >

挑战单卡单日训练BERT，ViT作者推荐

2023-01-03 12:05:37 来源：商业新知网

Pine 发自凹非寺量子位 | 公众号 QbitAI

单个GPU，只花一天时间，能把BERT训练成什么样？

(资料图片仅供参考)

现在，终于有研究人员做这件事了，在有限的计算条件之下看看语言模型的真实性能如何。

要知道在以往，大多数专业人员的关注点都在极端计算的条件下的语言模型性能。

但这样的语言训练模型环境，对很多研究人员和从业人员是不可能存在的。

因此这个单天单个GPU的挑战，就有网友称是一个最希望看到的基准。

连ViT作者，谷歌大脑研究员Lucas Beyer都发文推荐，称这是一个令人耳目一新的转变。

具体的过程和结果如何，一起来看看～

挑战过程

这次研究的目标也很明确，就是反其道行之：缩小语言训练模型的算力，在有限的计算量的情况下如何达到BERT的性能水平。

既然要缩小计算量，那第一步肯定是对模型作出一些限定。

这也还是之前提到的，限定时间和GPU个数：单天单个GPU。

关于GPU，研究人员分别选取了3个进行测试，即rtx2080ti、rtxa4000和rtxa6000，每个单元有4个CPU核和32GB内存。

在限定计算量之后，就要对模型的其他参数进行一些调整，以进一步对BERT的实际适用性进行评估。

这些调整包括初始数据设置、模型架构、训练以及数据集的改进。

并且在调整的过程中，整体基调都是围绕“实际使用”进行的，避免跳转到专业的设置，为此，研究人员将所有内容都保持在PyTorch框架的实现级别上。

先来说说初始数据设置，这部分可以简单概括为以下几点：

将标记化的数据打包成长度为128的随机序列，不相关的片段用

分割；

删除< cls > 标记，因为在训练前训练中加入它并没有对性能产生多大影响；

将序列长度为64到96微小批量累积到大批量再处理。

然后是对架构的修改，下图显示了不同模型在随着token数量的增加MLM任务损失的变化。

结果很显然，一个模型损失的衰减很大程度地取决于模型的大小，而不是模型的类型。

并且，因为每个token的性能与模型大小之间的关系紧密耦合，若想通过改变Transformer模型的大小和类型来获得巨大性能增益是不太可能的。

不过对于同大小的所有模型，每个梯度效率是几乎保持不变的，因此可以在保证模型大小不变的情况下，选择能够通过快速搜索加速计算的架构。

具体的优化和其他调整如下：

减少注意力头的数量来降低梯度成本：禁用所有QKV偏差；

禁用所有线性层偏差，通过加速梯度计算，不会对模型大小产生明显影响；

实现比例正弦位置嵌入，相较于学习或非比例正弦嵌入有增量收益；

LN的预标准化比后LN更有益；

去除非线性头部并无影响。

接下来便要对训练进行设置，具体也就不再赘述，直接来看相关调整：

优化器依旧是Adam；

设定Learning Rate计划和批量大小；

丢掉Dropout环节。（因为Dropout会导致每秒更新的净减少）

而在数据集方面，研究团队采用了两种基于数据的途径来更好地缩小规模，分别是以各种方式过滤、处理或排序现有的数据和交换数据源，具体可以看下表。

性能接近最初的BERT

在调整完各种参数后，这个单卡一天的BERT性能到底如何？直接看看最终的数据！

在下游性能评估时是通过GLUE来进行的，下表能够看到在3个不同显卡上的得分，非常接近最初的BERT。

而当模型训练计算量为16倍时，即（2天，在8个GPU），依旧是一样的数据和设置，最终得到的结果比最初的BERT提高了很多，达到了RoBERTa的性能水平。

关键词：研究人员语言训练

精彩阅读

挑战单卡单日训练BERT，ViT作者推荐

热点

单个GPU，只花一天时间，能把BERT训练成什么样？

寒潮来袭！2022年科技巨头市值蒸发近3万亿，马斯克身家缩水一半

热点

回望2022年，由于股市下滑，许多科技公司放缓了长达十年的持续增长，科技界的亿万富翁们损失了数千亿美元。

快消息！韧性生长，笃行致远∣探迹科技2022年度回顾

热点

岁月不居，时节如流，2022年是包含变数的一年，内外形势错综复杂，不确定性似乎笼罩着整个中国经济。

新动态：员工抗议工资涨太少，国内某运营商：明年直接全员加薪1000！

热点

近日一家电信公司的董事长发了一封内部信，信中表示要给员工全员加薪1000元。

焦点消息！AI渗透短视频赛道：只需一个提示词，文本影像画外音一键搞定

热点

生成式AI，开始拍视频。

2023将至，Bengio等大佬年度展望！懂理性的AI模型要来了？

热点

主动学习系统不依赖于一组固定的标记数据，而是可以寻找新的信息和示例，以帮助它更好地理解它试图解决的问题。

全球简讯:科普 | GameFi成为未来重要赛道之一，究竟有何优势？

热点

GameFi的爆火是区块链在项目创新和概念创新方面具有先天优势的体现。

焦点速看：火石创始人2023新年致辞：奋斗创造奇迹

热点

2023年，这一年会是一个不平凡的新开始，但这一年依旧会很难。

淘丁集团：人工智能时代即将到来

热点

人工智能在不同场景应用的案例越来越多，在你不知不觉间，人工智能已经逐渐走进我们的生活。

环球今日报丨Nreal达成10万台AR眼镜量产；Meta Quest上线新年促销活动

热点

如果需要，手指装置可以佩戴在用户手指的指节上，指节之间，和或用户手指的其他部分。

财富

电脑怎样设置网速最快？电脑网速不稳定该怎么办？

资讯

1、首先是修改设置，将电脑中对于网速的设置改为最优的选择，方法是鼠标右键一下桌面上的网络，进入到属性、配置、高级、连接速度和双工模

一招修复硬盘无法格式化？移动硬盘不小心格式化了怎么恢复？

资讯

1、把移动硬盘接在电脑上，点击这台电脑2、找到我们的移动硬盘图标，点击鼠标右键3、在弹出菜单中选择格式化4、会弹出一个格式化的菜单5、

msn现在还能用吗？msn是什么意思的缩写？

资讯

MSN全称Microsoft Service Network，是微软公司(Microsoft)旗下的门户网站。主要作用是提供搜索、娱乐、健康、财务管理、汽车、时尚等服

木地板地暖不热怎么办？地暖不热一般怎么解决？

资讯

1、由于管道压力不足导致地热不热，可以联系物业或地暖公司解决。2、由于管道内有空气导致地热不热，需打开放气阀，将气排出。3、由于地热

配置交换机详细教程是什么？监控交换机配置步骤是什么？

资讯

第1步:单击开始按钮，在程序菜单的附件选项中单击超级终端，弹出界面。第2步:双击Hypertrm图标，弹出对话框。这个对话框是用来对立一个新的

支付宝如何关闭免密支付？取消免密设置？

资讯

1、打开【支付宝APP】2、右下角切换为【我的】功能菜单3、点击右上角【设置】按钮4、点击【支付设置】5、点击【免密支付自动扣款】6、找到

腾达n300路由器怎么设置？腾达路由器恢复出厂设置？

资讯

我们首先看下腾达无线路由器的正反面同样，我们可以看到路由器的登陆地址(192 168 0 1)及无线名称(SSID后面就是它的无线名称)手机找到China

宽带网速慢怎么办？wifi网络不稳定怎么办？

资讯

首先打开手机桌面上的【设置】，手动下滑找到【通用】，下滑到底部，点击【还原】这一栏，选择【还原网络设置】，输入你的手机密码，在弹出

鼠标电池更换教程是什么？罗技鼠标怎么拆开？

资讯

步骤1、准备好需要拆卸的鼠标及相关工具。步骤2、下面介绍一下鼠标怎么拆开，找到鼠标上的固定螺丝(十字花螺丝)，通常1至3颗，并且比较隐蔽

ultraiso不激活能用吗？ultraiso装系统教程是什么？

资讯

1、下载安装UltraISO软碟通，在弹出的对话框中选择下一步开始安装;2、选择对话框的运行UltraISO选项，然后点击完成按钮;3、开始注册，选择

MORE+ 资讯

MORE+ 热点

挑战单卡单日训练BERT，ViT作者推荐

寒潮来袭！2022年科技巨头市值蒸发近3万亿，马斯克身家缩水一半

回望2022年，由于股市下滑，许多科技公司放缓了长达十年的持续增长，科技界的亿万富翁们损失了数千亿美元。

快消息！韧性生长，笃行致远∣探迹科技2022年度回顾

岁月不居，时节如流，2022年是包含变数的一年，内外形势错综复杂，不确定性似乎笼罩着整个中国经济。

新动态：员工抗议工资涨太少，国内某运营商：明年直接全员加薪1000！

近日一家电信公司的董事长发了一封内部信，信中表示要给员工全员加薪1000元。

焦点消息！AI渗透短视频赛道：只需一个提示词，文本影像画外音一键搞定

生成式AI，开始拍视频。

2023将至，Bengio等大佬年度展望！懂理性的AI模型要来了？

主动学习系统不依赖于一组固定的标记数据，而是可以寻找新的信息和示例，以帮助它更好地理解它试图解决的问题。

挑战单卡单日训练BERT，ViT作者推荐

Pine 发自 凹非寺 量子位 | 公众号 QbitAI

挑战过程

性能接近最初的BERT

Pine 发自凹非寺量子位 | 公众号 QbitAI