单张GPU搞定GPT-3超参数!先训练小模型,再“一键迁移” | 已开源

2022-03-14 10:41:24   来源:商业新知网

“一个GPU没法训练GPT-3,更别提在上面调整超参数了。”

不不不,现在 情况有变 ——

在单个GPU上 完全可以调 整大规模模型的超参数。

怎么说?

原来有人发现了一种新的调参方法,无论模型规模怎么变化,所得的最优超参数都能保持性能稳定。

由此一来,我们可以 先训练一个小版本的模型 ,在上面间接 调整好超参 ,然后以零样本的方式 直接将它们复制到全尺寸模型上 ,就能获得相当不错的性能。

这对手里GPU资源不够的人来说简直不要太好了吧。

目前,相关帖子也在Reddit上引起热议,得到了300+的点赞支持。

在一个GPU上调参GPT-3大模型

方法名叫 muP (Maximal Update Parametrization) ,作者分别来自 微软和OpenAI 。

想法很简单,利用的是他们在之前的工作中发现的一个叫做µP的特殊参数化思路:

窄神经网络和宽神经网络共享同一组最优超参数,即使宽度无限大(width->∞)时也一样。

具体原理可以参见论文《Feature Learning in Infinite-Width Neural Networks》。

可共享的超参数包括学习率learning rate、learning rate schedule、initialization、parameter multipliers……甚至可以单独针对每个参数张量。

作者在宽度高达4096的 Transformer以及ResNet 上验证了这一结论。

因此,资源匮乏的炼丹er就可以在单张GPU上对一个小版本的GPT-3模型进行超参数调整:

如果在这个小模型上得到的参数接近最优,那么在大模型上也可以得到一样的结果。

ps. 这种调参方式又被命名为“ µ迁移 (µTransfer) ”。

具体效果如何?

作者训练了一个只有 4000万 参数规模的小型GPT-3,它小到可以直接跑在一张GPU上。

然后把它的超参数“µ迁移”到一个有 67亿 参数的大规模GPT-3上,结果发现它的 性能和原始的GPT-3完全相当 ——尽管原GPT-3的参数规模还是它的两倍!

而这一调整成本只占整个预训练成本的7%。

由于模型规模增大,直接调整小型模型的成本仍大致相同,如果用该方式来调参175亿规模的GPT-3,其成本可能最多只有总预训练成本的0.3%。

好了,这时你可能会问:能不能只缩小模型的宽度呢?

作者表示,对于“non-width stuff”,没有理论保证。

不过好消息是,他们在preLN Transformer的合理范围内对depth、batch size、sequence length和timestep的迁移效果进行了测试。

其中,他们将BERT-base和BERT-large在宽度和深度上缩小到同样的规模, 然后同时进行超参数调整后发现:

相比已经调优的megatron BERT基线,两者的性能都得到了改善,尤其是 BERT-large提升更大 。

由此也总结出一个道理:

迁移后的模型规模越大,收益越高。

所以作者还调侃道,虽然我们没有测试175亿规模的GPT-3,但 保证结果能让你“流口水” 。

说了这么多,到底如何实现?

下表概括了如何通过fan-in或fan-out调整你的模型的initialization和learning rate。

其中粉色文本为µP,括号中的灰色文本为pytorch默认值。

当然,如果你不想自己手动操作,作者也 开源了Pytorch实现 ,通过

pip install mup

就可以应用到你的模型中。

关于作者

一作名叫Greg Yang,微软高级研究员。

通讯作者为微软研究院深度学习技术中心合伙人研究经理、IEEE Fellow高剑峰。

还有两位华人作者分别为来自微软的Liu Xiaodong (北京邮电大学校友) 和Chen Weizhu (已在微软工作16年) 。

他们的这篇成果已被NeurIPS 2021接收。

关键词: 神经网络 技术中心

上一篇:
下一篇:
精彩阅读

单张GPU搞定GPT-3超参数!先训练小模型,再“一键迁移” | 已开源

热点

一个GPU没法训练GPT-3,更别提在上面调整超参数了。

黑客大神用什么杀毒?Windows自带的就够,只是加了亿点微小的强化

热点

这年头Windows电脑还需要杀毒软件吗?现在搜索这个问题,会发现很多建议都是“裸奔就行”。

元宇宙+教育③丨基于元宇宙的智能在线学习环境构建

热点

当代学习环境正在转向智慧、非正式、整合、互动和创新。智能学习环境需要支持学生个性化学习、终身学习和可持续发展。

虎扑网友又闯祸,只因一句口嗨?女主播:裙子我自己撩的!

热点

曾有一位有过伟大成就的人物这样引用心理学家弗洛伊德的发言:“性是人最原始的驱动力”。

马云预言将要实现?未来20年,50%工作逐渐消失,你是否在其中呢

热点

其实,即使未来将会有大批职业被人工智能所取缔,具有人类特质的工作也永远不会消失。

互联网新生态战争的第一战:从改名打响

热点

“元宇宙”的概念什么时候能真正实现?没有人知道。但这个被众人看好的科技互联网未来形态的行业战争,已经打响了。

数字时代 把水稻种到“云端”

热点

近些年来,我国数字经济呈现飞速发展的态势,数字经济规模连续多年位居世界第二。

马斯克“响应”梁建章

热点

面对人口出生率可能赶不上死亡率的可怕现实,马斯克早已向外界亮明自己的主张——鼓励生育。

最年轻图灵奖得主:计算机是数学好的女性的完美学科

热点

这位最年轻的图灵奖得主观察到,机器学习和大数据促成了世界范围内的权力转移。

这部豆瓣8.3分的美剧,讲出了元宇宙一些不怎么靠谱的地方 | 葡萄视点

热点

人们对于元宇宙终极应用的那些畅想里,“像《头号玩家》一样的体验”是一个很典型的方向。

财富

50亿元!闻泰科技向境外特定客户正式出货

资讯

今日,国内知名果链公司闻泰科技发布一份《关于产品集成业务向境外特定客户正式出货的公告》。公告中提到,公司的产品集成业务与境外特定客

三星高管:希望在今年上半年结束前取代苹果

资讯

据印度经济时报报道,韩国智能手机巨头三星的一位高管表示,凭借其最新推出的高端设备,三星希望在今年上半年结束前取代苹果,在高端手机领

锐科激光:2021年净利润同比增长60.17%

资讯

光纤激光器供应商武汉锐科光纤激光技术股份有限公司发布了2021年度业绩快报。报告显示,2021年实现营收34 10亿元,同比增长47 18%;净利润4

销量首破百万!小牛电动2021年营收37.05亿元

资讯

近日,小牛电动发布了2021年第四季度和全年财务业绩报告。报告显示,小牛电动2021年全年营业收入37 05亿元,同比增长51 6%;净收入2 258亿元

发布会后三小时,苹果MacStudio主机推迟发货日期

资讯

在北京时间 3 月 9 日凌晨 2 点的高能传送春季发布会后不久,所有 Mac Studio 机型都在数小时内被推迟了发货日期。Apple Insider

董明珠回应退休传闻:现在不是考虑这个事的时候

资讯

据央视财经 报道,今晚董明珠作为全国人大代表、格力电器董事长兼总裁,接受了央视的采访。对于是否考虑退休生活,董明珠回应称:没考虑,

总预算91659.00万元北京联通启动总承包集中采购项目招标

资讯

北京联通日前启动综合接入(大客户接入、传送网、宽带接入、WLAN等)总承包集中采购项目招标,项目总预算金额为91659 00万元。公告显示,项目

2021年中国联通北京内网安全基础设施增补工程中标结果公布

资讯

来自联通官方消息显示,2021年中国联通北京内网安全基础设施增补工程招标结果公布,启明星辰、天融信、上海观安和奇安信四家企业入围。公告

按年算账,多退少补!2021年个税年度汇算开始啦

资讯

动动手指就有钱入账?3月1日至6月30日,迎来2021年度个人所得税综合所得年度汇算。简单来说,就是在平时已预缴税款的基础上,按年算账,多退

排队8个月,惠柏新材创业板IPO之路走得有些缓慢

资讯

相比起同期受理企业,惠柏新材料科技(上海)股份有限公司(以下简称惠柏新材)的创业板IPO之路走得有些缓慢,排队8个月,公司近期对外披露了一

黑客大神用什么杀毒?Windows自带的就够,只是加了亿点微小的强化

这年头Windows电脑还需要杀毒软件吗?现在搜索这个问题,会发现很多建议都是“裸奔就行”。

元宇宙+教育③丨基于元宇宙的智能在线学习环境构建

当代学习环境正在转向智慧、非正式、整合、互动和创新。智能学习环境需要支持学生个性化学习、终身学习和可持续发展。

虎扑网友又闯祸,只因一句口嗨?女主播:裙子我自己撩的!

曾有一位有过伟大成就的人物这样引用心理学家弗洛伊德的发言:“性是人最原始的驱动力”。

马云预言将要实现?未来20年,50%工作逐渐消失,你是否在其中呢

其实,即使未来将会有大批职业被人工智能所取缔,具有人类特质的工作也永远不会消失。

互联网新生态战争的第一战:从改名打响

“元宇宙”的概念什么时候能真正实现?没有人知道。但这个被众人看好的科技互联网未来形态的行业战争,已经打响了。

为户外劳动者提供便利 重庆已建成665座“劳动者港湾”

  中新网重庆4月22日电 (韩璐 王雪宇)记者22日从重庆市城市管理局获悉,2020年重庆市已建成“劳动者港湾”665座。今年,重庆还将继续建

沈阳警方侦破特大贩卖毒品案 抓获88名涉毒违法犯罪嫌疑人

  中新社沈阳4月22日电 (王景巍)沈阳市公安局22日发布消息,近日,在中国公安部和辽宁省公安厅的指导协调下,历经9个多月,沈阳市公安局

上海警方侦破特大制售假普洱茶案 市场价值高达18亿元

  中新网上海4月22日电 (记者 李姝徵)记者22日从上海警方获悉,2021年3月,上海警方全链条侦破一起销售假冒知名品牌普洱茶案,捣毁制售

西安强化知识产权司法保护 商标权案件占比高

  中新网西安4月22日电 (记者 张一辰)在世界知识产权日即将到来之际,西安市中级人民法院(以下简称:西安中院)22日召开新闻发布会,发

今年5月至明年2月底 江西4A级及以上景区对全国学子免门票

  中新网南昌4月22日电 (记者 李韵涵)记者22日从“红五月·嘉游赣”江西五一假日旅游工作媒体吹风会上获悉,2021年5月1日至2022年2月28

福州乡村公益图书馆:图书“接地气” 门口即是农田

  中新网福州4月22日电 (叶秋云 曾路淇)世界读书日即将来临之际,驾车五十余分钟,记者来到距离福建省福州市30多公里的闽侯县白沙镇马