首页> 热点 >

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

2022-03-23 11:37:37 来源：商业新知网

来源 | 新智元

【导读】 ImageNet排行榜又双叒叕被刷新啦！不过这回，新霸主谷歌没有提出新模型，只靠微调「几个」模型就做到了第一，论文通篇都是实验分析，这也引起了网友的争议：全靠财大气粗！

最近，谷歌又靠着强大的计算资源豪横了一把，而且还顺手捎上了一位Meta AI的朋友。

不得不说，这两个「冤家」的合作可不多见。

论文链接：https://arxiv.org/abs/2203.05482

研究团队提出了一种称为「模型汤」的概念，通过在大型预训练模型下使用不同的超参数配置进行微调，然后再把权重取平均。

实验结果证明了，这种简单的方法通常都能够提升模型的准确率和稳健性。

一般来说，想获得一个性能最佳的模型需要两步：

使用不同的超参数训练多个模型选择在验证集上效果最好的模型

但这种方法产生的单个模型有一个致命缺陷：运气成分很大，非常容易陷入局部最优点，导致性能并非全局最优。

所以另一个常用策略是模型集成（ensemble），但集成后的模型还是本质上还是多个模型，所以同一个输入需要推理多次，推理成本更高。

而模型汤通过对模型权重进行平均，最后得到的是一个模型，则可以在不产生任何额外推理或内存成本的情况下提升性能。

当然了，你可能在想，模型方法这么简单，怎么Google就敢把论文发出来？

Method部分只占了半页，文章的通篇基本全是实验，也就是说Google做了一件别人都没做到的事：用大量的计算资源，做大量的实验，来证明这个简单的方法就是有效的。

并且模型还刷新了ImageNet 1K的新纪录：90.94%。

所以对高校的研究人员来说，这篇文章可能没有太大的学术价值，完全就是实验科学。但对于有钱、有资源的大公司来说，性能强就够了！

模型汤（Model Soup）名字的灵感来源可能来自「斐波那契例汤」，具体做法是把昨天的和前天剩下的汤加热后混合，得到就是今天新鲜的「斐波那契例汤」。

模型汤把昨天的多个模型加热一下，就成了今天新鲜的SOTA模型了。

新瓶装旧酒

CV模型的常见开发模式就是：有计算资源的大公司把模型预训练好，其他研究人员在这基础上，针对自己特定的下游任务进行微调。

在单个模型的情况下，性能可能并非最优，所以另一个常用的提升性能方法就是集成（ensemble）：使用不同的超参数，训练多个模型，然后将这些模型的输出结果组合起来，比如用投票的方式，选出多个模型预测一致的结果作为最终输出。

集成模型虽说可以提升模型的性能，但缺点也显而易见：同一个输入需要预测多次，推理性能显著下降，必须得增大显存、增加显卡或者等待更长的推理时间。

Google提出将多个微调后的模型进行权重平均化，而非选择在验证集上达到最高精度的单个模型，最终产生的新模型就称为模型汤。

因为正常训练的时候也需要训练多个模型，所以模型汤并没有增加训练成本。并且模型汤也是单模型，所以也没有增加推理成本。

其实之前就有研究结果表明，沿着单一训练轨迹（single training trajectory）的权重平均化能够提高随机初始化训练模型的性能。

模型汤则是将权重平均化的有效性扩展到了微调的背景下。

权重平均化的策略也有很多，论文中给了3种常用的方法：均匀汤、贪婪汤、学习汤。

均匀汤（Uniform soup）最简单，不同模型权重直接求平均即可。

贪婪汤则是通过依次添加模型作为汤中的潜在成分（potential ingredient）来构建的，只有当模型在预留的验证集上的性能提高时，才将其留在模型汤中。

在运行算法之前，先按照验证集准确性的递减顺序对模型进行排序，所以贪婪汤模型不会比验证集上最好的单个模型差。

学习汤则是通过将各个模型在模型汤中的权重作为可学习的参数。

性能强就是王道

虽说模型汤的想法很简单，但这篇论文的重点并非是方法，而是实验。

在实验部分，研究人员探索了在对各种模型进行微调时对模型汤的应用。微调的主要模型是CLIP和ALIGN模型，用图像-文本对的对比监督进行预训练，在JFT-3B上预训练的ViT-G/14模型，以及文本分类的Transformer模型。实验主要使用的是CLIP ViT-B/32模型。

微调是端到端的，也就是所有的参数都可修改，这种方式往往比只训练最后的线性层有更高的准确性。

在微调之前，实验采用两种不同的方法来初始化最后的线性层。第一种方法是从线性探针（linear probe, LP）初始化模型。第二种方法使用zero-shot初始化，例如，使用CLIP或ALIGN的文本塔产生的分类器作为初始化。

微调使用的数据集为ImageNet。实验中还对五个自然分布shift进行评估：ImageNetV2，ImageNet-R, ImageNet-Sketch, ObjectNet, 和ImageNet-A。

由于官方的ImageNet验证集被用作测试集，因此实验中使用大约2%的ImageNet训练集作为构建贪婪的汤的保留验证集。

实验结果对比了汤的策略，可以看到贪婪汤需要更少的模型就能达到与在保留的验证集上选择最佳个体模型相同的精度。X轴为超参数随机搜索中所考虑的模型数量，Y轴为各种模型选择方法的准确率。所有的方法在推理过程中都需要相同数量的训练和计算成本。

对于任何数量的模型，贪婪汤在ImageNet和分布外测试集上都优于最佳单一模型；贪婪汤在ImageNet上优于均匀汤，在分布外则与之相当。Logit集成在ImageNet上比贪婪汤好，但在分布外更差。

贪婪汤比ViT-G/14在JFT-3B上预训练并在ImageNet上微调后得到的最好的单个模型在分布内和分布外的情况下的性能都有所提升。

为了测试通过模型汤获得的模型性能提升是否可以扩展到图像分类以外的领域，研究人员还对NLP任务进行了实验。研究人员在四个文本分类任务上对BERT和T5模型进行了微调，这些任务来自于GLUE基准：MRPC，RTE，CoLA和SST-2。实验结果虽然改进没有图像分类中那么明显，但贪婪汤在许多情况下可以比最好的单模型性能更好。

有意义吗？

大部分从事AI模型的研究人员看完论文的内心应该都是：就这？

论文一出，在知乎上也有论文的相关讨论。

有网友表示，这种论文没有意义，全靠资源堆砌，验证了一个小idea罢了。之前的模型也有相似的idea，并且论文也缺乏对神经网络的理论分析。

不过凡事都有两面性，网友@昭昭不糟糟则表示，sota只是论文的性能体现，文章大量的实验产生的结论还是比较具有启发性的，简单有效即是好idea！

网友@战斗系牧师称这是个极具谷歌风格的工作，思路不难想到，但Google胜在推理速度不变、且对问题的解释也很到位，实验充足（对于穷研究人员来说可能没办法复现）。确实有很多值得学习的地方。并且模型汤也更加环保，没有把训练后的模型直接扔掉，而是利用起来，不至于浪费电。

网友@西红柿牛腩分析称：「现在ImageNet刷榜的模型，10亿参数不嫌少，100亿参数不嫌多。而且Google、Facebook这些有钱的主，动不动就是1000块显卡起步，不但用Conv+Transformer，还用JFT-3B作弊。然而，要是用1000层的ResNet达到了91%的Top 1，那就是时代的进步了。」

最后还调侃说：「假如让我刷到92% Top 1，半夜都会笑醒，一年的KPI都达到了。」

关键词：研究人员

上一篇：
下一篇：

精彩阅读

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸
热点
最近，谷歌又靠着强大的计算资源豪横了一把，而且还顺手捎上了一位MetaAI的朋友。

电子化考勤管理系统，疫情期间居家办公也能正常考勤！
热点
员工考勤管理涉及到员工的工资绩效，也是财务核算员工支出的重要基础数据。

这个赛车AI不再只图一时爽，学会了考虑长远策略
热点
玩赛车游戏的AI们现在已经不仅仅是图快图爽了。

智算赛道，水大鱼大：取势，明道，优术
热点
历史不会重复，但却常常押韵。

CVPR 2022 中科院、腾讯提出LAS-AT，利用“可学习攻击策略”进行“对抗训练”
热点
由中科院，腾讯AI实验室以及香港中文大学联合出品的硬核对抗训练的新作LAS-AT发表于CVPR2022。

“热钱”洒向数据库，耐力比拼进行时
热点
道阻且艰，行则将至。

数实相融浪潮信息策马扬鞭奔向“绿色未来”
热点
计算力就是生产力，这无疑是人类社会发展过程当中因技术创新而带来的时代变化。

钉钉开始直面商业化
热点
钉钉在今天用线上的方式举办了2022年最重要的发布会——“科技向实万物生长”2022钉钉发布会。

工信部：截至2月底，IPTV总用户数达3.57亿户
热点
3月21日，工信部运行监测协调局发布2022年1—2月份通信业经济运行情况。

四家运营商薪资福利大对比，谁能更胜一筹？
热点
中国移动、中国电信、中国联通、中国铁塔纷纷携下属子公司和专业机构，启动2022年度校园招聘活动。

财富

315曝光台：美团、去哪儿相继被曝出大数据“杀熟”
资讯
近日，315曝光台上，美团和去哪儿相继被曝出大数据杀熟。今年3月3日，一位匿名用户在黑猫平台上对在线旅游平台去哪儿发起投诉，他已经在

大数据时代，如何保护个人信息？
资讯
一、大数据时代个人隐私数据泄露已成为全球重大的社会问题随着信息技术的飞速发展，数据化生存已逐渐成为人类社会运行的常态，数据在公共管

3月LPR报价公布：1年期3.7%5年期以上4.6%
资讯
3月LPR(贷款市场报价利率)如期公布。3月21日，中国人民银行授权全国银行间同业拆借中心公布，2022年3月21日LPR)：1年期为3 7%，5年期以上为

郭明錤：iPhone14系列“新瓶旧酒”是一种营销策略
资讯
郭明錤认为，iPhone 14系列新瓶旧酒的做法，其实是一种营销策略和财务导向的决策。3月20日消息，天风国际分析师郭明錤在社交媒体表示，iPh

猝不及防！比亚迪、小鹏等车企宣布涨价
资讯
这波新能源汽车涨价潮让人猝不及防。比亚迪、小鹏等车企宣布涨价之后，昨晚也在官网宣布，将对在售车型价格进行调整，综合补贴后售价上调幅

特斯拉推送四大新功能：空调功能更新、新增语言支持
资讯
近日，特斯拉推送了2022 8 2版本OTA升级，带来了四大新功能，包括空调功能更新、更加精准的预计充电时间、正在进行的通话更新、以及新增语

企业：做电商专供家电是为了渠道差异化
资讯
在嗅觉敏锐的华强北商人眼中，食品正在成为这里的新标签。3月2日，时代财经来到深圳华强北实地探访发现，华强北的几大主要商场如今都已有了

做不做高端，厨电企业摁下“高端键”背后有何深意？
资讯
中国人对厨房和烹饪的关注历史是源远流长的，一张餐桌的背后演绎着国民经济的发展脉络，也展示着居民生活水平的不断提高，而对于厨电企业而

清洁电器行业又迎来新品类，如何布局？
资讯
继洗地机之后，清洁电器行业又迎来了一个新品类。近期，中国家电网记者注意到了某品牌推出了一款名为多功能蒸汽清洁器的产品，据了解该产品

废旧家电回收体系亟待完善
资讯
我国家电行业已从增量市场转为存量市场，家电保有量已超过21亿台。如今我国家电需求以换新为主，每销售一台家电新品就要处理一台废旧电器，

MORE+ 资讯

刘润：你们不懂罗永浩

微博接入TopHolder，数字藏品走向社交化？

中概股暴跌后的大厂员工：230万缩水至23万、和家人一起“开源节流”

首发丨「深视科技」完成千万美元A轮融资，创世伙伴、苏高新集团融享创投领投

降价、降估值，新茶饮「降温」

奶茶卷到美国，卷入TikTok

小米的高端化，不能只靠米粉

一键关闭，再见了，烦人的APP广告

餐饮探店营销乱象频生，是流量密码还是饮鸩止渴？

上海买菜实录：有人在凌晨12点鏖战，有人在早上6点激情下单

MORE+ 热点

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

电子化考勤管理系统，疫情期间居家办公也能正常考勤！

员工考勤管理涉及到员工的工资绩效，也是财务核算员工支出的重要基础数据。

这个赛车AI不再只图一时爽，学会了考虑长远策略

玩赛车游戏的AI们现在已经不仅仅是图快图爽了。

智算赛道，水大鱼大：取势，明道，优术

历史不会重复，但却常常押韵。

CVPR 2022 中科院、腾讯提出LAS-AT，利用“可学习攻击策略”进行“对抗训练”

由中科院，腾讯AI实验室以及香港中文大学联合出品的硬核对抗训练的新作LAS-AT发表于CVPR2022。

“热钱”洒向数据库，耐力比拼进行时

道阻且艰，行则将至。

MORE+ 焦点

为户外劳动者提供便利重庆已建成665座“劳动者港湾”

　　中新网重庆4月22日电 (韩璐王雪宇)记者22日从重庆市城市管理局获悉，2020年重庆市已建成“劳动者港湾”665座。今年，重庆还将继续建

沈阳警方侦破特大贩卖毒品案抓获88名涉毒违法犯罪嫌疑人

　　中新社沈阳4月22日电 (王景巍)沈阳市公安局22日发布消息，近日，在中国公安部和辽宁省公安厅的指导协调下，历经9个多月，沈阳市公安局

上海警方侦破特大制售假普洱茶案市场价值高达18亿元

　　中新网上海4月22日电 (记者李姝徵)记者22日从上海警方获悉，2021年3月，上海警方全链条侦破一起销售假冒知名品牌普洱茶案，捣毁制售

西安强化知识产权司法保护商标权案件占比高

　　中新网西安4月22日电 (记者张一辰)在世界知识产权日即将到来之际，西安市中级人民法院(以下简称：西安中院)22日召开新闻发布会，发

今年5月至明年2月底江西4A级及以上景区对全国学子免门票

　　中新网南昌4月22日电 (记者李韵涵)记者22日从“红五月·嘉游赣”江西五一假日旅游工作媒体吹风会上获悉，2021年5月1日至2022年2月28

福州乡村公益图书馆：图书“接地气” 门口即是农田

　　中新网福州4月22日电 (叶秋云曾路淇)世界读书日即将来临之际，驾车五十余分钟，记者来到距离福建省福州市30多公里的闽侯县白沙镇马

MORE+ 智能

年内五连涨！2022款欧拉好猫全系车型价格调整

Q-CTRL：量子计算算法成功率提高1000倍以上

韩媒：三星被限制旗下GalaxyS22手机游戏性能

人才缺口高达500万！人工智能行业“抢人大战”来了

专家警告：未来机器学习可能被专业的攻击者利用

联发科：天玑9000终端Q1上市能效提升37%

微软发布补丁 CVE-2022-21907的概念验证代码也被发布

Pixel Buds A获固件更新：将尝试改善低音和高音

西南五省份推进政务服务跨省通办涉及户籍证明、电子监控违法处理

0糖0卡0添加到底是什么概念？这里面有不少门道

精彩推送

谷歌「模型汤」靠微调屠了ImageNet的榜！方法竟然只有半页纸

刘润：你们不懂罗永浩

这个赛车AI不再只图一时爽，学会了考虑长远策略

CVPR 2022 中科院、腾讯提出LAS-AT，利用“可学习攻击策略”进行“对抗训练”

智算赛道，水大鱼大：取势，明道，优术

电子化考勤管理系统，疫情期间居家办公也能正常考勤！

“热钱”洒向数据库，耐力比拼进行时

数实相融浪潮信息策马扬鞭奔向“绿色未来”

四家运营商薪资福利大对比，谁能更胜一筹？

彻底告别“个性化体验”，隐私和体验哪个重要？

工信部：截至2月底，IPTV总用户数达3.57亿户

钉钉开始直面商业化

中概股暴跌后的大厂员工：230万缩水至23万、和家人一起“开源节流”

微博接入TopHolder，数字藏品走向社交化？

首发丨「深视科技」完成千万美元A轮融资，创世伙伴、苏高新集团融享创投领投

降价、降估值，新茶饮「降温」

餐饮探店营销乱象频生，是流量密码还是饮鸩止渴？

一键关闭，再见了，烦人的APP广告

小米的高端化，不能只靠米粉

奶茶卷到美国，卷入TikTok

上海买菜实录：有人在凌晨12点鏖战，有人在早上6点激情下单

内卷的智能投影，奋力抓住年轻人

“春天的蔬菜100元一斤，才知道原来我只配吃肉”

一娃一屋，管家伴读，高档酒店「网课房」谁去住？

融资丨「小鸟健康」完成两轮近亿元融资

融资丨「普立蒙」完成近亿元新一轮融资，雅惠投资领投

海外创投丨社交APP「WeAre8」完成1500万美元B轮融资，Channel 4 Ventures、Centerstone Capital联合投资

融资丨「melt season」完成超千万元天使轮融资，Breeze Capital领投

融资丨「天云数据」完成数亿元D轮融资，多家国家队基金共同投资

清华大学孙茂松：自然语言处理一瞥，知往鉴今瞻未来

融资丨「喜屏传媒」完成B轮融资，阿里巴巴独家投资

“山金云”助推山东省数字经济发展

美国要切断对俄罗斯的GPS服务？“北斗”可否顶上？

人工智能、机器学习、深度学习的关系，终于有人讲明白了

微软警告：不支持的硬件上安装Windows11

网传字节跳动调高 Pico VR 今年销售目标至 180 万台；罗永浩微博发文，澄清《罗永浩“真还传”大结局》多处事实错误

五年后，元宇宙中的网络安全如何保障？

315曝光台：美团、去哪儿相继被曝出大数据“杀熟”

数据的历史与发展

【数据分析】如何增强客户忠诚度？

13.4亿个账号被处置，2022年“清朗”行动还将重点整治这些乱象！

企业使用云计算管理大数据，需要注意哪些漏洞？

大数据时代，如何保护个人信息？

万门大学倒闭了，童哲连夜跑路了

价格战来了，乐乐茶“被迫”降价？

科技活动中的“领域变迁”和“关键变迁”

天云数据完成数亿元D轮融资，重新定义数据基础设施 | 华映portfolio

教你如何摘取区块链中的明珠 - 智能合约

诈骗、灰产、荷尔蒙，畸形生态下养活的陌陌、探探和Soul

“数字员工”已悄然登场，将带来怎样一场变革？

苦“大数据推荐”久矣？现在终于可以关掉它了！

数字经济的内涵、界定和各国规模测算

钉钉总裁叶军：发布酷应用，钉钉只做一件事就是PaaS化

大数据“杀熟”？新规出手了！

54岁医药老兵三次创业，9年专攻病毒载体，今日收获IPO

“AI+知识管理”为企业数智升级注入新动力

CRM讲堂 - 不要让CRM沦为监管销售的工具

工信部：三大运营商发展蜂窝物联网终端用户数达到14.64亿

钉钉发布新logo：从要规模到要价值，品牌新主张让进步发生

融资丨「悬镜安全」完成数亿元B轮融资，源码资本领投

锤子科技撤回全部破产申请，罗永浩或将重回科技行业

3月LPR报价公布：1年期3.7%5年期以上4.6%

“东数西算”夯实数字经济绿色底座

调查：Coinbase 与 Binance 上新币种

NFT｜无聊猿（BAYC）的发展潜力（一）

中国联通倾力打造高算力枢纽节点！

“元宇宙”破圈爆红，区块链成为幕后推手

电信和联通如何抗衡一家独大的中移动？

再见3G：多运营商关闭UMTS和CDMA2000网络

第二人生的创始人菲利普·罗斯戴尔对元宇宙发出了与Meta截然相反的概念

新茶饮“下凡” 一点点们“瑟瑟发抖”

固若金汤的App Store审核也翻车了吗？

疯狂涨价，电动车梦碎2022？

2021年全球手机畅销榜单出炉，你看懂了吗？

小镇青年，要对电动车下手了

曹德旺输了，福建人没输

张朝阳好为人师，搜狐视频战术躺平

抖音探店，中间商割韭菜

还记得威马吗？

降价、裁员、关店，新茶饮风向生变？

给食堂“送菜”，年销售百亿，高瓴红杉低调押注丨专访彩食鲜CEO李建波

蝙蝠侠不吃爆米花

融资丨「派学车」完成亿元C2轮融资，达晨财智领投

关于中国企业家网“罗永浩‘真还传’大结局”报道的澄清

现在是投资中国互联网公司的好时候吗？

科学家称或存在时间倒流反宇宙

Figma封不住国产软件崛起的步伐

联邦知识蒸馏概述与思考（续）

打造酒类新零售界的“丝芙兰”，酒廷1990想怎么做？

房地产公司抢着送钱，既便宜又不卡脖子，钠电池要火了？

AI靠语意理解把照片变抽象画，无需相应数据集，只画4笔也保留神韵，有毕加索内味儿了

Marteker 日报：(2022.3.21)

详解ID拉通 | CDP 智库系列文章 ②

“AI+知识管理”为企业数智升级注入新动力

郭明錤：iPhone14系列“新瓶旧酒”是一种营销策略

年内五连涨！2022款欧拉好猫全系车型价格调整

猝不及防！比亚迪、小鹏等车企宣布涨价

全行业攻坚智能网联汽车安全

特斯拉推送四大新功能：空调功能更新、新增语言支持

NFT与元宇宙热度回撤，阵痛之后何去何从？