迁移学习前沿探究探讨:低资源、领域泛化与安全迁移

2022-04-14 10:42:48   来源:商业新知网

大数据文摘转载自AI科技评论

作者:王晋东

整理:维克多

迁移学习是机器学习的一个重要研究分支,侧重于将已经学习过的知识迁移应用于新的问题中,以增强解决新问题的能力、提高解决新问题的速度。

4月8日,在AI TIME青年科学家——AI 2000学者专场论坛上,微软亚洲研究院研究员王晋东做了《迁移学习前沿探究探讨:低资源、领域泛化与安全迁移》的报告,他提到,目前迁移学习虽然在领域自适应方向有大量研究,相对比较成熟。 但低资源学习、安全迁移以及领域泛化还有很多待解决的问题。

针对这三方面的工作,王晋东提供了三个简单的、新的扩展思路,以下是演讲全文,AI科技评论做了不改变原意的整理。

今天介绍迁移学习三个方向的工作:低资源、领域泛化与安全迁移。迁移学习英文名称:Transfer learning,基本范式是通过微调“重用”预训练模型。纵观机器学习的绝大多数应用,都会采用这种预训练+微调的范式,节省成本。

上图迁移学习范式示例,在Teacher网络模型中,经过输入、输出一整套流程训练,已经获得比较好的性能。Student模型想要训练,则可以固定或者借用Teacher网络的Tk层,然后单独根据任务微调模型,如此可以获得更好的性能。

目前,在CV领域,已经存在ResNet;在NLP领域已经有BERT、RoBERT等模型可供使用。如上图,2016年GitHub上有个统计,关于迁移学习的Repository总计有2220个,当前可能会更多。

上图展示了,过去五年,迁移学习领域在顶级会议上取得的进展。最早是吴恩达在NIPS16上表示迁移学习在未来非常重要;然后,CVPR2018上有一篇最佳论文是关于迁移学习的;同年,IJCAI18上,有团队用迁移学习的手法赢得ADs竞赛;2019年,ACL会议上,有学者强调迁移学习的范式在NLP领域非常重要,一年后,一篇迁移学习论文拿到了该会议的最佳论文提名。

一直到去年,深度学习三巨头表示,现实的世界中,数据分布不稳定,有必要开发快速适应小数据集变化的迁移模型。

事实上,随着我们认知越来越多,会逐渐认识到迁移学习有很多问题待解决,需要不断开发新的方法。

在移学习范式中,如果训练数据和预训练模型刚好匹配,则能开发出性能优越的应用;如果有较大差异,则可以借助“外援数据”进行修正,然后获得目标模型,进而在测试(未知)数据上获得较好表现。

从训练数据到测试数据,整套流程中,其实存在很多问题,例如:

低资源学习,即如何在小数据情况下,如何设置迁移模型;

领域自适应,即如何解决当训练集和测试集的数据分布存在偏差;

领域泛化,如何从若干个具有不同数据分布的数据集(领域)中学习一个泛化能力强的模型;

同时,整个过程还需要时刻注重安全迁移,确保隐私不泄露,模型不“中毒”等等。

目前,领域自适应方面已经有大量研究成果、该领域相对较成熟。但低资源学习、安全迁移以及领域泛化等方面还有很多待解决的问题。

低资源学习

低资源学习的本质是,依赖少量的有标签的样本去学习泛化能力强的模型,期望其在未知的数据上表现良好。但问题在于,在各种场景下如何确保小数据中的标签仍然含有知识、且这些知识能被迁移到大量的无标签数据上。

经典的工作来自于NeurIPS 2020,当时谷歌在论文中提出FixMatch算法,通过一致性正则和基于阈值的置信度来简化半监督学习,设置固定阈值调整迁移学习的知识。

公式如上,模型学习的置信度要根据阈值来判定,如果大于一定的域值,就使用这些数据进行训练和预测;否则这些数据则不参与下次训练。

那么,对于半监督学习而言,预训练模型仅考虑阈值就足够了吗?谷歌在论文中,将阈值设置为0.95,显然这个数字是由谷歌的实验得出,其实我们在真实世界中,永远无法得知的取值是多少。

基于此,需要学习一个更真实的阈值,也即开发一种自适应学习,让模型根据数据灵活决定值。为了验证这一想法,我们先回答“选择固定阈值还是灵活阈值”。

如上图(左)所示,固定阈值的Loss下降的特别慢。同时,通过对比两种选择的ACC指标也能证明,如上图(中),对于不同的类别,需要设置不同的阈值。

在“动态调整”的思想下,我们在NeurIPS 2021上提出FlexMatch算法,有以下几个特点:

对于不同的类别,能进行不同程度的阈值自适应;

对于不同的样本,设置不同阈值;

测试阶段,需要对阈值“一视同仁”

全程无人工干扰,全自动学习阈值

实验结果表明,如上图(右)所示,在同样的数据集上,该方法呈现正向曲线,效果比较稳定。FlexMatch的设计思想借用了“课程学习”,半监督学习常用给不确定样本打伪标签的策略,伪标签的学习应该是循序渐进的迁移的过程,即由易到难的过程,然后类别的学习也是由易到难的过程。同时,FlexMatch采取了聚类假设:类别和阈值息息相关。

以上是该思想的流程图,和FixMatch大同小异,不同之处是强调在不同类别上,会预估学习难度,然后自适应调整阈值。

以上是在CIFAR10/100、SVHN、STL-10和ImageNet等常用数据集上进行了实验,对比了包括FixMatch、UDA、ReMixmatch等最新最强的SSL算法。实验结果如上表所示,可以发现FlexMatch在标签有限的情况下能显著改进。在未引入新的超参数、无额外计算的情况下,对于复杂任务,也有显著改进,且收敛速度显著提升。

值得一提的是,针对该领域,我们开源了一个半监督算法库TorchSSL,目前已支持算法有:Pi-Model,MeanTeacher,Pseudo-Label,VAT,MixMatch,UDA,ReMixMatch,FixMatch。

低资源应用

现实世界中存在大量语言,但有很少的标注数据,世界上有7000种语言,常用的语言也就那么几十种,剩下绝大大多数都是低资源的语言。需要对小数据进行模型训练,同时能够避免模型过拟合。所以,针对低资源语言的自动语音识别(ASR)仍然是端到端(E2E)模型的一个挑战。

迁移学习的解决方案是,对资源丰富的语言进行预训练,对资源低的语言进行微调,对资源丰富的语言和资源低的语言进行多任务学习,同时对资源丰富的语言进行元学习,以快速适应资源不足的语言。

具体而言,要发现语言之间的联系,例如上图表明,不同的语言、不同的语系之间会有相似、相关性。这些语言具体怎么分布,有哪些相似性?我们的目标是如何自适应学习这种关系。

当前主要有两种方法:隐式、显式。其中,隐式是指不对他们的关系做任何假设,通过网络直接学习;显式是指假设语言之间存在线性关系,简化算法。

基于上述两点,我们就设计了两个简单的算法MetaAdapter和SimAdapter。前者能够直接学习不同语言之间的关系;后者假设语言之间是线性关系,用注意力机制进行学习。同时,结合MetaAdapter和SimAdapter,我们设计了SimAdapter+,能达到更好的效果。具体模型结构如下所示,只用微调数据里面的参数,就可以去完成网络的训练。

领域泛化

领域泛化的目的是利用多个训练分布来学习未知领域的通用模型。存在数据属性随时间动态变化,导致动态分布变化等问题。因此,需要捕捉数据的动态分布变化,例如如何量化时间序列中的数据分布。

针对上述挑战,我们提出AdaRNN。首先将时间序列中分布动态改变的现象定义为时序分布漂移 (Temporal Covariate Shift, TCS)问题,如上图所示将一段时间的数据分为A、B、C以及未知数据,可以看出A、B之间,B、C之间以及A、C之间的数据分布相差比较大,如何解决?分两步走:先来学习数据最坏情况下的分布,然后匹配最坏分布的差距。

具体而言,采用聚类方法优化问题,然后用贪心算法求解序列分布,将数据分成几段;最后,设计领域泛化进行匹配分布。

我们在四个真实数据集上测试了算法的效果,包括1个分类任务(行为识别)和3个回归任务(空气质量预测、用电量预测和股价预测)。实验结果表明,模型性能有一定的提升。此外,我们发现不仅在RNN上,Adaptive方法对于Transformer结构也一样有效。

安全迁移

安全迁移体现在迁移学习的各个方面,例如如何确保迁移学习模型不会被滥用?如何在保证效果的同时降低迁移模型的复杂性?如何进行安全的迁移学习、避免模型受到恶意攻击而对用户造成影响?

举个例子,在软件工程领域,如果软件有恶意BUG,一旦你在开源社区下载该软件,不仅会继承该软件好的功能,也会继承它的容易受攻击的弱点。另外,如果黑客知道用户的软件使用了哪段开源代码,便可以对你的应用软件发动相应攻击。

我们统计了一下,在Teacher到student的微调范式中,Student可以从Teacher中继承那些易受攻击的弱点的概率为50%~90%。换句话说,最坏的情况是Teacher怎么被攻击,Student便可以被攻击。因为Teacher的模型是公开的。

因此,安全迁移研究的目的是如何减少预训练模型被攻击的情况,同时还能维护性能。这其中会解决未知攻击、DNN模型缺乏可解释性等难题。

我们考虑两种攻击:对抗攻击,例如熊猫图片中加入某些噪声,AI会将其识别成长臂猿;后门攻击,神经网络结构本身就存在一些可能被利用的东西,例如输入数字7,然后输出数字8。

针对安全迁移问题,我们提出ReMoS算法,主要思想是:找出网络有用权重,剔除无用权重。第一步:需要计算神经元;第二步:评估Teacher模型对Student模型的重要性,计算两者之差;根据以上两步,就可以轻松裁减不需要的权重。

实验结果发现,ReMoS方法几乎不会显著增加计算量,其收敛速度与微调模型基本一致,显著好于从头开始训练。

上图(右)画出了剪枝之后的权重和网络层的关系。此结果说明随着网络层数据的加深,网络越来越与学生任务相关,因此,在深层的权重大部分被重新初始化了。这一发现也符合深度网络可迁移性的结论。

总结一下,今天主要介绍了三方面,低资源学习、领域泛化以及安全迁移。我为这三个方面提供了三个简单的、新的扩展思路。希望接下来的研究者能够设计出更好的框架,新的理论,然后在迁移学习的安全性方面去做一些探索。

关键词: 数据分布 实验结果

上一篇:
下一篇:
精彩阅读

迁移学习前沿探究探讨:低资源、领域泛化与安全迁移

热点

迁移学习是机器学习的一个重要研究分支。

Nature长文:打破AI黑盒的“持久战”

热点

在解释领域,人工智能研究人员已经取得了长足的进步。

科普 | 什么是去中心化的数字身份

热点

随着互联网的不断发展,用户个人数据的价值被不断发掘出来。

什么叫真正的元宇宙级别虚拟数字人?

热点

这类是在影视行业里用了很多年的传统专业动捕面捕设备,可以达到,但穿着与定制繁琐,价格昂贵。

虚实共生-AR在数字化转型中的应用实践丨春芽「锌」生演讲实录

热点

“十四五”开年,我们来谈谈企业架构下的数字化转型。

双重上市,知乎的退守

热点

4月11日,知乎向港交所提交了招股书,申请于港交所主板上市。

跨越七大洲,奔向外太空,亚马逊云服务已是无处不在

热点

正如WernerVogels博士所说,95%的服务都是根据用户的反馈来构建的。

谁能“取代”豆瓣?

热点

如今,豆瓣小组也成了其他平台虎视眈眈的一块肥肉。

有可能成为未来蓝筹的几个新NFT项目

热点

让我们来一起看看有哪些潜力不错的未来“蓝筹”项目吧。

财富

30系显卡的“天下”了!NVIDIA发布近年显卡天梯图

资讯

一直以来,显卡的性能孰强孰弱都是爱好者讨论的重头,近日,NVIDIA官方以视频的形式,发布了自家近年显卡的天梯图,为性能强弱带来了一份标

稳定投资者预期被重点提及  鼓励社保等配置权益类资产

资讯

重磅利好来了!4月11日晚间,证监会官网发文称,为落实中央经济工作会议和近期召开的国务院常委会议、国务院金融委会议精神,进一步支持上市

投资者弃购新股,发现资金提前被券商冻结

资讯

投资者想弃购新股,发现资金提前被券商冻结,券商解释称怕投资者违约,本栏认为投资者打新还是应该尽可能遵守契约精神,不要想着中签后再弃

优衣库将携手泡泡玛特推出联名系列UT,首次与中国品牌合作

资讯

4月13日,北京商报记者从优衣库品牌方了解到,优衣库将携手潮玩品牌泡泡玛特,于4月29日推出联名系列UT,这是优衣库首次与中国潮流文化品牌

刷了几百块进去,得不到推流,准备放弃了吗?

资讯

打开美颜,大眼瘦脸,刘梅穿一身红裙,本就漂亮的她在镜头里显得更年轻了。53岁的刘梅从小嗓门儿清亮,喜欢唱歌,玩儿了一年直播,她也想当

Cocos宣布完成5000万美元B轮融资,投资方为建信信托

资讯

4月11日消息,日前,Cocos宣布完成5000万美元B轮融资,投资方为建信信托、GGV纪源资本、声网Agora等。据悉,本轮融资后,Cocos将借助资本的

一天50条动态招揽生意“反催收”“债闹”是逃废债

资讯

你听说过反催收债闹吗?北京商报记者注意到,最近有不少黑产已经盯上这个生意。一些所谓的债务咨询或债务管理专家,在微博、QQ、贴吧、抖音

微软又加强安全提醒:Win11系统将关闭内存完整性功能

资讯

从微软前几天公布的发展方向来看,安全在Win11接下来的更新升级中会越来越重要,微软会带来多项重磅安全功能更新,比如网络防钓鱼保护,这

三星高端机型将率先尝鲜AndroidUI5.0系统

资讯

据 SamMobile 报道,Android 13开发者预览版已经上线,谷歌Pixel机型可以更新尝鲜。值得注意的是,三星正在紧锣密鼓开发基于Android 13

三星将为Galaxy系列手机制造“独一无二”的芯片

资讯

近日,韩国媒体Inews24报道,三星正计划开发新一代芯片组。报道称,三星总裁和MX业务负责人TM Roh表示,三星将专门为Galaxy系列手机制造独

Nature长文:打破AI黑盒的“持久战”

在解释领域,人工智能研究人员已经取得了长足的进步。

科普 | 什么是去中心化的数字身份

随着互联网的不断发展,用户个人数据的价值被不断发掘出来。

什么叫真正的元宇宙级别虚拟数字人?

这类是在影视行业里用了很多年的传统专业动捕面捕设备,可以达到,但穿着与定制繁琐,价格昂贵。

虚实共生-AR在数字化转型中的应用实践丨春芽「锌」生演讲实录

“十四五”开年,我们来谈谈企业架构下的数字化转型。

双重上市,知乎的退守

4月11日,知乎向港交所提交了招股书,申请于港交所主板上市。

Stellantis集团与标致雪铁龙荷兰财务公司达成转让协议

4月13日,Stellantis集团宣布,神龙汽车有限公司(以下简称神龙公司)和Stellantis集团旗下Banque PSA Finance的全资子公司标致雪铁龙荷兰

时隔263天获批版号,中概股逆势上涨

这是自2021年7月22日以来,国家新闻出版署首次下发的游戏版号,总共时隔263天。在此次获批版号的游戏中,重点游戏包括百度的《进击的兔子》

中保研汽车技术研究试验中心发布7款车型测评结果

在中国保险行业协会的指导下,在中保研汽车技术研究院有限公司和通用技术中国汽车工程研究院股份有限公司的支持下,中保研汽车技术研究试验

机器人时代,座舱的人机交互将走向何方?

智能汽车是机器人的第一形态,对应的智能座舱也引领了机器人时代人机交互发展的新方向。历史上,每一次交互方式的改变,都重塑了智能设备的

研究公司:2021年全球电信市场资本支出同比增长9%

来自市场研究公司Dell& 39;Oro Group的最新报告显示,初步估算表明,2021年全球电信市场资本支出(包括无线和有线电信投资总和)按名义美元

为户外劳动者提供便利 重庆已建成665座“劳动者港湾”

  中新网重庆4月22日电 (韩璐 王雪宇)记者22日从重庆市城市管理局获悉,2020年重庆市已建成“劳动者港湾”665座。今年,重庆还将继续建