李飞飞团队提出零样本泛化的技术,性能超越SOTA!

2022-05-21 05:43:28   来源:商业新知网

来源:迈微AI研习社

没错!又是李飞飞!

走在队伍前面的,是来自斯坦福大学的博士,李飞飞的门生!

先来看看李飞飞团队这次在arXiv上发表了的论文题目:

SECANT:用于视觉策略零样本泛化的自专家克隆

废话少说,给大家介绍一下这篇论文的大致内容。

论文介绍

简要介绍

强化学习中的泛化(generalization),是指通过不断跟环境交互,产生出一种网络的记忆性。

这个网络能够根据环境中特定的信号完成相应的动作,经过训练的agent能够记住在什么状态下要做什么,还能通过识别状态的细微差别来采取不同的动作。

再通俗一点,就是在未见过的测试数据上也能够进行预测。

因此,提升模型的泛化是机器学习领域中的一个重要研究。

特别是视觉强化学习方面,泛化很容易被高维观察空间中,一些无关痛痒的因素分散了注意力。

机器学习中的泛化:欠拟合、拟合、过度拟合

针对这个问题,团队通过鲁棒性策略学习,对具有大分布偏移的未见视觉环境进行零样本泛化。

因此,团队提出 「SECANT」模型 ,一种可以适应新测试环境的自专家克隆方法(Self Expert Cloning for Adaptation to Novel Test-environments)。

这个方法能够在两个阶段利用图像增广,分离鲁棒性表征和策略优化。

首先,专家策略通过弱增广从头开始进行强化学习的训练。

而学生网络就是通过强增广的监督学习来模仿专家策略,其表征与专家策略相比,对视觉变化更具鲁棒性。

实验表明,SECANT在DMControl(Deepmind Control)、自动驾驶、机器人操作和室内物体导航这四个具有挑战性的领域中,在零样本泛化方面超过了之前的SOTA模型,分别实现了 26.5%、337.8%、47.7%和15.8% 的提升。

主要贡献

提出了SECANT模型,可以依次解决策略学习和鲁棒性表征学习问题,从而实现了对未见过的视觉环境的强大零样本泛化性能。

在自动驾驶、机器人操作和室内物体导航四个领域中,设计并制定了一套多样化的基准测试。除了DMControl外,其它3种环境都具有代表实际应用程序的测试时视觉外观漂移。

证明了SECANT在以上4个领域中,大多数任务都能达到SOTA。

SECANT框架

SECANT的主要目标是发展自我专家克隆技术,通过这种技术可以实现零样本生成不一样的视觉样本。

作者研究的SECANT训练模型可以分解为两步,代码已公开。

专家策略

第一步,作者在原始环境中通过弱增广训练了一套高性能的专家策略。在视觉连续控制任务中,这套策略通过前馈深度卷积网络进行参数化,然后将观察到的图像转化为d维连续动作向量。

在实际应用中,作者采用了帧叠加技术,在时间信息维度上,连接T个连续图像进行观测。然后通过语义保持图像变换来生成数据扩增的算子。采用随机裁剪图像的方法作为默认的弱增广方法来训练专家策略。

这套专家策略可以通过任何标准的RL算法进行优化。作者选择了Soft Actor-Critic (SAC),因为它在连续控制任务中被广泛采用。然后采用梯度下降法对专家参数进行优化,使专家参数最小化。

学生策略

在第二阶段,作者训练一个学生网络来预测专家策略采取的最优行动,在同样的观察的条件下,通过剧烈变化的图像来进行测试。 在这个阶段不需要进一步接触奖励信号。

从形 式上来看,学生策略也是一个深度卷积神经网络,但与专家策略不同的是它有着不同的架构。 本质上来说,学生策略是根据DAgger模仿流程,从专家策略中延伸而来的。

作者使用专家策略来收集轨迹的初始数据集D。接下来,在每一次迭代中,选择一个强扩增算子,并将其应用于采样的一批观测数据。

作者通过将原有视觉元素进行插入色块(Cc)、随机卷积(Cv)、补充高斯噪声(G)以及添线性混合(M)等方式来生成不同的视觉样本。

作者还研究了以上的组合,并试图发现从低频和高频结构噪声中的随机抽样产生最佳的总体结果。作者注意到,在混合中添加随机裁剪略微有利于性能的提升,可能是因为它改善了学生策略表征的空间不变性。

实验内容

四种不同场景的视觉策略泛化基准测试(从上至下): DMControl Suite、CARLA 、Robosuite和iGibson

首先,作者提出了一个适用于四种不同领域的基准测试,系统地评估视觉agent的泛化能力。

在每个领域中,团队研究了在一个环境中训练的算法,在零样本设置中的各种未见环境中的表现如何。此时没有奖励信号和额外的试验。

在每个任务中,SECANT以之前的SOTA算法为基准:SAC、SAC+crop、DR、NetRand、SAC+IDM和PAD。

DMControl

研究团队依照前人的设置,使用来自DMControl的8个任务进行实验。

测量泛化能力,随机生成背景和机器人本身的颜色,将真实的视频作为动态背景。

除了一项任务外,SECANT在所有任务中都显着优于先前的SOTA, 通常高出88.3% 。

所有方法都经过50万步训练,有密集的任务特定奖励。

Robosuite:机器人操作模拟器

Robosuite是用于机器人研究的模块化模拟器。

作者在4个具有挑战性的单臂和双手操作任务上对SECANT和先前方法进行了基准测试。

使用具有操作空间控制的Franka Panda机器人模型,并使用特定于任务的密集奖励进行训练。

所有agent都接收一个168×168以自我为中心的RGB视图作为输入。

与之前SOTA相比,SECANT有337.8%的提升

实验表明,与之前的最佳方法相比,SECANT在简单设置中获得的奖励平均增加了 287.5% ,在困难设置中增加了 374.3% ,在极端设置中增加了 351.6% 。

CARLA:自动驾驶模拟器

为了进一步验证SECANT对自然变化的泛化能力,作者在CARLA模拟器中构建了一个具有视觉观察的真实驾驶场景。

测试目标是在1000个时间步长内沿着8字形高速公路(CARLA Town 4)行驶尽可能远,不与行人或车辆发生碰撞。

agent在「晴朗的中午」情景接受训练,并在中午和日落时对各种动态天气和光照条件进行评估。

例如,潮湿天气的特点是道路具有高反射点。经过平均每个天气超过10集和5次训练运行,SECANT在测试中能够比之前的SOTA行驶的距离增加 47.7% 。

iGibson:室内物体导航

iGibson是一个交互式模拟器,有高度逼真的3D房间和家具。

在这个模拟器中,实验的目标是尽可能接近一盏灯。

奖励函数激励agent使灯在视野中所占的像素比例最大,当这个比例在连续10个步骤中超过5%时就算成功。

在本测试中,在未见过的房间里,SECANT的成功率比之前的方法 高出15.8% 。

声明

来源 : 脉微AI研习社 , RAD极客会推荐阅读,不代表RAD极客会立场,转载请注明,如涉及作品版权问题,请联系我们删除或做相关处理!

关键词: 基准测试 强化学习

上一篇:
下一篇:
精彩阅读

李飞飞团队提出零样本泛化的技术,性能超越SOTA!

热点

强化学习中的泛化,是指通过不断跟环境交互,产生出一种网络的记忆性。

钉钉“贪财”出下策

热点

SaaS仍非金矿,PaaS并非铲子。

盘点海外电竞与数据行业超百起合作:8家机构案例最多,定制数据分析为主要诉求

热点

目前电竞数据应用主要集中在B端;电竞数据行业生态固化,行业由几家垄断。

好运的李檬,难讲天下秀新故事

热点

从某种意义上来说,李檬在红人经济的成功是一种运气,但天下秀一路风光仅仅靠运气是不够的。

冰峰饮料申请撤回申报材料 2020年四款产品销量2.92亿瓶

热点

证监会官网显示,因西安冰峰饮料股份有限公司(以下简称冰峰饮料)已申请撤回申报材料,决定取消第十八届发审委2022年第57次工作会议对该公司

祝象寻科技早日倒闭!技术团队被曝要求20天做出app集体开除

热点

5月16日,象寻App官微发文称《祝象寻早日倒闭》刷屏网络,引发关注。

京东科技赴港上市被拒,或因白条金条是主营

热点

近日市场消息,京东科技(原京东数科)原定计划今年赴港上市审批未获通过,因未获得审批方通过。

2022,均值回归

热点

2020年3月,全球疫情冲击实体经济,科技行业也未能幸免。

百度ESG报告:维护网络生态健康,去年拦截恶意信息560亿次

热点

联合国全球契约组织亚太区总代表刘萌认为,在落实2030年可持续发展议程的过程中,中国企业正在发挥越来越重要的作用。

财富

柔性显示屏制造商柔宇科技本周三开启裁员:员工可拿基本工资

资讯

5月20日消息,据晚点LatePost报道,柔性显示屏制造商柔宇科技本周三开启了一轮裁员。报道称,5月18日,柔宇HR开始告知部分员工裁员决定,所

100%破解!RTX30系列显卡算法被破解

资讯

最近两个月,显卡价格因为币圈的动荡而崩盘,AMD及NVIDIA的显卡价格暴跌,已经回归甚至跌破发行价了, 不过本月初传来RTX 30显卡LHR算法

低价竞争放缓盈利能力持续修复多家快递公司年报出炉

资讯

快递行业已进入从价格竞争转向价值竞争的新阶段。近日,多家快递公司相继发布2021年年报与2022年一季度报。总体来看,受监管政策趋严的影响

爱立信公布业务重组计划将合并云和数字部门

资讯

爱立信公布了对业务进行全面改革的计划,包括创建一个特定的企业无线解决方案业务部门、合并云和数字服务部门,以及执行团队的调整。爱立信

【资讯】英国电信承诺投资1亿英镑促进企业业务发展

资讯

英国电信集团(BT Group)概述了一项旨在促进其企业业务发展的新举动,承诺投资1亿英镑,并将重点放在创新、网络安全、服务改进和扩大可持续

神秘冒出的莲鑫集团:拟收购51%的中方股权 安谋中国回应

资讯

经历一番管理风波之后,ARM在中国的分支安谋中国逐渐安稳下来,但是5月18日,神秘冒出的莲鑫集团公告称,下属莲鑫基金已与安谋中国的中方股

排队近11个月 冰峰饮料5月19日首发上会

资讯

在国内老字号争相上市之际,西安冰峰饮料股份有限公司(以下简称冰峰饮料)也迎来关键时刻。排队近11个月,冰峰饮料在5月19日正式迎来上会大

永吉转债转股溢价率369.4% 意味着什么?

资讯

永吉转债上市首日暴涨276 16%,对应转股溢价率369 4%,再次刷新了可转债炒作投机的高度,投资者不要被疯狂的炒作所迷惑,毕竟永吉转债的合

疫情影响下 房车露营车雄起

资讯

在疫情影响下,刚刚过去的五一小长假很多人都无法出游。但开上一辆房车,带上家人做一次即兴短途出行,让很多消费者体验到了房车露营的乐趣

微软宣布可持续发展云产品计划 旨在使用一套测量设备来收集数据

资讯

随着环境问题登上世界中心舞台,全球各地的天气事件、野火、干旱和洪水日益严重,在供应链上下游产生污染的公司正在寻找方法来衡量他们对环

钉钉“贪财”出下策

SaaS仍非金矿,PaaS并非铲子。

盘点海外电竞与数据行业超百起合作:8家机构案例最多,定制数据分析为主要诉求

目前电竞数据应用主要集中在B端;电竞数据行业生态固化,行业由几家垄断。

好运的李檬,难讲天下秀新故事

从某种意义上来说,李檬在红人经济的成功是一种运气,但天下秀一路风光仅仅靠运气是不够的。

冰峰饮料申请撤回申报材料 2020年四款产品销量2.92亿瓶

证监会官网显示,因西安冰峰饮料股份有限公司(以下简称冰峰饮料)已申请撤回申报材料,决定取消第十八届发审委2022年第57次工作会议对该公司

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个

吉利几何EX3功夫牛高居榜首,4月投诉量230起

近日,车质网发布了2022年4月车型投诉排行八卦(前30名),其中有不少产品的出现属实让人没想到。具体来看,吉利几何EX3功夫牛高居榜首,4月

“说好了未达到目标全额退款,结果都是骗人的!”

春天不减肥,夏天徒伤悲。一波减肥大军抱着坚定的信念踏上征途,发现身边各式各样的高端减肥训练营正打着健康减肥封闭管理保质保量包吃包住

龙芯中科胡伟武:自主又兼容夯实信息产业“三箭齐发”

龙芯中科董事长胡伟武在线上发表了关于LoongArch生态建设的演讲。胡伟武表示,指令系统是自主信息产业绕不过去的话题,我国不可能基于国外