斯坦福大学李飞飞团队新作:孪生掩码自编码器SiamMAE,刷榜视觉自监督方法

2023-06-01 09:22:31   来源:商业新知网

在计算机视觉领域,想要建立图像和场景(scene)之间之间的对应关系是一项比较困难的任务,尤其是在存在遮挡、视角改变或是物体外观发生变化的情况下。

最近,斯坦福大学李飞飞团队对MAE进行扩展,提出了 孪生掩码自编码器SiamMAE(Siamese Masked Autoencoders) 以学习视频中的视觉对应关系。

论文链接: https://siam-mae-video.github.io/resources/paper.pdf


(资料图片)

先随机采样两个视频帧,并进行非对称掩码操作;然后SiamMAE编码器网络对两个帧进行独立处理,最后使用交叉注意层组成的解码器来预测未来帧(future frame)中丢失的图像块。

通过对未来帧中的大部分(95%)图像块进行 掩码 ,同时保持过去帧(past frame)图像不变,Sia mMAE促使网络专注于物体运动,并学习以物体为中心的表征。

尽管整个网络的设计概念比较简单,但通过SiamMAE学习到的特征在视频物体分割、姿势关键点传播和语义部分传播任务上都优于最先进的自监督方法。

SiamMAE在不依赖于数据增强、基于手工跟踪的前置任务或其他技术来防止表征崩溃的情况下,实现了非常有竞争力的性能。

孪生掩码自编码器

研究人员的目标是开发一种自监督的方法来学习对应关系,主要是将 掩码 自编码器(MAE)模型扩展到视频数据中。

Patchify

给定具有L帧的视频剪辑,首先随机采样两个视频帧,两帧之间的距离通过从预定的potential frame gaps范围中选择一个随机值来确定。

与原始ViT模型类似,通过将每个帧转换为一系列不重叠的N×N个patch来拼接视频帧。

最后,把位置嵌入加到线性投影上,并附加一个[CLS]标记,需要注意的是没有使用时序位置嵌入。

Masking

像图像和视频这样的自然信号是高度冗余的,分别表现为空间和时空上的冗余。

为了创造一个具有挑战性的预测性自监督学习任务,MAEs随机 掩码 了75%的图像patch,视频数据的 掩码 率提升到90%,并且对每帧都使用相同的 掩码 率。

这种设计可以使网络无法利用和学习到时间上的对应关系,避免在对应关系学习基准上达到次优性能。

研究人员认为,不对称的 掩码 可以创造一个更有挑战性的自监督学习任务,并且可以鼓励网络学习时间上的相关性。

所以对于采样的两个视频帧,对第一帧选择不 掩码 ,对第二帧选择 掩码 95%,这样就可以将整个过去帧(entire past frame)作为输入,网络只需要将其扩散到未来中的适当位置即可,可以促进网络对物体运动进行建模并关注物体的边界。

为了进一步增加任务的难度,两个视频帧之间具有更大的时间间隔,尽管可能会导致对未来的预测变得模糊,并可能产生多种合理的结果,但为第二帧提供少量的patch作为输入,可以让网络的自监督学习变得更困难。

编码器

研究人员探索了两种不同的编码器配置来处理输入帧。

联合编码器(joint encoder) 是图像MAEs在一对视频帧上的扩展,把两帧未 掩码 的图像patch串联起来,然后输入到标准的ViT编码器中进行处理。

孪生编码器(siamese encoder) 是用于比较实体的权重共享神经网络,是对比表征学习方法的一个重要组件,用于对应学习(corresponding learning)时通常需要一些信息瓶颈来防止网络学习的解决方案,如使用颜色通道dropout来迫使网络避免依赖颜色来匹配对应关系。

在这篇论文中,研究人员使用孪生编码器来独立处理两幅图像,使用非对称掩码作为信息瓶颈。

解码器

编码器的输出通过线性层进行投影,并加入带有位置嵌入的[MASK] token,以生成对应于输入帧的所有token

研究人员探索了三种不同的解码器配置:

联合解码器(joint decoder) 在两帧的token串联上使用原版Transformer模块,其主要缺点是对GPU内存的需求大幅增加,特别是在使用较小的patch尺寸时。

交叉自解码器(cross-self decoder) 与原版Transformer模型的编码-解码器设计类似,每个解码器块由一个交叉注意力层和一个自注意力层组成,来自第二帧的token通过交叉注意力层与第一帧的token进行注意力操作,然后通过自注意力层进行相互融合。

可以注意到,交叉注意力层在功能上类似于自监督对应学习方法中经常使用的affinity矩阵。

交叉解码器(cross decoder) 由交叉注意力层的解码器块组成,其中来自第二帧的token与来自第一帧的token进行注意力操作。

最后,解码器的输出序列被用来预测 掩码 图像块中的归一化像素值,在解码器的预测和真实值之间使用L2损失。

实验结果

视频物体分割

在多物体分割基准数据集DAVIS 2017上,使用480p分辨率的图像对模型进行评估。

实验结果可以发现SiamMAE明显优于VideoMAE(从39.3%提升到62.0%),研究人员将其归因于VideoMAE中使用了tube 掩码 方案,使得模型无法学习时间上的对应关系。

与DINO类似,研究人员也发现降低patch的尺寸会带来明显的性能提升。

并且文中使用的ViT-S/8(+9.4%)模型优于之前所有的对比学习和自监督的对应学习方法。

还可以注意到尽管较大的MAE-ST模型(ViT-L/16,304M参数)在随机 掩码 的情况下比VideoMAE表现更好,但其性能仍然落后于SiamMAE相当多。

而且在视频上训练的MAE与图像MAE的表现相似,视频与图像的不同之处在于,图像是(近似)各向同性的,时间维度是特殊的,并不是所有的时空方向都是同等可能的。

因此,对称地处理空间和时间信息可能是次优的。

视频部分分割(Video Part Segmentation)

在视频实例解析(Video Instance Parsing, VIP)基准上对SiamMAE进行评估,该基准包括为20个不同的人体部位传播语义掩码。

与评估的其他数据集相比,VIP特别具有挑战性,因为包括更长的视频(最长120秒)。

与先前工作类似,使用560×560的图像和单一背景帧进行评估后,可以发现ViT-S/8模型性能大大超越了DINO (从39.5提升到45.9)。

SiamMAE从更小的patch尺寸中,比DINO受益更多,实现了+8.6的mIoU评分,比DINO的+3.3 mIoU有所提高。

SiamMAE也优于之前所有的对比学习和自监督的对应关系学习方法。

姿势追踪(pose tracking)

在关键点传播的任务上对SiamMAE进行了评估,需要传播15个关键点,并且要求空间上的精确对应关系,使用320×320的图像和一个单一的背景帧, SiamMAE的性能优于所有其他模型,并且比DINO更受益于较小的patch尺寸(+14.9到+10.9 PCK@0.1)

关键词:

精彩阅读

斯坦福大学李飞飞团队新作:孪生掩码自编码器SiamMAE,刷榜视觉自监督方法

热点

SiamMAE在不依赖于数据增强、基于手工跟踪的前置任务或其他技术来防止表征崩溃的情况下,实现了非常有竞争

「问题少年」逆袭成资产350亿美元CEO!60岁黄仁勋或成LLM爆发背后最大赢家 世界滚动

热点

上周六,仅仅在一天内,英伟达的市值就暴涨了超2000亿美元,震惊了美股市场。

北森新品发布会,揭露了中国SaaS的真相|当前快讯

热点

作为一家赛道领先的企业,稳扎稳打又与时俱进的北森,很可能将进一步巩固自己的领先位置。

环球播报:智享未来:如何打造网络安全新人才?进阶网络安全工程师大佬必看

热点

互联网时代,唯变不变,我们驭时代之风,以变应变,以数字技术助力未来发展。

基于LLM的生成式AI正在快速变革RPA人机交互

热点

可以预见,接下来随着LLM成为RPA的标配,它也将全面变革大模型时代的RPA。

焦点信息:在阳台的一平米里挖呀挖呀挖,“石头”在小红书里开出了花

热点

近年来,居家时间的增加让我们对于居住环境的实用性、舒适度、颜值要求、性价比都上升到新的高度。

全球动态:欧盟官员将于6月会见OpenAI CEO:讨论人工智能法规

热点

欧盟产业主管埃里·布雷顿将于下月在旧金山与美国人工智能研究公司OpenAI首席执行官山姆·阿尔特曼会面。

跨过万亿美元市值的门槛

热点

根据预测,预计第二财季英伟达营收将达到110亿美元左右,较市场预期的71 8亿美元高53%。

全球看点:LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理

热点

随着ChatGPT的出现,大规模语言模型(LLM)研究及其应用得到学术界和工业界的广泛关注。

世界热点!信也科技迎来印尼业务CEO,金融出海又要火?

热点

近日,蚂蚁集团国际业务CRO顾鸣已正式回归信也科技,出任信也科技印尼业务CEO,直接向集团CEO李铁铮汇报。

财富

谁在疯抢头部主播?

资讯

谁在疯抢头部主播?,为何这些在抖音成长起来的主播,会纷纷转战淘宝?大主播的尽头是淘宝吗?

世界快看点丨马斯克需要中国

资讯

马斯克需要中国,时隔三年,马斯克再次高调访华。

【报资讯】低谷“窒息”四年,贾跃亭爬出深渊?

资讯

低谷“窒息”四年,贾跃亭爬出深渊?,FF成立以来的所有“反转”都来自于两点:公司对资金的渴求和贾跃亭对

潮玩之后,未来巨大的商业机会是什么?

资讯

潮玩之后,未来巨大的商业机会是什么?,IP不是靠钱砸出来的。

风头盖过马斯克访华,贾跃亭新车220万开卖,FF 91最全解析来了

资讯

风头盖过马斯克访华,贾跃亭新车220万开卖,FF91最全解析来了,贾跃亭:与AI一起再次为梦想窒息

焦点热议:燃油车不够卖,电动车被抢光,劳斯莱斯、宾利为何越卖越好?

资讯

燃油车不够卖,电动车被抢光,劳斯莱斯、宾利为何越卖越好?,现在下单劳斯莱斯,2025年才能提车。

焦点速看:Meta连裁体育高管业务转给娱乐代管,背后发生了什么?

资讯

Meta连裁体育高管业务转给娱乐代管,背后发生了什么?,Meta的体育业务似乎正在走向边缘化。

618“首战”:淘宝直播“内容化”,小红书力扶章小蕙加入战局? 最资讯

资讯

618“首战”:淘宝直播“内容化”,小红书力扶章小蕙加入战局?,平台间的攻城略地继续上演。

0成本做增长,匿名社交的风又吹到了韩国_天天看热讯

资讯

0成本做增长,匿名社交的风又吹到了韩国,近期火热的匿名社交App们给了这些思路。

天涯死在“乌托邦”里

资讯

天涯死在“乌托邦”里,最后的挣扎还是葬歌?

「问题少年」逆袭成资产350亿美元CEO!60岁黄仁勋或成LLM爆发背后最大赢家 世界滚动

上周六,仅仅在一天内,英伟达的市值就暴涨了超2000亿美元,震惊了美股市场。

北森新品发布会,揭露了中国SaaS的真相|当前快讯

作为一家赛道领先的企业,稳扎稳打又与时俱进的北森,很可能将进一步巩固自己的领先位置。

环球播报:智享未来:如何打造网络安全新人才?进阶网络安全工程师大佬必看

互联网时代,唯变不变,我们驭时代之风,以变应变,以数字技术助力未来发展。

基于LLM的生成式AI正在快速变革RPA人机交互

可以预见,接下来随着LLM成为RPA的标配,它也将全面变革大模型时代的RPA。

焦点信息:在阳台的一平米里挖呀挖呀挖,“石头”在小红书里开出了花

近年来,居家时间的增加让我们对于居住环境的实用性、舒适度、颜值要求、性价比都上升到新的高度。

OPPO Reno10系列6月1日开售,支持50 应用断点续读_全球今头条

OPPOReno10系列将在6月1日正式发布,今天OPPO官方介绍了Reno10系列的功能:支持50应用断点续读,48个月久用

村晚的诗意翻译(村晚的诗意)-全球快报

1、译文:绿草长满了池塘,池塘里的水呢,几乎溢出了塘岸。2、远远的青山,衔着彤红的落日,一起把影子倒映

从世界智能大会 看智慧生活新图景

从世界智能大会看智慧生活新图景

全球快看:图片打印软件哪个好

今天来聊聊关于图片打印软件哪个好的文章,现在就为大家来简单介绍下图片打印软件哪个好,希望对各位小伙伴

生吃苦瓜的功效与作用有哪些 生吃苦瓜的功效与作用

今天来聊聊吃苦瓜的功效与作用有哪些,生吃苦瓜的功效与作用的文章,现在就为大家来简单介绍下生吃苦瓜的功

全球今热点:“村里的孩儿”音乐班:用歌声编织梦想

新华社哈尔滨5月31日电 题:“村里的孩儿”音乐班:用歌声编织梦想新华社记者戴锦镕、何山、谢剑飞“希望