首页> 热点 >

CVPR2022 做语义分割不用任何像素标签，UCSD、英伟达在ViT中加入分组模块

2022-03-16 16:33:54 来源：商业新知网

本文转自机器之心。

生成效果的确很惊艳。

视觉场景是由有语义意义的像素组构成。在深度学习的概念出现之前，业界就已经使用经典的视觉理解方法对像素分组和识别进行深入研究。自下而上分组的思想是：首先将像素组织成候选组，然后用识别算法模块处理每个分组。这种思路已经成功应用于超像素图像分割、以及目标检测和语义分割的区域构建。除了自下而上的推理，识别过程中自上而下的反馈信号，能够更好地完成视觉分组。

随着深度学习时代的到来，显式分组和识别的思想，在端到端的训练系统中已经不再那么泾渭分明，而是更紧密地耦合在一起。例如，语义分割通常是通过全卷积网络实现的，其中像素分组仅通过识别每个像素的标签在输出层显示。这种方法不需要对像素显式分组。虽然这种方法非常强大，并且性能是最好的，但它有两个主要的局限性：(1) 每像素的人工标签成本很高；(2) 学习的模型仅限于几个标记的类别，不能泛化到未知的类别。

从文本监督中学习视觉表达的最新进展在迁移到下游任务方面取得了巨大成功。学习到的模型不仅以零样本方式迁移到 ImageNet 分类中并实现最好的性能，还可以对 ImageNet 分类以外的未知对象类别进行识别。

受此研究方向的启发，来自加州大学圣圣地亚哥分校和英伟达的研究者提出这样一个问题：我们是否也可以学习一个纯文本监督的语义分割模型，无需做任何像素标注，就能够以零样本方式泛化到不同对象类别或词汇集？

论文链接：https://arxiv.org/pdf/2202.11094.pdf

为了实现这一点，他们提出将分组机制加入深度网络。只要通过文本监督学习，分组机制就可以自动生成语义片段。方法概览如下图 1 所示，通过对具有对比损失的大规模配对图文数据进行训练，可以让模型不需要任何进一步的注释或微调的情况下，能够零样本迁移学习得到未知图像的语义分割词汇。

该研究的关键思想是利用视觉 Transformer（ViT）在其中加入新的视觉分组模块，研究者将新模型称为 GroupViT（分组视觉 Transformer）。

图 1：首先使用成对的图像 - 文本数据联合训练 GroupViT 和文本编码器。使用 GroupViT，有意义的语义分组会自动出现，无需任何掩码注释。然后把训练好的 GroupViT 模型迁移到零样本语义分割任务。

GroupVit 的语义分割效果如下两个动图所示。

论文一作为 UCSD 计算机科学与工程系二年级博士生 Jiarui Xu，本工作是他在英伟达做实习生期间进行的。

本研究的主要贡献如下：

超越深度网络中规则形状的图像网格：引入了一种新颖的 GroupViT 架构，将视觉概念分层自下而上分组为不规则形状的组

没有任何像素级标签，并且仅通过对比损失进行图像级文本监督的训练，GroupViT 成功地学会将图像区域组合在一起并以零样本方式迁移到多个语义分割词汇表；

第一个探索不使用任何像素级标签，完成从单独的文本监督到几个语义分割任务的零样本迁移的工作，也为这项新任务建立坚实的基础.

▊ GroupViT 架构

GroupViT 包含按阶段分组的 Transformer 层的分层结构，每个阶段会处理逐渐放大的视觉片段。右侧的图像显示了在不同分组阶段要处理的视觉片段。在初期阶段模型将像素分组为局部对象，例如大象的鼻子和腿。在更高的阶段进一步将它们合并成整体，例如整个大象和背景森林。

每个分组阶段都以一个分组块结束，该块会计算学习到的组标记和片段（图像）标记之间的相似度。相似度高的组会分配给同一组的段标记并合并在一起，并做进入下一个分组阶段的新段标记。

图 2：（a) GroupViT 的架构和训练流程。(b) 分组块的架构。

从图像 - 文本对中学习

为了训练 GroupViT 进行分层分组，研究者在图像 - 文本对之间使用了精心设计的对比损失。

下图 3 为多标签图文对比损失。给定一个输入的图像 - 文本对，他们通过提取其名词并通过一些句子模板提示，来从原始文本中生成新文本。对于对比学习，只有图像和文本对匹配的被认定为正例。研究者训练 GroupViT 和文本编码器以最大化图像 - 文本对正例之间的特征相似性，并最小化负例对之间的特征相似性。

零样本迁移到语义分割

由于 GroupViT 自动将图像分组为语义相似的片段，因此其输出可以轻松地 Zero-Shot 迁移到语义分割，而无需任何进一步的微调。零样本迁移的流程参见下图 4。GroupViT 的每个输出段嵌入对应于图像的一个区域。研究者将每个输出段分配给嵌入空间中图像 - 文本相似度最高的对象类。

通过组 token 的概念学习

研究者选择部分组 token 并且突出 PASCAL VOC 2012 数据集中的注意区域。即使还没有分类，不同的组 token 正在学习不同的语义概念。

▊ 实验结果

消融实验

为了识别 GroupViT 的每个组件的贡献，研究者进行了消融实验。对于所有实验，除非另有说明，否则都默认使用 CC12M 数据集训练 1-stage 的 GoupViT。他们在 PASCAL VOC 2012 验证集上，记录预测的 mIoU 和分割掩膜。

硬分配与软分配：在每个分组块中，研究者使用硬分配或软分配将图像片段标记分配给组 token（第 3.1 节）。对于软分配，他们使用原始的 A^l 矩阵而不是用于硬分配的来计算公式 5。这样做的影响见下表 1 的第一列。

多标签对比损失。研究者研究了表 1 的第二列中，添加多标签对比损失的效果。将多标签对比损失添加到标准损失（公式 8）中，硬分配和软分配的性能分别提高了 13.1% 和 2.6%。使用多标签对比损失，训练和推理期间的输入文本采用类似的提示格式。他们推测这种一致性有助于 GroupViT 更好地将学习到的图像片段分类为标签的类别。

组 token 。在下表 2 中，研究者比较了不同的组 token 和输出 token。他们观察到，不断增加组 token 会持续提高性能。从概念上讲，每个组 token 代表不同的语义概念。所以更多的组 token 可能有助于 GroupViT 学习对更多的语义概念进行分组。尽管组 token 的数量远少于现实世界中的类别数量，但每个组 token 都是 384 维嵌入空间中的 1 个特征向量，但它可以表示比 1 更多的概念。他们还对不同的输出 token 进行了实验，发现 8 是最优的，类似于 [64] 中的发现。

多阶段分组。在下表 3 中，研究者比较了 1-stage 和 2-stage GroupViT 架构。

表 3 ：单阶段和多阶段分组的消融实验。

研究者还在下图 5 中比较了 1-stage 和 2-stage 的视觉零样本语义分割结果。

2-stage GroupViT 生成的分割图比 1-stage GroupViT 更平滑、更准确。

可视化

研究者在 Pascal VOC、Pascal Context 和 COCO 数据集上对 GroupViT 进行评估。GroupViT 在没有接受任何语义分割注释的训练情况下，可以零样本迁移到任何数据集的语义分割类，并且无需对模型微调。

在 PASCAL VOC 2012 数据集上定性实验结果。下图 6 展示了 GroupViT 的特定定性分割结果。他们选择具有单个目标（第 1 行）、同一类的多个目标（第 2 行）和不同类的多个目标（第 3 行）进行了实验。实验证明 GroupViT 可以生成合理的分割。

图 6：PASCAL VOC 2012 的定性结果。阶段 1/2 组在分配标签之前对结果进行分组。

通过组标记的概念学习。下图 7 中可以直观地看到组 token 学习的内容。研究者选择部分组标签并且突出 PASCAL VOC 2012 数据集中的注意区域。

他们发现不同的组 token 会学习不同的语义概念。在第一阶段，组 token 通常侧重于中级概念，例如如「眼睛」(第 1 行) 和「四肢」第 2 行)。有趣的是，如果图片中有人，组 token 36 会关注「手」，而如果有鸟和狗等动物，则会关注「脚」。第二阶段的组 token 更多地与高级概念相关联，例如「草」、「身体」和「脸」。图 7 还表明，第一阶段学习的概念可以在第二阶段聚合为更高级别的概念。

图 7：通过组标记的概念学习。研究者强调了组 token 在不同阶段所涉及的区域。

与现有方法的比较

研究者将 GroupViT 的零样本语义分割性能与其它零样本基准、基于 ViT-S 的全监督迁移方法进行了比较。结果详见下表 4 和表 5。

表 4：与零样本基准的比较。

表 5：与完全监督迁移模型的比较。零样本意味着在没有任何微调的情况下迁移到语义分割。研究者也记录了在 PASCAL VOC 2012 和 PASCAL 上下文数据集的 mIoU。

关键词：概念学习自下而上

上一篇：
下一篇：

精彩阅读

CVPR2022 做语义分割不用任何像素标签，UCSD、英伟达在ViT中加入分组模块
热点
随着深度学习时代的到来，显式分组和识别的思想，在端到端的训练系统中已经不再那么泾渭分明，而是更紧密地耦合在一起。

响应315晚会！工信部下架WiFi破解精灵：类似应用将被打击
热点
工信部下架WiFi破解精灵：类似应用将被打击。

「五度易链」释放数据价值，打造产业发展的“最强大脑”
热点
产业升级创新最重要的动作是构建“产业大脑”，形成园区大脑数字化中枢。

ADAMoracle预言机支持广域网节点喂价机制系统运行步骤
热点
ADAMoracle预言机支持广域网节点喂价机制系统运行步骤。

中国厂商机会来了？俄区App Store下架近7000款应用
热点
自俄乌冲突以来，苹果在俄罗斯的AppStore已损失了6982款App。

MetaMask 完成融资后将发行 Token
热点
或是史上最大规模空投，但监管不确定性极大。

又一顶流男星被封杀？未播剧若再用国产AI换脸，如何能不翻车？
热点
相信在不远的将来，无论是在电视剧行业、电影行业、或者短视频等等，这项技术都能被广泛应用。

PapersWithCode官宣突破6k+基准，TensorFlow影响力第一
热点
刚刚，知名机器学习论文网站PapersWithCode在推特上官宣。

扎克伯格：未来几个月 Instagram 将引入 NFT
热点
去年，Instagram负责人AdamMosseri表示团队正在「积极探索NFT」，但没有任何实际公告。

阿里腾讯裁员数万人？“萝卜蹲”游戏上演！
热点
一场“萝卜蹲”游戏上演了。

财富

企业：做电商专供家电是为了渠道差异化
资讯
在嗅觉敏锐的华强北商人眼中，食品正在成为这里的新标签。3月2日，时代财经来到深圳华强北实地探访发现，华强北的几大主要商场如今都已有了

做不做高端，厨电企业摁下“高端键”背后有何深意？
资讯
中国人对厨房和烹饪的关注历史是源远流长的，一张餐桌的背后演绎着国民经济的发展脉络，也展示着居民生活水平的不断提高，而对于厨电企业而

清洁电器行业又迎来新品类，如何布局？
资讯
继洗地机之后，清洁电器行业又迎来了一个新品类。近期，中国家电网记者注意到了某品牌推出了一款名为多功能蒸汽清洁器的产品，据了解该产品

废旧家电回收体系亟待完善
资讯
我国家电行业已从增量市场转为存量市场，家电保有量已超过21亿台。如今我国家电需求以换新为主，每销售一台家电新品就要处理一台废旧电器，

安吉尔净水机滤芯货不对板，厂家同意三倍赔偿
资讯
此前齐鲁晚报·齐鲁壹点报道《巩俐代言安吉尔净水机，用户三年后发现RO膜非原厂》之后，记者报道安吉尔方面松口与用户协商。13日，记者了解

商家承诺“免费安装家电”成噱头家电安装二次消费遭投诉
资讯
每年3月开始，家装进入旺季，也带动家电销售进入小高峰。花几千元买台空调，在安装中被告知要收取几百元的安装费;新买的热水器要另外付费购

50亿元！闻泰科技向境外特定客户正式出货
资讯
今日，国内知名果链公司闻泰科技发布一份《关于产品集成业务向境外特定客户正式出货的公告》。公告中提到，公司的产品集成业务与境外特定客

三星高管：希望在今年上半年结束前取代苹果
资讯
据印度经济时报报道，韩国智能手机巨头三星的一位高管表示，凭借其最新推出的高端设备，三星希望在今年上半年结束前取代苹果，在高端手机领

锐科激光：2021年净利润同比增长60.17%
资讯
光纤激光器供应商武汉锐科光纤激光技术股份有限公司发布了2021年度业绩快报。报告显示，2021年实现营收34 10亿元，同比增长47 18%;净利润4

销量首破百万！小牛电动2021年营收37.05亿元
资讯
近日，小牛电动发布了2021年第四季度和全年财务业绩报告。报告显示，小牛电动2021年全年营业收入37 05亿元，同比增长51 6%;净收入2 258亿元

MORE+ 资讯

今年3·15晚会，画面“不忍直视”

被盯上的个人信息：儿童手表变偷窥器，免费WiFi一天定位6万次

企业：做电商专供家电是为了渠道差异化

做不做高端，厨电企业摁下“高端键”背后有何深意？

清洁电器行业又迎来新品类，如何布局？

港股救不了中概股

猿辅导的故事，最终沦为了一只“粉笔”

融资丨「坚果投影」完成10亿元Pre-IPO轮融资，投入关键战略业务

融资丨「开为科技」完成数千万元A+轮融资，丹山资本领投

融资丨「领湖智能」完成数百万元天使+轮融资，沸腾创投独家投资

MORE+ 热点

CVPR2022 做语义分割不用任何像素标签，UCSD、英伟达在ViT中加入分组模块

响应315晚会！工信部下架WiFi破解精灵：类似应用将被打击

工信部下架WiFi破解精灵：类似应用将被打击。

「五度易链」释放数据价值，打造产业发展的“最强大脑”

产业升级创新最重要的动作是构建“产业大脑”，形成园区大脑数字化中枢。

ADAMoracle预言机支持广域网节点喂价机制系统运行步骤

ADAMoracle预言机支持广域网节点喂价机制系统运行步骤。

中国厂商机会来了？俄区App Store下架近7000款应用

自俄乌冲突以来，苹果在俄罗斯的AppStore已损失了6982款App。

MetaMask 完成融资后将发行 Token

或是史上最大规模空投，但监管不确定性极大。

MORE+ 焦点

为户外劳动者提供便利重庆已建成665座“劳动者港湾”

　　中新网重庆4月22日电 (韩璐王雪宇)记者22日从重庆市城市管理局获悉，2020年重庆市已建成“劳动者港湾”665座。今年，重庆还将继续建

沈阳警方侦破特大贩卖毒品案抓获88名涉毒违法犯罪嫌疑人

　　中新社沈阳4月22日电 (王景巍)沈阳市公安局22日发布消息，近日，在中国公安部和辽宁省公安厅的指导协调下，历经9个多月，沈阳市公安局

上海警方侦破特大制售假普洱茶案市场价值高达18亿元

　　中新网上海4月22日电 (记者李姝徵)记者22日从上海警方获悉，2021年3月，上海警方全链条侦破一起销售假冒知名品牌普洱茶案，捣毁制售

西安强化知识产权司法保护商标权案件占比高

　　中新网西安4月22日电 (记者张一辰)在世界知识产权日即将到来之际，西安市中级人民法院(以下简称：西安中院)22日召开新闻发布会，发

今年5月至明年2月底江西4A级及以上景区对全国学子免门票

　　中新网南昌4月22日电 (记者李韵涵)记者22日从“红五月·嘉游赣”江西五一假日旅游工作媒体吹风会上获悉，2021年5月1日至2022年2月28

福州乡村公益图书馆：图书“接地气” 门口即是农田

　　中新网福州4月22日电 (叶秋云曾路淇)世界读书日即将来临之际，驾车五十余分钟，记者来到距离福建省福州市30多公里的闽侯县白沙镇马

MORE+ 智能

Q-CTRL：量子计算算法成功率提高1000倍以上

韩媒：三星被限制旗下GalaxyS22手机游戏性能

人才缺口高达500万！人工智能行业“抢人大战”来了

专家警告：未来机器学习可能被专业的攻击者利用

联发科：天玑9000终端Q1上市能效提升37%

微软发布补丁 CVE-2022-21907的概念验证代码也被发布

Pixel Buds A获固件更新：将尝试改善低音和高音

西南五省份推进政务服务跨省通办涉及户籍证明、电子监控违法处理

0糖0卡0添加到底是什么概念？这里面有不少门道

观察：电子烟“毒品化”倾向须引起高度警惕

精彩推送

CVPR2022 做语义分割不用任何像素标签，UCSD、英伟达在ViT中加入分组模块

被盯上的个人信息：儿童手表变偷窥器，免费WiFi一天定位6万次

今年3·15晚会，画面“不忍直视”

企业：做电商专供家电是为了渠道差异化

做不做高端，厨电企业摁下“高端键”背后有何深意？

清洁电器行业又迎来新品类，如何布局？

2021年彩电市场“量降额升”同比上升7.9%

响应315晚会！工信部下架WiFi破解精灵：类似应用将被打击

港股救不了中概股

猿辅导的故事，最终沦为了一只“粉笔”

中国厂商机会来了？俄区App Store下架近7000款应用

「五度易链」释放数据价值，打造产业发展的“最强大脑”

ADAMoracle预言机支持广域网节点喂价机制系统运行步骤

MetaMask 完成融资后将发行 Token

又一顶流男星被封杀？未播剧若再用国产AI换脸，如何能不翻车？

被央视315点名，容联云为何做骚扰电话“黑产”？

扎克伯格：未来几个月 Instagram 将引入 NFT

中国移动加快数智化转型、加速布局数字经济蓝海价值投资潜力连获市场认可

阿里腾讯裁员数万人？“萝卜蹲”游戏上演！

融资丨「坚果投影」完成10亿元Pre-IPO轮融资，投入关键战略业务

PapersWithCode官宣突破6k+基准，TensorFlow影响力第一

CRM讲堂——什么客户才是“好客户”

融资丨「开为科技」完成数千万元A+轮融资，丹山资本领投

互联网底层不会全部基于区块链构建，那Web3.0程序该跑在哪里？

低代码的窘境

候鸟李嘉诚

融资丨「赛文思」完成数百万美金Pre-A轮融资，智行资本独家投资

卧底万人陪聊组织：2亿用户的「他趣」，妹子多是假的！

融资丨「智同科技」完成数亿元融资，加速前沿领域研发

美国防部实施数据管理战略的六个方面

融资丨「探真科技」完成数千万元Pre-A轮融资，联想之星独家投资

融资丨「领湖智能」完成数百万元天使+轮融资，沸腾创投独家投资

尴尬的容联云：子公司被315晚会点名，上市1年股价暴跌90%

融资丨「观成科技」完成数千万A轮融资，方广资本领投

VR全新的交互方式来了！自然手势识别技术一体机方案“骐骥”面世

美图To B，大可不必？

马云给他10亿“攻打”微信，惨败后销声匿迹，6年后还马云2亿用户

被“山寨”的网红烘焙店，“XX点心局”来割韭菜？

飞盘“出圈”：“运动热”背后的秘密

融资丨「爱安特」完成数亿元B轮融资，同创伟业、不惑创投共同领投

融资丨「森瑞斯」完成近亿元A轮融资，深创投领投

三大运营商裁员一半不影响营收、利润？

阿里巴巴在九江投资成立仓储服务公司注册资本1000万

首发丨「励楷科技」完成超2亿元B+轮融资，2022将有7款神经介入产品全新上市

“高价保健品”，一门专门围猎中年人的生意

Netflix花小钱收购游戏开发商，或是为快速变现

京东得德邦，顺丰心慌慌？

APP下架、监管进驻，豆瓣终撞南墙

中概股“生死五日”：谁是泡沫破裂，谁是惨遭错杀？

3·15晚会曝光13大黑幕：「脚踩」老坛酸菜，个人信息疯狂被盗取，直播间成重灾区…

俞敏洪放弃的理想，李书福实现了9次

融资丨「亿药科技」完成千万元天使+轮融资，仙瞳资本独家投资

融资丨「莫廷医疗」完成数千万元A+轮融资，BV百度风投独家投资

融资丨「中博瑞康」完成近亿元A轮融资，远翼投资领投

数据告诉你，消费者最容易踩坑的地方是这里

中国移动：预计2021年营收约8500亿元

2022年“30岁以下创业新贵”&“40岁以下投资人”评选启动！

历史转折中的视频行业

废旧家电回收体系亟待完善

安吉尔净水机滤芯货不对板，厂家同意三倍赔偿

商家承诺“免费安装家电”成噱头家电安装二次消费遭投诉

65岁海信创始人周厚健正式退休，谁是下一代继任者？

大模型时代，我们真的不再需要分词了吗？

图灵奖起源

“元宇宙”招聘升温业内人士：不乏一些公司在蹭热度

冰墩墩+周杰伦也救不了NFT

Web2.5已至，Web3.0还会远吗？

隐私计算技术栈的融合使用之路还很远

疫情之下，民宿行业的生死挣扎与自我救赎

知乎克服广告依赖症了吗？

我在互联网上运动，算“伪健身”吗？

傅盛无枝可依

推进数字贸易高质量对外开放

在微信，发色图会怎样？

裁员、断臂、寻路，微博的艰难一年

改变品牌体验的 8 个科技趋势

SaaS 客户生命周期（逐字稿+PPT）

富达研究：深入探讨比特币的波动性

比安卓机方便！苹果iOS正式版喜迎重大升级：终于能戴口罩解锁

分布式资本投资的版权NFT项目Euterpe能否破壁？

被消费者投诉最多的公司，这行业占比1/4

虚拟现实VS增强现实，谁更受欢迎？

中概股大跌，阿里巴巴回到原点

Sea市值暴跌1500亿美元，CEO选择开诚布公

我，搞副业先报班，倒亏两三万

南极冰盖数据集不如火星？借助无人机和机器学习，斯坦福学者着力挖掘最有价值数据

财报点评 SaaS及其他业务营收增超2倍，2021年涂鸦智能营收3.02亿美元

年年“315”，假货为何依旧泛滥？

营收下滑业务承压，陌陌能否靠当“月老”翻身？

将公平注入AI：机器学习模型即使在不公平数据上训练也能产生公平输出

科普丨其实，人工智能没你想的那么神秘

血钱：下沉市场医疗电商乱象调查

解读 | 中国广电“全国一张网”建设布局（骨干网篇）

融资丨「威沃数据」完成数千万元A轮融资，野草创投独家投资

“屈尊” 社交媒体奥斯卡能否解决顽疾？

阿里腾讯大裁员？内部人士：数量被夸大，业务调整优化岗位是有的

2022阿里巴巴全球数学竞赛启动，四道大众出题将亮相比赛奖金近 400 万元

三大运营商相继发布2021全年财报，移动电信联通谁输谁赢？

【天府物联网小报|第七期】成都市第一批智能网联汽车道路测试车辆行驶号牌正式发放

发标6318万建设5G消息，钱包不鼓的广电为何敢这么“头铁”？