用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

2023-05-04 10:03:14   来源:商业新知网

【导读】 最近,来自NTU、KCL和同济的团队基于Meta的「分割一切」,提出了全新的模型Relate Anything Model——联系一切。

本月初,Meta推出的「分割一切」模型可谓是震撼了整个CV圈。


【资料图】

这几天,一款名为「Relate-Anything-Model(RAM)」的机器学习模型横空出世。 它 赋 予了Segment Anything Model(SAM)识别不同视觉概念之间的各种视觉关系的能力。

据了解,该模型由南洋理工大学MMLab团队和伦敦国王学院和同济大学的VisCom实验室的同学利用闲暇时间合作开发。

演示地址:https://huggingface.co/spaces/mmlab-ntu/relate-anything-model

代码地址:https://github.com/Luodian/RelateAnything

数据集地址:https://github.com/Jingkang50/OpenPSG

效果演示

首先,让我们来看一看「Relate-Anything-Model(RAM)」的应用实例吧!

比如,下面这些关于踢足球、跳舞和交朋友的RAM模型实现的图像分析结果,就让人印象非常深刻,很好地展示了模型出色的性能和多样化应用的潜力。

预备知识:全场景图生成PSG任务

RAM模型基于ECCV"22 SenseHuman Workshop & 国际算法算例大赛「Panoptic Scene Graph Generation」赛道冠军方案。

论文地址: https://arxiv.org/abs/2302.02651

该PSG挑战赛奖金百万,共收到来自全球100支团队提交的各种解决方案,其中包括了使用先进的图像分割方法以及解决长尾问题等。此外,竞赛还收到了一些创新性的方法,如场景图专用的数据增强技术。

经过评估,根据性能指标、解决方案的新颖性和意义等方面的考虑,小红书团队的GRNet脱颖而出,成为获胜的方法。

比赛详情:https://github.com/Jingkang50/OpenPSG

在介绍解决方案之前,我们首先来介绍两个经典的PSG基线方法,其中一个是双阶段方法,另一个是单阶段方法。

对于双阶段基线方法,如图a所示,在第一阶段中,使用预训练的全景分割模型Panoptic FPN从图像中提取特征、分割和分类预测。然后,将每个个体对象的特征提供给经典的场景图生成器,如IMP,以便在第二阶段进行适应PSG任务的场景图生成。该双阶段方法允许经典的SGG方法通过最小的修改适应PSG任务。

如图b所示,单阶段基线方法PSGTR首先使用CNN提取图像特征,然后使用类似DETR的transformer编码器-解码器来直接学习三元组表示。匈牙利匹配器用于将预测的三元组与基本真实三元组进行比较。然后,优化目标最大化匹配器计算的成本,并使用交叉熵进行标签和分割的DICE/F-1损失计算总损失。

RAM模型架构

在RAM模型的设计过程中,作者参考了PSG冠军方案GRNet的双阶段结构范式。尽管PSG原文的研究中表明,单阶段模型目前的表现优于双阶段模型,然而,单阶段模型通常无法像双阶段模型那样达到良好的分割性能。

经对不同模型结构的观察推测,单阶段模型在关系三元组预测上的优异表现可能是由于来自图像特征图的直接监督信号有利于捕捉关系。

基于这一观察,RAM的设计同GRNet一样,旨在两个模式之间找到一个权衡,通过重视双阶段范式并赋予其类似于单阶段范式中获取全局上下文的能力来实现。

具体地,首先利用Segment Anything Model(SAM)作为特征提取器,识别和分割图像中的物体对象,将来自SAM分割器的特定对象的中间特征映射与其对应的分割融合,得到对象级别特征。

随后,把Transformer作为一种全局上下文模块,将获得的对象级别特征经过线性映射后输入其中。通过Transformer编码器中的交叉注意力机制,输出的对象特征从其他对象中收集了更多的全局信息。

最后,对于Transformer输出的每个对象级别特征,通过self-attention机制进一步丰富上下文信息并使各个物体对象之间完成交互。

请注意,这里还添加了一个类别嵌入以指示对象的类别,并由此得到了成对的物体及它们之间关系的预测。

RAM关系分类

在训练过程中,对于每个关系类别,需要执行关系二元分类任务以确定对象对之间是否存在关系。

和GRNet相似的,对关系二元分类任务还有一些特别的考虑。例如, PSG数据集通常包含两个具有多个关系的对象,例如「人看着大象」和「人喂大象」同时存在。为了解决多标签问题,作者将关系预测从单标签分类问题转换为多标签分类问题。

此外,由于PSG数据集通过要求注释者选择特定和准确的谓词(如「停在」而不是更一般的「在」)来追求精度和相关性,可能不适合学习边界关系(如「在」实际上与「停在」同时存在)。为了解决这个问题,RAM采用了一种自我训练策略,使用自我蒸馏标签进行关系分类,并使用指数移动平均来动态更新标签。

RAM的其他设计

在计算关系二元分类损失时,每个预测对象必须与其对应的基础真实对象配对。匈牙利匹配算法用于此目的。

然而,该算法容易出现不稳定情况,特别是在网络准确度低的早期训练阶段。这可能导致对于相同的输入,匹配产生不同的匹配结果,导致网络优化方向不一致,使训练变得更加困难。

在RAM中,不同于之前方案,作者借助于强大的SAM模型,可以对几乎任何图片进行完整且细致的分割,因此,在匹配预测和GT过程中, RAM自然地设计了新的GT匹配方法:使用PSG数据集来训练模型。

对于每个训练图像,SAM会分割多个物体,但只有少数与PSG的ground truth(GT)mask相匹配。作者根据它们的交集-并集(IOU)分数进行简单的匹配,以便(几乎)每个GT mask都被分配到一个SAM mask中。之后,作者根据SAM的mask重新生成关系图,自然地匹配上了模型的预测。

RAM模型总结

在RAM模型中,作者利用Segment Anything Model(SAM)来识别和分割图像中的物体,并提取每个分割物体的特征。随后使用Transformer模块来使分割物体之间产生交互作用,从而得到新的特征。最后将这些特征经过类别嵌入后,通过self-attention机制输出预测结果。

在训练过程中,特别地,作者提出了新的GT匹配方法并基于该方法,计算预测和GT的配对关系并分类它们的相互关系。在关系分类的监督学习过程中,作者视之为多标签分类问题并采用了一种自我训练策略学习标签的边界关系。

最后,希望RAM模型能够为你带来更多的启发和创新。如果你也想训练会找关系的机器学习模型,可以关注该团队的工作,并随时提出反馈和建议。

关键词:

精彩阅读

用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型

热点

本月初,Meta推出的「分割一切」模型可谓是震撼了整个CV圈。

深度学习泰斗、谷歌副总裁 Hinton离职!对毕生工作感到 后悔和恐惧 !

热点

先说近期影响,就是ChatGPT趋势下的新一轮AI竞争。

斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果

热点

大模型出现后,涌现这一术语开始流行起来,通常表述为在小规模模型中不存在,但在大规模模型中存在的能力。

【机器学习】列举几种常见的机器学习分类模型(附代码)

热点

AdaBoost是一种迭代的集成学习算法,它能够对弱分类器进行改进,使得集成后的分类器有更好的性能。

环球头条:AI数字人惊艳亮相AWE CeMeta引领智慧家庭升级

热点

未来,CeMeta也将不断地扎根于智慧家庭行业和营销领域,与场景结合,构建完善的解决方案,打造产品壁垒!

昆仑万维业绩交流会要点摘要

热点

元宇宙方面,目前OperaGX月活用户已经突破2200万,发布游戏已经超过4000款,社区内容生态日趋丰富。

全球百事通!中科创达董事长赵鸿飞在民生AI峰会上的讲话

热点

PC互联网从1995年当时的热潮开始,大家在争论各种互联网会产生什么样的应用。

速读:中国是否已经输在了下一轮变革上-ai革命?

热点

目前来看,无论是在算法,算力还是在数据开放程度方面,中国在AI方面目前是一个全方位的落后的态势。

你做好与AI一起相处了吗?

热点

在我们的读书群,我写下AI不只是聊天工具,甚至不只是效率工具,它将是一种有智慧的生命。

中国链根服务| 城市产业COM(上)

热点

区块链在所有的学科上增加了一个或一组类似“科学”的属性,让各个传统学科变得更加健壮。

财富

天天即时:三个理工男登上全球富豪榜,被苹果CEO点赞

资讯

三个理工男登上全球富豪榜,被苹果CEO点赞,一场流动的财富盛宴。

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏”

资讯

看不下去AI胡说八道,英伟达出手给大模型安了个“护栏”,阻止大模型出口成脏。

幻觉?马斯克TruthGPT也搞不定,OpenAI联合创始人直言很复杂

资讯

幻觉?马斯克TruthGPT也搞不定,OpenAI联合创始人直言很复杂,OpenAI如何打击幻觉?

Altman的灵魂拷问:谁来投资长周期、激进型的实体创新?-世界热点

资讯

Altman的灵魂拷问:谁来投资长周期、激进型的实体创新?,华尔街的短期思维影响了VC甚至天使投资人,所有人

【聚看点】疯狂的炸串,还能火多久?

资讯

疯狂的炸串,还能火多久?,炸串品类仍然拥有不错的前景,但毋庸置疑的是,蒙眼狂奔的时代已经过去。

新势力无奈破产,富士康喜提造车工厂一座

资讯

新势力无奈破产,富士康喜提造车工厂一座,美国造车新势力破产,竟然怪富士康?

“跟风”开淄博烧烤,赚了还是赔了?

资讯

“跟风”开淄博烧烤,赚了还是赔了?,在关注与考验面前,他们有的手忙脚乱,有的积极复盘。淄博烧烤热,给

特斯拉Model 3、Model Y涨价;IBM计划用 AI 取代 7800 个岗位;科学家开发AI系统将意念转成文字丨邦早报

资讯

特斯拉Model3、ModelY涨价;IBM计划用AI取代7800个岗位;科学家开发AI系统将意念转成文字丨邦早报,24小时创投大事

王传福的40条思考:一切“技术壁垒”都是纸老虎

资讯

王传福的40条思考:一切“技术壁垒”都是纸老虎,只有掌握核心技术,企业才能在激烈的市场竞争中脱颖而出。

快讯:五一办婚礼有多贵?

资讯

五一办婚礼有多贵?,谁能逃过“婚礼税”?

深度学习泰斗、谷歌副总裁 Hinton离职!对毕生工作感到 后悔和恐惧 !

先说近期影响,就是ChatGPT趋势下的新一轮AI竞争。

斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果

大模型出现后,涌现这一术语开始流行起来,通常表述为在小规模模型中不存在,但在大规模模型中存在的能力。

【机器学习】列举几种常见的机器学习分类模型(附代码)

AdaBoost是一种迭代的集成学习算法,它能够对弱分类器进行改进,使得集成后的分类器有更好的性能。

环球头条:AI数字人惊艳亮相AWE CeMeta引领智慧家庭升级

未来,CeMeta也将不断地扎根于智慧家庭行业和营销领域,与场景结合,构建完善的解决方案,打造产品壁垒!

昆仑万维业绩交流会要点摘要

元宇宙方面,目前OperaGX月活用户已经突破2200万,发布游戏已经超过4000款,社区内容生态日趋丰富。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个