CV圈又炸了?DINOv2强势来袭!分割检索无所不能,Meta不冲则已,一鸣惊人! 当前看点

2023-04-21 15:15:37   来源:商业新知网


(资料图片仅供参考)

来源:新智元

继「分割一切」后,Meta再发DINOv2。

这还是小扎亲自官宣,Meta在CV领域又一重量级开源项目。

小扎也是高调表示,Meta一直致力于开源各种AI工具,而今天发布的DINOv2更是SOTA级别的模型。能在深度估计、语义分割、图像相似性比较等方面实现自监督训练。

小扎表示,用这个模型可以借助卫星图像生成不同大洲的森林高度。而在未来,还可以帮助医学成像、粮食产量等方面。

当然,最后小扎还不忘了自己的主打——元宇宙。他认为,DINOv2可以极大地加持元宇宙的建设,让用户在元宇宙中的沉浸体验更出色。

网友高声大呼,「计算机视觉再一次不存在了!」

效果演示

Meta在官网上放出了深度估计、语义分割和实例检索的案例。 深度估计: 对于不熟悉计算机视觉的朋友来讲,深度估计(Depth Estimation)可能是一个比较陌生的词汇。但其实,只要理解了其应用场景就能明白是什么意思了。 简单来说,对于2D照片,因为图像是一个平面,所以在3D重建时,照片中每一个点距离拍摄源的距离就至关重要。 这就是深度估计的意义。 右侧的图片中,相同的颜色代表距离拍摄点距离相同,颜色越浅距离越近。这样子整个图片的纵深就出来了。 再来看几组例子: 语义分割: 语义分割的含义比较简单。从字面上看,语义这个词在不同的语境下含义也不同。比如说,在语音识别领域,语义指的就是语音内容。而在图像领域,指的就是图片内容。 分割就是把一张图片中不同的部分用颜色标明,这样就清楚各部分之间的划分了。 有点像小时候玩过的涂鸦画本,在空白的轮廓图上给不同的部分上色。 当然还是有区别的,画本中同一部分我们也可以用不同的颜色来装饰。 如上图中,桥是一种颜色,河水是一种颜色,草地是一种颜色,远处的树又是一种颜色。 更多示例: 实例检索: 这个就更好理解了。上传图片到模型中,就可以从有茫茫多图片的库中找到类似的图片。 上图中的埃菲尔铁塔就是输入的图片,模型随后检索出了大量同题材的图片,风格各异。

DINOv2

论文地址:https://arxiv.org/pdf/2304.07193.pdf 看完了SOTA级别的演示,接下来我们来看一看藏在背后的技术突破。 要知道,自然语言处理中对大量数据进行模型预训练的突破,为计算机视觉中类似的基础模型开辟了道路。 这些模型可以通过产生多种用途的视觉特征,大大简化任何系统中的图像使用,无需微调就能在不同的图像分布和任务中发挥作用的特征。 这项工作表明,现有的预训练方法,特别是自监督方法,如果在来自不同来源的足够的数据上进行训练,就可以产生这样的效果。 Meta的研究人员重新审视了现有的方法,并结合不同的技术,在数据和模型的大小上扩展我们的预训练。 大多数技术贡献的是加速和稳定规模化的训练。在数据方面,Meta提出了一个自动管道,目的是建立一个专门的、多样化的、经过整理的图像数据集,而不是像自监督文献中通常所做的那样,建立未经整理的数据。 而在模型方面,研究人员用1B的参数训练了一个ViT模型,并将其提炼成一系列较小的模型,这些模型在大多数图像和像素级别上超过了现有的OpenCLIP在图像和像素层面上的基准。 与学习任务无关的预训练表征已经成为自然语言处理(NLP)的标准。人们可以照搬这些特征,不用进行微调,并在下游任务中取得了明显优于特定任务模型产生的性能。 这种成功被大量原始文本预训练所推动,如语言建模或单词向量,而不需要监督。 在NLP的这种范式转变之后,研究人员预计,计算机视觉中会出现类似的基础模型。这些模型能产生在任何任务中都能发挥作用的视觉特征。在图像层面,有图像分类,而在像素层面,则有分割(如上例)。 对这些基础模型的大多数努力都集中在文本指导的预训练上,即使用一种文本监督的形式来指导特征训练。这种形式的文本指导的预训练限制了可以保留的关于有关图像的信息,因为标题只包含图像中的表层信息,而复杂的像素级信息可能不会体现。 此外,这些图像编码器需要一一对应的文本&图像语料库。文本指导的预训练的一个替代方法,是自我监督学习,其特征是单独从图像中学习。这些方法在概念上更接近于语言建模等任务,并且可以在图像和像素层面上捕捉信息。 然而,自我监督学习的大部分进展都是在小型策划数据集ImageNet1k上进行预训练的。一些关于将这些方法扩展到ImageNet-1k之外的努力已经被尝试过了,但他们的特点是,专注于未经整理的数据集,导致特征的质量大幅下降。 这是因为缺乏对数据质量和多样性的控制。 Meta的研究人员关注的问题是,如果在大量的策划过的数据上进行预训练自我监督学习,是否有潜力学习所有的视觉特征。他们重新审视了现有的在图像和斑块层面学习特征的鉴别性自监督方法,如iBOT,Meta的研究人员在更大的数据集下重新考虑了iBOT的一些选择。 Meta的大部分技术贡献都集中在针对模型和数据规模扩大时的稳定和加速判别性自我监督学习等方面。这些改进使新方法比类似的鉴别性自我监督方法快2倍左右,所需的内存少3倍,这样就能利用更大的批次规模进行更长时间的训练。 关于预训练数据,研究人员建立了一个模型来过滤和重新平衡包含大量未处理的图像的数据集。灵感来自于NLP中使用的办法,使用了数据相似性而非外部元数据,且不需要手动注释。 在这项工作中,一个简单的聚类方法能出色地解决这个问题。 Meta的研究人员收集了一个由1.42亿张图片组成的多样化的语料库来验证此办法。最终提供了各种预训练的视觉模型,称为DINOv2,也就是今天我们介绍的主角。 Meta也是发布了所有的模型和代码,以便在任何数据上都可以重新训练DINOv2。 研究人员在各类计算机视觉的基准上验证DINOv2的能力,并在图像和像素层面上,还对其进行了扩展,如下图。

网友:这才是 「Open」AI

DI NOv2发布后,网友们也是一致好评。 「计算机视觉基础模型正在取得令人难以置信的快速进展。类似于在大规模数据和模型上的自我监督学习所推动的LLMs。感谢Meta开源DINOv2和SAM--对于~~90%的普通领域任务来说,这些模型的能力越来越强,基本上不需要微调。」 「SAM+DINO,在农业方面上应用太强了。」 「Meta 才是真正的「Open」AI 公司 !」

关键词:

精彩阅读

赋能行业数智化 提供有温度有深度的服务,华为是如何做到的?-世界快讯

热点

华为服务的愿景就是给用户提供有深度、有温度的服务,持续领先,构建极致体验。

马斯克为AI打官司:先告微软,再搞OpenAI|今亮点

热点

4月20日,在微软宣布把推特踢出其广告平台后,马斯克立刻发推回击,宣称将诉诸法庭。

360申请CHAT360商标-环球即时

热点

近日,北京奇虎科技有限公司申请注册多枚“360AI”、“360智脑”、“CHAT360”、“360GPT”等商标。

手工录入与系统自动生成的差别 世界焦点

热点

时代在进步,官员面对老百姓,也需要与时俱进,不论办事方法或应对的话术。

聚观早报|特斯拉Q1盈利同比跌20%;郑渊洁永远不再发表作品-当前关注

热点

截至今年3月,KargoBot累计已经运输了超过120万吨煤炭及其他大宗商品,累计物流收入突破1亿元。

彻底阻断推销电话,手机上的这个功能你不能不试!

热点

智能手机上的骚扰电话拦截功能已经相当成熟了,它们背后往往有一个巨大的数据库,可以看作是一份黑名单。

东软集团30年来首亏,成都核酸码事件之后东软到底该咋看?-当前通讯

热点

因此,东软短期内的问题并不可怕,但是如何解决这些问题才是最关键的事情。

用友BIP助力中国领先企业数智化国产替代

热点

随着数字经济的快速发展,软件的重要性日益凸显。

全球快看:从连接到生态,工具SaaS转型B端业务SaaS的成功实践

热点

国内客户对工具SaaS价格较为敏感,大部分用户习惯免费使用,而且使用场景比较有局限性。

财富

融资丨「嘀嗒狗」完成数千万元 Pre-A 轮融资,OXYZ Seafirst Capital 投资

资讯

融资丨「嘀嗒狗」完成数千万元Pre-A轮融资,OXYZSeafirstCapital投资,本轮融资将用于完善平台建设以及东南

融资丨「海森生物」完成3.15亿美元融资,康桥资本投资

资讯

融资丨「海森生物」完成3 15亿美元融资,康桥资本投资,募集资金将用于未来的收购和创新产品管线的业务发展。

融资丨「华迈电气」完成数百万元Pre-A轮融资

资讯

融资丨「华迈电气」完成数百万元Pre-A轮融资,资金将主要用于产品研发

华为手机微信显示时间怎么调?华为手机微信显示一半怎么调回来?

资讯

华为手机微信显示时间怎么调?是自动设置的,取消即可!1 点击最近应用程序键(手机左下方的触摸键)-点击左侧图标-进入任务管理器-活动应用程

手机突然黑白色怎么调回彩色?华为手机颜色变黑白怎么调回来?

资讯

手机突然黑白色怎么调回彩色?进入设置 > 显示和亮度 > 色彩与色温 > 色彩调节与色温 ,根据使用习惯,选择色彩,建议选择对眼睛较为

小米11微信计步不准怎么设置?小米怎么设置微信计步?

资讯

小米11微信计步不准怎么设置?首先将你的红米note11的系统升级到最新的系统,再检查一下微信的系统更新情况,也更新到最新的系统,系统没有

华为锁屏服务卡片如何关闭?华为手机桌面快捷设置?

资讯

华为锁屏服务卡片如何关闭?1、在华为手机上左右滑动屏幕,找到设置的图标。2、打开设置页面,点击安全和隐私的菜单项。3、点击应用锁的菜单

如何把天气添加到桌面?华为桌面时间天气移除后怎么添加?

资讯

如何把天气添加到桌面?在桌面主屏幕双指捏合,进入桌面编辑状态。点击窗口小工具,长按需要的小工具(天气)并将其拖动到桌面空白区域或点击

华为手机开电筒快捷键?怎么取消手机屏幕上的快捷键?

资讯

华为手机开电筒快捷键?1、在华为手机上左右滑动屏幕,找到设置的图标。2、打开设置页面,点击安全和隐私的菜单项。3、点击应用锁的菜单项。

中式快餐走向万店:标准化、规模化、一体化

资讯

中式快餐走向万店:标准化、规模化、一体化,中式快餐从区域到全国

马斯克为AI打官司:先告微软,再搞OpenAI|今亮点

4月20日,在微软宣布把推特踢出其广告平台后,马斯克立刻发推回击,宣称将诉诸法庭。

360申请CHAT360商标-环球即时

近日,北京奇虎科技有限公司申请注册多枚“360AI”、“360智脑”、“CHAT360”、“360GPT”等商标。

手工录入与系统自动生成的差别 世界焦点

时代在进步,官员面对老百姓,也需要与时俱进,不论办事方法或应对的话术。

聚观早报|特斯拉Q1盈利同比跌20%;郑渊洁永远不再发表作品-当前关注

截至今年3月,KargoBot累计已经运输了超过120万吨煤炭及其他大宗商品,累计物流收入突破1亿元。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个