2022-04-21 09:58:47 来源:商业新知网
近日,2022 IEEE 国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition,简称 CVPR)公布论文收录结果。 据 CVPR 官网显示,共收到全球范围内 8186 篇有效投稿,其中火山引擎论文《Dressing in the Wild by Watching Dance Videos》(《基于跳舞视频的通用虚拟换装》)成功入选 。
CVPR 已是计算机视觉和模式识别领域的全球顶级学术会议。根据谷歌学术公布的2021年最新学术期刊和会议影响力排名,CVPR在所有学术刊物中,影响力仅次于 Nature、NEJM 和 Science。
此次被收录的最新研究成果涵盖了计算机视觉的各项前沿工作。 火山引擎被收录的论文提出了 wFlow (flow in-the-wild)技术方案,首次解决真实用户场景下的虚拟换装问题 。该方案通过 2D 和 3D 信息的结合,可以兼容图片中复杂的人体姿势,背景和服装类型,包括宽松不贴身服装(如连衣裙),同时保持换装结果图片的高清晰度和真实性。
另外,此方案通过一种自监督训练的方式,通过公开可用的人物跳舞视频(经脱敏处理)作为训练数据来实现虚拟换装神经网络模型的训练,避开了难以获得换装结果图作为直接监督的难题。 论文中火山引擎构建的 dance50k 数据集后续也将公开供学术界使用。
在娱乐和电商领域,虚拟换装问题有着比较好的落地前景。虚拟换装,简单来说就是在没有实际的人物和衣服的情况下,直接通过算法将参考图片上的衣服,迁移到另一个用户图片中的人身上,从而生成真实的试穿图片。
由于缺乏对人体潜在的 3D 信息感知能力及相应的多样化姿态-衣服数据集,学术界此前很难处理好实际真实用户场景下的数据,只能在一些固定分布的数据集上有相对好的效果。现有的虚拟换装工作局限于简单人体姿势及贴身衣物,极大地限制了其在真实场景下的应用能力。
在 2020 年上半年,火山引擎开始对虚拟换装技术做长线规划并开始长期投入,首次将 2D 像素流与 3D 顶点流相结合形成更为通用的外观流预测模块 (命名为 wFlow),在解决宽松衣服变形的同时提升对复杂人体姿势的适应力。
具体来说,2D 像素流负责构建衣物图片与人体分割图之间的纹理映射关系,其对图片层面的空间结构特征敏感但无法复现潜在 3D 人体的刚性变换,通过进一步引入基于 SMPL 人体 3D 模型的顶点流,通用复合外观流 wFlow 相较现有工作的单一外观流具备更强的三维感知力,同时不丢失了对目标衣服完整 2D 空间结构的保留能力,下图展示了 wFlow 与其他 SOTA 虚拟试穿方法的对比结果。
相较现有工作需要大量人工采集成对衣服-人物数据集进行模型训练,火山引擎通过在跳舞视频上直接进行跨帧自监督训练并对复杂例子进行在线环式优化,实验证明 wFlow 相较现有的单一像素或者顶点外观流方法在真实世界图片上泛化性更高。
可以说,wFlow (flow in-the-wild)技术方案,相比现有方案有更好的视角效果和客观图像质量评估指标,有效提升了虚拟换装的普适性。
论文中,火山引擎新提出的大规模视频数据 Dance50k 相较现有被广泛使用的 DeepFashion 数据集在衣服种类及图片数量上均有大幅提升(见下图)。
同时,火山引擎决定将构建的大规模人物视频数据集共享给学术界使用,以期促进虚拟换装及其他以人为中心的图像生成研究。
未来,AI 技术将越来越多地应用于贯穿 B 端商家与 C 端消费者的整条业务链路,例如在短视频和电商领域:
为短视频特效道具提供技术基础,实现一键换装的短视频特效。用户可以穿着各式各样的服装进行短视频创作,激发创作欲望,丰富后置摄像头的视频创作生态;
帮助电商环境下,用户服装选购实现线上试衣,甚至帮助商家生成高质量模特服装展示图,节省成本。
除此之外,火山引擎自研了头部、耳部、足部、手部、腕部、颈部、身体等业内最全面的端上实时人体 3D 感知能力,支持 10 余类商品的实时试穿试戴,提供全平台统一的虚拟试穿试戴解决方案。
疫情当前,线上消费场景需求更多元,AR 虚拟体验成为促进体验式消费升级的重要一环。对于用户来说,能够直接在线上进行商品试用,有助于提升用户的线上消费体验,从而促进商品的购买转化;对于品牌方来说,提供线上的商品及品牌特效互动的能力,这对于品牌推广及购买转化率,都有重要的意义。
借助落地的 wFlow 技术方案,火山引擎开放技术,拥抱合作,希望帮助更多行业用户打造新的营销玩法,实现业务增长。
*本文系量子位获授权刊载,观点仅为作者所有。
苏州天孚光通信股份有限公司(以下简称天孚通信)昨日发布2021年年度报告。报告显示,公司2021年实现营业收入10 32亿元,较上年同期增长18 2%
Quantinuum在寻求建造世界上性能最高的量子计算机方面达到了另一个里程碑。本周,Quantinuum系统模型H1-2的性能翻了一番,成为第一台实现40
在一份新的职位列表中,微软已经证实它正在将其Android工作整合到一个名为"Android微软平台和体验"的部门。此举可能使Windows 11和Android
4月15日、18日连续斩获两个涨停板后,华联股份(000882)突曝利空,2021年预盈变预亏。4月18日晚间,不少投资者在华联股份股吧表示,玩完、准
荣盛发展4月18日晚间发布2021年度业绩预告修正公告,大幅下修2021年度业绩预告,预计2021年全年归属于上市公司股东的净利润亏损45亿元至60
FVM正在稳步落地中,不论是开发者计划还是实现上的兼容推进。
广电3年内用户破亿不是难事,只是携转业务开放的当下,如何守住阵地不让用户流失才是难题。
这几天,无论是业界还是学界,也许最大的热点话题就是已经沸沸扬扬很久的中国知网再起波澜。
到了5G时代,一切就都复杂了起来。为了解决覆盖、容量、或者在建设初期抱4G的大腿,5G把“双连接”搞得风生水起。
当下,信息技术日新月异,新模式、新业态迎来全面爆发,未来十年将是下一代互联网发展的关键期。