ACM MM 2023|放心,“噪”不住你的美!美图&国科大联合提出人脸修复方法DiffBFR

2023-08-23 11:06:02   来源:商业新知网

美图影像研究院(MT Lab)与中国科学院大学共同提出盲人脸图像修复方法 DiffBFR,用于修复退化模型未知的低质量图像。该方法探索了两种生成式模型GAN和DPM对长尾问题的适应性,设计合适的人脸修复模块来得到更加准确的细节信息,进而降低生成式方法带来的脸部过平滑现象,从而提高修复精度和准确性。该论文DiffBFR: Bootstrapping Diffusion Model for Blind Face Restoration已被ACM MM 2023接收。

背景

盲人脸恢复(Blind Face Restoration, BFR)旨在从低质量的人脸图像中恢复高质量的人脸图像,是计算机视觉和图形学领域的一项重要任务,广泛应用于监控图像修复、老照片修复和人脸图像超分辨率等各种场景。然而,这项任务非常具有挑战性,因为不确定性退化会损害图像质量以至于损失图像信息,例如模糊、噪声、下采样和压缩伪影等。以前的BFR方法通常依赖于生成对抗网络(GAN),通过设计各种特定于人脸的先验来解决问题,包括生成先验、参考先验和几何先验。尽管这些方法达到了最先进的水平,但仍然没有完全达到在恢复细粒度面部细节的同时获得逼真纹理这一目标。

因为在图像修复过程中,人脸图像的数据集通常分散在高维空间中,并且分布的特征维度呈现长尾分布形式。与图像分类任务的长尾分布不同,图像修复里的长尾区域特征指的是对身份影响较小,而对视觉效果影响很大的属性,比如痣、皱纹和色调等等。如图1所示,通过简单的实验发现,过去基于GAN的方法不能很好地同时处理位于长尾分布头部和尾部的样本,导致了修复图像上明显的过平滑和细节消失。而基于扩散概率模型(Diffusion Probistic Models, DPM)的方法能够较好地拟合长尾分布,在拟合真实数据分布的同时保留尾部特征。


【资料图】

图1 GAN-based和DPM-based在长尾问题上的测试

美图影像研究院(MT Lab)与中国科学院大学在ACM MM 2023上共同提出一种基于DPM的盲人脸图像修复方法DiffBFR,实现盲人脸图像恢复,将低质量(low-quality, LQ)的人脸图像修复成高质量(high-quality, HQ)的清晰图像。

论文链接:https://arxiv.org/abs/2305.04517

DiffBFR:基于DPM的盲人脸图像修复方法

研究发现,扩散模型在避免训练模式崩溃和拟合生成长尾分布方面优于GAN方法,因此DiffBFR利用扩散概率模型来增强人脸先验信息的嵌入,基于它在任意分布范围内产生HQ图像的强大能力,选择DPM作为解决方案的基本框架。

针对论文中所发现的人脸数据集上的特征长尾分布,以及过去基于GAN方法的过平滑现象,该研究探索合理的设计来更好地拟合近似长尾分布,进而克服修复过程中的过平滑问题。通过相同参数大小的GAN和DPM在MNIST数据集上的简单实验(如图1),该论文认为DPM方法能够合理地拟合长尾分布,而GAN会过度关注头部忽略尾部特征,导致尾部特征不再生成。因此,选择DPM作为BFR的一种解决方案。

通过引入两个中间变量,DiffBFR中提出了两个具体的修复模块,采用两阶段设计,首先从LQ图像中恢复身份信息,再根据真实人脸的分布增强纹理细节。该设计由两个关键部分组成:

(1)身份恢复模块(Identity Restoration Module, IRM):

该模块用于保留结果中的人脸细节。同时,提出了一种从LQ图像中加入部分噪声的截断采样方法,取代了在反向过程中以LQ图像为条件,从纯高斯随机分布去噪的方法。论文从理论上证明了这种变化缩小了DPM的理论证据下界(ELBO),从而恢复了更多的原始细节。在理论证明的基础上,引入两个不同输入大小的级联条件扩散模型来增强这种采样效果,降低直接生成高分辨率图像的训练难度。同时进一步证明,条件输入的质量越高,越接近真实数据分布,恢复的图像越准确,这也是DiffBFR在IRM中首先恢复低分辨率图像的原因。

(2)纹理增强模块 (Texture Enhancement Module, TEM):

用于对图像进行纹理打磨。这里引入了一个无条件扩散模型,这是一个与LQ图像完全无关的模型,进一步使得恢复结果看起来更接近真实图像数据。论文从理论上证明了这种在纯HQ图像上训练的无条件扩散模型有助于IRM在像素级空间中输出图像的正确分布,即应用该模块后图像分布的FID低于使用前的FID,得到的修复图像总体上和HQ图像的分布更相似。具体而言,就是利用时间步长截断采样,在保留身份信息的同时对像素级纹理进行打磨。

DiffBFR的采样推理步骤如图2所示,采样推理过程示意图如图3所示。

图2 DiffBFR方法的采样推理步骤
图3 DiffBFR方法的采样推理过程示意图

实验结果

图4 BFR的GAN-based方法和DPM-based方法的可视化效果比较
图5 BFR的SOTA方法的性能比较
图6 BFR的SOTA方法的可视化效果比较
图7 IRM和TEM在模型中的性能比较可视化
图8 IRM和TEM在模型中的性能比较
图9 IRM不同参数性能比较
图10 TEM不同参数性能比较
图11 DiffBFR各个模块的参数设置

总结

该论文提出了基于扩散模型的盲退化人脸图像恢复模型DiffBFR,避免了过去基于GAN方法的训练模式崩溃和长尾消失问题。通过将先验嵌入到扩散模型中,从随机严重退化的人脸图像中生成高质量清晰的恢复图像。具体来说,提出了IRM和TEM两个模块,分别用于还原逼真度和还原真实细节。理论边界的推导和实验图像的演示表明了该模型的优越性,并与现有的SOTA方法进行了定性和定量比较。

研究团队

本论文由美图影像研究院(MT Lab)和中国科学院大学的研究者们共同提出。美图影像研究院(MT Lab)成立于2010年,是美图公司致力于计算机视觉、深度学习、增强现实等领域的算法研究、工程开发和产品化落地的团队,成立以来聚焦于计算机视觉领域的探索研究,2013年开始布局深度学习,为美图旗下全系软硬件产品提供技术支持,同时面向影像行业内多个垂直赛道提供针对性SaaS服务,通过前沿影像技术推动美图AI产品生态发展,曾先后参与CVPR、ICCV、ECCV等国际顶级赛事并斩获十余项冠亚军,发表超30篇国际顶级学术会议论文。美图影像研究院(MT Lab)长期深耕影像领域研发,已经形成深厚的技术储备,在图片、视频、设计、数字人领域具有丰富的技术落地经验。

关键词:

上一篇:
下一篇:
精彩阅读

ACM MM 2023|放心,“噪”不住你的美!美图&国科大联合提出人脸修复方法DiffBFR

热点

美图影像研究院与中国科学院大学共同提出盲人脸图像修复方法DiffBFR,

算力巨头的第一步

热点

面向AI时代,运营商拥有数据、模型、算力三大能力。

客如云融合美味不用等,背后蕴藏着怎样的投资机遇

热点

刚刚度过十一岁生日的客如云,迎来了自己的“中场战事”。

广电5G用户已突破1680!中国广电宋起柱出席BIRTV2023并发表演讲

热点

中国广电在国家广播电视总局的坚强领导下,带领着广电网络行业取得了全

大模型重构百度

热点

新的时代已然开启。

火山引擎:架起视频行业创新与用户体验的“云底座”

热点

前台的内容越精彩、形态越丰富,后台就需要越强大的技术支撑。

火山引擎:架起视频行业创新与用户体验的“云底座”

热点

前台的内容越精彩、形态越丰富,后台就需要越强大的技术支撑。

从孤勇者到行业翘楚 网心科技做对了什么?

热点

“边缘计算将迎来黄金发展十年!”不止一位专家或分析师这样预言。

一文看懂钉钉2023生态大会

热点

这是大多数人都在讨论大模型的一年,这是大多数人都在期待大模型的一年

财富

1家只有1个人的公司,年赚1个亿!

资讯

1家只有1个人的公司,年赚1个亿!,“盖哥”和他的公司能给创业者哪些启

OpenAI向美国专利局提交“GPT-5”商标申请

资讯

OpenAI向美国专利局提交“GPT-5”商标申请,7月31日,美国商标律师JoshG

澳大利亚数据服务公司Vocus提出以42亿美元收购TPG资产

资讯

澳大利亚数据服务公司Vocus提出以42亿美元收购TPG资产,8月1日消息,澳

部分新款iPhone或推迟至10月以后发售

资讯

部分新款iPhone或推迟至10月以后发售,由于OLED屏的量产推迟,部分新机

恒大地产:所有存续公司债将继续停牌

资讯

恒大地产:所有存续公司债将继续停牌,恒大地产发布公告称,为保证公平

马斯克将领导X平台的产品及工程师团队

资讯

马斯克将领导X平台的产品及工程师团队,社交媒体平台X(前身为推特)表

多个AIGC应用在苹果应用商店下架

资讯

多个AIGC应用在苹果应用商店下架,包括讯飞星火在内的多个AIGC相关App,

上汽集团:7月份上汽销售新能源汽车9.1万辆

资讯

上汽集团:7月份上汽销售新能源汽车9 1万辆,据上汽集团官微,据初步统

京东回复收购永辉传闻:目前没有这个意向

资讯

京东回复收购永辉传闻:目前没有这个意向,针对“京东洽谈收购永辉”的

算力巨头的第一步

面向AI时代,运营商拥有数据、模型、算力三大能力。

客如云融合美味不用等,背后蕴藏着怎样的投资机遇

刚刚度过十一岁生日的客如云,迎来了自己的“中场战事”。

广电5G用户已突破1680!中国广电宋起柱出席BIRTV2023并发表演讲

中国广电在国家广播电视总局的坚强领导下,带领着广电网络行业取得了全

大模型重构百度

新的时代已然开启。

火山引擎:架起视频行业创新与用户体验的“云底座”

前台的内容越精彩、形态越丰富,后台就需要越强大的技术支撑。

处暑顺口溜 关于处暑的诗词 基本情况讲解

1、处暑顺口溜2、关于处暑的诗词3、以上就是关于【处暑顺口溜关于处暑

广东廉江一被告人犯诈骗罪获刑

本报讯伴随开学季的到来,也是很多家长焦头烂额、想方设法为子女争取好

中纪委通报:王晓涛接受审查调查!

大皖新闻讯据中央纪委国家监委驻中华全国总工会机关纪检监察组、辽宁省

育碧《飙酷车神 轰鸣祭典》公布最新游戏预告片,9 月 14 日发售

IT之家8月23日消息,育碧在2023德国科隆游戏展开幕典礼上公布了《飙酷

股票行情快报:道恩股份(002838)8月22日主力资金净卖出880.72万元

截至2023年8月22日收盘,道恩股份(002838)报收于元,下跌%,换手率%,

前7月我国对其他金砖国家进出口增长19.1%(新数据 新看点)

本报北京8月21日电(记者杜海涛)金砖合作机制自成立以来,持续深化经