为什么我们依然觉得AI换脸很“假”?

2022-04-02 11:42:44   来源:商业新知网

大数据文摘转载自数据实战派

作者:Martin Anderson

译者:张雨佳

《星球大战》的衍生剧《波巴·费特之书》(The Book of Boba Fett)中,曾有一集引起粉丝们的激励讨论。这是因为,年轻版 Mark Hamill 由工业光魔公司(Industrial Light and Magic)雇佣 deepfakes 从业者 Shamook 制作而成。

尽管 AI 换脸方法在 2020 年 CGI 技术的基础上有很大进步,而且总体上符合当前 AI 换脸的最佳视觉标准,但有一部分粉丝认为,《星球大战》中“Young Luke Skywalker”的新造型与前一部相比有一定缺陷。

比如最明显的问题是,在以 Skywalker 为主角的长镜头中人物缺乏表现力和细腻真切的情感,这是使用 AI 换脸的典型结果,比 CGI 特效更明显。The Verge 网站认为,Boba Fett 的 AI 换脸结果像“1983 年 Mark Hamill 那张神秘且毫无表情的冰块脸”。

但不管工业光魔公司背后到底使用的是什么技术,AI 换脸目前存在着难以传达细腻情感的根本性问题。

无论是通过改变架构还是改进原始训练素材,都很难解决这个问题。

不过 viral deepfakers 方法在选择目标视频时通常会更加谨慎,从而可以规避这一问题。

面部对齐的局限性

最常用的两个 AI 换脸开源代码库是 DeepFaceLab(DFL)和 FaceSwap,它们都脱胎于 2017 年。DFL 尽管功能有限,但在视觉特效(VFX)行业拥有巨大的领先优势。

这些代码的最初任务是从原始素材(即视频帧或静态图像)中提取人脸特征点。

正在运行的面部定位网络(FAN),来源:

https://github.com/1adrianb/face-alignment

DFL 和 FaceSwap 都使用了面部定位网络(FAN),FAN 可以为提取出来的人脸创建 2D 和 3D 特征点(如上图所示)。3D 特征点可以广泛感知人脸的方向,包括侧面的轮廓和比较尖锐的角度。

下面是一种非常基本的评估像素准则:

来自 FaceSwap 的面部轮廓的粗略标准,来源:

https://forum.faceswap.dev/viewtopic.php?f=25&t=27

该标准需要考虑面部最基本的线条:比如眼睛和下巴可以扩大和缩小,嘴巴的基本形状(如微笑、皱眉等)也可以被追踪和调整。从相机的角度来看,面部可以向任意方向旋转 200 度左右。

而这些粗糙的像素边界位置,是整个 AI 换脸过程中唯一精确的面部准则。训练时也只是与对应像素或周围像素进行比较,然后选择对应的处理方法。

DeepFaceLab 中的训练示例

(来源:https://medium.com/geekculture/realistic-deepfakes-with-deepfacelab-530e90bd29f2)

由于没有面部子区域的拓扑结构(包括脸颊的凹凸度、年龄细节、酒窝信息等),所以想尝试在匹配原始人物(你想改变的脸)和目标人物(你想复制的脸)中保持“细腻”的特征是不太可能的。

利用有限的数据

训练 AI 换脸模型需要获取两个人物之间的匹配数据,但这并不容易。需要匹配的角度越特殊,你就越有可能在人物 A 和人物 B 之间的(特殊角度)匹配上做出妥协:保持相同的表情。

人脸数据并不完全匹配。

如上图所示,这两个人物的面部结构非常相似,但仍不能达到完全匹配,而这已经是数据集中匹配度最高的结果了。

不过上图中依然存在明显的差异:角度、镜头和灯光没有完全匹配;人物 A(左图)没有像人物 B(右图)一样完全闭上眼睛;人物A的图像质量和压缩率更差;人物 B 看起来比 A 更快乐。

虽然有以上种种差异,但我们只能依靠这些已有素材对 AI 换脸模型进行训练。

因为出现 A 与 B 完全匹配的情况很少,同样训练集中也很少有类似的匹配。因此训练常常会发生欠拟合和过拟合现象。

欠拟合:如果某些特殊角度的匹配数据较少(即数据集中数据量比较大,但该角度的匹配图像对较少),那它与更“简单普遍”的匹配数据相比将不会得到有效训练。因此,AI 换脸模型就不能对这个特殊的角度或表情进行很好地表达。

过拟合:由于缺乏足够的匹配数据,AI 换脸模型有时会复制多次数据集中的匹配数据,以便在最终模型中获得更好的结果。但这可能会导致过拟合,用这种模型制作的 AI 换脸视频很可能会对两张照片的不匹配之处进行复制,比如眼睛的闭合程度。

如下图所示,是用 DeepFaceLab 开源方法将弗拉基米尔普京(Vladimir Putin)训练为凯文史派西(Kevin Spacey)的样子,进行了 16 万次迭代训练。

(来源:https://i.imgur.com/OdXHLhU.jpg)

大部分人看到上面的图片后,可能认为 Putin 在这些换脸测试中的结果比 Spacey 更具空间感。下面我们介绍一下在线表情识别程序是如何处理表情不匹配问题的:

(来源:https://www.noldus.com/facereader/measure-your-emotions)

根据这个比 DFL 和 Faceswap 更详细的面部特征分析,我们发现 Spacey 的换脸结果中很少有 Putin 那样的愤怒、厌恶和轻蔑的表情。

这些不同的表情分类是 entangled 包中的一部分,因为常用的 AI 换脸应用程序没有匹配表情或情绪的能力。

对我们来说,这些表情间差异很大。我们很小的时候就将阅读面部表情作为一种基本的生存技巧,并在成年后继续依赖这种技巧来与社会融合、实现进步以及交配,并将其作为一种持续的威胁评估方法。所以我们对微表情非常敏感,所以 AI 换脸技术终需对微表情表达进行处理。

事与愿违

虽然 AI 换脸技术革命带来了在现代电影和电视中插入“经典”电影明星的可能性,但人工智能无法以更兼容的定义和质量来拍摄之前的经典作品,而这对用户来说也很重要。

假设重现 Boba Fett 中的 Hamill 形象就需要一个训练好的 AI 换脸模型,那么就需要利用 Hamill 在制作《绝地归来》(Return of the Jedi)时,30 岁出头样子附近的片段作为训练数据。

这部影片采用伊士曼彩色负片 250T 5293/7293 胶片拍摄,当时被认为较好的中等偏细颗粒度的 250ASA 乳剂,在 80 年代末就已经从清晰度、颜色范围和保真度等方面被超过。在当时的经典之作《绝地归来》中,甚至连主角的特写镜头都没有,这使得图片颗粒度问题更加重要。

Hamill 在《绝地归来》(1983)中的一些镜头。

此外,我们通常会对以 Hamill 为主角的视觉特效镜头通过光学打印机处理,来增加胶片的颗粒度。卢卡斯影业也已经通过在档案馆中处理保存原始底片和几个小时未使用的原始镜头,解决了颗粒度问题。

同时为了丰富和多样化 AI 换脸数据集,我们通常会搜寻演员一个时间段内的所有作品。而 Hamill 在 1977 年经历车祸后外貌有所变化,并且在参演完《绝地归来》后几乎立即开始了他作为著名配音演员的第二职业,这就导致其数据素材过少,无法得到性能较好的 AI 换脸模型。

表情范围是否有限制

如果你想要 AI 换脸模型完成演员的夸张表情,那你需要广泛收集这些不常见面部表情的原始镜头。但很有可能在与年龄相匹配的镜头中不包含这种夸张表情。

例如,当《绝地归来》开始主线剧情时,Hamill 已经可以基本掌握自己的情绪了。如果这时你想用《绝地归来》的数据训练一个 Hamill 的 AI 换脸模型,你就需要一些限定范围内的情绪数据和不常见的面部表情,而不是他出演的那些早期作品。

你可能认为在《绝地归来》中 Skywalker 遇到巨大压力时,会提供比较夸张、有效的表情素材。但实际上这些场景中的脸部表情素材转瞬即逝,并且还受动作场面的运动模糊和快速剪辑的影响,导致素材无法得到有效使用。

概括:表情的融合

如果真的用 AI 换脸模型完成 Boba Fett 中 Skywalker 角色,那么他只能表现有限的表情范围,这不只是因为原始素材的缺少。AI 换脸模型在编码器-解码器训练过程中寻求一种通用模型,该模型能够从成千上万幅图像中成功提取重要特征,并尝试获得 AI 换脸数据集中没有或少见的面部角度。

如果 AI 换脸模型不具备这种灵活性,那它只能在每帧画面的基础上进行复制和粘贴,无法考虑时间上的连续性或背景信息。

而且该技术的发展可能会牺牲表情的真实性,任何“细腻”的表情都有可能不是真实的。我们的脸像 100 个设备精良的管弦乐队一样配合演奏,而 AI 换脸软件至少缺少了里面的弦乐部分。

情绪的表达差异

并不是所有的面部动作及其对我们的影响都是统一的,比如在罗杰·摩尔(Roger Moore)身上看起来漫不经心的挑眉动作,在赛斯·罗根(Seth Rogan)身上就显得不太老练。如果将玛丽莲·梦露的迷人魅力,利用 AI 换脸模型强加到一个充满“愤怒”和“不满”情绪的角色(比如 Aubrey Plaza 在 Parks and Recreation 第七季中扮演的角色)上时,就会传达出消极情绪。

因此,在 A、B 人脸数据之间的相同像素并不一定对模型表达相同的情绪起作用,但这是训练先进的 AI 换脸开源模型的前提。

我们期望的 AI 换脸模型,不仅能够识别表情并推断情绪,而且能够表现诸如愤怒、迷人、无聊、疲惫等高层次概念,并将这些情绪及相关表情在两个身份中进行不同表达,而不是单纯在嘴巴或眼睛的位置上进行复制。

关键词: 面部表情 原始素材

上一篇:
下一篇:
精彩阅读

为什么我们依然觉得AI换脸很“假”?

热点

我们期望的AI换脸模型,不仅能够识别表情并推断情绪,而且能够表现诸如愤怒、迷人、无聊、疲惫等高层次概念。

玩桥牌,8位人类世界冠军,都输给了AI

热点

日前,人工智能(AI)再次战胜了人类。

再传捷报!清博出招:用技术创新赋能媒介融合

热点

清博团队在“媒体融合技术创新”赛道中媒资视频内容AI检索科目取得了三等奖的成绩。

每周签约动态 |AMT企源再添新单,与上海机场、天味食品、仟坤集团、民生保险等企业携手合作

热点

近期,AMT企源与上海浦东航油、天味食品、仟坤集团、民生保险等企业成功签约。

LSTM还没「死」!

热点

如果说「LSTM」已死,它为何依然能够在Kaggle竞赛中成为赢家呢?

汇通达上市后首份年报:2021年收入657.6亿元,付费门店SaaS+用户近1.8万家

热点

针对服务业务,汇通达加大研发投入与营销力度,对产品及客户需求进行分层分级管理,提升对会员店的服务的有效性。

强化重庆技术成果转化服务体系:大学科技园科技成果转化平台建设思考

热点

我国大学科技园从1991年起步探索,经过20多年建设发展,规模日渐扩大、模式不断创新,取得了显著成绩。

奇点云行在:平台是脑后的明灯|《数字新浙商》专访

热点

成立6年来,奇点云始终与客户站在一起,基于客户业务场景不断完善数智产品与服务。

运营商停止价格竞争和内卷,对用户来说是好事还是坏事?

热点

三家运营商,在5G时代的价格战还打不打的起来?

“故事大王”新开普

热点

在“元宇宙”与“数字货币”双概念加持背后,“故事大王”新开普的未来会如何,答案依旧飘在空中。

财富

苹果公司发布第16份报告:将提供5000万美元的员工发展基金

资讯

苹果公司今天发布了其第16份年度《我们供应链中的人与环境》报告。这份文件以前被称为"供应商责任报告",详细介绍了苹果公司及其供应商如何

英特尔推出首个支持AV1视频编码的GPU硬件供应商

资讯

AV1 是一个非常高效、开源、免版权费的视频编解码器,和 HEVC(H 265)和 AVC(H 264)等竞争。在流媒体和视频平台加速整合 AV1 的同时,

彩虹股份G8.5二期液晶基板玻璃生产线投产

资讯

3月30日,彩虹股份G8 5二期液晶基板玻璃生产线在彩虹(合肥)液晶玻璃有限公司点火投产。据了解,2020年,国产首条完全自主知识产权的溢流法G8

*ST艾格迎最后一个交易日 A股拉夏等3股恐将终止上市

资讯

A股正在加速出清垃圾股。3月30日晚间,*ST中新(603996)、*ST拉夏(603157)、*ST东电(000585)三家公司均宣告了退市风险,可能将被终止上市,

裁员不是不可,只是解聘NN

资讯

近段时间,但凡是知名的大厂,没有谁能躲得过裁员的传闻。无论是媒体的深挖,还是社交平台上的分享,都让那些真真假假、虚虚实实的传言变得

“双碳”指引下,中国废旧家电回收行业迎来新一轮投资热潮

资讯

家住广州的晓晨,最近换了台消毒柜,旧机修不好又太重,直接让维修师傅拉走,后以废铁形式被转卖给废品回收人员。今后,废旧家电的回收也许

如何让廉江小家电“走出去”

资讯

3月25日,主题为携手廉江智造 共享发展机遇的洽谈会在广东湛江举行,政府、海内外商业协会、行业资深人士云聚会,探讨如何让廉江小家电走

海信视像连续两次增持乾照光电跻身第一大股东

资讯

日前,厦门乾照光电股份有限公司(以下简称乾照光电)发布公告称,海信视像科技股份有限公司(以下简称海信视像)近日增持了公司部分股权,本次

罚款500万欧元!苹果又被罚款了!

资讯

上周,苹果已经在荷兰连收了第9张罚单,罚款500万欧元,苹果公司未能全面遵守一项命令,向荷兰的约会应用开放与之竞争的其它App Store支付

摩根士丹利首席分析师:苹果硬件订阅将允许用户每月付款

资讯

据一位分析师称,如果硬件订阅的传言属实,那么苹果可能即将进行广泛的业务转变--从iPhone出货量转向安装基础货币化。摩根士丹利首席分析师

玩桥牌,8位人类世界冠军,都输给了AI

日前,人工智能(AI)再次战胜了人类。

再传捷报!清博出招:用技术创新赋能媒介融合

清博团队在“媒体融合技术创新”赛道中媒资视频内容AI检索科目取得了三等奖的成绩。

每周签约动态 |AMT企源再添新单,与上海机场、天味食品、仟坤集团、民生保险等企业携手合作

近期,AMT企源与上海浦东航油、天味食品、仟坤集团、民生保险等企业成功签约。

LSTM还没「死」!

如果说「LSTM」已死,它为何依然能够在Kaggle竞赛中成为赢家呢?

汇通达上市后首份年报:2021年收入657.6亿元,付费门店SaaS+用户近1.8万家

针对服务业务,汇通达加大研发投入与营销力度,对产品及客户需求进行分层分级管理,提升对会员店的服务的有效性。

为户外劳动者提供便利 重庆已建成665座“劳动者港湾”

  中新网重庆4月22日电 (韩璐 王雪宇)记者22日从重庆市城市管理局获悉,2020年重庆市已建成“劳动者港湾”665座。今年,重庆还将继续建

沈阳警方侦破特大贩卖毒品案 抓获88名涉毒违法犯罪嫌疑人

  中新社沈阳4月22日电 (王景巍)沈阳市公安局22日发布消息,近日,在中国公安部和辽宁省公安厅的指导协调下,历经9个多月,沈阳市公安局

上海警方侦破特大制售假普洱茶案 市场价值高达18亿元

  中新网上海4月22日电 (记者 李姝徵)记者22日从上海警方获悉,2021年3月,上海警方全链条侦破一起销售假冒知名品牌普洱茶案,捣毁制售

西安强化知识产权司法保护 商标权案件占比高

  中新网西安4月22日电 (记者 张一辰)在世界知识产权日即将到来之际,西安市中级人民法院(以下简称:西安中院)22日召开新闻发布会,发

今年5月至明年2月底 江西4A级及以上景区对全国学子免门票

  中新网南昌4月22日电 (记者 李韵涵)记者22日从“红五月·嘉游赣”江西五一假日旅游工作媒体吹风会上获悉,2021年5月1日至2022年2月28

福州乡村公益图书馆:图书“接地气” 门口即是农田

  中新网福州4月22日电 (叶秋云 曾路淇)世界读书日即将来临之际,驾车五十余分钟,记者来到距离福建省福州市30多公里的闽侯县白沙镇马