当前视讯!英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了

2023-01-31 10:22:49   来源:商业新知网

萧箫 发自 凹非寺 量子位 | 公众号 QbitAI

扩散模型的图像生成统治地位,终于要被GAN夺回了?


【资料图】

就在大伙儿喜迎新年之际,英伟达一群科学家悄悄给StyleGAN系列做了个升级,变出个PLUS版的 StyleGAN-T ,一下子在网上火了。

无论是在星云爆炸中生成一只柯基:

还是基于虚幻引擎风格渲染的森林:

都只需要 接近0.1秒 就能生成!

同等算力下,扩散模型中的Stable Diffusion生成一张图片需要 3秒钟 ,Imagen甚至需要 接近10秒 。

不少网友的第一反应是:

GAN,一个我太久没听到的名字了。

很快谷歌大脑研究科学家、DreamFusion第一作者Ben Poole赶来围观,并将StyleGAN-T与扩散模型做了个对比:

在低质量图像 (64×64) 生成方面,StyleGAN-T要比扩散模型做得更好。

但他同时也表示,在256×256图像生成上,还是扩散模型的天下。

所以,新版StyleGAN生成质量究竟如何,它又究竟是在哪些领域重新具备竞争力的?

StyleGAN-T长啥样?

相比扩散模型和自回归模型多次迭代生成样本,GAN最大的优势是 速度 。

因此,StyleGAN-T这次也将重心放在了大规模文本图像合成上,即如何在短时间内由文本生成大量图像。

StyleGAN-T基于StyleGAN-XL改进而来。

StyleGAN-XL的参数量是StyleGAN3的3倍,基于ImageNet训练,能生成1024×1024高分辨率的图像,并借鉴了StyleGAN2和StyleGAN3的部分架构设计。

它的整体架构如下:

具体到细节上,作者们对生成器、判别器和文本对齐权衡机制进行了 重新设计 ,用FID对样本质量进行量化评估,并采用CLIP来对文本进行对齐。

在生成器上,作者们放弃了StyleGAN3中能实现平移同变性 (equivariance) 的架构,转而采用了StyleGAN2的部分设计,包括输入空间噪声以及跳层连接等,以提升细节随机变化的多样性。

在判别器上,作者们也重新进行了设计,采用自监督学习对ViT-S进行训练。

随后,作者采用了一种特殊的截断 (truncation) 方法来控制图像生成的效果,同时权衡生成内容的多样性。

只需要控制参数ψ,就能在确保CLIP分数 (用于评估图像生成效果) 变动不大的情况下,改善生成图像的风格多样性。

随后,作者们用64个英伟达A100训练了4周,最终得到了这版StyleGAN-T。

那么它的生成效果如何呢?

超快生成低分辨率图像

作者们对当前最好的几种GAN、扩散模型和自回归模型进行了评估。

在微软的MS COCO数据集上,StyleGAN-T实现了64×64分辨率下最高的FID。

(其中,FID是计算真实图像和生成图像特征向量距离的评估用值,数值越低,表示生成的效果越接近真实图像)

但在更高的256×256分辨率生成上,StyleGAN-T还是没有比过扩散模型,只是在生成效果上比同样用GAN的LAFITE要好上不少:

如果进一步将生成时间和FID分别作为纵轴和横轴,放到同一张图上来对比,还能更直观地对比生成质量和速度。

可见StyleGAN-T能保持在 10FPS 的速度下生成256×256分辨率图像,同时FID值逼近LDM和GLIDE等扩散模型:

而在文本生成图像功能上,作者们也从文本特征、风格控制等方面对模型进行了测试。

在增加或改变特定的形容词后,生成的图像确实符合描述:

即便是快速生成的图像,也能迅速控制风格,如“梵高风格的画”or“动画”等:

当然,偶尔也有失败案例,最典型的就是生成带字母要求的图像时,显示不出正常字母来:

作者们正在努力整理代码,表示不久之后就会开源。

作者介绍

作者们均来自图宾根大学和英伟达。

一作Axel Sauer,图宾根大学博士生,此前在卡尔斯鲁厄理工学院 (KIT) 获得本硕学位。目前感兴趣的研究方向是深度生成模型、神经网络架构和实证研究。

二作Tero Karras,英伟达杰出研究科学家,对英伟达RTX技术有重要贡献,也是StyleGAN系列的主要作者,主要研究方向是计算机图形学和实时渲染。

不过在这波GAN掀起的“文艺复兴”浪潮下,也出现了“StyleGAN时代迎来终结”的声音。

有网友感慨:

在这之前,最新StyleGAN生成的图像总能让我们大吃一惊,然而现在它给我们的印象只剩下“快”了。

你认为GAN还能撼动扩散模型的统治地位吗?

关键词: 自回归模型 研究方向

上一篇:
下一篇:
精彩阅读

焦点报道:随幻科技洪煦:降低XR场景门槛,人人都能创造3D内容 | 镁客·请讲

热点

在降低XR场景制作门槛后,中小企业也能完成线上虚拟空间的搭建。

每日速看!Juniper:5G物联网迎来三年激增 2026年连接数将达1.16亿

热点

5G智能城市连接将超过6000万个,并将公路和铁路监控确定为需要连接的“关键业务”。

每日速看!VR被机构看好带动游戏市场?这几份报告带你了解行业现状

热点

本期我们就整理一些从业者关注的VR游戏、设备和市场报告,带大家了解一下该行业的最新现状。

蔚来车名侵权奥迪被德国判罚180万;《流浪地球2》周边众筹破亿……

热点

近日,奥迪指控蔚来汽车车型商标侵权一案有了最新进展,该诉讼案一审结果是奥迪胜诉。

每日速递:一位年轻Crypto VC的寒冬展望:22的起伏与23的晨光

热点

总而言之,在目前模块化公链逐渐成为共识的情况下,L2的定位越来越重要。

每日播报!微信公布春节数据:红包发送超40亿次,线下商业支付交易量同比增23%

热点

用户发送微信红包超40亿次,微信为今年新打造的“动态红包封面”,在过年期间被领取超过3800万次。

全球要闻:61岁程序员被迫线上求职,谷歌解雇高职位员工,开源专家也被炒

热点

谷歌最近的裁员对最优秀和最聪明的计算机科学家和工程师造成了沉重打击。

财富

三年赔两百万元后,餐饮老板绝地逢生

资讯

三年赔两百万元后,餐饮老板绝地逢生,过去三年,餐饮行业是受疫情影响较为严重的行业之一,很多从业者都在生死边缘苦苦煎熬着。

今日播报!这三年创业的人,现在怎么样了?

资讯

这三年创业的人,现在怎么样了?,艰难周期里的创业者,显然是承受了最多不确定性的人群之一。当最糟糕的时刻过去,回头再看,那些选择在这三年

【焦点热闻】“精致抠们”一年掏千亿元,钱被“缺德舅”赚了

资讯

“精致抠们”一年掏千亿元,钱被“缺德舅”赚了,有一家公司被称为全美“坪效之王”、WholeFoodsMarket的“一生之敌”、亚马逊的“反义词”。

融资丨「仙微视觉」完成近5000万天使轮融资,深圳鼎心资本领投

资讯

融资丨「仙微视觉」完成近5000万天使轮融资,深圳鼎心资本领投,所募资金将用于全飞秒近视矫正手术装置的研发生产和产业化。

热点!在元气森林,是如何开会的?

资讯

在元气森林,是如何开会的?,企业如何保持年轻,是一个经久不衰的命题。

手握300亿票房的吴京,能带火这款国民老汽水吗?

资讯

手握300亿票房的吴京,能带火这款国民老汽水吗?,这个颇具怀旧气息的西北汽水品牌,能否打赢全国扩张之战?面对绕不过的软饮巨头“两乐”,大

速看:“春节不长胖”,成了一门生意

资讯

“春节不长胖”,成了一门生意,过去三年,疫情长期居家、线下健身受阻,用户的减脂需求,在2023年这个原本就是健身旺季的初春彻底爆发,以至于

春节档最花钱的,不是电影票

资讯

春节档最花钱的,不是电影票,春节档火爆,带热电影周边

【独家】SheIn的“矛”能否戳穿优衣库的“盾”?

资讯

SheIn的“矛”能否戳穿优衣库的“盾”?,SheIn现在的矛也许还不锋利,但优衣库的盾还是太小了点。

焦点观察:“黑马”上位,这个西南省份终于等到了

资讯

“黑马”上位,这个西南省份终于等到了,云南旅游热度,还能延续多久?

焦点报道:随幻科技洪煦:降低XR场景门槛,人人都能创造3D内容 | 镁客·请讲

在降低XR场景制作门槛后,中小企业也能完成线上虚拟空间的搭建。

每日速看!Juniper:5G物联网迎来三年激增 2026年连接数将达1.16亿

5G智能城市连接将超过6000万个,并将公路和铁路监控确定为需要连接的“关键业务”。

每日速看!VR被机构看好带动游戏市场?这几份报告带你了解行业现状

本期我们就整理一些从业者关注的VR游戏、设备和市场报告,带大家了解一下该行业的最新现状。

蔚来车名侵权奥迪被德国判罚180万;《流浪地球2》周边众筹破亿……

近日,奥迪指控蔚来汽车车型商标侵权一案有了最新进展,该诉讼案一审结果是奥迪胜诉。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个