【世界新要闻】Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

2022-12-02 10:10:53   来源:商业新知网


【资料图】

来源:新智元 现在,已是2022年底。 深度学习模型在生成图像上的表现,已经如此出色。很显然,它在未来会给我们更多的惊喜。 十年来,我们是如何走到今天这一步的? 在下面的时间线里,我们会追溯一些里程碑式的时刻,也就是那些影响了AI图像合成的论文、架构、模型、数据集、实验登场的时候。 一切,都要从十年前的那个夏天说起。

开端(2012-2015)

深度神经网络面世之后,人们意识到:它将彻底改变图像分类。

同时,研究人员开始探索相反的方向,如果使用一些对分类非常有效的技术(例如卷积层)来制作图像,会发生什么? 这就是「人工智能之夏」诞生的伊始。 2012 年 12 月 一切发端于此。 这一年,论文《深度卷积神经网络的 ImageNet分类 》横空出世。 论文作者之一,就是「AI三巨头」之一的Hinton。 它首次将深度卷积神经网络 (CNN)、GPU和巨大的互联网来源数据集( ImageNet )结合在一起。 2014 年 12 月 Ian Goodfellow等AI巨佬发表了史诗性论文巨作《 生成式对抗网络 》。 GAN是第一个致力于图像合成而非分析的现代神经网络架构(「现代」的定义即2012年后)。 它引入了一种基于博弈论的独特学习方法,由两个子网络“生成器”和“鉴别器”进行竞争。 最终,只有「生成器」被保留在系统之外,并用于图像合成。 Hello World!来自Goodfellow等人2014年论文的GAN生成人脸样本。该模型是在Toronto Faces数据集上训练的,该数据集已从网络上删除 2015 年 11 月 具有重大意义的论文《使用深度卷积生成对抗网络进行无监督代表学习》发表。 在这篇论文中,作者描述了第一个实际可用的GAN 架构 (DCGAN)。 这篇论文还首次提出了潜在空间操纵的问题——概念是否映射到潜在空间方向?

GAN的五年(2015-2020)

这五年间,GAN被应用于各种图像处理任务,例如风格转换、修复、去噪和超分辨率。 期间,GAN架构的论文开始 爆炸 式井喷。 项目地址:https://github.com/nightrome/really-awesome-gan 与此同时,GAN的艺术实验开始兴起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出现。 第一个「 AI 艺术」丑闻 发生在2018年。三位法国学生使用「借来」的代码生成一副AI肖像,这副肖像成为第一幅在佳士得被拍卖的AI画像。 与此同时,transformer架构彻底改变了NLP。 在不久的将来,这件事会对图像合成产生重大影响。 2017 年 6 月 《Attention Is All You Need》论文发布。 在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》里,也有详实的解释。 自此,Transformer架构(以BERT等预训练模型的形式)彻底改变了自然语言处理 (NLP) 领域。 2018 年 7 月 《概念性标注:用于自动图像字幕的清理、上位化、图像替代文本数据集 》论文发表。 这个和其他多模态数据集对于 CLIP 和 DALL-E 等模型将变得极其重要。 2018-20年 NVIDIA的研究人员对GAN 架构进行了一系列彻底改进。 在《 使用有限数据训练生成对抗网络 》这篇论文中,介绍了最新的StyleGAN2-ada。 GAN 生成的图像第一次变得与自然图像无法区分,至少对于像 Flickr-Faces-HQ (FFHQ) 这样高度优化的数据集来说是这样。 Mario Klingenmann,Memories of Passerby I,2018. The baconesque faces是该地区AI艺术的典型代表,其中生成模型的非写实性是艺术探索的重点 2020 年 5 月 论文《语言模型是小样本学习者》发表。 OpenAI的LLM Generative Pre-trained Transformer 3(GPT-3)展示了变压器架构的强大功能。 2020 年 12 月 论文《用于高分辨率图像合成的Taming transformers 》发表。 ViT表明,Transformer架构可用于图像。 本文中介绍的方法VQGAN在基准测试中产生了SOTA结果。 2010年代后期的GAN架构的质量主要根据对齐的面部图像进行评估,对于更多异构数据集的效果很有限。 因此,在学术/工业和艺术实验中,人脸仍然是一个重要的参考点。

Transformer的时代(2020-2022)

Transformer架构的出现,彻底改写了图像合成的历史。 从此,图像合成领域开始抛下GAN。 「多模态」深度学习整合了NLP和计算机视觉的技术,「即时工程」取代了模型训练和调整,成为图像合成的艺术方法。 《从自然语言监督中学习可迁移视觉模型 》这篇论文中,提出了CLIP 架构。 可以说,当前的图像合成热潮,是由CLIP首次引入的多模态功能推动的。 论文中的CLIP架构 2021 年 1 月 论文《零样本文本到图像生成 》发表(另请参阅 OpenAI 的博客文章 ),其中介绍了即将轰动全世界的DALL-E的第一个版本。 这个版本通过将文本和图像(由VAE压缩为「TOKEN」)组合在单个数据流中来工作。 该模型只是「continues」the「sentence」。 数据(250M 图像)包括来自维基百科的文本图像对、 概念说明和YFCM100M 的过滤子集。 CLIP为图像合成的「多模态」方法奠定了基础。 2021 年 1 月 论文《 从自然语言监督学习可迁移视觉模型 》发表。 论文中介绍了CLIP,这是一种结合了ViT和普通Transformer的多模态模型。 CLIP会学习图像和标题的「共享潜在空间」,因此可以标记图像。 模型在论文附录A.1中列出的大量数据集上进行训练。 2021 年 6 月 论文《扩散模型的发布在图像合成方面击败了GAN 》发表。 扩散模型引入了一种不同于GAN方法的图像合成方法。 研究者通过从人工添加的噪声中重建图像来学习。 它们与变分自动编码器 (VAE) 相关。 2021 年 7 月 DALL-E mini 发布。 它是DALL-E的复制品(体积更小,对架构和数据的调整很少)。 数据包括 Conceptual 12M 、 Conceptual Captions以及 OpenAI 用于原始 DALL-E 模型的 YFCM100M 相同过滤子集。 因为没有任何内容过滤器或 API 限制, DALL-E mini 为创造性探索提供了巨大的潜力,并导致推特 上「怪异的 DALL-E」图像 呈爆炸式增长。 2021-2022 Katherine Crowson发布了一系列CoLab笔记,探索制作 CLIP 引导生成模型的方法。 例如512x512 CLIP-guided diffusion 和 VQGAN-CLIP ( Open domain image generation and editing with natural language guidance ,仅在2022年作为预印本发布但VQGAN一发布就出现了公共实验)。 就像在早期的GAN时代一样,艺术家和开发者以非常有限的手段对现有架构进行重大改进,然后由公司简化,最后由wombo.ai等「初创公司」商业化。 2022 年 4 月 论文《具有 CLIP 潜能的分层文本条件图像生成 》发表 。 该论文介绍了DALL-E 2。 它建立在仅几周前发布的 GLIDE论文(《 GLIDE:使用文本引导扩散模型实现逼真图像生成和编辑》的基础上。 同时,由于 DALL-E 2 的访问受限和有意 限制 ,人们对DALL-E mini重新产生了兴趣。 根据模型卡,数据包括「公开可用资源和我们许可的资源的组合」,以及根据该论文的完整CLIP和 DALL-E数据集。 「金发女郎的人像照片,用数码单反相机拍摄,中性背景,高分辨率」,使用 DALL-E 2 生成。基于 Transformer 的生成模型与后来的 GAN 架构(如 StyleGAN 2)的真实感相匹配,但允许创建广泛的各种主题和图案 2022 年 5-6 月 5月,论文《具有深度语言理解的真实感文本到图像扩散模型 》发表。 6月,论文《 用于内容丰富的文本到图像生成的缩放自回归模型 》发表。 这两篇论文中,介绍了Imagegen和Parti。 以及谷歌对DALL-E 2的回答。 「你知道我今天为什么阻止你吗?」由DALL-E 2生成,「prompt engineering」从此成为艺术图像合成的主要方法

AI Photoshop(2022年至今)

虽然DALL-E 2为图像模型设定了新标准,但它迅速商业化,也意味着在使用上从一开始就受到限制。 用户仍继续尝试DALL-E mini等较小的模型。 紧接着,随着石破天惊的Stable Diffusion的发布,所有这一切都发生了变化。 可以说,Stable Diffusion标志着图像合成「Photoshop时代」的开始。 「有四串葡萄的静物,试图创造出像古代画家 Zeuxis Juan El Labrador Fernandez,1636 年,马德里普拉多的葡萄一样栩栩如生的葡萄」,Stable Diffusion产生的六种变化 2022 年 8 月 Stability.ai 发布 Stable Diffusion模型。 ‍ 在论文《具有潜在扩散模型的高分辨率图像合成 》中,Stability.ai隆重推出了Stable Diffusion。 这个模型可以实现与DALL-E 2同等的照片级真实感。 除了DALL-E 2,模型几乎立即向公众开放,并且可以在CoLab和Huggingface平台上运行。 2022 年 8 月 谷歌发表论文《 DreamBooth:为主题驱动生成微调文本到图像扩散模型 》。 DreamBooth提供了对扩散模型越来越细粒度的控制。 然而,即使没有此类额外的技术干预, 使用像 Photoshop 这样的生成模型 也变得可行,从草图开始,逐层添加生成的修改。 2022 年 10 月 最大的图库公司之一Shutterstock 宣布与 OpenAI 合作提供/许可生成图像 ,可以预计,图库市场将受到Stable Diffusion等生成模型的严重影响。

关键词: 图像合成 神经网络

上一篇:
下一篇:
精彩阅读

【世界新要闻】Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

热点

深度学习模型在生成图像上的表现,已经如此出色。很显然,它在未来会给我们更多的惊喜。

要闻速递:运营商云市场“爆红”,5G“钱途”未定

热点

在“东数西算”等政策的推动下,有业内人士表示,运营商的“三朵云”总收入有望在今年冲刺千亿元收入大关。

世界今日报丨联通云今年收入300亿!云业务领域联通能卷赢电信、移动吗?

热点

在进入5G时代之后,大数据、云计算等新业务也慢慢成为了三大运营商们格外看重的一个新赛道。

当前看点!GitHub 编程神器 Copilot被斥「盗版」大量开源代码,面临90亿美元集体诉讼

热点

自诞生之日起就饱受争议的微软代码工具Copilot近期又遭遇了新的问题。

当前动态:居家办公竟被读取脑电波?老板们为远程监控想出奇招

热点

朋友居家办公期间,他们老板为了远程监控工作,要求大家必须装上专门的软件和摄像头。

每日热议!股东集体减持、现金流承压,DaaS第一股凌雄科技急速失血

热点

处于行业头部的凌雄科技,在DaaS市场的龙头地位得到巩固。

快报:GrowingIO分析云产品矩阵重磅发布|StartDT Day回顾

热点

面对变局,以往各大企业还有不少试错成本,但疫情的持续,让他们不得不放弃粗放式增长转而寻求精细化运营。

AI绘画爆火 是赚钱的新项目还是创业的新行当

热点

目前,一个AI绘画的应用似乎火了起来。

运营商布局云计算业务,进展如何?

热点

2022年以来,随着国家“东数西算”战略工程正式启动,“算力”成为全社会高度关注的热词。

财富

​ 一个纸盒,装下千亿商业帝国

资讯

​一个纸盒,装下千亿商业帝国,中国人今天能够人人喝上牛奶,很大程度上得归功于利乐(TetraPak)这家瑞典公司。

“一哥”变“四弟”,河南要努力拼上市公司了

资讯

“一哥”变“四弟”,河南要努力拼上市公司了,河南需要重视创投!

天天关注:新茶饮如何借力小吃霸榜冬季

资讯

新茶饮如何借力小吃霸榜冬季,在茶饮品牌的冬季博弈里,用烤番薯配合热茶的“现制茶饮+休闲小吃”模式正掀起一股新的风潮。

消息!凭什么贾跃亭的FF还能活着?

资讯

凭什么贾跃亭的FF还能活着?,贾跃亭的魔法是总能搞到钱

世界即时:融资丨「智佳能」完成B+轮融资

资讯

融资丨「智佳能」完成B+轮融资,本轮融资金额将用于其锂电设备的扩产需求,以保证智能装备高效高质交付。

融资丨「小红岛」完成数千万元A轮融资,金鼎资本投资

资讯

融资丨「小红岛」完成数千万元A轮融资,金鼎资本投资,本轮融资将主要用于门店拓展、供应链及品牌建设、团队扩充等方面。

一条街开5家零食集合店,年轻人不够用了

资讯

一条街开5家零食集合店,年轻人不够用了,零食集合店如雨后春笋般地涌现,是一门怎样的生意?

当前热讯:淘金“黑五”,中国电商是懂做生意的

资讯

淘金“黑五”,中国电商是懂做生意的,电商购物节会在海外市场找到春天吗?

今头条!融资丨「忱芯科技」完成A轮亿元级融资,武岳峰半导体产业基金独家领投

资讯

融资丨「忱芯科技」完成A轮亿元级融资,武岳峰半导体产业基金独家领投,本轮融资资金将主要用于忱芯科技研发和量产国内独家碳化硅半导体测试设

视点!疯狂的世界杯赌球生意

资讯

疯狂的世界杯赌球生意,当开始下注时,你就已经输了。

要闻速递:运营商云市场“爆红”,5G“钱途”未定

在“东数西算”等政策的推动下,有业内人士表示,运营商的“三朵云”总收入有望在今年冲刺千亿元收入大关。

世界今日报丨联通云今年收入300亿!云业务领域联通能卷赢电信、移动吗?

在进入5G时代之后,大数据、云计算等新业务也慢慢成为了三大运营商们格外看重的一个新赛道。

当前看点!GitHub 编程神器 Copilot被斥「盗版」大量开源代码,面临90亿美元集体诉讼

自诞生之日起就饱受争议的微软代码工具Copilot近期又遭遇了新的问题。

当前动态:居家办公竟被读取脑电波?老板们为远程监控想出奇招

朋友居家办公期间,他们老板为了远程监控工作,要求大家必须装上专门的软件和摄像头。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个