环球快讯:2022生成模型进展有多快?新论文盘点9类生成模型代表作

2023-01-28 11:08:45   来源:商业新知网

萧箫 发自 凹非寺 量子位 | 公众号 QbitAI

ChatGPT的出现,彻底将生成AI推向爆发。

但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——

图像、视频、代码、3D模型、音频、文本、科学知识……


(资料图)

尤其2022年,效果好的AI生成模型层出不穷,又以OpenAI、Meta、DeepMind和谷歌等为核心,发了不少达到SOTA的模型。

这不,立刻有学者写了篇论文,对2022年新出现的主流生成模型进行了年终盘点。

一起来看看这两年间,各领域的AI生成模型进展究竟怎么样了。

9大生成模型,最新代表作是?

这篇论文将AI生成模型分成了9大类。

下图是2022年前后,在生成效果上达到最优的模型总览:

除了谷歌LaMDA和Muse以外,所有模型均为2022年发布。

其中,谷歌LaMDA虽然是2021年发布的,但在 2022年又爆火了一波 ;Muse则是2023年刚发布的,但论文声称自己在图像生成性能上达到SOTA,因此也统计了进去。

文本-图像生成

这方面的代表作有DALL-E2、Stable Diffusion、Imagen、Muse。

DALL·E2 是来自OpenAI的生成模型,在零样本学习上做出大突破。与DALL·E一样,两点依旧是CLIP模型,除了训练数据庞大,CLIP基于Transformer对图像块建模,并采用对比学习训练,最终帮助DALL·E2取得了不错的生成效果。

下图是DALL·E2根据“一只戴着贝雷帽、穿黑色高领毛衣的柴犬”生成的图像:

Imagen 来自谷歌,基于Transformer模型搭建,其中语言模型在纯文本数据集上进行了预训练。Imagen增加了语言模型参数量,发现效果比提升扩散模型参数量更好。

下图是Imagen根据“一只可爱的柯基住在寿司做的房子里”生成的图像:

Stable Diffusion 由慕尼黑大学的CompVis小组开发,基于潜在扩散模型打造,这个扩散模型可以通过在潜表示空间中迭代去噪以生成图像,并将结果解码成完整图像。

Muse 由谷歌开发,基于Transformer模型取得了比扩散模型更好的结果,只有900M参数,但在推理时间上比Stable Diffusion1.4版本快3倍,比Imagen-3B和Parti-3B快10倍。

下图是Muse与DALL·E2和Imagen的生成效果对比:

文本-3D模型生成

主要代表作有Dreamfusion、Magic3D。 (这里没有把OpenAI的Point·E统计进去,可能是生成效果上没有达到SOTA)

DreamFusion 由谷歌和UC伯克利开发,基于预训练文本-2D图像扩散模型实现文本生成3D模型。采用类似NeRF的三维场景参数化定义映射,无需任何3D数据或修改扩散模型,就能实现文本生成3D图像的效果。

下图是DreamFusion生成“穿夹克的松鼠”3D效果:

Magic3D 由英伟达开发,旨在缩短DreamFusion图像生成时间、同时提升生成质量。具体来说,Magic3D可以在40分钟内创建高质量3D网格模型,比DreamFusion快2倍,同时实现了更高分辨率,并在人类评估中以61.7%的比率超过DreamFusion。

图像-文本模型生成

主要代表作有Flamingo、VisualGPT。

Flamingo 是DeepMind推出的小样本学习模型,基于可以分析视觉场景的视觉模型和执行基本推理的大语言模型打造,其中大语言模型基于文本数据集训练。输入带有图像或视频的问题后,模型会自动输出一段文本作为回答。

VisualGPT 是OpenAI制作的图像-文本模型,基于预训练GPT-2提出了一种新的注意力机制,来衔接不同模态之间的语义差异,无需大量图像-文本数据训练,就能提升文本生成效率。

文本-视频模型生成

主要代表作有Phenaki、Soundify。

Phenaki 由谷歌打造,基于新的编解码器架构C-ViViT将视频压缩为离散嵌入,能够在时空两个维度上压缩视频,在时间上保持自回归的同时,还能自回归生成任意长度的视频。

Soundify 是Runway开发的一个系统,目的是将声音效果与视频进行匹配,即制作音效。具体包括分类、同步和混合三个模块,首先模型通过对声音进行分类,将效果与视频匹配,随后将效果与每一帧进行比较,插入对应的音效。

文本-音频模型生成

主要代表作有AudioLM、Jukebox、Whisper。

AudioLM 由谷歌开发,将输入音频映射到一系列离散标记中,并将音频生成转换成语言建模任务,学会基于提示词产生自然连贯的音色。在人类评估中,认为它是人类语音的占51.2%、与合成语音比率接近,说明合成效果接近真人。

Jukebox 由OpenAI开发的音乐模型,可生成带有唱词的音乐。通过分层VQ-VAE体系将音频压缩到离散空间中,损失函数被设计为保留最大量信息,用于解决AI难以学习音频中的高级特征的问题。不过目前模型仍然局限于英语。

Whisper 由OpenAI开发,实现了多语言语音识别、翻译和语言识别,目前模型已经开源并可以用pip安装。模型基于68万小时标记音频数据训练,包括录音、扬声器、语音音频等,确保由人而非AI生成。

文本-文本模型生成

主要代表作有ChatGPT、LaMDA、PPER、Speech From Brain。

ChatGPT 由OpenAI生成,是一个对话生成AI,懂得回答问题、拒绝不正当的问题请求并质疑不正确的问题前提,基于Transformer打造。它用人类打造的对话数据集、以及InstructGPT数据集的对话格式进行训练,此外也可以生成代码和进行简单数学运算。

LaMDA 基于Transformer打造,利用了其在文本中呈现的长程依赖关系能力。其具有1370亿参数,在1.56T的公共对话数据集和网页文本上进行训练,只有0.001%的训练数据被用于微调,这也是它效果好的原因之一。

PEER 由Meta AI打造,基于维基百科编辑历史进行训练,直到模型掌握完整的写作流程。具体来说,模型允许将写作任务分解成更多子任务,并允许人类随时干预,引导模型写出人类想要的作品。

Speech from Brain 由Meta AI打造,用于帮助无法通过语音、打字或手势进行交流的人,通过对比学习训练wave2vec 2.0自监督模型,基于非侵入式脑机接口发出的脑电波进行解读,并解码大脑生成的内容,从而合成对应语音。

文本-代码模型生成

主要代表作有Codex、AlphaCode。

Codex 是OpenAI打造的编程模型,基于GPT-3微调,可以基于文本需求生成代码。首先模型会将问题分解成更简单的编程问题,随后从现有代码 (包含库、API等) 中找到对应的解决方案,基于GitHub数据进行训练。

AlphaCode 由DeepMind打造,基于Transformer模型打造,通过采用GitHub中715.1GB的代码进行预训练,并从Codeforces中引入一个数据集进行微调,随后基于Codecontests数据集进行模型验证,并进一步改善了模型输出性能。

文本-科学知识模型生成

主要代表作有Galactica、Minerva。

Galatica 是Meta AI推出的1200亿参数论文写作辅助模型,又被称之为“写论文的Copilot模型”,目的是帮助人们快速总结并从新增论文中得到新结论,在包括生成文本、数学公式、代码、化学式和蛋白质序列等任务上取得了不错的效果,然而一度因为内容生成不可靠被迫下架。

Minerva 由谷歌开发,目的是通过逐步推理解决数学定量问题,可以主动生成相关公式、常数和涉及数值计算的解决方案,也能生成LaTeX、MathJax等公式,而不需要借助计算器来得到最终数学答案。

其他生成模型

主要包括Alphatensor、GATO、PhysDiff等“其他生成模型”。

AlphaTensor 由DeepMind开发,懂得自己改进矩阵乘法并提升计算速度,不仅改进了目前最优的4×4矩阵解法,也提升了70多种不同大小矩阵的计算速度,基于“棋类AI”AlphaZero打造,其中棋盘代表要解决的乘法问题,下棋步骤代表解决问题的步骤。

GATO 由DeepMind开发,基于强化学习教会大模型完成600多个不同的任务,包含离散控制如Atari小游戏、推箱子游戏,以及连续控制如机器人、机械臂,还有NLP对话和视觉生成等,进一步加速了通用人工智能的进度。

PhysDiff 是英伟达推出的人体运动生成扩散模型,进一步解决了AI人体生成中漂浮、脚滑或穿模等问题,教会AI模仿使用物理模拟器生成的运行模型,并在大规模人体运动数据集上达到了最先进的效果。

作者介绍

两位作者均来自西班牙卡米亚斯大主教大学 (Universidad Pontificia Comillas) 。

一作Roberto Gozalo-Brizuela,目前是卡米亚斯大主教大学研究助理 (Investigador asociado) ,从事AI相关的项目研究工作。

Eduardo C. Garrido-Merchán,卡米亚斯大主教大学助理教授,研究方向是贝叶斯优化、机器学习、强化学习、生成式AI等。

你感觉哪个领域的生成式AI进展最大?

关键词: 语言模型

上一篇:
下一篇:
精彩阅读

每日聚焦:DeepMind关闭首个海外实验室:设立仅五年!受硅谷大裁员影响!

热点

谷歌母公司Alphabet要裁员,DeepMind很难「置身事外」。

天天观速讯丨科普 | NFT是如何存储的?链上、链下和去中心化存储(抗审查)

热点

构成NFT内容的数据需要存储在某个地方——但并非所有NFT存储技术都是一样的。

观天下!私域动态:德邦与京东签署服务协议;小米回应汽车设计文件泄密;有赞计划授出1445万份购股权…

热点

1月25日消息,申通快递举行全网线上迎春会。会上,总裁王文彬用“信、拼、进”3个关键词,总结回顾了2022年工作。

天天看点:NFT的特点与风险 | 金融科技

热点

NFT展现了区块链技术在数字资产确权和维权方面的独特优势。

天天观天下!谷歌要被分拆了?

热点

美国司法部和八个州周二起诉谷歌,指控该公司在在线广告市场的主导地位损害了竞争,并要求将其分拆。

每日信息:大厂元宇宙,又菜又爱玩

热点

当下所有大厂推出的元宇宙产品,所能带来的沉浸式体验并不多,好在国内外科技巨头在bug方面都处在同一水平线。

AR正从社交入侵、蔓延 | VR陀螺

热点

在全球范围内,超过15亿个使用AR特效的视频已经积累了超过6000亿的浏览量。

【全球快播报】百胜软件牵手现象级母婴品牌Babycare,中台助力智慧新门店项目起航!

热点

吃透业务需求,稳扎稳打推进项目蓝图规划,与Babycare强强联合,共同打造母婴行业中台实践标杆项目。

财富

ps照片换底色最简单方法是什么?ps照片美白处理教程是什么?

资讯

1、用Photoshop打开原图(这里使用的是CS3, 其他版本大同小异)。先观察一下照片整体,我们一般的生活照由于大多出自低端的数码相机,黑白场

cmd怎么开启端口命令?用cmd命令打开端口?

资讯

cmd关闭端口的命令是taskkill,该命令用于结束一个或多个任务或流程。关闭端口的方法:1、使用taskkill pid 端口号 -t -f命令来强制关

error500怎么解决?error未知错误该怎么办?

资讯

1、解决方法:打开IIS,在功能视图中找到错误页,双击进去后,看最右边的操作下的编辑功能设置…,将错误响应下的详细错误勾上。2、打开控

cmd如何关掉某个端口?cmd查看端口是否开放?

资讯

cmd关闭端口的命令是taskkill,该命令用于结束一个或多个任务或流程。关闭端口的方法:1、使用taskkill pid 端口号 -t -f命令来强制关

环球视讯!美版今日头条宣布ChatGPT上岗写稿,股价暴涨119%

资讯

美版今日头条宣布ChatGPT上岗写稿,股价暴涨119%,ChatGPT渗入高校和大厂

视焦点讯!特斯拉故事重塑,考验信仰的时刻到了

资讯

特斯拉故事重塑,考验信仰的时刻到了,经过风险的充分释放,真正考验市场对于特斯拉长期信仰的时刻已经到来。

世界热门:融资丨「谱天生物」完成近亿元A轮融资,鼎晖百孚独家投资

资讯

融资丨「谱天生物」完成近亿元A轮融资,鼎晖百孚独家投资,获得近亿元投资后,谱天生物业务与战略布局有望拓宽,并加大创新技术转化应用。

天天快资讯丨一个月赚1.5万元!郑州富士康春节高薪留人,部分员工大年初二便返岗

资讯

一个月赚1 5万元!郑州富士康春节高薪留人,部分员工大年初二便返岗,“现在大部分工人基本都返岗了。”

速看:多少人会买正版的梅西球衣?几亿年轻人催生体育IP零售的大金矿

资讯

多少人会买正版的梅西球衣?几亿年轻人催生体育IP零售的大金矿,世道变了。在中国,特许加盟店有可能比海外的品牌授权方更赚钱。

5元咖啡、8元奶茶,揭秘平价餐饮背后的生意经!

资讯

5元咖啡、8元奶茶,揭秘平价餐饮背后的生意经!,性价比餐饮背后的商业化真相到底是什么?

每日聚焦:DeepMind关闭首个海外实验室:设立仅五年!受硅谷大裁员影响!

谷歌母公司Alphabet要裁员,DeepMind很难「置身事外」。

天天观速讯丨科普 | NFT是如何存储的?链上、链下和去中心化存储(抗审查)

构成NFT内容的数据需要存储在某个地方——但并非所有NFT存储技术都是一样的。

观天下!私域动态:德邦与京东签署服务协议;小米回应汽车设计文件泄密;有赞计划授出1445万份购股权…

1月25日消息,申通快递举行全网线上迎春会。会上,总裁王文彬用“信、拼、进”3个关键词,总结回顾了2022年工作。

天天看点:NFT的特点与风险 | 金融科技

NFT展现了区块链技术在数字资产确权和维权方面的独特优势。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个