世界快资讯:关于文本到图像生成式AI :狂野新世界的4 个预测

2022-11-02 16:01:14   来源:商业新知网

作者 |格林 出品 |新芒X

最近几个月,一种强大的新形式的人工智能突然出现并吸引了公众的想象力:文本到图像的生成式人工智能。

文本到图像的 AI 模型只需要根据简单的文字输入就能生成原始图像。用户可以输入他们喜欢的任何文字提示——比如,“一只可爱的柯基犬住在一个用寿司做的房子里”——然后,人工智能就像施了魔法一样,会产生相应的图像。(此示例见上文)

这些模型产生的图像在世界上和任何人的想象中都从未存在过。它们不是对互联网上现有图像的简单操作;它们是新颖的创作,其独创性和复杂性令人叹为观止。


(资料图)

最著名的文本到图像模型是 OpenAI 的 DALL-E。OpenAI 于 2021 年 1 月推出了最初的 DALL-E 模型。其继任者 DALL-E 2 于 2022 年 4 月发布。DALL-E 2 引起了公众的广泛关注,将文本转图像技术推向了主流。

在围绕 DALL-E 2 的兴奋之后,没过多久竞争对手就出现了。几周之内,一个名为“DALL-E Mini”的轻量级开源版本风靡一时。与 OpenAI 或 DALL-E 无关,DALL-E Mini 在 OpenAI 的压力下更名为 Craiyon。

5 月,谷歌发布了自己的文本到图像模型,名为 Imagen。(本文所有图片均来自Imagen。)

此后不久,一家名为 Midjourney 的初创公司出现了一个强大的文本到图像模型,该模型已可供公众使用。Midjourney 的用户增长惊人:仅在两个月前推出,截至撰写本文时,其 Discord 组中的用户已超过 180 万。Midjourney 最近登上了《经济学人》的封面和约翰·奥利弗的深夜电视节目。

该类别中的另一个关键进入者是 Stability.ai,它是 Stable Diffusion 模型背后的初创公司。与任何其他竞争对手不同,Stability.ai 公开发布了其 AI 模型的所有细节,在线发布模型的权重供任何人访问和使用。这意味着,与 DALL-E 或Midjourney不同,Stable Diffusion 可用于生成的内容没有过滤器或限制,包括暴力、色情、种族主义或其他有害内容。

Stability.ai 的完全无限制发布策略一直存在争议。另一方面,该公司毫无歉意的开放精神正在帮助它围绕其平台建立一个强大的开发人员和用户社区,这可能被证明是一种宝贵的竞争优势。

关于作为当今生成 AI 基础的突破性技术有很多话要说,但特别值得强调的一项关键创新是:扩散模型。最初受到热力学概念的启发,扩散模型在过去一年中大受欢迎,迅速取代了生成人工网络 (GAN),成为基于 AI 的图像生成的首选方法。DALL-E 2、Imagen、Midjourney 和 Stable Diffusion 都使用扩散模型。

简而言之,扩散模型通过使用增加的噪声破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像。一旦经过训练,扩散模型就可以应用这些去噪方法从随机输入中合成新颖的“干净”数据。

退一步说,我们要如何看待这个领域最近的所有活动和声音?事情将何去何从?以下是四个预测,旨在消除噪音并为您提供有关生成 AI 狂野新世界的原始观点。

一:在接下来的 12 个月内,大量风险投资将涌入这一赛道。

风险投资界已经开始流传一种说法,即文本到 图像 的人工智 能是“下一件大事”。 毫 无疑问,这项技术 是 非凡的。 时间 会证明 它是否以及如何成为大规模、经久不衰的企业的基础。

无论如何,随着投资者寻求乘风破 浪,预计短期内该领域会出现一连串的风险投资。

上周开场,有报道称 Stability.ai 正在从 Lightspeed 和 Coatue 等蓝筹投资者那里以高达 10 亿美元的估值筹集高达 1 亿美元的资金。

这不会是该类别中的最后一笔巨额交易。 例如,Midjourney 目前可能会吸引大量入境投资者的兴趣。 到目前为止,Midjourney 一直由创始人 David Holz(前 Leap Motion 首席技术官/联合创始人)自筹资金,但如果该公司很快决定用风险投资资金填补其资金池,以便在这个日益增长的领域竞争和扩大规模,请不要感到惊讶快速发展的生态系统。

许多新的文本到图像的初创公司将在未来几个月内出现,它们具有不同的愿景和方法来将这种强大的新技术商业化。 即使在当今不利的市场条件下,风险资本家也会热切地为其中许多人提供资金。

二:该技术最大的商业机会和最佳商业模式尚未被发现。

迄今为止,推动文本到 图像 AI 采用的 主要 用例 是个人用户的 纯粹 新颖性和好奇心。 难怪 任何 玩过这 些模 型的人都 可以证明,这是一种 令人振奋和引人入胜的体验,尤其是刚开始时。

但从长远来看,个人爱好者的随意使用本 身并不太可能维持大规模的新业务。

哪些用例将释放巨大的 企业价值创造,并为这项技术带来最引人注目的商机? 简而言之,文本到图像 AI 的“杀手级应用”是什么?

立 即想到的一个应用程序是广告。 广告本质上是视觉的,因此非常适合这些生成的 AI 模型。 毕竟,广告为 Alphabet 和 Facebook 等科技巨头的商业模式提供了动力,这些都是历史上最成功的企业之一。

一些品牌,例如卡夫亨氏,已经开始 尝试 使用 DALL-E 2 等人工智能模型来制作新的广告内容。 毫无疑问,我们会看到更多这样的情况。 但是 , 坦率地说 , 让我们 都希望 能 为这项 令人难以置信的 新技术找到更有意义的用例,而 不仅仅是 更多的广告。

退后一步,考虑一下这些 AI 模型可以快速、经济且富有 想象力地生成和迭代 任 何 视觉 内容,而 无需 任何 特殊的专业知识 或培训。 当我 们如此广泛地 界定这 项技 术的范围时, 就会 更加 明显 地发现,各种 变革 性的、颠覆性的商业机 会应该会出现。

也许这项 技术最直观 的用 例是创造 艺术。 全球美术市 场规 模为 650 亿美元 。 即使撇开 这个高端市场 不谈,文本到 图像 AI 可以 应用 于艺 术的更多日常 用途: 书籍 封面、杂志 封面 、明信片、海 报、音 乐专辑设计、壁纸、数字媒体 等等。

以库存图片为例。 库存图像可能看起来是一 个 相对 利基的 市场,但它本身代表了一个价值数十亿 美 元的机会,包括 Getty Images 和 Shu tterstock 在内 的 公开 交易 的 竞争对手。 这些 企业 面 临着生成人工智能的生存破坏。

从长远来看,任何实体 产品(汽车、家具、衣服)的 设 计 (以及生产)都可以 转 变 , 因为 生成式 AI 模型 被用于构思新颖 的功能和设计 ,从而吸引消费者。

相关地,文本到图像的人工智能可能会通过“提出”独特的、意想不到的新结构和布局来影响建筑和建筑设计,进而激发人类建筑师的灵感。 今天 已经在进行 这些方面的初步 工作。

图注:“撒哈拉沙漠中戴着草帽和霓虹墨镜的小仙人掌。”资料来源:谷歌

除了杀手级应用的问题之外,还有一个相关但独特的话题,即这一类别的竞争格局将如何演变,以及哪些产品和上市策略将被证明是最有效的。

OpenAI 和 Midjourney 等先行者已将自己定位为与行业无关的核心 AI 技术的横向供应商。他们构建了通用的文本到图像模型,通过 API 将它们提供给客户(按使用付费),并将其留给用户来发现他们自己的用例。

一个或多个横向参与者是否会通过提供一个基础的文本到图像平台来实现大规模运作,在该平台上构建一个由各种应用程序组成的整个生态系统?如果是这样,它会是赢家通吃吗?随着技术最终商品化,这样的企业的长期护城河是什么?

或者随着行业的成熟和不同的用例成为焦点,为特定应用程序构建专门构建的专业解决方案是否会有更多价值?

例如,可以想象一种专为汽车行业设计的用于新车型设计的文本到图像的解决方案。除了 AI 模型本身针对此特定用例的训练数据进行微调外,此类解决方案可能包括完整的 SaaS 产品套件和完善的用户界面,旨在无缝集成到汽车设计师的整体工作流程中。

另一个关键的战略问题涉及核心 AI 模型本身。这些模型能否成为公司可持续的防御来源,还是会迅速商品化?回想一下,Stable Diffusion 是当今领先的文本到图像模型之一,它已经完全开源,其所有权重都可以在线免费获得。与利用开源社区或其他公司已经构建的模型相比,新创业公司在内部训练自己专有的文本到图像模型的频率和条件是多少?

我们还不能确定地知道这些问题中的任何一个的答案。我们唯一可以确定的是,在未来的几个月和几年里,这个领域将以令人惊讶、意想不到的方式发展。新技术的部分魔力在于它开启了以前无法想象的可能性。当拨号上网第一次出现时,谁预测到了 YouTube?当第一部智能手机问世时,谁看到了优步的到来?

企业家最终将通过自己设想和建设未来来回答这些问题。

3. 文本到图像的人工智能将引发版权、法律和道德问题的蜂窝。不要指望这些会减慢技术速度。

任何 能够 深刻改变现状 的新 技术 都会与 现有的社会规范 和政策 框架 产生摩擦和挑战。 生成式 人工 智 能 也不 例 外。

这项技术引发了许多宏观问题: 人工智能 驱动 的 工 作 岗位 流失 这一永远存在的话题,这些模 型 加剧 的 深 度 伪造的 迫在 眉 睫 的 威胁,什么是真 正的艺术 以及 人工智能 是否 可 以创造的哲学 问题 。 这些问题 没有 简 单的答案,关于 这些 问题的公众讨论将 持续多年。

这里有一个近期值得 简要 讨论的问 题 : 谁 拥有 并有 权 将 这些 模型产生的图像商业化的 问题。

提出文本提示并将 其输入 AI 模型的人能 否获取 生成 的图像 并用它做任何他或她喜欢的 事情(包括在商业环境中)? 或者构建 AI 模型的组织是否 保留 对该模型产生的所有媒体的权利? 如果 AI 模型是开源的呢?

让事情更复杂的是,谷歌和 OpenAI 等公司首先创建这些模型 的方式是通过对这些公司不拥有的 大量公 开可用图像进行 训练,包括无数其他艺术家、设计师和组织。

这些问题不仅仅是理论上的;它们将产生非常真实和直接的商业后果。是否以及如何解决这些问题将对使用该技术的公司的战略和机会产生重大影响。企业家和投资者需要注意。

“如果按照我认为 [OpenAI] 设想的方式采用 DALL-E,那么使用该工具将产生大量收入,”贝克麦坚时律师事务所专注于人工智能的律师 Bradford Newman说. “而且当你在市场上有很多参与者和问题时,你就有很高的诉讼机会。”

OpenAI 目前声明的政策是,DALL-E 的个人用户拥有将他们使用该模型创建的图像商业化的全部权利——包括重印、出售或商品化图像的权利——但 OpenAI保留对原始图像的最终所有权。Midjourney 的服务条款也有类似的说法。

但是,当涉及这些图像的高风险争议不可避免地被提起诉讼时,法院会这样看吗?这是未知的领域;没有直接的法律先例。

Epstein Becker & Green 律师事务所的高级合伙人 Jim Flynn提供了一个具体的例子来说明其中的动态:“如果我代表其中一家广告公司或广告公司的客户,我不会建议他们使用这个软件来创建一个活动,因为我确实认为人工智能提供商会[目前]对知识产权有一些要求。我会寻求谈判一些更明确的东西。”

最终,这些问题不应被视为技术的阻碍,而应被视为在这个新兴行业全速前进时将发挥作用的未解决问题。别搞错了:法律上的模糊性不会阻止企业家和技术人员推动这一领域的先进技术,也不会阻止建立将这项技术带给大众的企业。

OpenAI 的一位发言人总结得很好:“版权法过去已经适应了新技术,并且需要对人工智能生成的内容做同样的事情。”

图注:“泰迪熊在

奥运

会 400 米蝴蝶比赛中游泳。”由 Google Brain 提供

四:这项技术将很快变得更加令人兴奋。

与今天的文本到图像模 型 一样令人印象深刻,我们仍处于生成人工智能扩散的最早阶段。 文 本到图像只 是 一个开始。

最 自然的下一步将是 文本到 视 频 的AI 模型 : 生成 模型 可 以接受文本描述,不 仅可以生成静 态图像,还可以 生成 指定长度的视频。

不用说,文本到视频 是 比文本到图像更复杂的技术挑战。 一方面,它需要更大的计算 资源; 另一方面,注释 良好的 视频训 练数 据是稀缺的。

但这里的机会是巨大的。 从 TikTok 到 Netflix,视频已 成为我们数字生活的主要媒介。 据思科称 , 当今 互联 网上 超过 80% 的数据是视频。 从娱乐到社交媒体再到营销等等,轻松、 廉 价地按 需生成新 视频 内容的能力将带来变革。

该主题最有前途的学术研究是 CogVideo ,这是 2022 年 5 月发布的大规模文本转 视频模型。 就在两 天前,视频 A I 初创公 司 Runway 宣布 即将在其平台上发布文 本转 视频 工 具,它说 “即 将推出”。 Run way 似乎正在 与 Stability.ai 合作开展这项工作 。

未来创新的另一个途径是生成 3D 数字 内容的 AI 模型(与 DALL-E 等模型的 2D 输出相反)。 这 项 技术 将对 游戏、动画电影制 作和虚拟世界等领域产生巨大影响。

最后 一种诱人的可能性: 想象 将 生成 的 AI 模型与 3 D 打 印 机 配 对, 以实现 文本到现实世界的对 象 生成 。 正如一位推特 用户生动 描述 的那样: “字面上是 用咒语 召唤 物 体。 ”

可以肯定的是, 这在今天仍然遥不 可及。 但是, 使这样的事情成为现实的核心技术构建 块基 本上已经到位。

未来将是令人兴奋 的, 它会比你想象的更早到来。

关键词: 人工智能 风险投资

上一篇:
下一篇:
精彩阅读

世界快资讯:关于文本到图像生成式AI :狂野新世界的4 个预测

热点

一种强大的新形式的人工智能突然出现并吸引了公众的想象力:文本到图像的生成式人工智能。

【独家】广电192靓号官方申请攻略来了!“球迷卡”即将上线!

热点

随着2022年卡塔尔世界杯的临近,中国广电方面也针对性的发出了新的广电5G营销推广活动信息。

观察:“葬爱家族”,在小红书重生

热点

“葬爱家族”复活记:铁打的边缘人。

观速讯丨互联网应用软件衰落记:属于超级APP的时代过去了?

热点

日益臃肿的微信也一直被外界吐槽:实际上90%左右的更新都用不到。

世界微头条丨数字经济的强逻辑

热点

人工智能驾驭下的数据,成为推动新一轮经济增长的决定性要素。那么这就是人口结构恶化下的一个强对冲。

天天观天下!红杉资本谈生成式AI:预计AI的杀手级应用将出现,比赛正在进行

热点

生成式AI还很早期。平台层刚刚好,而应用空间几乎还没开始。但预计AI的杀手级应用将出现,比赛正在进行。

前沿热点:解密数据编织—— 2022 数据分析领域十大技术趋势之首

热点

数据问题无疑成为企业数字化转型过程中面临的最严峻挑战。

环球消息!不靠传统业务也能日赚5.08亿元 三大运营商找到了什么新财路

热点

通信行业很能赚钱,这个事现在已经被不少人都知道了。

十六岁冲刺IPO,猪八戒网难逃数字化红海?

热点

在企服平台之外,猪八戒网在战略上比较重视的业务是垂直SaaS解决方案、在线招聘、综合智慧企服。

VR阵营再扩大,3C巨头TCL发力元宇宙

热点

随着Meta、谷歌、苹果等科技巨擘掀起新一轮VR热潮,全球范围内也有越来越多玩家入局。

财富

全球快消息!融资丨「江行智能」完成1.5亿元pre-B轮融资,朗玛峰资本等机构投资

资讯

融资丨「江行智能」完成1 5亿元pre-B轮融资,朗玛峰资本等机构投资,本轮融资将主要用于技术创新、双碳相关解决方案研发、创新应用场景与业务拓

今日看点:融资丨「六方云」完成C1轮2亿元融资,北创投领投

资讯

融资丨「六方云」完成C1轮2亿元融资,北创投领投,六方云将把本轮融资主要用于核心技术及产品上下游产业布局、市场拓展、人才队伍和平台建设等。

融资丨「HealthJoy」获得6000万美元D轮融资,Valspring领投

资讯

融资丨「HealthJoy」获得6000万美元D轮融资,Valspring领投,HealthJoy公司将把这笔资金用于公司持续增长。

蹭韩流起家年入36亿,昔日“第一微商”三战IPO

资讯

蹭韩流起家年入36亿,昔日“第一微商”三战IPO,屡次抓住时代红利的韩束,还能再战吗?

冬日情绪消费:去年热煮红酒,今年围炉烤茶

资讯

冬日情绪消费:去年热煮红酒,今年围炉烤茶,天冷了,需要更多 "温暖 "。

焦点短讯!网球名将威廉姆斯姐妹领投,投资社交平台Shares完成4000万美元融资丨海外邦

资讯

网球名将威廉姆斯姐妹领投,投资社交平台Shares完成4000万美元融资丨海外邦,Williams姐妹也将担任该公司的形象大使。

焦点快报!2022狂赚1.7亿,谷爱凌跻身全球女运动员吸金榜Top5

资讯

2022狂赚1 7亿,谷爱凌跻身全球女运动员吸金榜Top5,谷爱凌过去一年共获得2300万美元的商业代言收入。

环球要闻:奈雪专心搞副业

资讯

奈雪专心搞副业,奈雪的面包生意,越做越上头了。

万元学费,只赚400块,网红副业把我整焦虑了

资讯

万元学费,只赚400块,网红副业把我整焦虑了,“小美”和“大壮”背后的生意经

泡泡玛特回不了暖

资讯

泡泡玛特回不了暖,涨不上去的业绩,留不住的消费者。

【独家】广电192靓号官方申请攻略来了!“球迷卡”即将上线!

随着2022年卡塔尔世界杯的临近,中国广电方面也针对性的发出了新的广电5G营销推广活动信息。

观察:“葬爱家族”,在小红书重生

“葬爱家族”复活记:铁打的边缘人。

观速讯丨互联网应用软件衰落记:属于超级APP的时代过去了?

日益臃肿的微信也一直被外界吐槽:实际上90%左右的更新都用不到。

世界微头条丨数字经济的强逻辑

人工智能驾驭下的数据,成为推动新一轮经济增长的决定性要素。那么这就是人口结构恶化下的一个强对冲。

天天观天下!红杉资本谈生成式AI:预计AI的杀手级应用将出现,比赛正在进行

生成式AI还很早期。平台层刚刚好,而应用空间几乎还没开始。但预计AI的杀手级应用将出现,比赛正在进行。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个