首页> 热点 >

速度惊人！手机跑Stable Diffusion，12秒出图，谷歌YYDS-焦点观察

2023-05-04 10:04:12 来源：商业新知网

来源：新智元

手机生图只要12秒？

这不是吹的，谷歌就给实现了。

(资料图片仅供参考)

最新研究中，谷歌研究人员对4个GPU分层优化，在三星手机上成功运行Stable Diffusion 1.4。

实现了11.5秒生成图像，重要的是，内存使用量也大幅减少。

正所谓，Speed Is All You Need！

论文地址：https://arxiv.org/abs/2304.11267

谷歌最新提出的方法是通用的，可以对所有扩散模型的改进，并非仅针对特定设备实现的。

通过实验结果发现，三星S23 Ultra和iPhone 14 Pro的整体图像生成时间分别减少了52%和33%。

这意味着，一部手机装下一个生成式AI模型的未来更近了。

从3080到一部手机

当前，将大型扩散模型合并到任何APP中的一个关键考虑因素是，模型将在何处执行选择。

在一个消费级设备上部署模型的好处是，较低的服务成本、改善扩展性、还可以离线，并且能改善用户隐私。

22年，Stable Diffusion刚刚发布的第一个版本，最初只能缓慢运行在RTX 3080上。

Stable Diffusion有超过10亿的参数，DALL-E是120亿，以后随着扩散模型的发展，参数量会逐渐增加。

由于设备计算和内存资源的限制，因此在运行时带来了诸多挑战。

在没有精心设计情况下，在设备上运行这些模型可能会导致，由于迭代去噪过程和过多的内存消耗，输出内容延迟就会增加。

此前，也有研究实现了将Stable Diffusion成功部署到设备上，但仅局限于特定的设备或芯片组。

对此，谷歌研究人员对大型扩散模型提供了一系列实现优化，这些模型在配备 GPU 的移动设备上实现了迄今为止报道的最快推理延迟。

在不使用INT8量化的情况下，对于一张512x512的图片进行20次迭代，Stable Diffusion 1.4的推理延迟低于12秒。

具体是如何实现的呢？

GPU感知优化

在论文中，研究人员侧重的是使用大型扩散模型，然后完成从文本描述生成图像的任务。

虽说论文中，部分讨论是研究者为Stable Diffusion特定结构所提出的优化建议，但这些优化可以很容易推广到其它大型扩散模型上。

研究人员表示，当用文本提示进行推理时，这个过程包含根据所需的文本描述，应用额外条件来指导反向扩散。

具体来说，Stable Diffusion的主要组成部分包括：文本嵌入器（Text Embedder）、噪声生成（Noise Generation）、去噪神经网络（Denoising Neural Network，aka UNet），以及图像解码器（Image Decoder）。

如下图所示：

Stable Diffusion中主要组件及其相互作用的示意图

下面，我们分别介绍一下这几个组成部分，各部分间的关系参照图。

· 文本嵌入器：

利用CLIP模型对文本提示y进行编码，生成一个高维嵌入向量τθ(y)，将文本提示的语义封装进去。该嵌入被当作去噪神经网络的输入，为逆向扩散的过程提供指示。

· 噪声生成：

给潜在空间提供随机噪声z，该噪声作为逆向扩散过程的起始点。

· 去噪神经网络：

该网络被设计为近似p(z|y)形式的条件分布，利用条件去噪自动编码器θ(zt, t, τθ(y))（denoising autoencoder）。每次迭代t采用UNet架构。

同时，交叉注意机制（cross-attention mechanism）被用来操作潜在空间和文本嵌入向量，在迭代过程中预测z的去噪版本。

· 图像解码器：

逆行扩散过程在潜在空间中进行。一旦这个过程完成，图像解码器D被用来从潜在矢量中重建RGB图像。

研究人员在整个UNet架构中实现了群组归一化（Group normalization，GN）。

这种归一化技术的工作原理是将特征图（feature map）的pipeline划分为较小的组，并对每个组进行独立的归一化，使GN对批次大小的依赖性降低，更适合于各种大小的批次和各种网络结构。

应用公式①，每个特征值被归一化为其所属组的组均值和方差。

（公式①）

研究人员并没有依次执行上述提到的重塑、平均值、方差和归一化的所有操作，而是以GPU Shader的形式设计了一个特别的程序，在一个GPU命令中执行所有这些操作，无需中间流程。

这里先介绍一下Gaussian Error Linear Unit（GELU）。

GELU作为模型中普遍存在的激活函数，包含许多数值计算，如乘法、加法和高斯误差函数，如公式②所示。

研究人员弄了一个专门的Shader来整合这些数值计算及其伴随的分割和乘法操作，使其在一次绘图调用中完成执行。

（公式②）

稳定扩散中的文本/图像变换器有助于对条件分布P(z|τθ(y))进行建模，这对文本到图像的生成任务至关重要。

然而，自我/交叉注意力机制在处理长序列时遇到了困难，因为它们的时间和内存复杂性是平过方的。在论文中，研究人员介绍了两种可能的优化，旨在缓解这些计算瓶颈。

一种是Partially Fused Softmax，另一种是FlashAttention。

下面仅以Softmax为例。

上图是在注意力模块中，优化过的softmax实现。

虚线以上的流程图描述的是直接在矩阵中应用softmax的初始实现。

虚线以下的展示的则是修正后的模块（红色部分）。

总而言之，论文中研究人员提出了一整套优化方案，可以在各种设备上执行大型扩散模型时，共同达到了突破性的延迟数字。

这些改进扩大了模型的通用性，并提高了在各种设备上的整体用户体验。

12秒，业界领先

为了评估改进后的模型，研究人员分别在三星S23 Ultra (Adreno 740) 和iPhone 14 Pro Max (A16) 进行了一组基准测试。

作为去噪神经网络，UNet是计算需求最高的组件。

研究人员提供了执行单次迭代的UNet所需的延迟数据，以毫秒为单位测量，图像分辨率为512x512。

此外，他们记录了运行时生成的中间张量在「Tensor」列中的内存使用情况，以及为保存模型权重分配的内存在「Weight」列中的使用情况，均以兆字节为单位。

请注意，内存管理器通过重用中间张量的缓冲区来优化内存占用。

如表中数据显示，第一行显示了在公共Github仓库中使用内部OpenCL内核实现，但没有任何优化的结果。

实现之后的结果，并且研究者在没有任何优化的情况下使用内部OpenCL内核。

第2-5行，分别逐个启用每个优化：

Opt. Softmax：部分融合的softmax和优化的softmax减少步骤

S-GN/GELU：用于组归一化和GELU的专用内核

FlashAttn.：FlashAttention实现

Winograd(All)：采用Winograd卷积

随着每个优化的启用，实验结果发现延迟逐步减少。

与基线相比，在两种设备上都观察到了显著的总体延迟降低：三星S23 Ultra 降低52.2%，iPhone 14 Pro Max降低32.9%。

此外，研究人员还评估了在三星S23 Ultra进行文本到图像输出端到端延迟。

进行了20次去噪迭代，生成一张512x512图像，实现了不到12秒的业界领先结果。

可见，在没有数据连接或云服务器的情况下，在手机上本地运行生成式人工智能模型，将开辟了许多可能性。

谷歌最新研究给出了一种全新方案。

关键词：

上一篇： 用Meta「分割一切」搞定一切关系，唱跳偷袭效果拔群！NTU等提出全新RAM模型
下一篇： 最后一页

精彩阅读

速度惊人！手机跑Stable Diffusion，12秒出图，谷歌YYDS-焦点观察

热点

谷歌研究人员对4个GPU分层优化，在三星手机上成功运行StableDiffusion1 4。

用Meta「分割一切」搞定一切关系，唱跳偷袭效果拔群！NTU等提出全新RAM模型

热点

本月初，Meta推出的「分割一切」模型可谓是震撼了整个CV圈。

深度学习泰斗、谷歌副总裁 Hinton离职！对毕生工作感到后悔和恐惧！

热点

先说近期影响，就是ChatGPT趋势下的新一轮AI竞争。

斯坦福最新研究警告：别太迷信大模型涌现能力，那是度量选择的结果

热点

大模型出现后，涌现这一术语开始流行起来，通常表述为在小规模模型中不存在，但在大规模模型中存在的能力。

【机器学习】列举几种常见的机器学习分类模型（附代码）

热点

AdaBoost是一种迭代的集成学习算法，它能够对弱分类器进行改进，使得集成后的分类器有更好的性能。

环球头条：AI数字人惊艳亮相AWE CeMeta引领智慧家庭升级

热点

未来，CeMeta也将不断地扎根于智慧家庭行业和营销领域，与场景结合，构建完善的解决方案，打造产品壁垒！

昆仑万维业绩交流会要点摘要

热点

元宇宙方面，目前OperaGX月活用户已经突破2200万，发布游戏已经超过4000款，社区内容生态日趋丰富。

全球百事通！中科创达董事长赵鸿飞在民生AI峰会上的讲话

热点

PC互联网从1995年当时的热潮开始，大家在争论各种互联网会产生什么样的应用。

速读：中国是否已经输在了下一轮变革上-ai革命?

热点

目前来看，无论是在算法，算力还是在数据开放程度方面，中国在AI方面目前是一个全方位的落后的态势。

你做好与AI一起相处了吗？

热点

在我们的读书群，我写下AI不只是聊天工具，甚至不只是效率工具，它将是一种有智慧的生命。

财富

天天即时：三个理工男登上全球富豪榜，被苹果CEO点赞

资讯

三个理工男登上全球富豪榜，被苹果CEO点赞,一场流动的财富盛宴。

看不下去AI胡说八道，英伟达出手给大模型安了个“护栏”

资讯

看不下去AI胡说八道，英伟达出手给大模型安了个“护栏”,阻止大模型出口成脏。

幻觉？马斯克TruthGPT也搞不定，OpenAI联合创始人直言很复杂

资讯

幻觉？马斯克TruthGPT也搞不定，OpenAI联合创始人直言很复杂,OpenAI如何打击幻觉？

Altman的灵魂拷问：谁来投资长周期、激进型的实体创新？-世界热点

资讯

Altman的灵魂拷问：谁来投资长周期、激进型的实体创新？,华尔街的短期思维影响了VC甚至天使投资人，所有人

【聚看点】疯狂的炸串，还能火多久？

资讯

疯狂的炸串，还能火多久？,炸串品类仍然拥有不错的前景，但毋庸置疑的是，蒙眼狂奔的时代已经过去。

新势力无奈破产，富士康喜提造车工厂一座

资讯

新势力无奈破产，富士康喜提造车工厂一座,美国造车新势力破产，竟然怪富士康？

“跟风”开淄博烧烤，赚了还是赔了？

资讯

“跟风”开淄博烧烤，赚了还是赔了？,在关注与考验面前，他们有的手忙脚乱，有的积极复盘。淄博烧烤热，给

特斯拉Model 3、Model Y涨价；IBM计划用 AI 取代 7800 个岗位；科学家开发AI系统将意念转成文字丨邦早报

资讯

特斯拉Model3、ModelY涨价；IBM计划用AI取代7800个岗位；科学家开发AI系统将意念转成文字丨邦早报,24小时创投大事

王传福的40条思考：一切“技术壁垒”都是纸老虎

资讯

王传福的40条思考：一切“技术壁垒”都是纸老虎,只有掌握核心技术，企业才能在激烈的市场竞争中脱颖而出。

快讯：五一办婚礼有多贵？

资讯

五一办婚礼有多贵？,谁能逃过“婚礼税”？

MORE+ 资讯

MORE+ 热点

速度惊人！手机跑Stable Diffusion，12秒出图，谷歌YYDS-焦点观察

用Meta「分割一切」搞定一切关系，唱跳偷袭效果拔群！NTU等提出全新RAM模型

本月初，Meta推出的「分割一切」模型可谓是震撼了整个CV圈。

深度学习泰斗、谷歌副总裁 Hinton离职！对毕生工作感到后悔和恐惧！

先说近期影响，就是ChatGPT趋势下的新一轮AI竞争。

斯坦福最新研究警告：别太迷信大模型涌现能力，那是度量选择的结果

大模型出现后，涌现这一术语开始流行起来，通常表述为在小规模模型中不存在，但在大规模模型中存在的能力。

【机器学习】列举几种常见的机器学习分类模型（附代码）

AdaBoost是一种迭代的集成学习算法，它能够对弱分类器进行改进，使得集成后的分类器有更好的性能。

环球头条：AI数字人惊艳亮相AWE CeMeta引领智慧家庭升级

未来，CeMeta也将不断地扎根于智慧家庭行业和营销领域，与场景结合，构建完善的解决方案，打造产品壁垒！

速度惊人！手机跑Stable Diffusion，12秒出图，谷歌YYDS-焦点观察

速度惊人！手机跑Stable Diffusion，12秒出图，谷歌YYDS-焦点观察

用Meta「分割一切」搞定一切关系，唱跳偷袭效果拔群！NTU等提出全新RAM模型

深度学习泰斗、谷歌副总裁 Hinton离职！对毕生工作感到后悔和恐惧！

斯坦福最新研究警告：别太迷信大模型涌现能力，那是度量选择的结果

【机器学习】列举几种常见的机器学习分类模型（附代码）

环球头条：AI数字人惊艳亮相AWE CeMeta引领智慧家庭升级

昆仑万维业绩交流会要点摘要

全球百事通！中科创达董事长赵鸿飞在民生AI峰会上的讲话

速读：中国是否已经输在了下一轮变革上-ai革命?

你做好与AI一起相处了吗？

天天即时：三个理工男登上全球富豪榜，被苹果CEO点赞

看不下去AI胡说八道，英伟达出手给大模型安了个“护栏”

幻觉？马斯克TruthGPT也搞不定，OpenAI联合创始人直言很复杂

Altman的灵魂拷问：谁来投资长周期、激进型的实体创新？-世界热点

【聚看点】疯狂的炸串，还能火多久？

新势力无奈破产，富士康喜提造车工厂一座

“跟风”开淄博烧烤，赚了还是赔了？

特斯拉Model 3、Model Y涨价；IBM计划用 AI 取代 7800 个岗位；科学家开发AI系统将意念转成文字丨邦早报

王传福的40条思考：一切“技术壁垒”都是纸老虎

快讯：五一办婚礼有多贵？

MORE+ 资讯

MORE+ 热点

速度惊人！手机跑Stable Diffusion，12秒出图，谷歌YYDS-焦点观察

用Meta「分割一切」搞定一切关系，唱跳偷袭效果拔群！NTU等提出全新RAM模型

深度学习泰斗、谷歌副总裁 Hinton离职！对毕生工作感到后悔和恐惧！

斯坦福最新研究警告：别太迷信大模型涌现能力，那是度量选择的结果

【机器学习】列举几种常见的机器学习分类模型（附代码）

环球头条：AI数字人惊艳亮相AWE CeMeta引领智慧家庭升级

MORE+ 焦点

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

微软正为Windows12开发新驱动框架提升新老显卡性能

华盛顿地铁站首次亮相为视障人士扩展旅行路线

2022年情况又要变了！华硕高管：今年PC恐怕要供过于求

垃圾佬的心头好！西数新款固态盘SN740曝光

虚假宣传、误导消费者倍至冲牙器关联公司被处罚

MORE+ 智能

精彩推送