2023-01-30 13:22:08 来源:商业新知网
大数据文摘转载AI科技大本营
整理:屠敏
出品:CSDN
(资料图片仅供参考)
人工智能的春天已至,未来属于 AIGC。
继业界出现 ChatGPT、Stable Diffusion 2.0、VALL-E 等聊天、图像、文本生成声音等模型之后,Google 最新带来了一种新的人工智能系统,让 AI 发力音乐圈,该系统可以在给定文本描述的情况下自动生成任何类型的音乐,为此,Google 还取了一个言简意赅的名字——MusicLM。
不过,值得注意的是,因为担心该系统存在一些潜在风险,Google 当前虽然已经研发了该系统,但暂时还没有对外公开发布它的计划。
MusicLM 的神奇之处
只闻其声不见其人,也为 MusicLM 带来了一些神秘感。不过,近日,Google 发布了一篇《MusicLM: Generating Music From Text》学术论文,揭开了 MusicLM 的面纱。
据论文介绍,MusicLM 是一个从文本描述中生成高保真音乐的模型,它将有条件的音乐生成过程描述为一个层次化的序列到序列的建模任务,其生成的音乐频率为 24kHz,在几分钟内保持一致。
层次化的序列到序列的建模任务
在业界,MusicLM 并不是第一个 AI 音乐生成器,也正如外媒 TechCrunch 指出的那样,此前 Google 推出的 AudioML 和 OpenAI 的 Jukebox 等项目都已经实现了音乐生成功能,那么,MusicLM 到底特别在哪里?
其实,MusicLM 的与众不同主要体现在以下几点:
一、MusicLM的训练数据无可比拟
上述提到的几种模型往往由于技术限制和有限的训练数据,无法制作出作曲特别复杂或高保真度的歌曲。
相比之下,MusicLM 是在 280,000 小时的音乐数据集上进行了训练而成,由此可以帮助模型本身创造出令人称奇的多样性、深度的音乐。
二、MusicLM 可以直接根据文本提示生成长达几分钟的音乐片段
只要提供一段描述,MusicLM 模型可以文本自动生成符合场景的音乐,譬如提供的描述如下:
雷鬼舞曲和电子舞曲的融合,具有太空般的、另一个世界的声音。诱发在太空中迷失的体验,音乐将被设计为唤起一种奇迹和敬畏感,同时又是可舞蹈的。
三、MusicLM 模型还可以基于已有的旋律转换为其他乐器,甚至模拟人声
除了以上,Google 研究人员表明,MusicLM 还可以建立在现有的旋律之上,即无论是哼唱、演唱、吹口哨还是在乐器上,MusicLM 都可以继续创建音乐。
与此同时,根据官方提供的示例显示,MusicLM 模型能够按顺序编写多个描述(例如“冥想时间”,“醒来时间”,“跑步时间”,“100% 给予时间”),并创建一种以“故事”或长达几分钟的叙事为背景的旋律,这种非常适合电影配乐。
譬如,想要一个以下叙事内容的背景音乐:
电子游戏中播放的歌曲 (0:00-0:15)
在河边播放的冥想歌曲(0:15-0:30)
火 (0:30-0:45)
烟花 (0:45-0:60)
MusicLM 在理解了文本内容之后,生成的旋律如下所示:
MusicLM 也能通过图片和文本描述的组合进行指导,或生成由特定类型的乐器“播放”的音频。甚至可以设置 AI “音乐家”的经验水平,系统可以创作受地点、时代或要求启发的音乐(例如锻炼的励志音乐)等等。
基于以上,很多网友在了解论文以及通过示例观摩之后,给予了高度评价:
哇,这对我来说比 ChatGPT 还有吸引力。
我会说,谷歌几乎解决了音乐生成问题。
Google 研究员表示,「实验表明,MusicLM 在音频质量和对文本描述的遵守方面都优于以前的系统。」
MusicLM 的不足
不容忽视的是,MusicLM 还有一个强大之处就是可以模拟人声。
不过,MusicLM 当前还并不是一个成熟的模型,就以模拟人声为例,虽然它可以正确处理声音的音调,但是质感还存在一个问题。此外,很多自动生成的“歌词”有些含糊不清,也许有点像某人在哼歌,也许好像在听英文歌,但实际上或许并非如此,听众甚至会一度怀疑自己的耳朵听到的究竟是什么。
Google的担忧
整体而言,这些由 AI 生成的歌曲听起来像是人类艺术家可能创作出来的,普通听众往往难以分辨到底是 AI 创作还是人类创作。
或也正是基于这一方面的考虑,Google 在开发这款模型之际也犹豫了,在论文中,其表示,“我们目前没有发布该模型的计划”。
具体原因和此前面对 ChatGPT 强大的竞争压力时,Google 谨慎的态度一样,其担心像 MusicLM 这样的模型将会带来许多道德挑战,包括将训练数据中的受版权保护的材料合并到生成的歌曲中。
在一项实验中,Google 研究人员发现系统生成的音乐中约有 1%是直接从其训练的歌曲中复制的,这个阈值显然足以阻止他们以当前状态发布 MusicLM 这款模型。
“我们承认与用例相关的创意内容可能有会被盗用的风险,”该论文的共同作者写道,“我们强烈强调,未来需要开展更多工作,以应对与音乐创作相关的这些风险。
不过,Google 也表示,它正在公开发布一个包含 5500 个音乐文本组成的数据集 MusicCaps,其中有人类专家顾问提供丰富的文本描述,有助于训练和评估其他音乐 AI。也许在不久的将来,待 Google 摸出合适的道路,我们可以真正地一见 MusicLM 的风采。
融资丨「赣锋锂电」完成新一轮融资,国投招商等投资,资金用于支持公司加大对固态电池的研发投入和产业化步伐,力争突破锂电子动力电池安全性的
第一步:按win+R键打开运行,在运行输入cmd ,第二步 :点击确定,在命令提示符输入 ping ip地址 ,按回车键,如果出现界面,表示网络连
融资丨「上海碳际」完成数千万元A轮融资,武岳峰资本独家投资,公司A轮融资资金主要用于制造工厂能力与质量提升、新产品开发、团队建设和市场营
融资丨「庭宇科技」完成A1及A2轮近亿元融资,基石创投领投,资金将用于公司边缘计算核心产品的技术研发,以及多行业实时互动场景解决方案的迭代
网上搜索并下载钢筋符号SJQY字体。双击打开钢筋符号SJQY字体文件夹,复制钢筋符号SJQY字体将钢筋符号SJQY字体粘贴至C windows Fants文件夹
1、右击左下角开始,点击 windows powershell(管理员 ) 。2、复制并输入代码:Get-AppXPackage | Foreach {Add-AppxPackage -Disab
作为全球企业软件市场中增长最快的细分领域之一,RPA(机器人流程自动化)近两年风头无两。
未来也许会出现更多的“点”,这些点也会成为公司的新增长点。但公司能否驾驭好“全都要”的业务布局,还需要时间去证明。
在河北雄安新区,借助区块链技术建设的产业互联网平台愈加受到企业青睐。
玩法与内容这类软实力难以提升,便只能从硬实力入手,通过叠加技术,释放游戏作为感官消费品对受众的吸引力。
广电不搞“硬碰硬”,要走自己的路,依托自家丰富的传媒、视频内容资源,搭建“有线+5G”的新赛道。