音乐也逃不过AIGC:国风摇滚都来得

2023-06-14 17:20:46   来源:商业新知网

“再多看一眼就会爆炸,再靠近点就快被融化”到底是个什么感觉?

(这是一句《只因你太美》中的歌词)


(资料图片)

下面的音乐或许能让你体会到这种“从来未有”的feel,坤坤听了都会直呼内行。

这段音乐来自Meta最新推出的文生音乐工具MusicGen。

只需要输入一段文字 ,点击生成按钮就能得到一段最长30秒的音乐,而且支持中文。

不懂乐理也没关系,MusicGen还可以 上传已有的音乐 作为参照。

比如上面这段音乐就是结合了原曲旋律重新生成的。

如果你实在不知道怎么prompt,也可以像这位网友一样问问ChatGPT:

无论是国风还是摇滚风都能轻松驾驭,甚至是两者结合。

哪怕国风伴奏也难不倒MusicGen。

测试结果显示,MusicGen的综合评分比谷歌的MusicLM高出了5.36%。

有网友给出了详细的测评体验:

这个模型似乎没有专门针对乐队名称进行训练,但用已有的风格生成音乐时表现非常好。

…… 尽管(项目)网站中的示例是(开发者)挑选过的,但这并不能否定它可以生成好的作品。

如何实现

音乐的合成涉及多段旋律以及多种音色(乐器)之间的协调。

而不同于语音合成,人类对音乐之中的不和谐因素更为敏感。

那么MusicGen是如何完成这一复杂任务的呢?

我们先来看看它的训练数据。

Meta团队一共使用了两万小时的音乐。

这之中包括一万条内部搜集的高质量音轨以及ShutterStock和Pond5素材库中的数据。

来自后两者的数据量分别为2.5万和36.5万。

这些音乐数据在32kHz下被重新采样,都配有流派、BPM等基本信息和复杂一些的文字说明。

除了上述训练数据,Meta团队还准备了评价数据集MusicCaps。

MusicCaps由5500条专业作曲家谱写的10秒长的音乐构成,其中包括一千条平衡各个音乐流派的子集。

说完训练数据,我们来具体看看MusicGen的工作流程。

第一步是将声音信息转化为token。

这一步使用的是Meta去年研发的卷积网络编码器EnCodec。

至于编码方式,Meta团队通过实验对四种不同的方式进行了测试。

最终,团队选择了延时模式(下图右下)并进行了精准建模。

最核心的Transformer部分,团队训练了300M、1.5B、3.3B三个不同参数量的自回归式Transformer。

在混合精度下,训练上述三个参数量的Transformer分别使用了32、64和96块GPU。

对于文字处理,在评估了多个前人成果后Meta团队最终选用了Google团队2020年提出的T5模型。

对于音乐旋律的调整,团队选用了无监督的方式进行,规避了监督数据不佳导致的过拟合问题。

最终,Transformer输出的数据被转换为对数形式,然后根据编码本生成最终的成品。

体验方式

目前,想要体验MusicGen,一共有三种方式。

第一种方式是 直接用官方在Hugging Face发布的DEMO 。

(传送门见文末)

这种方法操作最为简单,点进链接就能用。

缺点是得排队,有时候还会赶上服务器被挤爆、重新building等情况。

第二种是 通过谷歌Colab 搭建。

比第一种多了个一键部署的步骤,不过也比较简单,官方已经把部署要用的代码准备好了。

(传送门见文末)

进入之后,点击左上角的运行按钮即可完成一键部署,然后会得到一个专属链接,点进去就可以体验了。

不过这种操作方式需要谷歌账号才能用。

第三种方式则是 自行部署 。

你需要有足够性能的GPU,且已经安装了PyTorch2.0或以上版本。

使用下面的命令即可完成安装:

#Besttomakesureyouhavetorchinstalledfirst,inparticularbeforeinstallingxformers.

#Don"trunthisifyoualreadyhavePyTorchinstalled.pipinstall"torch>=2.0"#Thenproceedtooneofthefollowingpipinstall-Uaudiocraft#stablereleasepipinstall-Ugit+https://git@github.com/facebookresearch/audiocraft#egg=audiocraft#bleedingedgepipinstall-e.#orifyouclonedtherepolocally

安装好后,使用【python app.py】命令即可运行。

关键词:

精彩阅读

音乐也逃不过AIGC:国风摇滚都来得

热点

只需要输入一段文字,点击生成按钮就能得到一段最长30秒的音乐,而且支

继续挑干的唠:百融云有没有AI大模型数据优势? 观察

热点

存量资金构成的市场当中,个股的深蹲跳与蹦极由小作文发动,风格和赛道

苹果MR现世,VR回光返照?|今日热讯

热点

对于库克的回应,有人表示不看好,也有人大喊新的科技革命来了,人类将

环球热推荐:我被骗了,到底哪个App干的?

热点

大家生活中要长个心眼,多点敏感性,不要贪便宜,要不吃亏的可能就是自

亚马逊旗下云服务AWS在周二遭遇了一次宕机

热点

亚马逊旗下云服务AWS在周二遭遇了一次宕机,受影响出版商突然发现无法

产业互联网的商业逻辑与创新精要

热点

锁定技术的门槛,就是通过技术创新构筑屏蔽竞争对手的门槛,抢占战略制

财富

王慧文卸任水滴筹旗下公司职务

资讯

王慧文卸任水滴筹旗下公司职务,天眼查App显示,近日,水滴筹旗下北京纵

新世界与Visa组战略合作|焦点报道

资讯

新世界与Visa组战略合作,新世界及Visa宣布展开战略合作,透过加快普及

微软推出LLaVA-Med模型 可根据CT、X光图片等推测患者病理状况-天天亮点

资讯

微软推出LLaVA-Med模型可根据CT、X光图片等推测患者病理状况,微软研究

告别野蛮生长后,直播带货该怎么玩?

资讯

告别野蛮生长后,直播带货该怎么玩?,市场在变,直播电商机构的打法也

每日快讯!中国本土便利店崛起,全靠外卖?

资讯

中国本土便利店崛起,全靠外卖?,服务好一方百姓,或许才是对便利店最

腾讯RoboticsX用预训练模型和强化学习提升机器狗控制 世界快播

资讯

腾讯RoboticsX用预训练模型和强化学习提升机器狗控制,6月14日,腾讯Rob

热点!酷狗子公司诉特斯拉侵权案明日再开庭

资讯

酷狗子公司诉特斯拉侵权案明日再开庭,天眼查App显示,近日,广州繁星互

成都膨胀中 环球快播报

资讯

成都膨胀中,如果成都想要更上一层楼,就不能满足于在省内一城独大。

美国版贴吧Reddit被用户“爆吧”,全世界社区都没法活了?

资讯

美国版贴吧Reddit被用户“爆吧”,全世界社区都没法活了?,Reddit「停电」了

体验就是意义,500场演唱会盯着年轻人钱包

资讯

体验就是意义,500场演唱会盯着年轻人钱包,歌迷一票难求,黄牛却燃票点烟

继续挑干的唠:百融云有没有AI大模型数据优势? 观察

存量资金构成的市场当中,个股的深蹲跳与蹦极由小作文发动,风格和赛道

苹果MR现世,VR回光返照?|今日热讯

对于库克的回应,有人表示不看好,也有人大喊新的科技革命来了,人类将

环球热推荐:我被骗了,到底哪个App干的?

大家生活中要长个心眼,多点敏感性,不要贪便宜,要不吃亏的可能就是自

亚马逊旗下云服务AWS在周二遭遇了一次宕机

亚马逊旗下云服务AWS在周二遭遇了一次宕机,受影响出版商突然发现无法

中钢国际:接受天风证券等机构调研

每经AI快讯,中钢国际(SZ000928,收盘价:9 15元)发布公告称,2023年

中国常驻联合国副代表:未来峰会应有助于推动落实2030年可持续发展议程 全球热讯

新华社联合国6月13日电(记者王建刚)中国常驻联合国副代表耿爽13日在

甘肃张掖:“乐游甘州·水上嘉年华”观光娱乐项目正式启航|前沿热点

6月13日晚,甘肃省张掖市甘州区六乐文旅“乐游甘州·水上嘉年华”观光

C视频丨宜宾:金沙江上五桥同框 “立体”夜景更迷人

6月,华灯初上,站在高处眺望横跨宜宾市金沙江上的大桥依次排开,在灯

勐腊县与中老磨憨-磨丁经济合作区签订跨界河湖合作协议

原标题:勐腊县与中老磨憨-磨丁经济合作区签订跨界河湖合作协议日前,

【世界速看料】勒普森定制(勒普累F.)

想必现在有很多小伙伴对于勒普累,F 方面的知识都比较想要了解,那么今