首页> 热点 >

【全球播资讯】谷歌AI歌手震撼来袭！AudioLM简单听几秒，便能谱曲写歌

2022-10-10 16:05:44 来源：商业新知网

来源| 新智元

(相关资料图)

编辑 |David 桃子

【导读】最近，谷歌研究团队推出了一种语音生成的AI模型——AudioLM。只需几秒音频提示，便可生成高质量连贯的语音，甚至还可以生成钢琴音乐。

图像生成模型卷起来了！视频生成模型卷起来了！

下一个，便是音频生成模型。

近日，谷歌研究团队推出了一种语音生成的AI模型——AudioLM。

只需几秒音频提示，它不仅可以生成高质量，连贯的语音，还可以生成钢琴音乐。

论文地址：https://arxiv.org/pdf/2209.03143.pdf

AudioLM是一个具有长期一致性的高质量音频生成框架，将输入的音频映射为一串离散的标记，并将音频生成任务转化为语言建模任务。

现有的音频标记器在音频生成质量和稳定的长期结构之间必须做出权衡，无法兼顾。

为了解决这个矛盾，谷歌采用「混合标记化」方案，利用预训练好的掩膜语言模型的离散化激活，并利用神经音频编解码器产生的离散代码来实现高质量的合成。

AudioLM模型可以基于简短的提示，学习生成自然和连贯的连续词，当对语音进行训练时，在没有任何记录或注释的情况下，生成了语法上通顺、语义上合理的连续语音，同时保持说话人的身份和语调。

除了语音之外，AudioLM还能生成连贯的钢琴音乐，甚至不需要在任何音乐符号来进行训练。

从文本到钢琴曲：两大问题

近年来，在海量的文本语料库中训练出来的语言模型已经显示出其卓越的生成能力，实现了开放式对话、机器翻译，甚至常识推理，还能对文本以外的其他信号进行建模，比如自然图像。

AudioLM的思路是，利用语言建模方面的这些进展来生成音频，而无需在注释数据上进行训练。

不过这需要面对两个问题。

首先，音频的数据率要高得多，单元序列也更长。比如一个句子包含几十个字符表示，但转换成音频波形后，一般要包含数十万个值。

另外，文本和音频之间存在着一对多的关系。同一个句子可以由不同的说话人以不同的风格、情感内容和环境来呈现。

为了克服这两个挑战，AudioLM利用了两种音频标记。

首先，语义标记是从w2v-BERT这个自监督的音频模型中提取的。

这些标记既能捕捉到局部的依赖关系（如语音中的语音，钢琴音乐中的局部旋律），又能捕捉到全局的长期结构（如语音中的语言句法和语义内容，钢琴音乐中的和声和节奏），同时对音频信号进行大量的降采样，以便对长序列进行建模。

不过，从这些token中重建的音频的保真度不高。

为了提高音质，除了语义标记外，AudioLM还利用了SoundStream神经编解码器产生的声学标记，捕捉音频波形的细节（如扬声器特征或录音条件），进行高质量的合成。

如何训练？

AudioLM是一个纯音频模型，在没有任何文本或音乐的符号表示下进行训练。

它通过链接多个Transformer模型（每个阶段一个）从语义标记到精细的声学标记对音频序列进行分层建模。

每个阶段都会根据上次的标记为下一个标记预测进行训练，就像训练一个语言模型一样。

第一阶段在语义标记上执行此任务，以对音频序列的高级结构进行建模。

到了第二阶段，通过将整个语义标记序列与过去的粗声标记连接起来，并将两者作为条件反馈给粗声模型，然后预测未来的标记。

这个步骤模拟了声学特性，例如说话者特性或音乐中的音色。

在第三阶段，使用精细的声学模型来处理粗糙的声学信号，从而为最终的音频增加了更多的细节。

最后，将声学标记输入SoundStream解码器以重建波形。

训练完成后，可以在几秒钟音频上调整AudioLM，这能够让其生成连续性的音频。

为了展示AudioLM的普遍适用性，研究人员通过在不同音频领域的2个任务对其进行检验。

一是Speech continuation，该模型保留提示的说话人特征、韵律，同时还能输出语法正确且语义一致的新内容。

二是Piano continuation，该模型会生成在旋律、和声和节奏方面与提示一致的钢琴音乐。

如下所示，你听到的所有灰色垂直线之后的声音都是由AudioLM生成的。

为了验证效果如何，研究人员让人类评分者去听简短的音频片段，去判断是人类语音的原始录音还是由 AudioLM生成的录音。

根据收集到的评分，可以看到AudioLM有51.2%的成功率，意味着这一AI模型生成的语音对于普通听众来说很难与真正的语音区分开来。

在东北大学研究信息和语言科学的Rupal Patel表示，之前使用人工智能生成音频的工作，只有在训练数据中明确注释这些细微差别，才能捕捉到这些差别。

相比之下，AudioLM从输入数据中自动学习这些特征，同样达到了高保真效果。

随着 GPT3 和 Bloom（文本生成）、 DALLE和Stable Diffusion（图像生成）、RunwayML和Make-A-Video（视频生成）等多模态 ML 模型的出现，关于内容创建和创意工作正在发生变化。

未来的世界，便是人工智能生成的世界。

关键词：语言模型研究人员

上一篇：
下一篇：

精彩阅读

【全球播资讯】谷歌AI歌手震撼来袭！AudioLM简单听几秒，便能谱曲写歌
热点
最近，谷歌研究团队推出了一种语音生成的AI模型——AudioLM。

世界最新：《产城》杂志报道：时代星光推动无线通信与人工智能更进一步
热点
以中航无人机、腾盾、纵横、时代星光、携恩科技、傲势等为代表的“成都造”工业无人机蓄势腾飞。

天天滚动:“用嘴做视频”已经成真！AI让短视频创作者惊呼饭碗不保
热点
今年来，随着算力的不断增加和深度学习等技术的进步，AI在内容生产领域的应用已经不仅仅局限于图片和文字。

环球今日报丨字节跳动 2021 年收入 4391 亿元、净亏损 6041 亿元、经营亏损 509 亿元、研发支出 1039 亿元
热点
字节跳动2021年收入增长近80%达到617亿美元（4390 6亿人民币）。

当前头条：百度人脸鉴伪方法专利公布，可鉴别人脸是否伪造
热点
近日，北京百度网讯科技有限公司申请的“人脸鉴伪方法、装置及计算机程序产品”专利公布。

环球观天下！Meta Connect会议日程出炉；腾讯获基于AR的视频数据处理专利授权
热点
Meta表示，今年的活动重点为关注公司的XR目标，以及解读用户体验和Avatar的包容性将在未来发挥的重要作用。

天天观焦点：企业微信有客户流失提醒功能吗？
热点
开启客户流失提醒之后，企业微信前端页面显示。

环球实时：网易雷火：被AI端掉饭碗之前，原画师们还有哪些出路？
热点
AI绘画无疑是这段时间业内最火的话题之一。

天天观天下！观察丨区块链大事一周盘点：芭比娃娃制造商美泰公司入驻Roblox，进军元宇宙市场
热点
芭比娃娃制造商美泰公司入驻Roblox，进军元宇宙市场。

世界微资讯！抖音大火的AI虚拟人，画的猫为啥这么丑？
热点
谁能想到，本以为无所不能的AI虚拟人，竟也能让人哭笑不得。

财富

每日关注!融资丨「久农云」完成2000万元天使轮融资，首衡集团独家投资
资讯
融资丨「久农云」完成2000万元天使轮融资，首衡集团独家投资,目前，已有数万商家每天使用久农云进行经营管理，平台交易月流水已突破亿元，且在

世界头条：融资丨「迅实科技」完成超过1亿美元D轮融资，软银愿景基金二期领投
资讯
融资丨「迅实科技」完成超过1亿美元D轮融资，软银愿景基金二期领投,毅恒资本、众为资本等跟投，现有股东辰德资本、远毅资本继续追加投资。

世界最新：融资丨「和晨生物」完成数千万元天使轮融资，怀格资本独家投资
资讯
融资丨「和晨生物」完成数千万元天使轮融资，怀格资本独家投资,本轮融资将用于中试生产线建设、产品研发和团队扩张。

当前关注：融资丨「芯视佳」完成过亿元天使+轮融资，国中资本、淮南高新战新投领投
资讯
融资丨「芯视佳」完成过亿元天使+轮融资，国中资本、淮南高新战新投领投,本轮融资完成后，芯视佳将加快推进12英寸硅基OLED生产线建设，强化在

焦点速讯：融资丨「纤纳光电」完成D轮融资，招银国际、杭开集团领投
资讯
融资丨「纤纳光电」完成D轮融资，招银国际、杭开集团领投,资金将主要用于钙钛矿前沿技术的开发和GW级产线扩建，加快布局钙钛矿商业化第二阶段。

环球热文：融资丨「宠云行」完成数千万元A轮融资，金鼎资本领投
资讯
融资丨「宠云行」完成数千万元A轮融资，金鼎资本领投,本轮融资将用于智能设备和系统的丰富与升级、团队扩充和关键人才招募以及品牌推广和客户

快资讯：蔚来深入BBA腹地，手上还留有底牌
资讯
蔚来深入BBA腹地，手上还留有底牌,李斌的远方能实现吗？

天天新动态：蔚来大步闯欧洲：路径、底气与挑战
资讯
蔚来大步闯欧洲：路径、底气与挑战,对于重资产模式闯欧洲，李斌说，“在充满不确定性的当下，蔚来选择了一条难走的路”。

热资讯！疯狂星期四，到底为什么这么疯？
资讯
疯狂星期四，到底为什么这么疯？,无论如何，疯狂星期四仍然是肯德基的流量发动机

世界今日报丨试了一下卖爆的懒人洗鞋机，难用
资讯
试了一下卖爆的懒人洗鞋机，难用,国庆假期3日销售额增700%

MORE+ 资讯

每日关注!融资丨「久农云」完成2000万元天使轮融资，首衡集团独家投资

世界头条：融资丨「迅实科技」完成超过1亿美元D轮融资，软银愿景基金二期领投

世界最新：融资丨「和晨生物」完成数千万元天使轮融资，怀格资本独家投资

当前关注：融资丨「芯视佳」完成过亿元天使+轮融资，国中资本、淮南高新战新投领投

焦点速讯：融资丨「纤纳光电」完成D轮融资，招银国际、杭开集团领投

环球热文：融资丨「宠云行」完成数千万元A轮融资，金鼎资本领投

快资讯：蔚来深入BBA腹地，手上还留有底牌

天天新动态：蔚来大步闯欧洲：路径、底气与挑战

热资讯！疯狂星期四，到底为什么这么疯？

世界今日报丨试了一下卖爆的懒人洗鞋机，难用

MORE+ 热点

【全球播资讯】谷歌AI歌手震撼来袭！AudioLM简单听几秒，便能谱曲写歌

世界最新：《产城》杂志报道：时代星光推动无线通信与人工智能更进一步

以中航无人机、腾盾、纵横、时代星光、携恩科技、傲势等为代表的“成都造”工业无人机蓄势腾飞。

天天滚动:“用嘴做视频”已经成真！AI让短视频创作者惊呼饭碗不保

今年来，随着算力的不断增加和深度学习等技术的进步，AI在内容生产领域的应用已经不仅仅局限于图片和文字。

环球今日报丨字节跳动 2021 年收入 4391 亿元、净亏损 6041 亿元、经营亏损 509 亿元、研发支出 1039 亿元

字节跳动2021年收入增长近80%达到617亿美元（4390 6亿人民币）。

当前头条：百度人脸鉴伪方法专利公布，可鉴别人脸是否伪造

近日，北京百度网讯科技有限公司申请的“人脸鉴伪方法、装置及计算机程序产品”专利公布。

环球观天下！Meta Connect会议日程出炉；腾讯获基于AR的视频数据处理专利授权

Meta表示，今年的活动重点为关注公司的XR目标，以及解读用户体验和Avatar的包容性将在未来发挥的重要作用。

MORE+ 焦点

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨，苹果举行主题为超前瞻的秋季新品发布会，在此次发布会上，备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架提升新老显卡性能

Windows 12系统可能会在2024年到来，按照正常的节奏，其开发工作应该早已秘密进行。日前，有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息，一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap，旨在为盲人和视

2022年情况又要变了！华硕高管：今年PC恐怕要供过于求

这两年来，由于疫情导致的居家办公及远程教育需求爆发，一直在下跌的PC市场枯木逢春，2021年更是创下了2012年以来的最快增长，然而2022年情

垃圾佬的心头好！西数新款固态盘SN740曝光

对于DIY垃圾佬来说，散片、拆机件、工包……这些名词怕是并不陌生。本周，西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足，如果可以背靠巨头享受大树底下好乘凉的红利，那自然是皆大欢喜，没有这个福气，也大可凭借自己一步一个

MORE+ 智能

国内最火新能源中大型轿车数月订单就破10万

苹果iPhone备忘录还有隐藏功能可一键秒变扫描机

新能源汽车在我国异军突起预示着新能源汽车市场巨大增长潜力

苹果召开2022秋季新品发布会全新产品序列登场

中国大力发展新能源汽车产业绝对不会有错

智能家居进入我们生活使万物互联智能家居生活逐渐成为现实

亚马逊云科技助力念力科技打造云游戏解决方案实现全球化部署

特斯拉Semi卡车明年全新内饰谍照曝光：取消换挡拨杆

人的大脑相当于什么级别的CPU？超低功耗的神奇作品

如何“监视”作业本上的笔迹？这支笔告诉你答案

精彩推送

【全球播资讯】谷歌AI歌手震撼来袭！AudioLM简单听几秒，便能谱曲写歌

天天滚动:“用嘴做视频”已经成真！AI让短视频创作者惊呼饭碗不保

世界最新：《产城》杂志报道：时代星光推动无线通信与人工智能更进一步

世界最新：融资丨「和晨生物」完成数千万元天使轮融资，怀格资本独家投资

当前关注：融资丨「芯视佳」完成过亿元天使+轮融资，国中资本、淮南高新战新投领投

焦点速讯：融资丨「纤纳光电」完成D轮融资，招银国际、杭开集团领投

世界头条：融资丨「迅实科技」完成超过1亿美元D轮融资，软银愿景基金二期领投

每日关注!融资丨「久农云」完成2000万元天使轮融资，首衡集团独家投资

环球观天下！Meta Connect会议日程出炉；腾讯获基于AR的视频数据处理专利授权

当前头条：百度人脸鉴伪方法专利公布，可鉴别人脸是否伪造

环球今日报丨字节跳动 2021 年收入 4391 亿元、净亏损 6041 亿元、经营亏损 509 亿元、研发支出 1039 亿元

环球实时：网易雷火：被AI端掉饭碗之前，原画师们还有哪些出路？

天天观焦点：企业微信有客户流失提醒功能吗？

环球热文：融资丨「宠云行」完成数千万元A轮融资，金鼎资本领投

快资讯：蔚来深入BBA腹地，手上还留有底牌

天天新动态：蔚来大步闯欧洲：路径、底气与挑战

热资讯！疯狂星期四，到底为什么这么疯？

世界今日报丨试了一下卖爆的懒人洗鞋机，难用

世界动态:冲刺“医美面膜第一股”，万能公式失灵了？

【世界独家】海天味业，原本可以躲过这场风波

世界时讯：融资丨「FD3M」完成数千万美元A轮融资，泰越资本领投

每日消息!融资丨「同驭汽车」完成近2亿元A+轮融资，小米产投、东风交银领投

天天热消息：融资丨「顺风大运」完成数千万人民币A轮融资，创业工场领投

世界微资讯！抖音大火的AI虚拟人，画的猫为啥这么丑？

天天百事通！强化学习发现矩阵乘法算法，DeepMind再登Nature封面！

世界观速讯丨用企业微信管理微信客户的优势在哪？

环球快资讯：我一个插画师给AI打下手，月入3千

天天观天下！观察丨区块链大事一周盘点：芭比娃娃制造商美泰公司入驻Roblox，进军元宇宙市场

信息：我在农村租院子：一年租金3万块、200平

世界简讯:小鹏入局，Kittyhawk关停，飞行汽车是伪命题？

当前讯息：凡客，复活在抖音直播间

世界微速讯：倒在转“码”路上的文科生

天天快资讯丨零跑上市未脱险

每日热讯!6小时4万种生化武器，食人族AI同类相食，AI让人瑟瑟发抖

【快播报】创作者如何拥抱Web3？

前沿资讯!飞越数字鸿沟：新一代行业云加速政企羽化蜕变

天天热点评！红蓝药丸的选择：大脑在缸中还是颅中？

【全球速看料】Google翻译退出中国：附访问方法

全球观察：融资丨「云舟生物」完成4.1亿元C轮融资，广州产投等机构领投

今日热搜：融资丨「光恒科技」完成超5000万元A轮及A+轮融资，永攀创投等机构领投

环球关注：因为喜欢微信，马斯克启动X计划

印度正式启动5G服务首批覆盖13城无额外费用

预计高通仍将是 iPhone15和iPhone16的 5G基带独家供应商

天天时讯：为各行各业赋能？看中奥物联如何做到

每日讯息!元宇宙新鲜事2024年元宇宙设备市场存量将达1亿 Meta高管称旗下元宇宙应用存诸多问题

热点评！Stadia成为谷歌“产品墓地”新人，云游戏“此路不通”？丨游戏干线

环球快讯:史上最大！“华人首富”旗下区块链项目被盗，案值8.5亿美元

全球今热点：5G NR广播成为国际无线移动电视标准

当前快播：475万！中广电移动启动5G互联网业务公有云服务项目招标

世界简讯:杭州亚运倒计时一周年，中国电信助燃运动激情

全球资讯：字节混合现实视频录制专利公布可避免VR设备画面卡顿

天天观点：腾讯基于AR视频数据处理专利获授权

【环球快播报】Bessemer和老虎基金下注，印度保险科技公司Zopper完成7500万美元C轮融资丨海外邦

每日热闻!新式炒货火了，瓜子自由没了？

时讯：新能源车企盯上电动童车，营销从“娃娃”抓起？

天天速递！融资丨「溯华」完成数千万元战略融资，若羽臣领投

世界关注：SaaS公司，做的是一门什么生意？

前沿热点：美国高铁大败局

环球快看点丨王兴最终还是没有避开张一鸣

实时焦点：放了7天假，比上班还累

今日报丨元宇宙是未来的技术吗？

全球关注：元宇宙有多烧钱？至少投资700亿美元

每日视点！百度虚拟形象专利可应用于元宇宙场景

天天通讯！Snap 壮士断腕，对它来说为什么是件好事？

当前速讯：为什么说元宇宙是未来

全球最新：融资丨「致成电子」完成4000万元人民币A轮融资，中核产业基金领投

微头条丨融资丨「华经信息」完成数千万元A轮融资，动平衡资本领投

视讯！这届年轻人被“秋日限定”拿捏了

天天热消息：美版拼多多上线38天：被羊毛吸引的美国人，会不会薅一把就跑？

全球热点！集卡干脆面，为何让80后的童年欲罢不能？

世界新消息丨绿软女，打开05后的隐秘世界

今日快讯：Go 语言 1.19 版本已原生支持龙芯 LoongArch 架构

每日视讯：谷歌AI生成视频两连发：720p高清+长镜头，网友：对短视频行业冲击太大

【天天新视野】特斯拉交付不及预期，蔚小理抓紧驶入「弯道」

天天即时：羊了个羊火了，抖音的游戏梦近了

环球微速讯：宠物智能硬件的胜利，是个伪命题？

世界看点：中国女篮获世界杯亚军，商业价值能跟上吗？

当前关注：蜜雪冰城“万店天花板”：靠加盟风险外包，37万开店竟不赚钱？

天天速讯：“新势力”用上劳斯莱斯的高端配置，还把它卷成白菜价

世界速读：浮沉25年，燕之屋不止困于IPO

焦点速讯：特斯拉整活，马斯克称Cybertruck能当船用：进水不保修

【全球时快讯】东方甄选究竟是不是泡沫？

世界快消息！网易严选入局宠物赛道，但还缺代工厂这块拼图

滚动：专注电商退货管理，ReturnLogic完成A轮850万美元融资丨海外邦

全球快播：门店月入30万，不推销、也不办卡的男士理发馆凭什么赚钱？

最新资讯：中国海鲜第一大省，有多生猛？

世界热议:蜜雪冰城显形记

环球速看：谷歌关停Stadia服务，不代表云游戏“此路不通”

报道：喜剧「难得」，笑果「难为」

世界热门:硬刚Meta，字节开辟“第二战场”

速递！飞天云动港股IPO：“打新”元宇宙第一股的时机到了

【全球热闻】陌生社交“博弈论”

今日视点：完整录音·科创人数智思维私董会第6期：历久弥新的系统论、控制论与信息论| 活动回顾

当前看点!接棒智能手机，VR行业还差几步？

当前热议!中国城市人工智能创新指数2022：东部城市领跑，一超多强格局凸显

环球新动态：实体企业-数字化转型【中弘美谷】赋能陪跑计划正式启动

当前快看：融资丨「奇点能源」完成A+轮融资，晨道资本等机构领投

全球信息:不会做内容，不是好投资人

世界快消息！五菱宏光，不再为人民造车

世界速看：融资丨「纽维尔」完成3000万A轮融资，国微集团领投

【全球播资讯】谷歌AI歌手震撼来袭！AudioLM简单听几秒，便能谱曲写歌

【导读】 最近，谷歌研究团队推出了一种语音生成的AI模型——AudioLM。只需几秒音频提示，便可生成高质量连贯的语音，甚至还可以生成钢琴音乐。

【导读】最近，谷歌研究团队推出了一种语音生成的AI模型——AudioLM。只需几秒音频提示，便可生成高质量连贯的语音，甚至还可以生成钢琴音乐。