【全球播资讯】谷歌AI歌手震撼来袭!AudioLM简单听几秒,便能谱曲写歌

2022-10-10 16:05:44   来源:商业新知网

来源| 新智元


(相关资料图)

编辑 |David 桃子

【导读】 最近,谷歌研究团队推出了一种语音生成的AI模型——AudioLM。只需几秒音频提示,便可生成高质量连贯的语音,甚至还可以生成钢琴音乐。

图像生成模型卷起来了!视频生成模型卷起来了!

下一个,便是音频生成模型。

近日,谷歌研究团队推出了一种语音生成的AI模型——AudioLM。

只需几秒音频提示,它不仅可以生成高质量,连贯的语音,还可以生成钢琴音乐。

论文地址:https://arxiv.org/pdf/2209.03143.pdf

AudioLM是一个具有长期一致性的高质量音频生成框架,将输入的音频映射为一串离散的标记,并将音频生成任务转化为语言建模任务。

现有的音频标记器在音频生成质量和稳定的长期结构之间必须做出权衡,无法兼顾。

为了解决这个矛盾,谷歌采用「混合标记化」方案,利用预训练好的掩膜语言模型的离散化激活,并利用神经音频编解码器产生的离散代码来实现高质量的合成。

AudioLM模型可以基于简短的提示,学习生成自然和连贯的连续词,当对语音进行训练时,在没有任何记录或注释的情况下,生成了语法上通顺、语义上合理的连续语音,同时保持说话人的身份和语调。

除了语音之外,AudioLM还能生成连贯的钢琴音乐,甚至不需要在任何音乐符号来进行训练。

从文本到钢琴曲:两大问题

近年来,在海量的文本语料库中训练出来的语言模型已经显示出其卓越的生成能力,实现了开放式对话、机器翻译,甚至常识推理,还能对文本以外的其他信号进行建模,比如自然图像。

AudioLM的思路是,利用语言建模方面的这些进展来生成音频,而无需在注释数据上进行训练。

不过这需要面对两个问题。

首先,音频的数据率要高得多,单元序列也更长。比如一个句子包含几十个字符表示,但转换成音频波形后,一般要包含数十万个值。

另外,文本和音频之间存在着一对多的关系。同一个句子可以由不同的说话人以不同的风格、情感内容和环境来呈现。

为了克服这两个挑战,AudioLM利用了两种音频标记。

首先,语义标记是从w2v-BERT这个自监督的音频模型中提取的。

这些标记既能捕捉到局部的依赖关系(如语音中的语音,钢琴音乐中的局部旋律),又能捕捉到全局的长期结构(如语音中的语言句法和语义内容,钢琴音乐中的和声和节奏),同时对音频信号进行大量的降采样,以便对长序列进行建模。

不过,从这些token中重建的音频的保真度不高。

为了提高音质,除了语义标记外,AudioLM还利用了SoundStream神经编解码器产生的声学标记,捕捉音频波形的细节(如扬声器特征或录音条件),进行高质量的合成。

如何训练?

AudioLM是一个纯音频模型,在没有任何文本或音乐的符号表示下进行训练。

它通过链接多个Transformer模型(每个阶段一个)从语义标记到精细的声学标记对音频序列进行分层建模。

每个阶段都会根据上次的标记为下一个标记预测进行训练,就像训练一个语言模型一样。

第一阶段在语义标记上执行此任务,以对音频序列的高级结构进行建模。

到了第二阶段,通过将整个语义标记序列与过去的粗声标记连接起来,并将两者作为条件反馈给粗声模型,然后预测未来的标记。

这个步骤模拟了声学特性,例如说话者特性或音乐中的音色。

在第三阶段,使用精细的声学模型来处理粗糙的声学信号,从而为最终的音频增加了更多的细节。

最后,将声学标记输入SoundStream解码器以重建波形。

训练完成后,可以在几秒钟音频上调整AudioLM,这能够让其生成连续性的音频。

为了展示AudioLM的普遍适用性,研究人员通过在不同音频领域的2个任务对其进行检验。

一是Speech continuation,该模型保留提示的说话人特征、韵律,同时还能输出语法正确且语义一致的新内容。

二是Piano continuation,该模型会生成在旋律、和声和节奏方面与提示一致的钢琴音乐。

如下所示,你听到的所有灰色垂直线之后的声音都是由AudioLM生成的。

为了验证效果如何,研究人员让人类评分者去听简短的音频片段,去判断是人类语音的原始录音还是由 AudioLM生成的录音。

根据收集到的评分,可以看到AudioLM有51.2%的成功率,意味着这一AI模型生成的语音对于普通听众来说很难与真正的语音区分开来。

在东北大学研究信息和语言科学的Rupal Patel表示,之前使用人工智能生成音频的工作,只有在训练数据中明确注释这些细微差别,才能捕捉到这些差别。

相比之下,AudioLM从输入数据中自动学习这些特征,同样达到了高保真效果。

随着 GPT3 和 Bloom(文本生成)、 DALLE和Stable Diffusion(图像生成)、RunwayML和Make-A-Video(视频生成)等多模态 ML 模型的出现,关于内容创建和创意工作正在发生变化。

未来的世界,便是人工智能生成的世界。

关键词: 语言模型 研究人员

上一篇:
下一篇:
精彩阅读

【全球播资讯】谷歌AI歌手震撼来袭!AudioLM简单听几秒,便能谱曲写歌

热点

最近,谷歌研究团队推出了一种语音生成的AI模型——AudioLM。

世界最新:《产城》杂志报道:时代星光 推动无线通信与人工智能更进一步

热点

以中航无人机、腾盾、纵横、时代星光、携恩科技、傲势等为代表的“成都造”工业无人机蓄势腾飞。

天天滚动:“用嘴做视频”已经成真!AI让短视频创作者惊呼饭碗不保

热点

今年来,随着算力的不断增加和深度学习等技术的进步,AI在内容生产领域的应用已经不仅仅局限于图片和文字。

当前头条:百度人脸鉴伪方法专利公布,可鉴别人脸是否伪造

热点

近日,北京百度网讯科技有限公司申请的“人脸鉴伪方法、装置及计算机程序产品”专利公布。

环球观天下!Meta Connect会议日程出炉;腾讯获基于AR的视频数据处理专利授权

热点

Meta表示,今年的活动重点为关注公司的XR目标,以及解读用户体验和Avatar的包容性将在未来发挥的重要作用。

天天观焦点:企业微信有客户流失提醒功能吗?

热点

开启客户流失提醒之后,企业微信前端页面显示。

世界微资讯!抖音大火的AI虚拟人,画的猫为啥这么丑?

热点

谁能想到,本以为无所不能的AI虚拟人,竟也能让人哭笑不得。

财富

每日关注!融资丨「久农云」完成2000万元天使轮融资,首衡集团独家投资

资讯

融资丨「久农云」完成2000万元天使轮融资,首衡集团独家投资,目前,已有数万商家每天使用久农云进行经营管理,平台交易月流水已突破亿元,且在

世界头条:融资丨「迅实科技」完成超过1亿美元D轮融资,软银愿景基金二期领投

资讯

融资丨「迅实科技」完成超过1亿美元D轮融资,软银愿景基金二期领投,毅恒资本、众为资本等跟投,现有股东辰德资本、远毅资本继续追加投资。

世界最新:融资丨「和晨生物」完成数千万元天使轮融资,怀格资本独家投资

资讯

融资丨「和晨生物」完成数千万元天使轮融资,怀格资本独家投资,本轮融资将用于中试生产线建设、产品研发和团队扩张。

当前关注:融资丨「芯视佳」完成过亿元天使+轮融资,国中资本、淮南高新战新投领投

资讯

融资丨「芯视佳」完成过亿元天使+轮融资,国中资本、淮南高新战新投领投,本轮融资完成后,芯视佳将加快推进12英寸硅基OLED生产线建设,强化在

焦点速讯:融资丨「纤纳光电」完成D轮融资,招银国际、杭开集团领投

资讯

融资丨「纤纳光电」完成D轮融资,招银国际、杭开集团领投,资金将主要用于钙钛矿前沿技术的开发和GW级产线扩建,加快布局钙钛矿商业化第二阶段。

环球热文:融资丨「宠云行」完成数千万元A轮融资,金鼎资本领投

资讯

融资丨「宠云行」完成数千万元A轮融资,金鼎资本领投,本轮融资将用于智能设备和系统的丰富与升级、团队扩充和关键人才招募以及品牌推广和客户

快资讯:蔚来深入BBA腹地,手上还留有底牌

资讯

蔚来深入BBA腹地,手上还留有底牌,李斌的远方能实现吗?

天天新动态:蔚来大步闯欧洲:路径、底气与挑战

资讯

蔚来大步闯欧洲:路径、底气与挑战,对于重资产模式闯欧洲,李斌说,“在充满不确定性的当下,蔚来选择了一条难走的路”。

热资讯!疯狂星期四,到底为什么这么疯?

资讯

疯狂星期四,到底为什么这么疯?,无论如何,疯狂星期四仍然是肯德基的流量发动机

世界今日报丨试了一下卖爆的懒人洗鞋机,难用

资讯

试了一下卖爆的懒人洗鞋机,难用,国庆假期3日销售额增700%

世界最新:《产城》杂志报道:时代星光 推动无线通信与人工智能更进一步

以中航无人机、腾盾、纵横、时代星光、携恩科技、傲势等为代表的“成都造”工业无人机蓄势腾飞。

天天滚动:“用嘴做视频”已经成真!AI让短视频创作者惊呼饭碗不保

今年来,随着算力的不断增加和深度学习等技术的进步,AI在内容生产领域的应用已经不仅仅局限于图片和文字。

当前头条:百度人脸鉴伪方法专利公布,可鉴别人脸是否伪造

近日,北京百度网讯科技有限公司申请的“人脸鉴伪方法、装置及计算机程序产品”专利公布。

环球观天下!Meta Connect会议日程出炉;腾讯获基于AR的视频数据处理专利授权

Meta表示,今年的活动重点为关注公司的XR目标,以及解读用户体验和Avatar的包容性将在未来发挥的重要作用。

苹果举行主题为超前瞻秋季新品发布会 AirPodsPro2正式登场

北京时间9月8日凌晨,苹果举行主题为超前瞻的秋季新品发布会,在此次发布会上,备受关注的iPhone 14系列新机、新款Apple Watch Ultra以

微软正为Windows12开发新驱动框架 提升新老显卡性能

Windows 12系统可能会在2024年到来,按照正常的节奏,其开发工作应该早已秘密进行。日前,有开发者从Windows 11最新预览版Build 25188中

华盛顿地铁站首次亮相为视障人士扩展旅行路线

5月25日消息,一款旨在帮助视障人士或盲人行人使用公共交通工具的应用程序在华盛顿地铁站首次亮相。该应用程序名为Waymap,旨在为盲人和视

2022年情况又要变了!华硕高管:今年PC恐怕要供过于求

这两年来,由于疫情导致的居家办公及远程教育需求爆发,一直在下跌的PC市场枯木逢春,2021年更是创下了2012年以来的最快增长,然而2022年情

垃圾佬的心头好!西数新款固态盘SN740曝光

对于DIY垃圾佬来说,散片、拆机件、工包……这些名词怕是并不陌生。本周,西数推出了主要供应OEM厂商的新款固态盘SN740。SN740升级到了第五

虚假宣传、误导消费者 倍至冲牙器关联公司被处罚

后来者要想在激烈的市场竞争中立足,如果可以背靠巨头享受大树底下好乘凉的红利,那自然是皆大欢喜,没有这个福气,也大可凭借自己一步一个