语音领域的GPT时刻:Meta 发布「突破性」生成式语音系统,一个通用模型解决多项任务_天天快看

2023-06-19 11:16:04   来源:商业新知网

我们知道,GPT、DALL-E 等大规模生成模型彻底改变了自然语言处理和计算机视觉研究。这些模型可以生成高保真文本或图像,而且它们有个重要特点就是「通才」,可以解决没训过的任务。相比之下,语音生成模型在规模和任务泛化方面一直没有「突破性」成果。

今日,Meta 介绍了一种「突破性」的生成式语音系统,它可以合成六种语言的语音,执行噪声消除、内容编辑、转换音频风格等。Meta 称之为最通用的语音生成 AI。

相关研究论文也已公布。接下来我们具体看下这下项研究。


(资料图)

论文:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

Meta 表示,Voicebox 是第一个没有经过专门针对语音生成的训练,却可以泛化到语音生成任务的模型。

与图像和文本的生成一样,Voicebox 可以创建多种样式的语音输出,包括从头开始创建输出和修改给定的样本。Voicebox 可以合成六种语言的语音,以及执行噪声去除、内容编辑、风格转换和多样化样本生成。

在 Voicebox 出现之前,生成语音的 AI 需要使用精心准备的训练数据对每项任务进行特定训练。而 Voicebox 仅需要从原始音频和随附的转录文本中学习,并且 Voicebox 可以修改给定样本的任何部分。

Voicebox 基于一种称为流匹配(Flow Matching)的方法,该方法已被证明可以改进扩散模型。

在生成效果方面,Voicebox 的可懂度(词错率:1.9% VS 5.9%)和音频相似度(0.681 VS 0.580)优于当前英文语音生成 SOTA 模型 VALL-E,并且速度快了 20 倍。在跨语言风格迁移任务上,Voicebox 优于 YourTTS,将平均词错率从 10.9% 降低到 5.2%,将音频相似度从 0.335 提高到 0.481。

Voicebox 在词错率指标上的表现优于 Vall-E 和 YourTTS,实现新的 SOTA。

在英语和多语言基准的音频风格相似度指标上,Voicebox 都取得了新的最佳结果。

语音生成新方法

现有语音合成器的一大主要局限是它们的训练数据都是针对目标任务准备的。这些输入基本都要求是单调的干净数据,也因此难以获取,数据量很有限,并且用这些数据训练出的模型也只能输出单调的声音。

Voicebox 基于流匹配(Flow Matching)模型,这是 Meta 在非自回归生成模型方面的最新进展,其可以学习到文本和语音之间高度非确定性的映射关系。非确定性映射很有用,因为这能让 Voicebox 学习不同的语音数据而无需仔细标注这些变体。也就是说,Voicebox 可以在更多样化的数据上训练,因此可使用数据的范围也大得多。

Meta 训练 Voicebox 时使用的数据来自英语、法语、德语、西班牙语、波兰语、葡萄牙语这六种语言,包含 50000 小时的录音和转录文本以及公共领域的有声书。Voicebox 的训练目标是根据周围语音和某片段的转录文本来预测该片段的语音。学习过基于上下文填充语音之后,该模型就能让其用于各种语音生成任务,包括生成音频录音中的缺失片段(无需重建整个输入)。

Voicebox 的这种多功能性使其可以很好地执行多种不同任务,包括:

基于语境的文本转语音合成: 仅需使用长度 2 秒的输入音频样本,Voicebox 就能匹配样本的音频风格并将其用于文本转语音生成。这一能力具有重要的应用前景,比如可以为难以说话的人带来语音表达能力,还能让用户为 NPC 角色和虚拟助手定制声音。

跨语言风格迁移: 给定一段语音样本和对应的文本片段,不管是英语、法语、德语,还是西班牙语、波兰语、葡萄牙语,Voicebox 都能以该语言读出该文本。这是一种激动人心的能力,因为这能帮助人们自然而真实地交流 —— 即便他们不说同一种语言。

语音降噪和编辑: Voicebox 的上下文学习能力让它可以在音频录音中生成无缝衔接的片段。要是音频中出现了被噪声污染的片段,它也可以为其重新合成,甚至无需重新录音就能替换原音频中说错的词句。用户可以辨别原始音频中被噪声(比如犬吠声)污染的片段,然后将其裁剪下来,再指示 Voicebox 重新生成该片段。这项能力有望让音频编辑变得非常简单,就像现在流行的图像编辑工具调整图像一样。

多样化的语音采样: Voicebox 学习了多样化的野外数据,所以可以生成就像在现实世界中说话的声音,并且支持上述六种语言。未来,这种能力可用于合成数据,然后用于训练语音助理模型等。Meta 的实验结果表明,基于 Voicebox 合成语音训练的语音识别模型的表现几乎不逊于使用真实语音训练的模型 —— 错误率仅高了 1%;而要是使用之前的文本转语音模型合成的数据训练,错误率会提升 45%-70%。

Meta 表示,Voicebox 作为首个能成功执行任务泛化的高效的多功能模型,将开创一个语音生成式 AI 的新时代。

但 Meta 也没有否认这项技术可能被误用乃至被恶意使用。为了应对这种可能性,降低潜在的风险,Meta 还构建了一种分类器,其宣称可有效分辨真实语音和 VoiceBox 生成的音频。

Voicebox 是生成式 AI 研究的重要一步。具备任务泛化能力的生成式 AI 模型正在催生出涉及文本、图像和视频生成的实际应用,这将让生成式 AI 更上一层楼。

关键词:

精彩阅读

语音领域的GPT时刻:Meta 发布「突破性」生成式语音系统,一个通用模型解决多项任务_天天快看

热点

我们知道,GPT、DALL-E等大规模生成模型彻底改变了自然语言处理和计算

每日热闻!数字经济学习思考

热点

计算机行业是与数字经济关联度最大行业之一。

AI炒股,回报率500%? 焦点热文

热点

市场的情绪某种程度上反应的是共识和期待,能直接影响股票价格变化。

马云,为什么要现场观看数学决赛? 当前关注

热点

为更多的「韦东奕」们搭建舞台、拍灯转身。

【天天聚看点】中国广电开放“携号转网”功能!只进不出

热点

近日,中国广电正式开放携号转网功能,按照广电页面信息,如果非广电用

中国广电IP骨干网CBNET试运营_世界新资讯

热点

6月15日,江苏有线率先在南京实现CBNET与B站资源节点互通,拉开了广电C

天天滚动:国内AI产业监管政策解读

热点

短期不太可能发市场准入的牌照,监管主要是聚焦标准的制定。

不惧“科技霸凌”!普通人也能使用量子计算云平台

热点

首个具有实现量子优越性潜力的量子计算云平台向全球开放。

互联网、区块链和人工智能“泡沫”有什么异同 环球播报

热点

通过沿着此曲线映射技术的旅程,可以更好地理解如何适应新技术,并保持

财富

Canalys:2023年中国汽车出口总量有望达440万辆

资讯

Canalys:2023年中国汽车出口总量有望达440万辆,6月19日,据分析机构Ca

天天头条:翼通信完成数千万元A轮融资

资讯

翼通信完成数千万元A轮融资,得翼通信宣布完成数千万人民币A轮融资,投

全球快消息!比尔·盖茨,依然顶流

资讯

比尔·盖茨,依然顶流,相信“相信”的力量。

苹果,消灭“钉子户”!

资讯

苹果,消灭“钉子户”!,又有一批iPhone用户被苹果抛弃了。

数据时代的“军备竞赛”,究竟在拼什么?_全球最新

资讯

数据时代的“军备竞赛”,究竟在拼什么?,数据普惠,是数据基础设施的

亚马逊确认今年不再专门举办re:MARS人工智能大会 世界新动态

资讯

亚马逊确认今年不再专门举办re:MARS人工智能大会,亚马逊公司证实今年不

Meta 发布「突破性」生成式语音系统,一个通用模型解决多项任务

资讯

Meta发布「突破性」生成式语音系统,一个通用模型解决多项任务,Meta介

【聚看点】美媒:特斯拉Cybertruck电动皮卡运抵新西兰进行冬季测试

资讯

美媒:特斯拉Cybertruck电动皮卡运抵新西兰进行冬季测试,6月19日,据美

​AI 2.0时代,再看消费物联网十年

资讯

​AI2 0时代,再看消费物联网十年,从消费互联网、移动互联网到万物智联

世界快看:极兔速递港股上市:一场拼多多式的崛起

资讯

极兔速递港股上市:一场拼多多式的崛起,烧钱模式在快递行业能否持续?

每日热闻!数字经济学习思考

计算机行业是与数字经济关联度最大行业之一。

AI炒股,回报率500%? 焦点热文

市场的情绪某种程度上反应的是共识和期待,能直接影响股票价格变化。

马云,为什么要现场观看数学决赛? 当前关注

为更多的「韦东奕」们搭建舞台、拍灯转身。

【天天聚看点】中国广电开放“携号转网”功能!只进不出

近日,中国广电正式开放携号转网功能,按照广电页面信息,如果非广电用

全球报道:他要的本来不多——打造数字孪生是谋划县乡发展的现实契机(一百六十四)

偶尔的一次接访,来了一个年轻人,三十岁左右的年纪,说修路的时候村里

逆水寒手游食谱都有哪些 逆水寒手游全食谱攻略

逆水寒手游中很多知道怎么制作食物,本期小编给大家带来的是逆水寒手游

中央气象台:未来一周强降雨高温占主角 苏皖湘赣等地暴雨致灾风险高 每日快播

据中央气象台消息,6月16日以来,我国长江中下游地区进入强降雨集中期

斩获「IAI传鉴国际广告奖」品牌设计大奖,易平方是怎样做到的?|全球最资讯

正如苹果公司简洁而富有辨识度的“咬过一口的苹果”品牌标志,不仅代表

张学友演唱会众星云集,刘嘉玲后台与歌神拥抱,曾志伟杜德伟捧场 当前速递

刘嘉玲也晒出了在台下和上山诗钠的同框照,二人是关系非常要好的闺蜜。

今日观点!OPPO 618终极战报:手机销售额同比增长156%

618刚刚结束,OPPO就公布了终极战报,OPPO和一加双品牌手机销售额同比