亚马逊的BASE TTS模型的新兴能力

亚马逊研究人员训练迄今最大的文本转语音模型,声称实现了改进的新颖品质,提升了性能

史上最大的文本到语音人工智能模型展示了一些令人兴奋的新技能!

告别机械化的文本到语音声音,迎来自然对话!亚马逊的研究人员最近训练了最大的文本到语音模型,称为BASE TTS(大适应性流媒体可适应TTS)。这一突破性模型展现了新兴的特质,使其在发音复杂句子方面游刃有余。

我们都知道,随着时间的推移,文本到语音模型一直在稳步提高,但是亚马逊的研究人员希望看到一次显著的飞跃。而且他们真的得到了他们所期望的!一旦BASE TTS模型达到一定的规模,它不仅变得强大,还变得多才多艺,能够执行并非明确训练过的任务。就像看着一个瘦弱的超级英雄突然壮大起来,凭借新发现的超能力与恶棍对抗一样。💪🦸‍♀️

称为BASE-large的BASE TTS的最大版本,它是一个庞大的模型,拥有惊人的9.8亿个参数。为了对比一下,它使用了10万小时的公共领域语音,主要是英语,还有一点德语、荷兰语和西班牙语。此外,研究人员还训练了参数为4亿和1.5亿的较小版本的模型,分别使用了1万小时和1千小时的音频。这种比较有助于确定新兴行为开始出现的最佳规模。

现在,让我们来看看BASE TTS的令人兴奋之处 – 新兴能力。虽然它的普通语音质量并没有大幅提高(只是在评价尺度上多了几分),但该模型展示了一系列令人瞩目的新兴能力。它能够轻松完成通常会使常规文本到语音引擎失误的任务,比如解析复杂的复合名词、传达情感或低声耳语、完美地发音外语单词、像语法专家一样处理标点符号,甚至解决句法复杂性问题。就好像BASE TTS破解了在语言处理中导航危险水域的秘密代码!😮🗝️

为了让你品尝到它的技艺,以下是一些BASE TTS轻松解决的具有挑战性的短语:

  • 复合名词:“贝克汉姆决定租一座迷人的石建乡村度假屋。”
  • 情感:“天哪!我们真的要去马尔代夫吗?太不可思议了!”詹妮兴奋地跳起来,忍不住脚尖蹦跳。
  • 外语单词:“亨利先生因其mise en place而闻名,他编排了一场七道菜的盛宴,每道菜都是杰作。”
  • 声音特征(可读的非词语):“嘘,露西,嘘,我们不能把你的弟弟吵醒,”汤姆低声说道,他们小心翼翼地走过婴儿房。
  • 标点符号:“她收到她哥哥一条奇怪的短信:“家中紧急情况;立即打电话!妈妈和爸爸很担心……#家庭问题。”
  • 疑问句:“但是脱欧问题依然存在:经过所有的磨难和困苦,部长们能否及时找到答案?”
  • 句法复杂性:“德·莫亚在2022年主演的电影虽然评价褒贬不一,但却是票房大卖。”

“这些句子旨在包含具有挑战性的任务 – 解析庭园小径句子、在冗长的复合名词上放置短语重音、产生情感或低语、或者为外语单词如“qi”或标点符号如“@”产生正确的音素 – 这些都不是BASE TTS明确训练的任务。”研究的作者写道。

BASE TTS仍然面临一些障碍,但它在处理复杂的语言结构方面胜过了其他同类模型,比如Tortoise和VALL-E。🐢🤖

也许你会想知道这样的显著能力是否存在于所有的BASE TTS模型中。好吧,BASE-large、BASE-medium和BASE-small这三个模型共享相同的架构。因此可以得出结论,模型的规模和训练数据的程度是其异常能力的主要因素。请记住,BASE TTS仍然是一个实验模型,因此需要进一步的研究来确定新兴能力的拐点,并开发高效的训练和部署方法。就像培养一个好奇而有才华的孩子成为其所选择领域的熟练专家一样。🧒🔬

BASE TTS的一个关键特点是其“可流式”性质。这意味着它不需要一次生成整个句子,而是可以以相对较低的比特率逐时刻地传递语音。研究人员还努力将其他语音元数据(如情感和韵律)打包在一个单独的低带宽流中,以作为主音频的附带内容。就好像在购买电影时额外获得了一个有幕后花絮的特别奖励DVD一样。🎥🌟

这项技术的影响是巨大的,特别是在可访问性方面。预计2024年可能是文本到语音模型爆发的一年,恰好与即将到来的选举季节相吻合。然而,让我们不要低估它的更广泛应用。想象一下,视觉障碍的个人毫不费力地消费书面内容,或者与真实人类聊天一样的对话式人工智能界面。这是一个双赢的局面!🎉🌐

但是,所有这些兴奋中有一个小小的问题。研究人员决定不公开模型的源代码和其他数据,因为这样做有风险会被不良分子利用。然而,众所周知,猫总有一天会逃跑的,最终,模型的内部运作将会揭示给世界看并进行探索。🐱🔍

现在,如果你好奇想要听听 BASE TTS 模型的效果,你可以转到他们为此制作的网站。他们为您选择了各种复杂的样本供您享受。但是,为了省事,这里有一些音频示例:

  1. 嘘,开始了……
  2. 你真法式!
  3. 引导月光。

总而言之,亚马逊的 BASE TTS 模型是文本到语音技术领域的一个革命性变革者。由于其庞大的规模和广泛的训练数据,它的新兴能力使其能够轻松处理复杂的语言任务。虽然它仍然是一个实验性模型,但其实际应用潜力巨大。🚀

问答

问:除了英语之外,BASE TTS 能理解和说其他语言吗? 答:当然可以!BASE TTS 在多种语言上进行了训练,包括英语、德语、荷兰语和西班牙语。它处理外语单词和发音的能力展示出它在多种语言中的通用性。

问:BASE TTS 与 Tortoise 和 VALL-E 等其他文本到语音模型相比如何? 答:在处理复杂的语言问题,如复合名词、情感、外语单词、语篇语素、标点符号、问题和句法复杂性方面,BASE TTS 超越了其竞争对手。虽然它仍然有改进的空间,但总体性能方面绝对领先于竞争对手。

问:BASE TTS “流式传输”有什么影响? 答:BASE TTS 的流式传输特性使它能够实时生成语音,逐瞬间地进行。这种低比特率的方法使对话体验更加流畅,更加互动,非常适合虚拟助手或有声书等各种应用。

问:我们会很快在商业产品中看到 BASE TTS 吗? 答:虽然 BASE TTS 仍处于实验阶段,但这项开创性的研究为未来的发展铺平了道路。在不久的将来,我们将见证 BASE TTS 融入商业产品,使我们的数字交互更具吸引力和可访问性。

参考:亚马逊的 BASE TTS 模型文本到语音技术的进展流式语音合成的影响