Google Assistant:一种新的人类声音,无法与真实声音区分开来

谷歌助理很快就会拥有更加真实的声音。谷歌成功开发了 Tacotron 2,这是一个能够将文本转换为音频文件的系统,其声音与人类的声音没有区别。人工智能会处理标点符号、重音、大写字母,甚至句子的上下文,以细微差别其发音。谷歌发布的片段令人印象深刻。

谁从未享受过让人们读句子的乐趣?谷歌翻译的机器人声音,只是为了取笑他奇怪的口音?多年来,这个奇异的声音已成为传奇。有些人甚至设法在艺术上改变它的方向,比如说唱歌手 Orelsan 的“计算机辅助 Freestyle”(可在 YouTube 上找到)。然而,随着这个标志性声音的消失,新的一页即将翻开。谷歌翻译和谷歌助手发出有趣声音的日子很快就会结束。

Google Assistant:新的 Tacotron 2 语音发音比人类更好

谷歌刚刚推出了一种由人工智能生成的新声音。这种声音被称为 Tacotron 2,几乎与人声没有区别。该系统基于两个人工神经网络。第一个网络将文本转换为频谱图,即音频的视觉表示。然后该频谱图被传输到由 Google DeepMind 开发的 WaveNet 系统,该系统能够读取该表示形式以生成音频文件。

谷歌发布的不同摘录是简直令人惊叹。每个句子都由该公司的一名员工和 Tacotron 2 来朗读。要知道该句子是由机器人还是人类朗读的,即使不是不可能,也是非常困难的。 Tacotron 2 能够根据标点符号调整发音,甚至可以发音最复杂的名称。

这项技术不适合留在实验室:它很快就会取代当前的 Google Assistant 语音和谷歌翻译。然而,目前人工智能仅被训练来模仿单一的英语女性声音。她将需要接受更长时间的训练才能掌握多种语言并像男人一样说话。与此同时,通过与人声的比较,然后阅读复杂的句子,自己发现这种新的声音。