Meta 推出 Voicebox,一种能够复制任何人类声音的人工智能

Meta刚刚正式推出了Voicebox,这是一种专门从事语音合成的人工智能。该模型能够将文本转换为音频文件,并根据这些短短两秒的样本生成语音。

学分:123RF

如您所知,科技领域的主要参与者已经加入了人工智能的竞赛。 ChatGPT 于 2022 年底推出后微软向 OpenAI 初创公司投资 100 亿美元之后,网络巨头们纷纷亮出自己的人工智能。

谷歌脱颖而出诗人,它的对话式人工智能,同时Meta 已确认自 2023 年 4 月起开始开发人工智能。近几个月来,门洛帕克公司发布了多种人工智能模型,首先是 LLaMA(大型语言模型元人工智能),开源语言模型

不久前,这家加州公司还透露杰帕,一种旨在重现人类思想的模型,特别是通过分析和理解抽象概念和概念。在一个完全不同的领域,Meta 还展示了音乐生成器,一种能够通过基本文本描述创作音乐的人工智能。

学分:元

然而,2023 年 6 月 16 日,Meta 宣布“其在语音生成人工智能领域的新突破”。这个AI就是Voicebox。总而言之,这个尖端的人工智能模型专注于语音合成。换句话说,它能够创建、编辑音频文件或设计音频文件的样式。

首先,让我们解决 Voicebox 最有趣(也可能是最有问题)的功能:上下文中的文本到语音合成。通过仅两秒的音频提取,Voicebox 能够生成语音模拟摘录中听到的人的声音和措辞。

通过这种方式,Voicebox 将能够模拟亲人、歌手或政治家的声音。 Meta 表示,未来 Voicebox 和其他类似的生成式人工智能模型将能够为语音助手提供自然的声音或元宇宙中的 NPC。此外,他们还可以让视障人士听到用朋友的声音写的信息。

学分:元

另请阅读:继 Dall-E 和 Midjourney 之后,这个新的 AI 允许您从文本生成视频

编辑音频文件和即时翻译

但这还不是全部,因为 Voicebox 还提供其他功能:

  • 音频编辑和降噪:Voicebox 可以重新创建被噪音打断的部分语音,或者替换刮擦和发音错误的单词,而无需完整录制新语音(一种用于音频的 Google 魔术橡皮擦)
  • 多语言翻译:Voicebox 目前支持六种语言(英语、法语、西班牙语、德语、波兰语和葡萄牙语),这使得它可以将语音转换为原始文件以外的语言(同时转换风格和色调)

为了执行各种任务,Meta 的人工智能已经改进了超过50,000 小时的提取 声音的主要来自有声读物和免版税内容。目前,Voicebox 仍然无法向公众开放,为了安全起见。毫不奇怪,Meta 担心其人工智能会被滥用,特别是模仿真人的声音。

来源 :


询问我们最新的!

  • 最佳智能手机:2024 年该购买哪种型号?

    2024 年最好的智能手机是什么?有几种型号正在竞争中,完全值得在我们的选择中占有一席之地。想要让一款智能手机脱颖而出非常困难,因为需要考虑很多标准。系统、电源、...

    智能手机购买指南