Meta 推出 Voicebox,一種能夠複製任何人類聲音的人工智慧

Meta剛剛正式推出了Voicebox,這是一種專門從事語音合成的人工智慧。該模型能夠將文字轉換為音訊文件,並根據這些短短兩秒的樣本生成語音。

學分:123RF

如您所知,科技領域的主要參與者已經加入了人工智慧的競賽。 ChatGPT 於 2022 年底推出後,微軟向 OpenAI 新創公司投資 100 億美元之後,網路巨頭們紛紛亮出自己的人工智慧。

Google脫穎而出詩人,它的對話式人工智慧,同時Meta 已確認自 2023 年 4 月起開始開發人工智慧。近幾個月來,門洛帕克公司發布了多種人工智慧模型,首先是 LLaMA(大型語言模型元人工智慧),開源語言模型

不久前,這家加州公司還透露傑帕,一種旨在重現人類思想的模型,特別是透過分析和理解抽象概念和概念。在一個完全不同的領域,Meta 也展示了音樂產生器,一種能夠透過基本文字描述創作音樂的人工智慧。

學分:元

然而,2023 年 6 月 16 日,Meta 宣布“其在語音生成人工智慧領域的新突破」。這個AI就是Voicebox。總而言之,這個尖端的人工智慧模型專注於語音合成。換句話說,它能夠建立、編輯音訊檔案或設計音訊檔案的樣式。

首先,讓我們解決 Voicebox 最有趣(也可能是最有問題)的功能:上下文中的文字轉語音合成。透過僅兩秒的音訊擷取,Voicebox 能夠產生語音模擬摘錄中聽到的人的聲音和措辭。

透過這種方式,Voicebox 將能夠模擬親人、歌手或政治家的聲音。 Meta 表示,未來 Voicebox 和其他類似的生成式人工智慧模型將能夠為語音助理提供自然的聲音或元宇宙中的 NPC。此外,他們還可以讓視障人士聽到用朋友的聲音寫的訊息。

學分:元

另請閱讀:繼 Dall-E 和 Midjourney 之後,這個新的 AI 允許您從文本生成視頻

編輯音訊檔案和即時翻譯

但這還不是全部,因為 Voicebox 還提供其他功能:

  • 音訊編輯和降噪:Voicebox 可以重新創建被噪音打斷的部分語音,或者替換刮擦和發音錯誤的單詞,而無需完整錄製新語音(一種用於音頻的 Google 魔術橡皮擦)
  • 多語言翻譯:Voicebox 目前支援六種語言(英語、法語、西班牙語、德語、波蘭語和葡萄牙語),這使得它可以將語音轉換為原始文件以外的語言(同時轉換風格和色調)

為了執行各種任務,Meta 的人工智慧已經改進了超過50,000 小時的萃取 聲音的主要來自有聲書和免版稅內容。目前,Voicebox 仍然無法對外開放,為了安全起見。毫不奇怪,Meta 擔心其人工智慧會被濫用,特別是模仿真人的聲音。

來源 :


詢問我們最新的!

  • 最佳智慧型手機:2024 年該購買哪種型號?

    2024 年最好的智慧型手機是什麼?有幾種型號正在競爭中,完全值得在我們的選擇中佔有一席之地。想要讓智慧型手機脫穎而出非常困難,因為需要考慮很多標準。系統、電源、...

    智慧型手機購買指南