谷歌助理很快就會擁有更真實的聲音。谷歌成功開發了 Tacotron 2,這是一個能夠將文字轉換為音訊檔案的系統,其聲音與人類的聲音沒有區別。人工智慧會處理標點符號、重音、大寫字母,甚至句子的上下文,以細微差別其發音。谷歌發布的片段令人印象深刻。
誰從未享受過讓人讀句子的樂趣?谷歌翻譯的機器人聲音,只是為了取笑他奇怪的口音?多年來,這個奇怪的聲音已成為傳奇。有些人甚至設法在藝術上改變它的方向,例如說唱歌手 Orelsan 的“電腦輔助 Freestyle”(可在 YouTube 上找到)。然而,隨著這個標誌性聲音的消失,新的一頁即將翻開。谷歌翻譯和谷歌助理發出有趣聲音的日子很快就會結束。
Google Assistant:新的 Tacotron 2 語音發音比人類更好
谷歌剛剛推出了一種由人工智慧產生的新聲音。這種聲音被稱為 Tacotron 2,幾乎與人聲沒有區別。該系統基於兩個人工神經網路。第一個網路將文字轉換為頻譜圖,即音訊的視覺表示。然後該頻譜圖被傳輸到由 Google DeepMind 開發的 WaveNet 系統,該系統能夠讀取該表示形式以產生音訊檔案。
谷歌發布的不同摘錄是簡直令人驚嘆。每個句子都由該公司的一名員工和 Tacotron 2 來朗讀。 Tacotron 2 能夠根據標點符號調整發音,甚至可以發音最複雜的名稱。
這項技術不適合留在實驗室:它很快就會取代目前的 Google Assistant 語音和谷歌翻譯。然而,目前人工智慧僅被訓練來模仿單一的英語女性聲音。她將需要接受更長時間的訓練才能掌握多種語言並像男人一樣說話。同時,透過與人聲的比較,然後閱讀複雜的句子,自己發現這種新的聲音。