外媒:百度發布Deep Voice 3 可同時合成數千種聲音

近日,據外媒報道,百度新推出的Deep Voice第三版可以通過深度學習技術輸出各種聲音,這也是百度Deep Voice系列的最後一個版本。這一技術投入使用之後將會使軟硬件產品的用戶體驗更進一步。

外媒:百度發佈Deep Voice 3 可同時合成數千種聲音

作為一個完全由深度神經網絡構建的高質量TTS系統,Deep Voice系列技術已經被用於百度的各款移動端產品和第三方合作伙伴的軟硬件產品中。最新的Deep Voice第三版可以在半個小時內學習一種聲音,總共可以同時“掌握”2500種聲音。相比前幾版系統專注於合成一種或者少量幾種非常自然的類真人聲音,Deep Voice第三版的目標則是一個能夠同時掌握大量具有細微差別口音的系統。

對於Deep Voice第三版,百度開發人員表示,這個系統可以高效地生成各種各樣的聲音,這可以應用於很多場景。例如,有聲書或視頻遊戲裡的每個角色都可以有自己獨特的聲音,這會有效提升用戶的體驗。此外他們也對媒體表示,通過使用大量高質量數據集進行額外的機器學習工程培訓,這套系統將可以掌握超過1萬種聲音,這是以前發表的TTS模型中從未達到的規模。

外媒:百度發佈Deep Voice 3 可同時合成數千種聲音

Deep Voice 3 架構圖

今年年初百度推出Deep Voice,通過使用深度學習這一熱門的人工智能技術,構建了一個可以實現文本到語音轉換的系統。Deep Voice第一版可以通過數小時的自我學習和訓練之後掌握一種聲音併合成出短句,合成效果非常流暢自然,與真人發音已經相當接近。今年5月,百度又推出了Deep Voice的升級產品Deep Voice 2,新系統可以在半小時的數據學習後模仿一種聲音,一個單一系統可以學習上百種不同的口音。

目前,Google、Apple和Amazon都有相關的語音合成研發產品,Google旗下的DeepMind一直在進行一個名叫WaveNet的類似項目,最新版本的WaveNet已經能夠在掌握口音方面做到真實、高效,甚至可以像真人那樣產生咂嘴的聲音,現在這一產品已經被應用於英文版和日文版的Google Assistant上。


分享到:


相關文章: