08.10 定製化成語音交互新風口,機械聲音將越來越有溫度

在智能交互系統中,語音合成是實現人機交互的關鍵技術。智能語音2.0時代,場景的重要性不言而喻,在不同場景中實現不同聲音的交互,使得機器語音更加生動和貼切,而如何實現這種不同場景的語音切換,語音定製化合成就派上用場了。

定製化成語音交互新風口,機械聲音將越來越有溫度

想象一下,車載服務中是您喜歡的某位明星為你做導航播報,或者在每日的清晨叫醒你,為您播報天氣情況;呆萌可愛的童聲應用在兒童玩具上,陪伴您的孩子講故事、唱兒歌,又或者應用於智能家居中家電的控制上,給它指令,它用或呆萌或可愛的聲音回覆你,生活是不是更加有趣好玩;這就是在語音交互的未來,定製化即將成為新風口。誰能賦予聲音更多的表現力和個性化,誰就能將技術適配到非標準化的廣闊場景中,贏得智能語音市場的未來。

科技巨頭看到這一趨勢,紛紛祭出語音合成“定製化”的大旗,包括谷歌、蘋果、微軟、科大訊飛等企業都在搶佔市場,語音合成技術正式進入定製化的2.0時代。那巨頭混戰的局面下,哪家技術比較強些呢?

微軟是智能語音行業的領先企業之一。今年5月份的Build 2018 大會上,其在公有云平臺上推出了語音合成定製服務產品Custom Voice。將語音和對應文本(500句)上傳,Custom Voice即可對聲音進行模擬,並在線測試模擬效果。CustomVoice採用全程可視化操作界面,普通用戶可快速上手,顯示出微軟打造定製化、平民化產品的用意。

谷歌人工智能實驗室成立的Lyrebird(琴鳥)公司,也推出了自己的定製語音合成系統。同微軟的CustomVoice類似,30句英文聲音錄入後,系統就能在“傾聽”中“掌握”每個人說話時字母、音位和單詞的發音特點,通過推理並模仿聲音中的情感、語調,“說”出全新語句。目前Lyrebird還存在一些缺陷,如合成語音夾雜電流聲,中文語句的錄入與合成表現都不理想等。

在國內,唯一能與微軟、谷歌同臺競技的就是科大訊飛。去年2017年11月,科大訊飛推出名為“訊飛留聲”的測試版本,比微軟的CustomVoice還要早半年時間。經過不斷優化,訊飛留聲製作完整音庫只需10句話聲音錄入,遠低於微軟採集的500句,亦低於谷歌的30句,採集量只有行業平均的百分之一,合成效果更好。

隨著人工智能的不斷髮展,越來越多的領域開始智能化,眾多企業也爭先佈局搶佔先機。而語音的定製化合成,讓機械的聲音越來越有了溫度,讓更多機器語音在場景化應用中表現非常親切,自然。


分享到:


相關文章: