俞棟:虛擬人中的多模態合成技術

關注微信公眾號:人工智能前沿講習,
重磅乾貨,第一時間送達

一:報告導讀

本次報告涉及虛擬人多模態合成技術的進展,主要對研發的DurIAN模型中的一些關鍵問題進行了解析,最後對虛擬人技術的應用前景進行了展望。

二、專家介紹

俞棟:虛擬人中的多模態合成技術

俞棟

俞棟,IEEE Fellow,現任騰訊AI LAB(人工智能實驗室)副主任、傑出科學家,語音處理和深度學習領域的專家深度學習開源軟件 CNTK 的發起人和主要作者之一。目前已出版兩本專著,發表兩百多篇論文,引用超過25K次。他在語音處理上的兩項開創性工作分別榮獲了2013年和2016年IEEE 信號處理協會最佳論文獎。主要從事語音識別和深度學習等領域的研究。

三、報告內容

今天報告介紹的內容就是怎麼樣實現一個虛擬人,他能夠代替主持人。多模態交互裡面主要是三個組成部分:一個是多模態的輸入,一個是多模態的輸出,一個是多模態的推理和決策過程,今天主要介紹多模態的合成技術。

一般來講,在合成過程中,首先拿到的是文本信息,經過文本分析之後,可以得到很多的推演出來的信息。比如需要什麼樣子的激動態度,需要什麼地方有一定的停頓,需要用什麼樣的表情和動作,這些信息就通過後續的模型,同步合成語音、動作、表情、口形,展示給大家的就像剛才解釋的是真人的多模態的輸出。如果你願意使用卡通的,就會是一個卡通的多模態輸出。

俞棟:虛擬人中的多模態合成技術

今天主要介紹一下最近開發的用於多模態合成的技術DurIAN。最近幾年裡,語音合成技術也有很大的發展,很多模型在業界引起很大的轟動,它們一個重大的特點是合成非常自然的語音。但是這些模型都有一些弱點,比如有的非常慢,有的經常出現漏詞、重複的現象。我們這個模型最主要的創新點,結合傳統的語音合成技術和基於神經網絡的語音合成技術,使用DurIAN模型來替換原有的模型。一個是保證原有模型裡面高自然度的合成效果,同時能夠完美解決漏詞和重複的問題。另外,還能通過比較好的技術做配合,使之在系統裡面進行實時展現。

俞棟:虛擬人中的多模態合成技術

如果僅僅是把模型替換,還是有跟其它端到端模型的類似問題,就是在訓練比較接近的合成詞裡面,效果比較好。但是一旦讓它合成原有種類不太一樣的句子,效果就很差,它的魯棒性就有一定問題。要提高系統的魯棒性和泛化能力,需要充分利用語料裡面獲取的語言學知識。最常見的,比如詞的邊界,韻律詞短語的邊界等,把這些信息結合到系統裡面,我們開發一條新的技術叫做“skip input”,基本做法就是把底層的知識逐層傳上去,但是邊界信息只是一個時間點,不具有時間長度的信息,所以最後輸出的時候再把那一層去掉,可以充分結合從文本里獲取語言信息和模擬本身的高質量合成能力,使之具有很好的魯棒性和泛化能力。

俞棟:虛擬人中的多模態合成技術

DurIAN發音的自然度會比傳統的雖然也是神經網絡的但是沒有利用架構的系統有很大提升,在魯棒性和泛化能力上比原來的模型有很大提升。

在很多實用系統裡面,除了能夠直接合成高質量度的語音之外,還希望有很大的控制能力。比如在一些對話的系統裡面,就希望在不同的時候用不同的方式講話,然後在視頻解說的過程中,可能會根據環境,比如比賽的激烈程度,可能有不同激烈程度的解說,這都需要有一定的控制能力。我們就開發一種比較簡單的做法,由於在標註語調裡面非常難直接標註不同程度的激動,所以我們在技術上面採用的方法,使得在標註的時候,只需要標註是正常還是激動,系統就能夠學習激動相對應的方向矢量,方向矢量上做增益,就可以有效控制它的精細合成。

這裡有兩個例子,左邊這個是對激動程度乘上不同的係數,使之平穩控制激動程度。先請點擊一下左邊的圓圈,可以非常精細地控制它的精細程度,合成效果上有很大好處右邊這個是在語料裡面的訓練只有正常跟一般的激動,但是通過這個方法可以合成非常激動的語料。它的激動成為遠遠超過在平常語調中能夠獲得的激動程度。

俞棟:虛擬人中的多模態合成技術

另外為了使這樣的系統能夠使用,後端是個非常重要的東西,如果選不好的話音質會受到影響。最近又提出了一些新的技術,比如WaveRNN,就是比較好的質量和速度的技術,但是還不夠快。所以這裡就提出一種新的做法,把語音的信號先分頻段,然後再合成的過程中,用同一個神經網絡,同步合成多個頻段,然後再把合成的頻段在後端用信號處理的方式拼回去,就可以有很大的速度提升。在不做任何的工程優化,直接用浮點運算,經過八段可以實時RTF的值從0.3做到0.4,工程優化可以從0.3做到0.1,使速度達到10倍的實時。

俞棟:虛擬人中的多模態合成技術

DurIAN模型的多模態合成,由於它的信息是在音頻和視頻裡面共享,我們就能比較容易做到音視頻同步,在口形表情和動作上就有很大的作用。後端可以接卡通形象的口形驅動,也可以接真人的口形驅動。

俞棟:虛擬人中的多模態合成技術

後面是我一出場的時候介紹我自己的兩維的真人的虛擬人的技術,基本的做法是把人頭部的主要部分建模,然後合成裡面需要跟語音同步的部分,比如口形、表情,再跟背景,包括頭髮、衣服、動作做融合,就能夠以比較少的計算量實時合成真人的虛擬人的表情動作。

俞棟:虛擬人中的多模態合成技術

總結一下,我剛才介紹了我們在虛擬人裡面多模態合成的進展,DurIAN這個模型有比較好的自然度和魯棒性,比較強的泛化能力,同時能夠比較好的控制合成效果,合成速度能夠達到非常實時。像這樣的技術是有廣泛使用場景的,最常見的虛擬偶像,剛才展示的是虛擬解說,可以有虛擬前臺、虛擬教師,有非常廣闊的應用場景。

點擊 或 掃描圖片二維碼瞭解更多大會信息

俞棟:虛擬人中的多模態合成技術

俞棟:虛擬人中的多模態合成技術


分享到:


相關文章: