將 BERT 推廣到語音識別,滴滴提出新無監督預訓練框架,大幅提升語音識別精度

將 BERT 推廣到語音識別,滴滴提出新無監督預訓練框架,大幅提升語音識別精度

作者 | 蔣棟蔚 、鄒偉、李先剛

單位 | 滴滴 AI Labs

論文標題:Improving Transformer-Based Speech Recognition Using Unsupervised Pre-Training

論文鏈接:https://arxiv.org/pdf/1910.09932.pdf

滴滴AI Labs語音團隊在論文《使用無監督預訓練提升基於Transformer的語音識別》中,新提出一種基於Transformer的無監督預訓練算法,創新性地將自然語言處理中的BERT等算法的思想推廣到了語音識別領域。能利用極易獲取的未標註的語音數據,大幅提升了語音識別精度。

論文結果顯示,通過簡單的無監督預訓練,中文語音識別任務能得到10%以上的性能提升。具體地,在中文語音識別數據集HKUST上的結果顯示,當僅使用HKUST數據庫數據做預訓練時,字錯誤率能達到23.3%(目前文獻中最好的端到端模型的性能是字錯誤率為23.5%);當使用更大無監督數據庫做預訓練時,字錯誤率能進一步降低到21.0%。

該論文工作不僅向學術界提出一種使用無監督預訓練提升語音任務精度的方法,從實驗結果中也可以發現識別性能能夠隨著無監督數據量的增加而提升。這是一個工業界上標註資源有限條件下的探索和嘗試,具有非常強的業務落地價值:在工業界產品中可以減少對標註數據的依賴,在特定領域下,標註數據需求可能從上萬小時下降到千小時、百小時,這可以有效降低搭建高質量語音識別系統的成本。

以下是對論文的詳細解讀:

語音識別技術已廣泛的應用在各領域的工業產品。搭建一套高質量的語音識別系統通常需要花費巨大的投入來獲取足夠的標註數據。同時,通過各已有的在線工業系統,可以輕鬆的獲取大量的未標註的語音數據。無論是在學術界還是在工業界,探索如何有效的使用這些未標註數據來提升語音識別系統精度,都是十分有價值的。

無監督預訓練近年來在計算機視覺(CV)、自然語言處理(NLP)等領域出現了大量突出的工作。其中BERT採用一種掩蔽語言模型(Masked Language Model,MLM)預訓練的方式進行無監督預訓練,在眾多NLP任務上取得了突破性的成績。語音任務同自然語音處理任務事實上有很多的共同特點。比如語音識別任務,是一個典型的語音序列到文本序列轉換的任務,在處理時先使用Encoder對語音信息進行特徵表示,然後使用Decoder轉換成文本。而在NLP任務中,會先使用BERT等工具預訓練文本的特徵表示,再在下游任務上進行微調。受BERT等無監督預訓練工作的啟發,論文提出了一種通過無監督預訓練學習語音特徵表示,再結合下游特定語音識別任務進行微調的新語音識別框架。

無監督預訓練端到端語音識別框架

我們先介紹基於Transformer的語音識別預訓練系統架構和具體實現,這是這篇論文的核心創新。

将 BERT 推广到语音识别,滴滴提出新无监督预训练框架,大幅提升语音识别精度

圖2.論文中系統的訓練流程:(a)預訓練:使用MPC(Masked Predictive Coding)來預測FBANK特徵

(b)微調:Encoder後添加一個Decoder,整個模型對字的預測進行優化

整個系統如圖2所示,主要包括兩個階段:無監督數據預訓練;有監督數據微調。為了減少對Transformer識別系統的修改,文章直接使用FBANK作為Encoder的輸入及輸出。同時,Encoder輸出的FBANK維度同輸入FBANK維度相同。無監督預訓練完成以後,移除FBANK預測編碼層,添加Transformer Decoder對下游的語音識別任務進行微調。在微調階段,整個模型的所有參數都是端到端可訓練的。

採用MPC對基於Transformer的模型進行預測編碼

論文使用同BERT中Masked-LM(MLM)類似的結構,提出MPC(Masked Predictive Coding,掩蔽預測編碼)來對基於Transformer的模型進行預測編碼。下面詳細介紹MPC結構。

将 BERT 推广到语音识别,滴滴提出新无监督预训练框架,大幅提升语音识别精度

圖1.八倍下采樣的MPC(掩蔽預測編碼)

圖1為MPC的結構示意圖。在預訓練的過程中,每個序列15%的標記會被隨機掩蔽。論文中,在選出的掩蔽幀中80%的幀以零向量來表示,10%的掩蔽幀使用隨機的其它幀的信息來表示,而其餘10%的掩蔽幀不做任何變化。採用L1 Loss來計算掩蔽的輸入FBANK特徵和對應位置Encoder的輸出的差異。

論文為了使MPC無監督預訓練能對下游的語音識別任務帶來更大的提升,在無監督預訓練時,對數據進行了同語音識別Encoder相同程度的下采樣,如圖1中,在無監督預訓練時,作者對輸入語音的幀序列做了8倍的下采樣。

實驗結果

下面將呈現無監督預訓練的實驗及結果,具體的實驗設置可以參考原論文。

表2.論文中使用的開源中文數據集及滴滴內部數據集

将 BERT 推广到语音识别,滴滴提出新无监督预训练框架,大幅提升语音识别精度

表2為論文中使用的數據集情況。為了驗證論文提出的無監督預訓練方案的有效性,文中收集了大量開源的普通話數據集。

為了進一步探索此方案在無監督數據量大小及風格不同的情況下的效果,論文中引入了滴滴內部1萬小時Spontaneous風格的Callcenter數據及1萬小時Reading風格的Dictation數據。

最後帶監督的微調實驗是在HKUST及AISHELL-1數據集上進行,並分別使用對應的測試集進行性能評估。

表1.使用無監督預訓練方法在HKUST和AISHELL-1測試集上的字錯誤率(CER,%)。結果中‘8k’表示訓練數據採樣率下采樣成8kHz。論文的基線系統是未使用預訓練數據得到的結果。相對錯誤下降率(RERR,%)指相對於基線系統錯誤率下降的百分比

将 BERT 推广到语音识别,滴滴提出新无监督预训练框架,大幅提升语音识别精度

論文在HKUST和AISHELL-1數據集上的實驗結果如表1所示。

在HKUST任務上,之前最好的研究結果是Transformer[12],該工作基於Transformer端到端識別框架,訓練時對訓練數據進行了變速處理,解碼時加入了語言模型。本論文采用類似的模型框架作為基線系統,訓練時同樣對訓練數據進行了變速,解碼時未使用任何語言模型。

從各無監督預訓練實驗結果可以看到:

  • 無監督預訓練能有效提升系統精度

  • 隨著無監督預訓練數據量的增大,精度提升更加明顯

  • 使用領域風格更類似的無監督數據,提升效果更加突出

AISHELL-1數據集上的實驗結果及現象同HKUST類似。

将 BERT 推广到语音识别,滴滴提出新无监督预训练框架,大幅提升语音识别精度

圖3.不同步數的無監督預訓練模型下微調模型的收斂曲線

論文對比了訓練了不同步數的無監督模型,對下游微調模型收斂的影響。圖3的結果可以看出,使用無監督預訓練可以有效提升下游識別任務的收斂速度和效果,同時更多的預訓練步數能使收斂速度更快。

将 BERT 推广到语音识别,滴滴提出新无监督预训练框架,大幅提升语音识别精度

表3.HKUST和AISHELL-1數據集上對比無監督預訓練和有監督自適應方法的字錯誤率(CER,%)

論文最後對比了無監督預訓練和有監督自適應兩種方法。表3的實驗結果表明,有監督自適應方法結果還是略好於無監督預訓練方法。然而,無監督預訓練方式不需要任何的標註,這種方式可以有效的降低構建高質量語音識別系統的成本。

工作總結

論文提出了一種可用於語音任務的無監督預訓練方法MPC,此方法和BERT中常用的MLM類似。從實驗結果來看,論文的無監督預訓練方案可以大幅提升語音識別的精度。

下一步團隊還將繼續探索比如:

  • 論文方法應用到工業界產品上,減少搭建高質量語音識別系統時需要的標註數據量。

  • 繼續擴大無監督數據量(比如十萬小時、百萬小時),探索是否可以進一步提升語音識別精度。

  • 探索無監督數據領域及風格,對無監督模型魯棒性的影響。比如是否可以像NLP任務一樣,混合各領域無監督數據訓練通用的無監督模型。

将 BERT 推广到语音识别,滴滴提出新无监督预训练框架,大幅提升语音识别精度


分享到:


相關文章: