百度的這項新技術想從根本改變“人機交互”現狀

你的客廳裡是否遇到過這種“傻白甜”音箱?他們的基本表現是“遠場聽不清、也聽不懂人話”。

是的,這是目前國內很多智能音箱的一大吐槽點,為了提升遠場語音識別的準確性,百度近日推出了一項新技術——基於複數卷積神經網絡(CNN)的語音增強和聲學建模一體化端到端建模技術,這一長串聽起來有些“頭疼”的技術名詞或將從根本上改變目前語音識別領域的行業現狀。

“這項技術完成了數字信號處理和語音識別兩個領域的技術革命,不需要任何領域行業的支持,用端到端的一個聲學模型,解決兩個跨領域的語音識別問題”,百度語音首席架構師賈磊在媒體採訪時表示。

“我們獲得了比現有百度音箱產品,超過30%以上錯誤率的下降,即語音識別性能提升超過30%,這也是目前國際業內同行中提升最大的、利用深度學習來完成語音交互的系統”,賈磊隨機補充道。

公開資料顯示,國際上採用類似思路方法的相對錯誤率降低僅為16%。百度方面表示,目前該語音識別技術已經被集成到百度最新發布的百度鴻鵠芯片中。

百度的這項新技術想從根本改變“人機交互”現狀

傳統遠場語音識別技術的BUG

眾所周知,遠場語音識別是目前語音交互領域的關鍵技術,也是語音交互技術得以普及的基礎。在遠場環境(比如站在3米甚至5米遠處與智能音箱對話)下,由於目標聲源距離拾音器較遠致使目標信號衰減嚴重,加之環境嘈雜,干擾信號眾多,最終導致信噪比較低,語音識別性能較差。

為了提升遠場語音識別準確率,傳統的遠場語音識別技術會使用麥克風陣列作為拾音器,再利用多通道語音信號處理技術,增強目標信號,提升語音識別精度。“這是目前絕大多數智能音箱的技術框架,但弊端十分明顯”,賈磊坦言。

百度的這項新技術想從根本改變“人機交互”現狀

胖胖瞭解到,傳統方法必須在喚醒拿到波束方向之後才能進行識別,因此目前市面上的智能音箱都會有一個呼吸燈,喚醒後燈會先衝向用戶,然後再在燈上面進行識別,如果你繞到燈的背面說話,那麼其識別能力便會大大降低。

其根本原因是目前數字信號處理的波束生成技術有三個缺點:首先是必須知道方向以後生成波束,人必須在波束寬度範圍內進行識別。實際上,首次喚醒音箱時用戶是不知道波束方向的,因此首次喚醒音箱會難。

其次,喚醒音箱之後你要想進行360°任意且持續性的交互(即基於全雙工自然對話技術的持續語音交互,目前各大智能音箱廠商都在做),傳統的語音識別技術很難做到。這是由於在喚醒後的持續交互時間內,用戶是不可能站在原地不動的,很有可能走出波束寬度範圍。

最後,先做數字信號處理進行語音增強,再做語音識別分離技術,沒有辦法實現端到端的打通。這是因為數字信號處理技術是基於語音增強做的語音信號處理,其目的是令語音聽起來更清晰,背景噪音更小,但這並不代表語音識別率很高,這兩個概念是不同的。

為此,百度大腦推出了基於複數卷積神經網絡的語音增強和聲學建模一體化端到端建模技術。據瞭解,該模型底部以複數CNN(Convolutional Neural Network)為核心,利用複數CNN網絡挖掘生理信號本質特徵的特點,採用複數CNN、複數全連接層以及CNN等多層網絡,直接對原始的多通道語音信號進行多尺度多層次的信息抽取,期間充分挖掘頻帶之間的關聯耦合信息。在保留原始特徵相位信息的前提下,同時實現了前端聲源定位、波束形成和增強特徵提取。

該模型底部CNN抽象出來的特徵,直接送入百度獨有的端到端的流式多級的截斷注意力模型中,從而實現了從原始多路麥克信號到識別目標文字的端到端一體化建模。整個網絡的優化準則完全依賴於語音識別網絡的優化準則來做,完全以識別率提升為目標來做模型參數調優。

百度的這項新技術想從根本改變“人機交互”現狀

胖胖瞭解到,這項技術主要包含五方面優勢:無需任何數字信號處理和語音識別學科的先驗假設;複數CNN網絡內存佔用少於200K,可以內置到百度鴻鵠芯片內部;利用近場數據和純粹依靠仿真數據,就可以獲得足量的遠場訓練數據;整個過程是從原始多麥克信號到識別文字的一個端到端訓練;以及整個優化過程只有一個優化準則,即字錯誤率的降低。

“在國內智能音箱行業,這項技術應該是大幅度領先的,因為目前行業大部分都是以數字信號處理為主,除了Google”,賈磊表示。

據悉,儘管Google智能音箱也是採用端到端的解決方案,但是其核心依賴於很多數字信號處理的行業假設,它的模型設計完全是根據數字信號處理模型和功能設計的,而這種設計有兩個缺點。

一是,Google將空間波束方向數量定在了10以下,而事實上在CNN領域,空間波束方向可以是10、16、32、以及64,是非常自由的。這是因為Google要和數字處理信號看齊,一定要和空間波束髮生關聯,所以限制了模型結構。

二是採用濾波結構,沒有挖掘跨頻帶之間的關聯,比如100Hz和100Hz發生關係,200Hz和200Hz發生關係,但是100Hz和200Hz之間頻帶的關聯是這個模型沒辦法挖掘的,原因就是為了模仿線性濾波、數字信號處理的理論。

百度的這項新技術想從根本改變“人機交互”現狀

“我們大膽拋棄了所有數字信號處理行業學科假設,直接利用CNN(CNN指導是有完整仿生學原理的)。我們完全依賴於深度學習學科理論,利用CNN設計了一個前端的特徵提取,去挖掘聲學信號中最本質的聽覺信息(從多路麥克中挖掘)。我們的跨頻帶信息是可以通過CNN模型充分挖掘的,模型結構沒有任何假設,模型的通道數目完全不受空間波束的限制,”賈磊告訴胖胖。

“我們完全打破了學科之間的壁壘,拋棄了學科中現有理論和經典理論對深度學習模型的制約,完全基於深度學習模型理論,基於字的錯誤率,去優化所有的模型參數,獲得了30%的識別提升”,賈磊補充道。

該方法的成功,進一步揭示了深度學習技術在人工智能工業應用中的巨大潛力。同時揭示了端到端建模,跨學科的端到端建模,以及大數據驅動等技術方向,是深度學習下一步產業應用和效果提升的重要發展方向。據瞭解,百度方面已經完成該技術向百度鴻鵠芯片的集成,其基於百度鴻鵠語音芯片的硬件模組及開發板將於2020年初正式推出。

百度的這項新技術想從根本改變“人機交互”現狀

權威數據機構Strategy Analytics最新報告顯示,百度旗下人工智能品牌小度領先優勢再次擴大,第三季度全球市場出貨量為430萬臺,同比增長130%,連續三季度保持國內第一。

另一方面,Canalys數據顯示,百度智能音箱第三季度出貨量同比增長290.1%,在全球前五大智能音箱品牌中增速最快,而小度帶屏智能音箱更是憑藉230萬臺的出貨量遠高於亞馬遜,延續2019年上半年全球出貨量第一的成績。

如今,智能音箱行業已經全面步入下半場,百度正在憑藉其在語音交互領域的技術優勢進一步擴大智能音箱市場佔有率,而百度的這項新技術或將影響包括智能音箱和智能電視在內的智能家居行業,集成這項技術的百度AI開放平臺也將助力更多開發者帶來更優秀的語音交互產品。


分享到:


相關文章: