從不溫不火到炙手可熱:語音識別技術簡史

從不溫不火到炙手可熱:語音識別技術簡史

作者 | 陳孝良,馮大航,李智勇

出品 | AI科技大本營(ID: rgznai100)

【導讀】語音識別自半個世紀前誕生以來,一直處於不溫不火的狀態,直到 2009 年深度學習技術的長足發展才使得語音識別的精度大大提高,雖然還無法進行無限制領域、無限制人群的應用,但也在大多數場景中提供了一種便利高效的溝通方式。本篇文章將從技術和產業兩個角度來回顧一下語音識別發展的歷程和現狀,並分析一些未來趨勢,希望能幫助更多年輕技術人員瞭解語音行業,並能產生興趣投身於這個行業。

語音識別,通常稱為自動語音識別,英文是Automatic Speech Recognition,縮寫為 ASR,主要是將人類語音中的詞彙內容轉換為計算機可讀的輸入,一般都是可以理解的文本內容,也有可能是二進制編碼或者字符序列。但是,我們一般理解的語音識別其實都是狹義的語音轉文字的過程,簡稱語音轉文本識別( Speech To Text, STT )更合適,這樣就能與語音合成(Text To Speech, TTS )對應起來。


語音識別是一項融合多學科知識的前沿技術,覆蓋了數學與統計學、聲學與語言學、計算機與人工智能等基礎學科和前沿學科,是人機自然交互技術中的關鍵環節。但是,語音識別自誕生以來的半個多世紀,一直沒有在實際應用過程得到普遍認可,一方面這與語音識別的技術缺陷有關,其識別精度和速度都達不到實際應用的要求;另一方面,與業界對語音識別的期望過高有關,實際上語音識別與鍵盤、鼠標或觸摸屏等應是融合關係,而非替代關係。

深度學習技術自 2009 年興起之後,已經取得了長足進步。語音識別的精度和速度取決於實際應用環境,但在安靜環境、標準口音、常見詞彙場景下的語音識別率已經超過 95%,意味著具備了與人類相仿的語言識別能力,而這也是語音識別技術當前發展比較火熱的原因。

隨著技術的發展,現在口音、方言、噪聲等場景下的語音識別也達到了可用狀態,特別是遠場語音識別已經隨著智能音箱的興起成為全球消費電子領域應用最為成功的技術之一。由於語音交互提供了更自然、更便利、更高效的溝通形式,語音必定將成為未來最主要的人機互動接口之一。

當然,當前技術還存在很多不足,如對於強噪聲、超遠場、強幹擾、多語種、大詞彙等場景下的語音識別還需要很大的提升;另外,多人語音識別和離線語音識別也是當前需要重點解決的問題。雖然語音識別還無法做到無限制領域、無限制人群的應用,但是至少從應用實踐中我們看到了一些希望。

本篇文章將從技術和產業兩個角度來回顧一下語音識別發展的歷程和現狀,並分析一些未來趨勢,希望能幫助更多年輕技術人員瞭解語音行業,並能產生興趣投身於這個行業。


語音識別的技術歷程

現代語音識別可以追溯到 1952 年,Davis 等人研製了世界上第一個能識別 10 個英文數字發音的實驗系統,從此正式開啟了語音識別的進程。語音識別發展到今天已經有 70 多年,但從技術方向上可以大體分為三個階段。

下圖是從 1993 年到 2017 年在 Switchboard 上語音識別率的進展情況,從圖中也可以看出 1993 年到 2009 年,語音識別一直處於 GMM-HMM 時代,語音識別率提升緩慢,尤其是 2000 年到 2009 年語音識別率基本處於停滯狀態;2009 年隨著深度學習技術,特別是 DNN 的興起,語音識別框架變為 DNN-HMM,語音識別進入了 DNN 時代,語音識別精準率得到了顯著提升;2015 年以後,由於“端到端”技術興起,語音識別進入了百花齊放時代,語音界都在訓練更深、更復雜的網絡,同時利用端到端技術進一步大幅提升了語音識別的性能,直到 2017 年微軟在 Swichboard 上達到詞錯誤率 5.1%,從而讓語音識別的準確性首次超越了人類,當然這是在一定限定條件下的實驗結果,還不具有普遍代表性。

從不溫不火到炙手可熱:語音識別技術簡史


GMM-HMM時代

70 年代,語音識別主要集中在小詞彙量、孤立詞識別方面,使用的方法也主要是簡單的模板匹配方法,即首先提取語音信號的特徵構建參數模板,然後將測試語音與參考模板參數進行一一比較和匹配,取距離最近的樣本所對應的詞標註為該語音信號的發音。該方法對解決孤立詞識別是有效的,但對於大詞彙量、非特定人連續語音識別就無能為力。因此,進入 80 年代後,研究思路發生了重大變化,從傳統的基於模板匹配的技術思路開始轉向基於統計模型(HMM)的技術思路。

HMM 的理論基礎在 1970 年前後就已經由 Baum 等人建立起來,隨後由 CMU 的 Baker 和 IBM 的 Jelinek 等人將其應用到語音識別當中。HMM 模型假定一個音素含有 3 到 5 個狀態,同一狀態的發音相對穩定,不同狀態間是可以按照一定概率進行跳轉;某一狀態的特徵分佈可以用概率模型來描述,使用最廣泛的模型是 GMM。因此 GMM-HMM 框架中,HMM 描述的是語音的短時平穩的動態性,GMM 用來描述 HMM 每一狀態內部的發音特徵。

基於 GMM-HMM 框架,研究者提出各種改進方法,如結合上下文信息的動態貝葉斯方法、區分性訓練方法、自適應訓練方法、HMM/NN 混合模型方法等。這些方法都對語音識別研究產生了深遠影響,併為下一代語音識別技術的產生做好了準備。自上世紀 90 年代語音識別聲學模型的區分性訓練準則和模型自適應方法被提出以後,在很長一段內語音識別的發展比較緩慢,語音識別錯誤率那條線一直沒有明顯下降。


DNN-HMM時代

2006年,Hinton 提出深度置信網絡(DBN),促使了深度神經網絡(DNN)研究的復甦。2009 年,Hinton 將 DNN 應用於語音的聲學建模,在 TIMIT 上獲得了當時最好的結果。2011 年底,微軟研究院的俞棟、鄧力又把 DNN 技術應用在了大詞彙量連續語音識別任務上,大大降低了語音識別錯誤率。從此語音識別進入 DNN-HMM 時代。

DNN-HMM主要是用 DNN 模型代替原來的 GMM 模型,對每一個狀態進行建模,DNN 帶來的好處是不再需要對語音數據分佈進行假設,將相鄰的語音幀拼接又包含了語音的時序結構信息,使得對於狀態的分類概率有了明顯提升,同時DNN還具有強大環境學習能力,可以提升對噪聲和口音的魯棒性。

從不溫不火到炙手可熱:語音識別技術簡史


簡單來說,DNN 就是給出輸入的一串特徵所對應的狀態概率。由於語音信號是連續的,不僅各個音素、音節以及詞之間沒有明顯的邊界,各個發音單位還會受到上下文的影響。雖然拼幀可以增加上下文信息,但對於語音來說還是不夠。而遞歸神經網絡(RNN)的出現可以記住更多歷史信息,更有利於對語音信號的上下文信息進行建模。

由於簡單的 RNN 存在梯度爆炸和梯度消散問題,難以訓練,無法直接應用於語音信號建模上,因此學者進一步探索,開發出了很多適合語音建模的 RNN 結構,其中最有名的就是 LSTM 。LSTM 通過輸入門、輸出門和遺忘門可以更好的控制信息的流動和傳遞,具有長短時記憶能力。雖然 LSTM 的計算複雜度會比 DNN 增加,但其整體性能比 DNN 有相對 20% 左右穩定提升。

從不溫不火到炙手可熱:語音識別技術簡史


BLSTM 是在 LSTM 基礎上做的進一步改進,不僅考慮語音信號的歷史信息對當前幀的影響,還要考慮未來信息對當前幀的影響,因此其網絡中沿時間軸存在正向和反向兩個信息傳遞過程,這樣該模型可以更充分考慮上下文對於當前語音幀的影響,能夠極大提高語音狀態分類的準確率。BLSTM 考慮未來信息的代價是需要進行句子級更新,模型訓練的收斂速度比較慢,同時也會帶來解碼的延遲,對於這些問題,業屆都進行了工程優化與改進,即使現在仍然有很多大公司使用的都是該模型結構。

從不溫不火到炙手可熱:語音識別技術簡史


圖像識別中主流的模型就是 CNN,而語音信號的時頻圖也可以看作是一幅圖像,因此 CNN 也被引入到語音識別中。要想提高語音識別率,就需要克服語音信號所面臨的多樣性,包括說話人自身、說話人所處的環境、採集設備等,這些多樣性都可以等價為各種濾波器與語音信號的卷積。而 CNN 相當於設計了一系列具有局部關注特性的濾波器,並通過訓練學習得到濾波器的參數,從而從多樣性的語音信號中抽取出不變的部分,CNN 本質上也可以看作是從語音信號中不斷抽取特徵的一個過程。CNN 相比於傳統的 DNN 模型,在相同性能情況下,前者的參數量更少。

綜上所述,對於建模能力來說,DNN 適合特徵映射到獨立空間,LSTM 具有長短時記憶能力,CNN 擅長減少語音信號的多樣性,因此一個好的語音識別系統是這些網絡的組合。

端到端時代

語音識別的端到端方法主要是代價函數發生了變化,但神經網絡的模型結構並沒有太大變化。總體來說,端到端技術解決了輸入序列的長度遠大於輸出序列長度的問題。端到端技術主要分成兩類:一類是 CTC 方法,另一類是 Sequence-to-Sequence 方法。傳統語音識別 DNN-HMM 架構裡的聲學模型,每一幀輸入都對應一個標籤類別,標籤需要反覆的迭代來確保對齊更準確。

採用 CTC 作為損失函數的聲學模型序列,不需要預先對數據對齊,只需要一個輸入序列和一個輸出序列就可以進行訓練。CTC 關心的是預測輸出的序列是否和真實的序列相近,而不關心預測輸出序列中每個結果在時間點上是否和輸入的序列正好對齊。CTC 建模單元是音素或者字,因此它引入了 Blank。對於一段語音,CTC 最後輸出的是尖峰的序列,尖峰的位置對應建模單元的 Label,其他位置都是 Blank。

Sequence-to-Sequence 方法原來主要應用於機器翻譯領域。2017 年,Google 將其應用於語音識別領域,取得了非常好的效果,將詞錯誤率降低至5.6%。如下圖所示,Google 提出新系統的框架由三個部分組成:Encoder 編碼器組件,它和標準的聲學模型相似,輸入的是語音信號的時頻特徵;經過一系列神經網絡,映射成高級特徵 henc,然後傳遞給 Attention 組件,其使用 henc 特徵學習輸入 x 和預測子單元之間的對齊方式,子單元可以是一個音素或一個字。最後,attention 模塊的輸出傳遞給 Decoder,生成一系列假設詞的概率分佈,類似於傳統的語言模型。

從不溫不火到炙手可熱:語音識別技術簡史


端到端技術的突破,不再需要 HMM 來描述音素內部狀態的變化,而是將語音識別的所有模塊統一成神經網絡模型,使語音識別朝著更簡單、更高效、更準確的方向發展。

語音識別的技術現狀

目前,主流語音識別框架還是由 3 個部分組成:聲學模型、語言模型和解碼器,有些框架也包括前端處理和後處理。隨著各種深度神經網絡以及端到端技術的興起,聲學模型是近幾年非常熱門的方向,業界都紛紛發佈自己新的聲學模型結構,刷新各個數據庫的識別記錄。由於中文語音識別的複雜性,國內在聲學模型的研究進展相對更快一些,主流方向是更深更復雜的神經網絡技術融合端到端技術。

2018年,科大訊飛提出深度全序列卷積神經網絡(DFCNN),DFCNN 使用大量的卷積直接對整句語音信號進行建模,主要借鑑了圖像識別的網絡配置,每個卷積層使用小卷積核,並在多個卷積層之後再加上池化層,通過累積非常多卷積池化層對,從而可以看到更多的歷史信息。

2018年,阿里提出 LFR-DFSMN(Lower Frame Rate-Deep Feedforward Sequential Memory Networks)。該模型將低幀率算法和 DFSMN 算法進行融合,語音識別錯誤率相比上一代技術降低 20%,解碼速度提升 3 倍。FSMN 通過在 FNN 的隱層添加一些可學習的記憶模塊,從而可以有效的對語音的長時相關性進行建模。而 DFSMN 是通過跳轉避免深層網絡的梯度消失問題,可以訓練出更深層的網絡結構。

2019 年,百度提出了流式多級的截斷注意力模型 SMLTA,該模型是在 LSTM 和 CTC 的基礎上引入了注意力機制來獲取更大範圍和更有層次的上下文信息。其中流式表示可以直接對語音進行一個小片段一個小片段的增量解碼;多級表示堆疊多層注意力模型;截斷則表示利用 CTC 模型的尖峰信息,把語音切割成一個一個小片段,注意力模型和解碼可以在這些小片段上展開。在線語音識別率上,該模型比百度上一代 Deep Peak2 模型提升相對 15% 的性能。

開源語音識別 Kaldi 是業界語音識別框架的基石。Kaldi 的作者 Daniel Povey 一直推崇的是 Chain 模型。該模型是一種類似於 CTC 的技術,建模單元相比於傳統的狀態要更粗顆粒一些,只有兩個狀態,一個狀態是 CD Phone,另一個是 CD Phone 的空白,訓練方法採用的是 Lattice-Free MMI 訓練。該模型結構可以採用低幀率的方式進行解碼,解碼幀率為傳統神經網絡聲學模型的三分之一,而準確率相比於傳統模型有非常顯著的提升。

遠場語音識別技術主要解決真實場景下舒適距離內人機任務對話和服務的問題,是 2015 年以後開始興起的技術。由於遠場語音識別解決了複雜環境下的識別問題,在智能家居、智能汽車、智能會議、智能安防等實際場景中獲得了廣泛應用。目前國內遠場語音識別的技術框架以前端信號處理和後端語音識別為主,前端利用麥克風陣列做去混響、波束形成等信號處理,以讓語音更清晰,然後送入後端的語音識別引擎進行識別。

語音識別另外兩個技術部分:語言模型和解碼器,目前來看並沒有太大的技術變化。語言模型主流還是基於傳統的 N-Gram 方法,雖然目前也有神經網絡的語言模型的研究,但在實用中主要還是更多用於後處理糾錯。解碼器的核心指標是速度,業界大部分都是按照靜態解碼的方式進行,即將聲學模型和語言模型構造成 WFST 網絡,該網絡包含了所有可能路徑,解碼就是在該空間進行搜索的過程。由於該理論相對成熟,更多的是工程優化的問題,所以不論是學術還是產業目前關注的較少。

語音識別的技術趨勢

語音識別主要趨於遠場化和融合化的方向發展,但在遠場可靠性還有很多難點沒有突破,比如多輪交互、多人噪雜等場景還有待突破,還有需求較為迫切的人聲分離等技術。新的技術應該徹底解決這些問題,讓機器聽覺遠超人類的感知能力。這不能僅僅只是算法的進步,需要整個產業鏈的共同技術升級,包括更為先進的傳感器和算力更強的芯片。

單從遠場語音識別技術來看,仍然存在很多挑戰,包括:

(1)回聲消除技術。由於喇叭非線性失真的存在,單純依靠信號處理手段很難將回聲消除乾淨,這也阻礙了語音交互系統的推廣,現有的基於深度學習的回聲消除技術都沒有考慮相位信息,直接求取的是各個頻帶上的增益,能否利用深度學習將非線性失真進行擬合,同時結合信號處理手段可能是一個好的方向。

(2)噪聲下的語音識別仍有待突破。信號處理擅長處理線性問題,深度學習擅長處理非線性問題,而實際問題一定是線性和非線性的疊加,因此一定是兩者融合才有可能更好地解決噪聲下的語音識別問題。

(3)上述兩個問題的共性是目前的深度學習僅用到了語音信號各個頻帶的能量信息,而忽略了語音信號的相位信息,尤其是對於多通道而言,如何讓深度學習更好的利用相位信息可能是未來的一個方向。

(4)另外,在較少數據量的情況下,如何通過遷移學習得到一個好的聲學模型也是研究的熱點方向。例如方言識別,若有一個比較好的普通話聲學模型,如何利用少量的方言數據得到一個好的方言聲學模型,如果做到這點將極大擴展語音識別的應用範疇。這方面已經取得了一些進展,但更多的是一些訓練技巧,距離終極目標還有一定差距。

(5)語音識別的目的是讓機器可以理解人類,因此轉換成文字並不是最終的目的。如何將語音識別和語義理解結合起來可能是未來更為重要的一個方向。語音識別裡的 LSTM 已經考慮了語音的歷史時刻信息,但語義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會話信息傳遞給語音識別引擎是一個難題。

(6)讓機器聽懂人類語言,僅靠聲音信息還不夠,“聲光電熱力磁”這些物理傳感手段,下一步必然都要融合在一起,只有這樣機器才能感知世界的真實信息,這是機器能夠學習人類知識的前提條件。而且,機器必然要超越人類的五官,能夠看到人類看不到的世界,聽到人類聽不到的世界。

語音識別的產業歷程

語音識別這半個多世紀的產業歷程中,其中共有三個關鍵節點,兩個和技術有關,一個和應用有關。第一個關鍵節點是 1988 年的一篇博士論文,開發了第一個基於隱馬爾科夫模型(HMM)的語音識別系統—— Sphinx,當時實現這一系統的正是現在的著名投資人李開復。

從 1986 年到 2010 年,雖然混合高斯模型效果得到持續改善,而被應用到語音識別中,並且確實提升了語音識別的效果,但實際上語音識別已經遭遇了技術天花板,識別的準確率很難超過 90%。很多人可能還記得,在 1998 年前後 IBM、微軟都曾經推出和語音識別相關的軟件,但最終並未取得成功。

第二個關鍵節點是 2009 年深度學習被系統應用到語音識別領域中。這導致識別的精度再次大幅提升,最終突破 90%,並且在標準環境下逼近 98%。有意思的是,儘管技術取得了突破,也湧現出了一些與此相關的產品,比如 Siri、Google Assistant 等,但與其引起的關注度相比,這些產品實際取得的成績則要遜色得多。Siri 剛一面世的時候,時任 Google CEO 的施密特就高呼,這會對 Google 的搜索業務產生根本性威脅,但事實上直到 Amazon Echo 的面世,這種根本性威脅才真的有了具體的載體。

第三個關鍵點正是 Amazon Echo 的出現,純粹從語音識別和自然語言理解的技術乃至功能的視角看這款產品,相對於 Siri 等並未有什麼本質性改變,核心變化只是把近場語音交互變成了遠場語音交互。Echo 正式面世於2015年6月,到 2017 年銷量已經超過千萬,同時在 Echo 上扮演類似 Siri 角色的 Alexa 漸成生態,其後臺的第三方技能已經突破 10000 項。藉助落地時從近場到遠場的突破,亞馬遜一舉從這個賽道的落後者變為行業領導者。

但自從遠場語音技術規模落地以後,語音識別領域的產業競爭已經開始從研發轉為應用。研發比的是標準環境下純粹的算法誰更有優勢,而應用比較的是在真實場景下誰的技術更能產生優異的用戶體驗,而一旦比拼真實場景下的體驗,語音識別便失去獨立存在的價值,更多作為產品體驗的一個環節而存在。

所以到 2019 年,語音識別似乎進入了一個相對平靜期,全球產業界的主要參與者們,包括亞馬遜、谷歌、微軟、蘋果、百度、科大訊飛、阿里、騰訊、雲知聲、思必馳、聲智等公司,在一路狂奔過後紛紛開始反思自己的定位和下一步的打法。

語音賽道里的標誌產品——智能音箱,以一種大躍進的姿態出現在大眾面前。2016 年以前,智能音箱玩家們對這款產品的認識還都停留在:亞馬遜出了一款叫 Echo 的產品,功能和 Siri 類似。先行者科大訊飛叮咚音箱的出師不利,更是加重了其它人的觀望心態。真正讓眾多玩家從觀望轉為積極參與的轉折點是逐步曝光的 Echo 銷量,2016 年底,Echo 近千萬的美國銷量讓整個世界震驚。這是智能設備從未達到過的高點,在 Echo 以前除了 Apple Watch 與手環,像恆溫器、攝像頭這樣的產品突破百萬銷量已是驚人表現。這種銷量以及智能音箱的 AI 屬性促使 2016 年下半年,國內各大巨頭幾乎是同時轉變態度,積極打造自己的智能音箱。

未來,回看整個發展歷程,2019 年是一個明確的分界點。在此之前,全行業是突飛猛進,但 2019 年之後則開始進入對細節領域滲透和打磨的階段,人們關注的焦點也不再是單純的技術指標,而是迴歸到體驗,迴歸到一種“新的交互方式到底能給我們帶來什麼價值”這樣更為一般的、純粹的商業視角。技術到產品再到是否需要與具體的形象進行交互結合,比如人物形象;流程自動化是否要與語音結合;酒店場景應該如何使用這種技術來提升體驗,諸如此類最終都會一一呈現在從業者面前。而此時行業的主角也會從原來的產品方過渡到平臺提供方,AIoT 縱深過大,沒有任何一個公司可以全線打造所有的產品。

語音識別的產業趨勢

當語音產業需求四處開花的同時,行業的發展速度反過來會受限於平臺服務商的供給能力。跳出具體案例來看,行業下一步發展的本質邏輯是:在具體每個點的投入產出是否達到一個普遍接受的界限。

離這個界限越近,行業就越會接近滾雪球式發展的臨界點,否則整體增速就會相對平緩。不管是家居、酒店、金融、教育或者其他場景,如果解決問題都是非常高投入並且長週期的事情,那對此承擔成本的一方就會猶豫,這相當於試錯成本過高。如果投入後,沒有可感知的新體驗或者銷量促進,那對此承擔成本的一方也會猶豫,顯然這會影響值不值得上的判斷。而這兩個事情,歸根結底都必須由平臺方解決,產品方或者解決方案方對此無能為力,這是由智能語音交互的基礎技術特徵所決定。

從核心技術來看,整個語音交互鏈條有五項單點技術:喚醒、麥克風陣列、語音識別、自然語言處理、語音合成,其它技術點比如聲紋識別、哭聲檢測等數十項技術通用性略弱,但分別出現在不同的場景下,並會在特定場景下成為關鍵。看起來關聯的技術已經相對龐雜,但切換到商業視角我們就會發現,找到這些技術距離打造一款體驗上佳的產品仍然有絕大距離。

所有語音交互產品都是端到端打通的產品,如果每家廠商都從這些基礎技術來打造產品,那就每家都要建立自己雲服務穩定,確保響應速度,適配自己所選擇的硬件平臺,逐項整合具體的內容(比如音樂、有聲讀物)。這從產品方或者解決方案商的視角來看是不可接受的。這時候就會催生相應的平臺服務商,它要同時解決技術、內容接入和工程細節等問題,最終達成試錯成本低、體驗卻足夠好的目標。

平臺服務並不需要閉門造車,平臺服務的前提是要有能屏蔽產品差異的操作系統,這是 AI+IOT 的特徵,也是有所參照的,亞馬遜過去近 10 年裡是同步著手做兩件事:一個是持續推出面向終端用戶的產品,比如 Echo,Echo Show等;一個是把所有產品所內置的系統 Alexa 進行平臺化,面向設備端和技能端同步開放SDK和調試發佈平臺。雖然 Google Assistant 號稱單點技術更為領先,但從各方面的結果來看 Alexa 是當之無愧的最為領先的系統平臺,可惜的是 Alexa 並不支持中文以及相應的後臺服務。

國內則缺乏亞馬遜這種統治力的系統平臺提供商,當前的平臺提供商分為兩個陣營:一類是以百度、阿里、訊飛、小米、騰訊為代表的傳統互聯網或者上市公司;一類是以聲智等為代表的新興人工智能公司。新興的人工智能公司相比傳統公司產品和服務上的歷史包袱更輕,因此在平臺服務上反倒是可以主推一些更為面向未來、有特色的基礎服務,比如兼容性方面新興公司做的會更加徹底,這種兼容性對於一套產品同時覆蓋國內國外市場是相當有利的。

類比過去的 Android,語音交互的平臺提供商們其實面臨更大的挑戰,發展過程可能會更加的曲折。過去經常被提到的操作系統的概念在智能語音交互背景下事實上正被賦予新的內涵,它日益被分成兩個不同但必須緊密結合的部分。

過去的 Linux 以及各種變種承擔的是功能型操作系統的角色,而以 Alexa 為代表的新型系統則承擔的則是智能型系統的角色。前者完成完整的硬件和資源的抽象和管理,後者則讓這些硬件以及資源得到具體的應用,兩者相結合才能輸出最終用戶可感知的體驗。功能型操作系統和智能型操作系統註定是一種一對多的關係,不同的 AIoT 硬件產品在傳感器(深度攝像頭、雷達等)、顯示器上(有屏、無屏、小屏、大屏等)具有巨大差異,這會導致功能型系統的持續分化(可以和 Linux 的分化相對應)。這反過來也就意味著一套智能型系統,必須同時解決與功能型系統的適配以及對不同後端內容以及場景進行支撐的雙重責任。

這兩邊在操作上,屬性具有巨大差異。解決前者需要參與到傳統的產品生產製造鏈條中去,而解決後者則更像應用商店的開發者。這裡面蘊含著巨大的挑戰和機遇。在過去功能型操作系統的打造過程中,國內的程序員們更多的是使用者的角色,但智能型操作系統雖然也可以參照其他,但這次必須自己來從頭打造完整的系統。(國外巨頭不管在中文相關的技術上還是內容整合上事實上都非常薄弱,不存在侵略國內市場的可能性)

隨著平臺服務商兩邊的問題解決的越來越好,基礎的計算模式則會逐漸發生改變,人們的數據消費模式會與今天不同。個人的計算設備(當前主要是手機、筆記本、Pad)會根據不同場景進一步分化。比如在車上、家裡、酒店、工作場景、路上、業務辦理等會根據地點和業務進行分化。但分化的同時背後的服務則是統一的,每個人可以自由的根據場景做設備的遷移,背後的服務雖然會針對不同的場景進行優化,但在個人偏好這樣的點上則是統一的。

人與數字世界的接口,在現在越來越統一於具體的產品形態(比如手機),但隨著智能型系統的出現,這種統一則會越來越統一於系統本身。作為結果這會帶來數據化程度的持續加深,我們越來越接近一個百分百數據化的世界。

總結

從技術進展和產業發展來看,語音識別雖然還不能解決無限制場景、無限制人群的通用識別問題,但是已經能夠在各個真實場景中普遍應用並且得到規模驗證。更進一步的是,技術和產業之間形成了比較好的正向迭代效應,落地場景越多,得到的真實數據越多,挖掘的用戶需求也更準確,這幫助了語音識別技術快速進步,也基本滿足了產業需求,解決了很多實際問題,這也是語音識別相對其他 AI 技術最為明顯的優勢。

不過,我們也要看到,語音識別的內涵必須不斷擴展,狹義語音識別必須走向廣義語音識別,致力於讓機器聽懂人類語言,這才能將語音識別研究帶到更高維度。我們相信,多技術、多學科、多傳感的融合化將是未來人工智能發展的主流趨勢。在這種趨勢下,我們還有很多未來的問題需要探討,比如鍵盤、鼠標、觸摸屏和語音交互的關係怎麼變化?搜索、電商、社交是否再次重構?硬件是否逆襲變得比軟件更加重要?產業鏈中的傳感、芯片、操作系統、產品和內容廠商之間的關係又該如何變化?

本文得到眾多語音識別領域專家的指導,並引用了一些參考資料的配圖,在此表示感謝,本文中的不足之處還請批評指正。

參考資料

[1] W. Minhua, K. Kumatani, S. Sundaram, N. Ström and B. Hoffmeister, "Frequency Domain Multi-channel Acoustic Modeling for Distant Speech Recognition," ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 6640-6644.

[2] Li B, Sainath TN, Narayanan A, Caroselli J, Bacchiani M, Misra A, Shafran I, Sak H, Pundak G, Chin KK, Sim KC. Acoustic Modeling for Google Home. InInterspeech 2017 Aug 20 (pp. 399-403).

[3] Chiu CC, Sainath TN, Wu Y, Prabhavalkar R, Nguyen P, Chen Z, Kannan A, Weiss RJ, Rao K, Gonina E, Jaitly N. State-of-the-art speech recognition with sequence-to-sequence models. In2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018 Apr 15 (pp. 4774-4778). IEEE.

[4] Li J, Deng L, Gong Y, Haeb-Umbach R. An overview of noise-robust automatic speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2014 Feb 5;22(4):745-77.

[5] 俞棟,鄧力. 解析深度學習:語音識別實踐. 電子工業出版社. 2016年.

[6] 韓紀慶,張磊,鄭鐵然. 語音信號處理. 清華大學出版社. 2005年.

[7] 王東. 語音識別技術的現狀與未來. 2017年.

[8] https://developer.amazon.com/zh/blogs/alexa/post/92bb9391-e930-464b-8ece-1fd8b476702a/amazon-scientist-outlines-multilayer-system-for-smart-speaker-echo-cancellation-and-voice-enhancement

[9] https://venturebeat.com/2019/04/01/alexa-researchers-develop-2-mic-speech-recognition-system-that-beats-a-7-mic-array/

[10] https://yq.aliyun.com/articles/704173

[11] http://azero.soundai.com

[12] http://research.baidu.com/Blog/index-view?id=109

文章作者介紹:

陳孝良,聲智科技創始人、董事長兼CEO,

馮大航,聲智科技聯合創始人、CTO

李智勇,聲智科技戰略合夥人、CSO


(*本文為 AI科技大本營原創文章,轉載請聯繫微信 1092722531)

福利時刻

入群參與每週抽獎~

掃碼添加小助手,回覆:大會,加入福利群,參與抽獎送禮!


從不溫不火到炙手可熱:語音識別技術簡史


AI ProCon 2019 邀請到了亞馬遜首席科學家@李沐,在大會的前一天(9.5)親授「深度學習實訓營」,通過動手實操,幫助開發者全面瞭解深度學習的基礎知識和開發技巧。還有 9大技術論壇、60+主題分享,百餘家企業、千餘名開發者共同相約 2019 AI ProCon!

距離5折優惠票結束還有4天!

從不溫不火到炙手可熱:語音識別技術簡史


分享到:


相關文章: