【語音識別】【發展史】概覽

【語音識別】【發展史】概覽

語音識別技術伴隨著計算機科學和通信等學科的發展逐步成長,至今已經有超過六十年的歷史。

上世紀50年代:

早在上世紀50年代,貝爾實驗室就開始進行語音識別的研究。當時研究的主要是基於簡單的孤立詞的語音識別系統。例如,1952年貝爾實驗室採用模擬電子器件實現了針對特定說話人的十個英文數字的孤立詞語音識別系統(Daviset a1.,1952)。該系統提取每個數字發音的元音的共振峰特徵,然後採用簡單的模板匹配的方法進行針對特定人的孤立數字識別。1956年普林斯頓大學的RCA實驗室利用模擬濾波器組提取元音的頻譜,然後再用模板匹配,構建了針對特定說話人的包括十個單音節單詞的語音識別系統。1959年,倫敦大學的科學家第一次使用統計學的原理構建了可以識別四個元音和九個輔音的音素識別器(Fry,1959)。同年,來自麻省理工的林肯實驗室的研究人員首次實現了針對非特定人的十個元音的識別器。

上世紀60年代:

上世紀60年代,三個關鍵技術的出現對於語音識別的發展奠定了基礎。首先是針對語音時長不一致的問題,來自RCA實驗室的Martin提出了一種時間規整的機制(Martin et a1.,1964),可以有效的降低時長不一致對識別得分計算的影響。其次是來自前蘇聯的Vintsyuk提出採用動態規劃算法實現動態時間規整(Dynamic Time Warping,DTW)(Vintsyuk,1968)。DTW可以有效的解決兩個不同長度的語音片段的相似度度量,一度成為語音識別的主流技術。最後是來自卡耐基梅隆大學Reddy利用音素動態跟蹤的方法進行連續語音識別的開創性工作(Reddy,1 966)。這三個研究工作,對於此後幾十年語音識別的發展都起到了關鍵的作用。雖然60年代語音識別獲得了長足的發展,但是人們認為實現真正實用的語音識別系統依舊非常困難。

上世紀70年代:

上世紀70年代是語音識別技術快速發展的一個時期。這時期三個關鍵的技術被引入到語音識別中,包括模式識別思想(Velichko and Zagoruyko,1970),動態規劃算法(Sakoe and Chiba,1978)和線性預測編碼(Linear Predictive Coding,LPC)(1takura,1970)。這些技術的成功使用使得孤立詞語音識別系統從理論上得以完善,並且可以達到實用化的要求。此後研究人員將目光投向了更具有實用價值也更加具有挑戰性的連續語音識別問題。其中以Bell、IBM實驗室為代表的研究人員開始嘗試研究基於大詞彙量的連續語音識別系統(Large VocabularyContinuous Speech Recognition,LVCSR)。當時主要有兩種流派:一種採用專家

系統的策略,目前已經被淘汰:還有一種是採用統計建模的方法,該方法目前依舊是主流的建模方法。這時期美國國防部高級研究計劃署(Defense AdvancedResearch Projects Agency,DARPA)介入語音領域,設立了語音理解研究計劃。該研究計劃包括CMU、IBM等研究機構。在DARPA計劃的催動下誕生了很多具有一定實用價值的語音識別系統。例如卡耐基梅隆大學的Harpy系統(Lowerre,1976),能夠用來識別1011個字,並且獲得不錯的準確率。Harpy系統的一個主要的貢獻是提出了圖搜索的概念。Harpy系統是第一個利用有限狀態網絡(FiniteState Network,FSN)來減少計算量並有效的實現字符串匹配的模型。DARPA計劃下誕生的語音識別器還包括卡耐基梅隆大的Hearsay和BBN的HWlM系統(K1att,1 977)。

上世紀80年代:

上世紀80年代是語音識別發展取得突破的一個關鍵時期。兩項關鍵技術在語音識別中得到應用,分別是基於隱馬爾科夫模型(Hidden Markov Model,HMM)(Gauvain and Lee,1994,Rabiner,1989,Schwartz et a1.,1985)的聲學建模和基於n.gram的語言模型。這時期語音識別開始從孤立詞識別系統向大詞彙量連續語音識別系統發展。HMM的應用使得語音識別獲得了突破,開始從基於簡單的模板匹配方法轉向基於概率統計建模的方法.此後統計建模的框架一直沿用到今天。這一時期.DARPA所支持的研究催生了許多著名的語音識別系統。其中一個具有代表性的系統是李開復研發的SPHINX系統。該系統是第一個基於

統計學原理開發的非特定人連續語音識別系統,其核心技術技術採用HMM對語音狀態的時序進行建模,而用高斯混合模型(Gaussian Mixture Model,GMM)對語音狀態的觀察概率進行建模。直到最近的深度學習出來之前,基於GMM.HMM的語音識別框架一直是語音識別系統的主導框架。同時神經網絡也在80年代後期被應用到語音識別中(Lippmann,1987,Waibel et a1.,1989),但是相比於GMM-HMM系統並未沒有展現出優勢。

上世紀90年代:

上世紀90年代是語音識別技術基本成熟的時期,基於GMM-HMM的語音識別框架得到廣泛使用和研究。這一時期語音識別聲學模型的區分性訓練準則和模型自適應方法的提出使得語音識別系統的性能獲得極大的提升。首先基於最大後驗概率估計(Maximum APosteriori,MAP)(Gauvain and Lee,1 994)和最大似然線性迴歸(Maximum Likelihood Linear Regression,MLLR)(Leggetter and Woodland,1995)技術的提出用於解決HMM模型參數自適應的問題。一系列聲學模型的區分性訓練(Discriminative Training,DT)準則(Juang and Katagiri,1 992)被提出、例如最大互信息量(Maximum Mutual Information,MMI)(Woodland and Povey,2002)和最小分類錯誤(Minimum Classification Error,MCE)準則(Juang et a1.,1 997)。在基於最大似然估計訓練GMM.HMM的基礎上再使用MMI或者MCE等區分性準則對模型參數進行更新可以進一步顯著的提升模型的性能。這一時期出現了很多產品化的語音識別系統,例如DRAGON系統.IBM的Via-vioce系統,微軟的Whisper系統(Huang et a1.,1995),英國劍橋大學的HTK(Hidden Markov ToolKit)系統(Young et a1.,2002)等。其中HTK工具包的開源對於語音識別技術的發展起到了巨大的貢獻。HTK為語音研究人員提供了一套系統的軟件工具,極大的降低了語音識別的研究門檻,促進了語音識別的交流和發展。

20世紀頭10年:

進入20世紀的頭10年,基於GMM-HMM的語音識別系統框架已經趨於完善,相應的區分性訓練和模型自適應技術也得到了深入的研究(Jiang,2010,Macherey et a1.,2005,Povey and Woodland,2002,Schliiter,2000)。這階段語音識別開始從標準的朗讀對話轉向更加困難的日常交流英語,包括電話通話,廣播新聞,會議,日常對話等。但是基於GMM.HMM的語音識別系統在這些任務上表現卻不怎麼理想,語音識別系統的錯誤率很高,遠遠達不到實用化的需求。從而語音識別的研究陷入了一個漫長的瓶頸期。

2006年:

語音識別技術的再次突破和神經網絡的重新興起相關。2006年Hiton提出用深度置信網絡(Deep BeliefNetworks,DBN)(Hinton et a1.,2006b)初始化神經網絡,使得訓練深層的神經網絡變得容易,從而掀起了深度學習(Deep Leaming,DL)(Bengio et a1.,2009,2007b,LeCun et a1.,2015)的浪潮。2009年,Hinton以及他的學生D.Mohamed將深層神經網絡應用於語音的聲學建模(Mohamed et a1.,2009),在音素識別TIMIT任務上獲得成功。但是TIMIT是一個小詞彙囂的數據庫,而且連續語音識別任務更加關注的是詞甚至句子的正確率。而深度學習在語音識別真正的突破要歸功於微軟研究院俞棟,鄧力等在2011年提出來的基於上下文相關(Context Dependent,CD)的深度神經網絡和隱馬爾可夫模型(CDDNN.HMM)的聲學模型(Dahl et a1.,2012)。CD.DNN—HMM在大詞彙量連續語音識別任務上相比於傳統的GMM—HMM系統獲得了顯著的性能提升。從此基於GMM.HMM的語音識別框架被打破,大研究人員開始轉向基於DNN-HMM的語音識別系統的研究。

2009年,辛頓以及他的學生默罕默德將深度神經網絡應用於語音的聲學建模,在小詞彙量連續語音識別數據庫TIMIT上獲得成功。2011年,微軟研究院俞棟、鄧力等發表深度神經網絡在語音識別上的應用文章,在大詞彙量連續語音識別任務上獲得突破。從此基於GMM-HMM的語音識別框架被打破,大量研究人員開始轉向基於DNN-HMM的語音識別系統的研究。


分享到:


相關文章: