Kaldi之父Daniel Povey:我為什麼選擇在小米開發下一代Kaldi?

Kaldi之父Daniel Povey:我為什麼選擇在小米開發下一代Kaldi?

本文約3185字,建議閱讀6分鐘

本文介紹Kaldi 之父 Daniel Povey對語音識別領域技術發展的想法。

在 2019 年小米開發者大會上,Kaldi 之父 Daniel Povey 以小米首席語音科學家的身份第一次和國內開發者見面,並表示將繼續在小米進行 Kaldi 的版本開發,業界開發者對 Daniel Povey 加入小米後的動向高度關注,但卻鮮有消息傳出。在 AICon 2020 全球人工智能與機器學習技術大會(上海站)召開前期,InfoQ 有幸採訪到了 Daniel Povey,聽他分享對語音識別領域技術發展的想法。

在語音識別技術領域,Daniel Povey (以下簡稱:Daniel)的名字家喻戶曉。他是語音識別開源工具 Kaldi 的主要開發者和維護者,被稱為 Kaldi 之父。

過往,Daniel 在技術領域的發展軌跡始終沒有離開“語音識別”。年少時,Daniel 在劍橋大學獲得語音識別博士學位。工作初期,Daniel 在 IBM 研究院負責計算機語音識別的工作,併成為 Research Staff Member 的一員。隨後,他又進入微軟研究院繼續深耕語音識別技術,2012 年,Daniel 加入約翰霍普金斯大學,擔任語言和語音處理中心繫主任。2019 年 12 月初,Daniel 正式加入小米成為小米首席語音科學家,主要負責下一代 Kaldi 的開發。

Kaldi之父Daniel Povey:我為什麼選擇在小米開發下一代Kaldi?

Kaldi 的意外誕生

當今不少廣為流傳的科學或技術研究成果都誕生於偶然,例如 Guido van Rossum 在開發 Python 時只是因為他在聖誕節期間覺得很無聊,所以決定開發一種新的腳本解釋語言。Kaldi 的誕生與之類似。

在採訪中,Dainel 表示,最初開發 Kaldi 主要是為了一個特殊的項目——子空間高斯混合模型(SGMM)發佈代碼。雖然現在這項技術已經不重要了,但 Kaldi 這個工具為其他很多技術提供了支持,也變得越來越受歡迎。

Kaldi 工具包自 2011 年發佈以來,下載量超過了兩萬多次,合著的論文目前也已經被引用三千多次,Kaldi 集成了多種語音識別模型,包括隱馬爾可夫和最新的深度學習神經網絡,被認為是業界語音識別框架的基石。

與許多早期的機器學習框架類似,Kaldi 本身也是用 C/C++ 語言編寫的,雖然當下 Python 是更為機器學習開發者所追捧的,但早期的大部分框架都選擇了穩定的 C/C++ 語言。對此,Daniel 認為,高性能的代碼通常在內部用 C 或者 C++ 實現,後上層來進行調用,或者是由上層來調用其他 C 或者 C++ 的第三方庫。但由於設計時間較早,Kaldi 並沒有 Python 接口(或編譯成其他語言的接口),要編寫喚起 C++ 程序的 shell 腳本來使用 Kaldi。

下一代 Kaldi 版本規劃

在加入小米之前,國內外許多互聯網頭部公司都向 Daniel 拋出了橄欖枝,包括 Facebook、美團、滴滴、快手等,但在提及為什麼會選擇加入小米時,Daniel 表示:

我想加入一家 規模比較大的公司,能有足夠優秀的開發者來進行下一代 Kaldi 的研發。 中國(尤其是北京)大公司雲集,人才濟濟,所以這裡自然而然成為了我的選擇。我也面試了北京的一些其他公司,給我的感覺都很好,我之所以加入小米,是因為我認為小米是孵化開源軟件的沃土,我覺得這裡也願意支持一項長期的開源項目,而且,小米的產品在市場上也有著良好的口碑。在我看來,小米是一家充滿活力的企業,同事們都很友好且樂於助人。

Kaldi 的目標用戶是那些瞭解語音識別技術的開發者,Kaldi 對於該領域的入門者來說並不容易。因此 Daniel 也表示接下來會研究 如何簡化 Kaldi。但為了避免項目的體量過大,Daniel 團隊現階段並未對 Kaldi 進行大幅度地簡化,但已經在 基於 PyTorch 來開發下一代 Kaldi,

該項目還沒有完成,也沒有對外公開發布。過去幾個月,Daniel 對 Kaldi 所做的最大調整就是和快速解碼相關的一些變動(解碼是部署語音識別系統時的圖搜索程序)。

下一代 Kaldi 完成後,Daniel 希望能 將其融入到小米的產品和服務中。

“和中國公司一起打造健康的社區,走向世界。”這是小米集團副總裁、集團技術委員會主席崔寶秋一直向 Daniel 重點表達的開源願景,這也正是 Daniel 所欣賞的開源社區環境。

Kaldi 商業化落地

2017 年之前,小米沒有自己的語音技術團隊,但是卻已經有了自己的雲、大數據和 AI 平臺。從過去的互聯互通到未來的整體互聯服務中,語音交互扮演著越來越重要的角色,小米也意識到,要想在激烈的市場競爭中佔得一席之地,首先就要“自強”。

2018 年 3 月,雷軍在兩會的媒體溝通會上表示,“2017 年年初,小米設立了探索實驗室,不久將有重磅級的人工智能產品發佈。”而到了 2018 年 7 月,傳聞已久的小米 AI 產品——小米 AI 音箱終於現身。在發佈會上,小米聯合創始人王川特意提到了小米的 NLP 團隊,也就是說小米已經用上了自家的 NLP 技術。

兩年間,小米不僅組建了自己的語音技術團隊,還在智能產品中應用了自家的 NLP 技術,更重要的是,2019 年年初,小米創始人雷軍確定了小米“手機 +AIoT"雙引擎戰略發展模式,為小米在語音技術領域的發展指明瞭方向,Daniel 帶著 Kaldi 的加入則會為小米的“AIoT"戰略添磚加瓦。

作為一個開源項目,Kaldi 要用於商業落地還要在很多地方進行調整,例如場景優化、跨平臺兼容、對內對外賦能等。加入小米之後,Daniel 負責的主要工作就是將 Kaldi 應用於現有應用,在實踐中檢驗技術的可用性。

Kaldi之父Daniel Povey:我為什麼選擇在小米開發下一代Kaldi?

目前,業界已有不少企業基於 Kaldi 進行產品研發,針對這一現狀,Daniel 在接受 InfoQ 記者採訪時給出的建議是:

如果用於基於服務器的、沒有內存限制的識別,Kaldi 已經足夠優化了,不需要做其他改進。如果用於基於設備的、有內存限制的識別,有時候使用(如 RNN-T)這類端到端的模型,以及 Tensorflow 工具包可能會比僅使用 Kaldi 更有成效。

語音識別技術發展

語音識別是計算機處理和識別人類語音的能力,其目標是將人類的語音中的詞彙內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或字符序列。語音識別涉及信號處理、概率論和信息論、模式識別、聲學、語言學和認知科學、人工智能等許多學科領域。

過往,工業界取得的許多技術突破是依賴學術界的研究結果,例如,語音識別技術在上世紀 50 年代就已經誕生,而到了 2012 年才在深度神經網絡的助力下達到實用化,在沒有應用 DNN 之前的六十年裡,語音識別技術的發展極為緩慢。2015 年以前,業界更多使用的是傳統的 DNN-HMM 混合模型,需要藉助對齊信息和上下文相關音素才能達到比較好的識別準確率。2015 年以後,CTC 算法簡化了訓練過程,於是語音界紛紛投入大量資源訓練更深、更復雜的神經網絡,利用端到端技術進一步大幅提升語音識別的性能。2017 年 12 月,谷歌提出“使用序列到序列模型的當前最佳語音識別系統”(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),將詞錯率降低至 5.6%,業界又開始基於此進行探索......

可以說,工業界的每一次突破背後都是學術界的研究成果在支撐,這種模式在人工智能領域最為明顯。對此,Daniel 認為:

有時產品開發有助於推進研究,因為它強制我們去解決一些主流研究無法解決的問題,當研究遇到天花板時,就迫使人們要做出改變來解決問題。

語音識別技術發展至今,已經在工業、醫療、教育、金融等各行業進行了落地,而語音識別產品供應商們也表示其產品的識別準確率達到了 95% 甚至 97%,針對當下語音識別技術的發展現狀,Daniel 認為:

現在業內許多人士認為,語音識別系統的準確度已經很高了,但實際上這種高精準度僅僅針對的是某些特定的語音類型。現階段,讓機器來識別人們日常交流還是比較困難的,尤其是當週圍環境摻雜著噪聲、音樂且多人同時發聲時。也就是說,我們還需要對現有的語音識別技術進行認真打磨。


結 語

過去幾年,我們看到了各類算法不斷出現並應用在實際的業務系統中,進而提升語音識別的效果。同時,語音識別技術的應用領域越來越廣,基於語音識別技術的人機交互系統開始大規模應用,並且在限定場景下已經有比較好的表現,比如機器人電話客服系統、智能手機助手、智能音箱等。從火爆漸趨冷靜,從學術突破到工業落地,接下來,語音識別領域的技術突破值得期待。

嘉賓介紹:

Daniel Povey 是著名的語音識別開源工具 Kaldi 的主要開發者和維護者,被稱為 Kaldi 之父。Kaldi 集成了多種語音識別模型,包括隱馬爾可夫和最新的深度學習神經網絡,公認是業界語音識別框架的基石。1993 年至 2003 年,Daniel 在劍橋大學度過了自己的高等教育經歷,獲得語音識別的博士學位。2003 年至 2008 年,Daniel 在 IBM 研究院負責計算機語音識別的工作,成為 Research Staff Member 的一員。2008 年至 2012 年, Daniel 在微軟研究院參與計算機語音識別方面的工作。2012 年,Daniel 加入約翰霍普金斯大學,擔任語言和語音處理中心繫主任。2019 年 12 月,Daniel 正式加入小米公司,擔任小米首席語音科學家,負責開發下一代 Kaldi。

—完—

關注清華-青島數據科學研究院官方微信公眾平臺“ AI數據派 ”及姊妹號“ 數據派THU ”獲取更多講座福利及優質內容。


分享到:


相關文章: