智能音箱硬件和軟件的發展趨勢「下」智能語音技術的發展「農步祥」

智能音箱硬件和软件的发展趋势「下」智能语音技术的发展「农步祥」

Harman/Kardon 哈曼卡頓 INVOKE 智能音箱 - 對比叮咚LLSS-A1

智能音箱硬件和软件的发展趋势「下」智能语音技术的发展「农步祥」

谷歌 Google Home mini 智能音箱

在前篇中,我們談到了智能音箱目前硬件產品的現狀,智能音箱能不能成為下一個智能手機規模的市場?但起碼目前來看,還無法成為手機那樣變成和人們形影不離的生活必需品。而智能家居、語音交互方面,各類智能音箱企業所預設的靠說話控制電器、網上購物、訂餐打優步等行為,是不是真的就一定比遙控器和手機操作來得方便和優越?

語音識別

智能音箱硬件和软件的发展趋势「下」智能语音技术的发展「农步祥」

語音識別流程圖

智能語音交互技術難點的第一關,就是如何正確將用戶的聲音準確轉換成文字。除了科大訊飛以及Nuance[小愛和HomePod採用]外,還有思必馳、搜狗等提供語音識別的算法,語音識別的流程和原理可以參閱[[Doc]Link=00007736[/Doc]]。

在3年前甚至更早的時期,無論中文或英文,智能語音識別技術的識別能力並不好,面對地方化的口音、方言等幾乎無法處理,無論手機或音箱都存在類似問題,典型如nVIDIA的Android TV設備Shield TV,依靠遙控器或手柄的麥克風語音的識別效果並不好,但2017年後,由於越來越多的開發者參與,語音識別的準度的確有了巨大進步,現在的小米、天貓等智能音箱已經可以準確識別部分地區方言,而谷歌Google Assistant服務對各類主流語種的口音識別也有可見的進步[幾乎隨著每一次Android版本更新準確率大幅度上升]。而Google Home、天貓精靈等廠商還提供了開放的歷史記錄查看,以我個人使用經歷來看,可以保證99%以上的正確率。

語言理解和深度學習

智能音箱硬件和软件的发展趋势「下」智能语音技术的发展「农步祥」

神經網絡 - 圖片來自互聯網

和人類不同,語言理解[NLP]是智能語音裡最困難的技術部分,即使順利將語音轉換成文本,機器如何理解語意仍將是長期的技術難問題,也限制了智能音箱處理和應對能力,由於單機硬件基本上無法完成這樣的工作,即使不考慮軟件開發的因素,搭建一個有效的神經網絡服務器集群就是一個很複雜的課題,但隨著深度學習網絡TensorFlow[谷歌]、Cafee2[Facebook]等技術開源後,極大簡化了硬件和神經系統的組織和管理。而且TensorFlow不僅可以通過常規的CPU處理器運算,也可以利用nVIDIA的GPU、FPGA等在某些特定任務中處理能力更強的硬件參與深度學習,提高效率,一定程度上降低了後來者入行門檻。

語音轉換

文本轉換語音[TTS]在智能音箱出現前就有很廣泛的應用需求,實際上,TTS已經在機場、車站等大量需要重複播報的交通樞紐和公共場合使用。在個人電腦終端,上世紀99年代IBM就推出過PC專用的TTS軟件ViaVoice,也是現在Nuance公司的核心技術來源之一。而微軟Windows10系統自帶的Cortana助手也已經遠好於15年前的ViaVoice。目前的朗讀技術已經足夠讓音箱模擬較為自然的語氣和對話,其中最為優秀的典型就是亞馬遜的Alexa,其整句和單詞的發音都非常自然順暢,在播送新聞時已經不亞於專業的播音人員。而科大訊飛的TTS技術服務也已經廣泛用在國內媒體發佈會、紀錄片的現場、影視的配音和旁白等工作。

大多數智能音箱說話語調仍有很明顯的機器感,但大體上不影響用戶的理解和使用。當然,還一些智能音箱由於音質不佳,也影響了語音輸出的品質。近年來國內也出現了獵戶星空等中文TTS企業,為騰訊、小米、美的等企業提供中文文本語音轉換技術。

總結和展望

智能音箱硬件和软件的发展趋势「下」智能语音技术的发展「农步祥」

天貓精靈 X1 智能音箱 - 手機APP - 購物

智能音箱硬件和软件的发展趋势「下」智能语音技术的发展「农步祥」

Amazon 亞馬遜 Tap 便攜式智能音箱 - Alexa應用 - 購買記錄

整體來說,除亞馬遜外,目前智能音箱市場還未有出現第二個千萬級用戶規模的品牌,智能音箱市場看起來熱火,但銷售仍然主要通過打折、打包等優惠方式進行出售,智能音箱的功能、賣點仍處於探索當中,而傳說中的語音購物、語音訂餐打車等號稱改變生活習慣的功能過於簡陋,無法進行類似搜索、選擇等語音操作,毫無實用價值,天貓和亞馬遜似乎也沒有半點要改進的跡象。

由於智能音箱受到近年來熱門的智能語音和人工智能、物聯網等新的技術亮點影像,而且即使不考慮智能音箱,智能語音的一系列技術進步,可以最終讓手機等所有互聯網智能設備受益。例如谷歌在Android手機上的實時語音、照片文字翻譯等功能,也同樣是智能語音和深度學習技術進化的體現。即使智能音箱市場表現達不到預期,無法成為下一個熱門科技產品,但將更多的科技企業參與智能語音、深度學習等技術的發展,同樣可以在未來深刻地影響著我們的生活。

智能音箱硬件和软件的发展趋势「下」智能语音技术的发展「农步祥」

Duplex模仿人類對話為用戶進行預訂惡搞版 - 圖片來自互聯網

在今年5月9日的Google I/O大會上,谷歌發佈了新一代人工智能技術Duplex,其逼真的語言理解能力和自然的說話語調,已經讓服務員無法察覺到是機器在和她說話,並直接幫助用戶進行酒店訂座等電話預約服務,而且谷歌聲稱已經部分通過了人工智能的圖靈測試難題。畢竟,喋喋不休也是很消耗體力的,從不斷讓用戶對音箱說話到代替用戶說話和它人溝通,也算是一種解放勞動力的思路,強大的人工智能也更容易引發大家的爭議和思考,如果未來的智能語音技術真的如Duplex那樣將生活中的瑣碎溝通演繹得那樣真實自然,會給語音服務行業,甚至是我們未來的生活帶來怎樣的深刻變化?


分享到:


相關文章: