智能音箱漫談

首先請各位思考一下,除了聲音,人類還有其他隔山打牛的本領嗎?

之前我在很多文章裡都講過,對於智能家居系統來講,手機APP控制僅僅是一個過渡,語音入口才是未來。拿到Amazon Echo後,我寫了文章《這就是未來》,果然,現在遍地開花的智能AI音箱已經印證了這一點。

智能音箱漫談

其實這道理很簡單,人類要想控制智能家居系統,必然需要一個接口,而這個接口如果是人之外的設備,例如手機或者控制檯,那麼人需要拿出手機或者走到控制檯那裡,都不夠方便。如果這個接口不需要接觸,可以隔山打牛,那麼就會更方便一些。但是如何在不接觸的情況下獲取人類的想法等信息呢?我們可以思考一下,信息傳遞靠的是波,人能發出或者反射的可以傳遞信息的波不過就是紅外線、光線和聲波,當然,你要是天線寶寶發射腦電波那就得另外考慮了。探測人類發出的紅外線能夠檢測有無人員活動,但無法傳輸複雜信息;探測人類反射的光線可以通過手勢等實現交互和控制,但是光線波長短,衍射能力差,牽扯到方向性且容易被阻擋;唯有聲波這種機械波,波長足夠長,衍射能力強,方便發射接收,符合人類幾百萬年形成的自然語言的習慣。

所以基於自然語言的智能AI音箱迅速風靡也就不足為奇了。

“有點冷,幫我打開空調”,空調自動開啟;“來點輕鬆的音樂吧”,音樂緩緩飄過來;“來段相聲樂呵樂呵”,有趣的相聲就會來拯救無聊的你;“唉,我今天有點不高興呢。”AI就會陪你聊天說笑一直到你高興;“我要看電影,馮小剛導演的《芳華》”,家庭影院系統自動啟動,為你播放電影《芳華》;“我要睡覺了”,無關設備自動關閉,空調自動調整為睡眠模式,燈光緩緩熄滅,助你好夢。有了智能AI音箱,以上這些都是“一句話的事”。

瞭解一個東西,我們必須首先知道它的基本原理

智能音箱漫談

智能音箱的技術原理並不複雜。硬件上主要就是主控板、通訊組件、麥克風陣列、喇叭以及按鍵、燈光指示等等,硬件構成和普通手機、平板等產品類似,都是處理器、內存、Flash存儲、WiFi通訊芯片等這些通用的東西。所不同的就是智能音箱更專注於語音處理,麥克風更多,構成了陣列,音箱喇叭更多,音腔更大,音質更好而已。

從軟件來講,智能音箱對人類說出的自然語言進行處理,然後發出相應控制指令或者給出語音反饋。軟件主要包括:語音檢測(VAD)、降噪、喚醒、識別(ASR)、理解(NLU)、產生語言(NLG)、合成語音(TTS)這幾個過程。

語音檢測用於判斷是否有人類的語言,如果檢測到人類語言,那就對這部分信號進行降噪(包括回聲消除AEC、聲源定位DOA、波束形成BF)處理,然後識別其中是否有喚醒詞,如果沒有則丟棄,如果有,則進入交互狀態。交互狀態主要包括識別(ASR)、理解(NLU)、產生語言(NLG)、語音合成(TTS)這幾個部分。其中識別(ASR)和理解(NLU)主要依靠雲服務,也就是智能音箱將這部分語音信號處理後發送給後臺雲服務,然後進行識別,識別後的語音信號就變成了字和詞,對這些字和詞進行分析識別,就理解了用戶的意圖。理解意圖後就可以發送一些控制信號、搜索相關信息、查找相關內容,然後產生應答的語言,再通過語音合成變成自然語言由智能音箱的喇叭輸出,如此完成交互過程。

明白了原理,我們就可以分析一下市場上的這些智能音箱產品了。語音不同於其他,Echo足夠優秀,但是國內使用它的人並不多,因為它不能識別中文,更別說方言了。所以,對於這類產品的分析,只能侷限於國內產品。

智能音箱漫談

智能音箱是在某種場景下的產物,比如Echo的購物,蘋果HomePod的智能家居入口等等,所以本質上只有有應用場景,智能音箱才有市場,沒有任何內容支持和Iot聯動,是沒有多大意義的。所以,生態對於智能音箱來說至關重要。結合智能家居生態,大概可以把國內主流智能音箱產品劃分為小生態和大生態兩大類。

小生態的代表是若琪和小雅。不得不說,若琪是比較早期起步的智能音箱,在AI算法方面有了不少的積累,表現不錯,但是對於智能家居系統來講,它能聯動的組件並不多,侷限於Lifesmart、Broadlink、Orvibo和Philips的小部分產品。喜馬拉雅的小雅主打內容,有靠山喜馬拉雅FM的支持,內容足夠豐富,宣稱是有情感有溫度的人工智能圖書館,但是從智能家居控制來講,它幾乎不支持智能家居組件,是典型的小生態產品。

大生態的代表就是小愛同學、天貓精靈、叮咚和哇歐AI音箱。小愛同學以299元的價格殺入智能音箱市場,與小米生態鏈眾多智能硬件產品的聯動,讓小愛同學有著甚佳的智能家居體驗。然而,一個小遺憾就是你現在很難以299元的價格買到它。天貓精靈和京東叮咚,背靠各自平臺。天貓精靈兼容阿里智能旗下的諸多產品,大到美的的大家電,小到控客的智能插座,類目非常豐富。叮咚則兼容京東微聯旗下的產品,Haier、Honeywell、三星等都是京東微聯的合作廠商。天貓精靈和叮咚都構成了各自較為齊全的生態,如果說劣勢,那麼就是目前這些生態的廠商之間有待磨合,特別是一些比較大的廠商的產品,在兼容和穩定性方面還有一些問題,在體驗上還有較大提升空間,但是生態基本上完整了。哇歐家居AI音箱屬於後起之秀,來自克路德機器人公司,之所以說它是大生態,是因為它兼容整套海爾的智能家居產品,包括海爾齊全的大家電產品線。小的智能組件研發週期短,可以迅速開發上市,然而齊全的大家電產品線可不是一朝一夕所能搞定的。克路德機器人的哇歐家居AI音箱,是在先有智能家居(有屋蟲洞)、智慧酒店(溫德姆)、智能健身房(力方體)等具體場景需求後才有的,這也是和另外幾個平臺不同的地方。克路德機器人屬於少海匯生態企業之一,少海匯是一個不同於小米、阿里等傳統生態系統的“去中心化”新生態系統。之所以有如此多的場景需求,正是因為少海匯生態圈關注的就是智慧住居產業的場景需求,專攻智能家居,有眾多智能家居相關廠商加盟且互相兼容,現在看來具有強大的生命力,有了它的加持,哇歐家居AI音箱的前景應該會不錯。

智能音箱漫談

當然,如果說現在智能音箱產品已經成熟,肯定為時過早。就目前的產品來講,前途光明,道路曲折。在語義解析、遠場拾音、Iot聯動、聲紋識別、內容和生態圈方面還具有巨大的提升空間。

語義解析方面,目前主流產品只能達到識別相對簡單的對話的水平,稍微複雜的語句很難精準的理解意圖,這也是為什麼有人稱智能音箱為“智障音箱”,是下一步要解決的重點之一。遠場拾音方面,目前的產品在普通環境下,5米之內都表現良好,但是再大的距離就普通出現識別率的急劇下降,影響體驗。聲紋識別(VPR)只有少數幾款產品能夠實現,但是聲紋識別作為語音入口重要的身份識別方式,安全意義重大。Iot聯動、內容和生態圈三者是互相緊密聯繫的,也是智能音箱能夠廣泛應用迅速普及的關鍵所在。小米、阿里、京東的生態愈加完善,以少海匯為代表的新生態的出現也為行業帶來的新的活力,相信不久的將來,智能音箱會真正成為一個不可撼動的入口。

功成不必在我,未來已經到來。智能音箱作為新的入口,已經有了相對成熟的硬件結構,迅速發展的AI支持,展現出了強大的生命力。語義解析、遠場拾音等技術迅速突破,Iot聯動和內容迅速豐富,以小米、阿里等為代表的各種老生態圈臻於完善,以少海匯為代表的新生態圈活力迸發。不得不說,AI智能音箱是一次深刻的革命,且這革命絕不僅僅是在智能家居領域。


分享到:


相關文章: