科大訊飛李偉:人機交互如何選擇合適的「耳朵」

科大讯飞李伟:人机交互如何选择合适的「耳朵」

AI 科技評論按:人工智能當前正處於爆發階段,語音交互作為人工智能的重要組成部分正在各行業全面的落地,在人機進行語音交互的過程中,機器需要通過耳朵實現聽覺的作用。

在雷鋒網旗下學術頻道 AI 科技評論的數據庫項目「AI 影響因子」中,憑藉訊飛病灶分割比賽優勝團隊專訪、訊飛與哈工大聯合實驗室刷新 SQuAD 成績的突出表現、前 MSRA 副院長李世鵬任訊飛 AI 研究院聯席院長,排在「AI 影響因子」前列。

近期,在雷鋒網研習社公開課上,科大訊飛產品經理李偉為大家科普了當前正熱的智能音箱背後的功臣——麥克風陣列,並具體講解了雙麥克風陣列和該方案在各領域的廣泛應用。李偉也希望藉此解決大家在語音交互 AI 前端學習上的一些疑問。視頻回放地址:http://www.mooc.ai/open/course/498

李偉,科大訊飛產品經理,負責麥克風陣列和智能家電領域的語音交互解決方案,曾就職於惠而浦(中國)股份有限公司先後擔任軟件工程師和智能家電產品經理,重慶郵電大學生物信息學學士,重慶郵電大學軟件工程碩士。

科大讯飞李伟:人机交互如何选择合适的「耳朵」

分享主題:人機交互如何選擇合適的「耳朵」——淺談雙麥克風陣列及行業應用

分享提綱

  1. 人機交互的「耳朵」——麥克風陣列簡介

  2. 如何選擇麥克風陣列——選擇麥克風陣列的四要素

  3. 雙麥克風陣列簡介和行業應用介紹

科大讯飞李伟:人机交互如何选择合适的「耳朵」

首先來介紹什麼是麥克風陣列,提到語音交互,有一個始終繞不開的話題:智能音箱。眾所周知,亞馬遜推出的 Echo 一下子帶火了整個智能音箱市場,語音交互也開始獲得人們的關注,越來越多的消費者開始購買語音交互智能設備。但大家在使用語音交互設備(如智能音箱)時,往往發現不同產品的語音交互效果差別很大,這主要由於智能音箱在聽覺設計上採用了不同的麥克風陣列方案造成的,比如最新推出的天貓精靈方糖和叮咚 Mini2。

科大讯飞李伟:人机交互如何选择合适的「耳朵」

方糖使用雙麥克風陣列方案(左),叮咚 Mini2(右)使用 6 麥克風陣列方案

什麼是麥克風陣列?

科大讯飞李伟:人机交互如何选择合适的「耳朵」

工業級麥克風陣列,一般是由數十和上千個麥克風按照一定的規則排列組合,主要應用於工業,軍工等領域。

消費級麥克風陣列,是對工業級麥克風陣列的大大簡化,由於主要考慮成本因素,所以通常消費級麥克風陣列麥克風數量不超過十個。

近些年,隨著語音交互方案的成熟,消費級的麥克風陣列開始逐漸普及,本次分享主要針對消費級麥克風陣列。

麥克風陣列(以下均指消費級)的作用

科大讯飞李伟:人机交互如何选择合适的「耳朵」

麥克風陣列主要模擬人耳的聽覺作用,人的耳朵不僅可以聽到聲音,還具備分辨聲源類型和方向的能力。這樣,我們就可以選擇聽到喜歡的聲音,如在辦公室,當我和同事交流的時候,會忽略周圍其他的聲音。其實麥克風陣列就是機器的耳朵,不僅採集音頻信號,還為了更好的聲源辨別和噪音過濾,從而保證人機交互的效果。

由於人耳具有十分複雜的結構,麥克風陣列(尤其是消費級麥克風陣列)很難達到人耳的辨別和調整能力。目前,麥克風陣列主要具備四大功能。

科大讯飞李伟:人机交互如何选择合适的「耳朵」

聲源定位:準確來說,麥克風實現的是聲源側向,而不是精準的定位,它的主要作用就是偵測到聲源的方位以便後續的波束形成。通常聲源定位會在語音喚醒階段實現。

噪聲抑制:這裡的噪聲一般指環境噪音,比如空調吹風的聲音,窗外汽車行駛的聲音等等,這類噪音通常不會掩蓋正常的語音,只是影響了語音的清晰度,麥克風陣列主要依靠波束形成抑制主瓣外的聲音干擾來實現噪聲抑制的功能。

增益調節:主要解決拾音距離變化的問題,由於遠場的交互距離可大可小,所以聲源發聲的大小也不同,比如人離麥克風較遠或人發出的聲音較小的時候,麥克風拾取的聲源信號就會比較小,這時需要對麥克風收集的信號進行放大處理,從而提高語音識別的準確性。當人湊著麥克風講話的時候,或者外界發出的聲音較大的時候,麥克風採集的信號較大,甚至超出麥克風可以採集到的範圍,這時需要麥克風陣列進行相關的處理,適當的衰減聲源信號,從而達到拾取聲源的有效平衡。

回聲消除:這裡的回聲並非傳統意義上的回聲,它指的是語音交互設備自己發出的聲音,比如音箱在播放音樂的時候,用戶想打斷它,此時,回聲指的是音箱本身播放音樂的聲音。如果麥克風陣列沒有回聲消除功能,那麼麥克風採集的聲音就包含人發出的指令聲音和音樂聲音,在這種情況下,顯然會對在語音識別的效果產生干擾,回聲消除的目的就是要消除音樂的聲音而保留用戶的人聲。

麥克風主要可以抑制四類噪音:分別為混響,背景噪音,人聲干擾和回聲。

科大讯飞李伟:人机交互如何选择合适的「耳朵」

混響:人講話的聲音被各種障礙物反射產生的聲音,如被牆壁,地板,天花板等障礙物反射,混響的聲音通常距離聲源發出的聲音時間間隔較短,人耳主觀上感覺不到,但機器在採集的時候往往可以採集到。

人聲干擾:為什麼要注意人聲干擾?由於實際上麥克風陣列在解決噪音干擾的時候,人聲干擾會對麥克風的識別效果產生最大的影響,因為往往做人機交互的時候,麥克風陣列收集的聲源的聲音就是人聲。

噪聲和回聲前面剛剛介紹過。

實際上,當前主流的智能音箱採用的麥克風陣列列方案是不太一樣的,比如亞馬遜的 echo 最早使用的是 6+1 麥克風方案;Google Home 使用的是雙麥克風方案;叮咚音箱使用的是 7+1 麥克風方案;阿里去年推出的天貓精靈採用的是 6 麥克風陣列方案。

目前訊飛向外提供三種構型的麥克風陣列,分別是線性,環形和立體陣列。

科大讯飞李伟:人机交互如何选择合适的「耳朵」

如何選擇麥克風陣列?

根據我近些年與開發者和用戶溝通得出的經驗總結,選擇麥克風陣列通常有四個要素,分別為使用場景,ID&MD 設計,交互鏈路和產品定價。

科大讯飞李伟:人机交互如何选择合适的「耳朵」

使用場景

科大讯飞李伟:人机交互如何选择合适的「耳朵」

關於使用場景,我想通過兩個例子進行介紹,不少商場正在使用機器人來替代人類進行導購服務,商場周圍的環境非常嘈雜(一般能達到 70 分貝以上),這種環境對降噪的要求很高,一般需要選擇抗噪能力比較強的麥克風陣列,同時由於人和機器的相對位置變化性較大,所以機器人往往需要具備 360 度的喚醒定位功能,也就是當用戶處於機器人的側面併發出指令的時候,希望機器人可以調轉到用戶所處的方向,因此在做商用機器人解決方案的時候,通常會選擇環形 6 麥或以上的陣列,這樣的話,整體抗噪和定位的效果能達到該場景的要求。

第二個例子,如電冰箱這個場景中,由於家居場景比較安靜(通常在 40 到 55 分貝左右),該場景對麥克風陣列的抗噪音要求並不是很高,因此可以選擇抗噪能力稍弱的麥克風陣列。另外,如冰箱這類家電往往是靠牆放置,因此不需要 360 度的喚醒定位,通常有時候不需要聲源定位就可以進行遠場拾音。還有一點需要說明,家電產品通常對節能環保要求較高,功耗要求也比較嚴格。因此選擇較少的麥克風陣列可以保證整體的功耗,所以通常在冰箱上會使用雙麥陣列方案或四麥陣列方案。

ID&MD 設計

科大讯飞李伟:人机交互如何选择合适的「耳朵」

設備植入麥克風陣列時,通常需要對產品的外觀和結構件進行開口,這對整體的外觀設計和產品都會產生一定的考驗,外觀上需要結合機器的整體外觀,結構上主要看聲學整體的效果。

影響聲學效果的主要因素,包括麥克風陣列的構型,孔徑,孔深,開孔率,聲腔的密閉性以及防震防水等,比如圖中的無葉風扇,當我們確定了在頂部採用四麥陣列方案之後,就需要考慮如何對這個方案進行優化,對此產品上進行了兩點處理:1,在風扇頂部加厚處理,這樣可使風扇整體更美觀,頂部加厚處理還有助於開孔和加大開孔率,麥克風拾音也更便捷。2,考慮到底部為風扇電機的噪音源,因此將麥克風置於頂部。

交互鏈路

科大讯飞李伟:人机交互如何选择合适的「耳朵」

由於各技術廠商的算法體系不同,在選擇語音交互方案時,最好能選擇經過前端和雲端協同優化的算法,比如訊飛的雲端識別會針對自身的麥克風序列的音頻數據進行大量的優化,因此在雲端和前端的配合上較其他傢俱備明顯優勢:整體的響應速度更快,準確性更高,開發週期會更短。而如果麥克風陣列和後端的雲端使用不同廠家的方案,那麼在後期的響應、協同的配合上、準確性,以及開發階段的聯調和配合上,都會遭遇相當大的考驗。

產品定價

科大讯飞李伟:人机交互如何选择合适的「耳朵」

麥克風陣列的使用成本通常包括四塊:分別為麥克風,模組,喇叭以及其他配件。目前,對麥克風陣列來講,最大的區別主要體現在麥克風和模組上,比如天貓精靈的方糖音箱採用的就是雙麥克風陣列方案,叮咚 mini2 為六麥陣列方案。另外在模組上,六麥陣列要處理六路的麥克風拾取的音頻信號,因此在芯片的配置和數模轉換的處理上都需要更大的開銷,所以從產品定價上來看,可以理解天貓精靈方糖定價為 199 元,而叮咚 mini2 定價為更高的 299 元。

通過上面的四個要素可以總結出,選擇麥克風陣列,要核心考慮不同麥克風陣列的特點。目前訊飛常用的麥克風陣列方案主要有雙麥陣列方案,環形六麥陣列和雙環八麥陣列方案。

科大讯飞李伟:人机交互如何选择合适的「耳朵」

雙麥陣列方案:採用雙麥設計,因此成本和功耗均低且 ID 和 MD 設計簡單靈活,但抗噪音干擾較弱。

環形六麥陣列:麥克風數量增加到 6 個,成本和功耗也隨之變高,優點是在環形平面上降噪效果好。

雙環八麥陣列方案:可進行空間立體的群像拾音,由於麥克風數量眾多,導致成本和功耗更高。另外,由於採用立體結構的 ID 和 MD 設計,設計起來相對複雜。

由於雙麥克風陣列的性價比較高,因此其使用領域也相當廣闊。接下來介紹雙麥克風陣列以及行業應用。

雙麥克風陣列以及行業應用

科大讯飞李伟:人机交互如何选择合适的「耳朵」

目前主流的遠場雙麥克陣列方案,包括科勝訊的 CX20921 方案和訊飛雙麥 DSP 方案。

科大讯飞李伟:人机交互如何选择合适的「耳朵」

訊飛雙麥 DSP 目前對外提供一套模組方案:

科大讯飞李伟:人机交互如何选择合适的「耳朵」

即通過 DSP 芯片和 ADC,Flash 的整合,實現一套完整的交互模組,該模組的特點為集成簡單,開發便捷。當用戶在使用這套模組的時候,前端麥克風將採集到的音頻輸入到模組,模組輸出 16K 和 32Bit 的數字信號,傳給識別端,這樣就可形成前端的遠場拾音。整體方案支持麥克風的間距在 20 到 120mm,這樣在整個 ID 和 MD 的結構設計上會更加靈活。

訊飛雙麥陣列芯片方案

科大讯飞李伟:人机交互如何选择合适的「耳朵」

科大訊飛支持芯片化的定製方案,該方案基於核心算法處理的 DSP 芯片+訊飛的算法 SDK。方案的主要特性:硬件設計靈活。該方案還存在以下幾個特點:高集成封裝,這顆 DSP 芯片的高集成封裝在尺寸上可達到 1.8*2.1mm,可以應用於手機和穿戴設備上;支持數字麥克風直接接入的方式;由於該 DSP 芯片也是專為手機設計的音頻處理芯片,所以整個芯片方案功耗很低。

該方案裡植入了訊飛的雙麥陣列降噪算法,其中的算法特性見圖中的四點描述。

科大讯飞李伟:人机交互如何选择合适的「耳朵」

遠場拾音:可支持 3 米的遠場拾音,在安靜環境下可達到 5 到 10 米。

語音喚醒:雙麥方案裡植入的算法可支持中英文的語音喚醒。另外,由於採用了低功耗的 CNN 喚醒技術,因此在待機喚醒狀態下的功率很低。

噪音抑制:可以抑制常見的混響干擾聲和環境噪音。

回聲消除:近期,科大訊飛在雙麥陣列的回聲效果上進行了優化,目前可支持全雙工立體聲的回聲消除,且設備本身發出的播報音達到 80 到 90 分貝,該效果通常可滿足大多數產品的需求,甚至包括很多音箱的需求。

目前,不少用戶都來提關於「雙麥陣列喚醒率」的問題,我在這裡跟大家解釋一下,為什麼沒有給出喚醒率的具體指標?主要因為喚醒率是根據周圍外部環境的因素和麥克風構型,再考慮測試環境的影響會導致實際測試到的喚醒率效果不一樣,這就要求在實際評估喚醒率的時候,需要綜合考慮外部所有的因素來進行評估。

就目前的應用場景來看,雙麥陣列方案已經覆蓋到了很多領域,下圖為主要領域的產品舉例。

科大讯飞李伟:人机交互如何选择合适的「耳朵」

機器人領域:使用到語音交互的主要是商用服務和消費級機器人,雙麥陣列方案主要應用於陪伴型,消費級機器人以及服務機器人上。

車載領域:目前大多數車載帶屏設備都使用基於雙麥陣列的交互方案。另外,車載類配件也推薦使用雙麥陣列方案,目前市場上使用雙麥陣列案例有,訊飛去年推出的小飛魚智能車載助手。

智能家居場景:先說智能音箱,除了 google Home 外,亞馬遜的 echo 以及阿里的天貓精靈都採用了雙麥陣列方案,因此在未來的音箱領域,雙麥克風方案會受到越來越多的關注,另在冰箱,空調或家庭空調的控制面板中,都有使用雙麥方案。

手機及可穿戴設備:蘋果 air pod 採用的也是雙麥方案,華為更早推出的 B2 手環也是基於雙麥的降噪方案。

隨著雙麥陣列方案的不斷優化,應用場景也越來越多,歡迎廣大開發者使用訊飛的雙麥克風陣列方案。

另外,講師還回答了直播中大家提出的關於「人機交互」和「單麥克風的侷限性」的問題。AI 科技評論將問答內容整理如下:

Q & A

科大讯飞李伟:人机交互如何选择合适的「耳朵」

Q:使用雙麥克風陣列方案在人機語音交互中能做到什麼效果?

A:家居,汽車,課堂等噪音較少的場景可以使用,戶外情況下可用於耳機,手環等穿戴設備,3 米內抗干擾,安靜環境下交互距離可達 5 到 10 米;可以滿足智能音箱,陪伴機器人在較大音量播放音頻內容時的打斷效果;實際的評測過程中應儘量採用真實使用場景下的體驗和測試,避免在辦公室等外界干擾較大的環境或混響大(玻璃較多)的環境中進行測試。

Q:簡單介紹一下人機交互?

A:人機交互的模式有很多種,這裡提到的語音交互屬於人機交互的一種,除此之外還包括視覺類的交互和傳感類的交互,比如通常使用的家電或消費類電子產品都帶有很多傳感器,比如觸摸手機屏幕,指紋解鎖,甚至是通過按鍵,這類都叫人機交互。未來的人工智能更多的是所有交互的一個智能體,其中跟人類最接近的是語音和視覺交互。可以這樣說,人接收到的信息,80% 是通過視覺來接收到的,但人向外傳遞的信息 90% 通過語音實現。因此視覺和語音會在未來的人機交互中佔有很大的比例。

Q:單麥克風的侷限性?

A:目前也有很多產品在考慮使用單麥克風方案,可能是從成本上或者是從場景本身(靜場場景)來考慮,或是噪音比較小的場景。如果從成本的考慮的話,隨著未來產品的不斷迭代,雙麥陣列會漸漸與單麥陣列的成本差別越來越小,同時雙麥陣列可以應付一些突發的情況,所以雙麥陣列會逐漸替代單麥克風陣列。

Q:為什麼需要麥克風陣列?

A:實際的語音交互需要麥克風陣列,打個比方,如果人類沒有耳朵,就不能對外界的聲音進行拾取,只能通過眼睛或其他五感(如觸覺等)來獲取外界信息,這樣就缺少了對於外界的聽覺感受。

以上就是本期嘉賓的全部分享內容,本次講師李偉也在公開課視頻的最後附有聯繫方式,大家如有問題想要交流的可以前往查看。更多公開課視頻請到雷鋒網 AI 慕課學院觀看。

對了,我們招人了,瞭解一下?

科大讯飞李伟:人机交互如何选择合适的「耳朵」

BAT資深算法工程師獨家研發課程

最貼近生活與工作的好玩實操項目

班級管理助學搭配專業的助教答疑

學以致用拿offer,學完即推薦就業

┏(^0^)┛歡迎分享,明天見!


分享到:


相關文章: