AI助力語音應用崛起,MEMS麥克風需求旺盛!

人工智能(AI)技術迅速發展,強化了語音識別能力,促使語音成為重要人機交互接口,應用層面從智能手機拓展到智能音箱、智能電視與車用等終端產品,進而帶動市場對麥克風旺盛需求。但是,不同類型終端產品需要的麥克風陣列不盡相同,所以,各大廠商相繼推出自己的麥克風陣列解決方案,也成為廠商競爭的一大利器。

語音控制一直被視為是最直觀的操控方式,早在2011年蘋果便推出iPhone手機語音助理Siri,但當時語音識別不成熟,導致語音助理成為手機娛樂產品。隨著人工智能興起,各大廠商通過自然語言處理(Natural Language Processing)訓練機器人類語言邏輯、提升語音識別能力,加上亞馬遜、Google、阿里巴巴與小米等廠商通過低價智能音箱打入市場,讓消費者快速瞭解語音交互的應用範疇,包含信息詢問、家電控制與購物等,大幅擴大語音應用的可能性,促使語音成為新的人機交互接口。

隨著語音應用興起,各廠商希望將新人機交互接口放到自家終端產品,推升麥克風需求,其中又以基於MEMS技術的麥克風需求成長最高。MEMS麥克風具備較高的可靠性、穩定性與一致性,聲音收集品質佳,對語音識別有很大幫助。

據麥姆斯諮詢介紹,因為各種智能終端產品的外型、應用環境與使用方式不同,所以使用的MEMS麥克風數量和陣列模型也有差異,從麥克風使用數量來看,手機MEMS麥克風需求為2~4顆;智能音箱需求範圍較廣,依照產品設計和價格定位,MEMS麥克風需求2~8顆不等。

由於智能音箱市場在2017年快速成長,推升整體MEMS麥克風產值達13.81億美元,2018年MEMS麥克風進一步拓展到電視和可穿戴設備,產值因此年增11%、達到15億美元。

汽車是語音應用的另一大市場,通過語音控制能讓駕駛人在不移轉視線的情況下直覺性操控、提升行車安全,因此車廠開始導入語音控制系統,其MEMS麥克風數量2~6顆不等,甚至採用更多顆麥克風以抑制噪音,有望帶動另一波MEMS麥克風需求。

遠距離語音識別,多麥克風系統問世

MEMS麥克風陣列隨著語音控制需求增加而開始受到重視,語音控制存在的環境相當複雜,若使用時相隔距離較遠,收音上就會遇到迴音干擾、室內混響與多信號源干擾等問題,導致信噪比(SNR)降低,影響語音識別準確率。

過去手機大多采用單麥克風,能在低噪音、無混響與近距離下,獲得信號品質較高的聲音,但當環境中有許多聲源和環境噪音,例如客廳、廚房與戶外等,就無法做到聲源分離,進而無法對聲源定位和識別。為了遠距離語音識別,多麥克風系統應運而生,通過幾何結構組合成線型、環型與球型等陣列,數量從2~1000顆不等,目的是為了收集不同空間方向的聲音信號來做噪音抑制、混響去除與人聲干擾抑制後,方能做到聲源側向,再通過波束成形做聲音定位。

近年隨著語音識別能力提高,加上廠商希望縮小產品設計並降低成本,因此開始減少MEMS麥克風使用量,一般消費性產品採用的MEMS麥克風陣列型態以線型和環型為主。但線性麥克風陣列仍舊有其限制,僅能做到180度聲源定位,無法針對全方位做空間指向性,像是亞馬遜第三代Echo Dot就採用4顆麥克風,雖較前一代減少3顆,但仍是採用環型陣列。

1. 線型MEMS麥克風陣列:寬邊陣列

電視和筆記本電腦等產品適合採用線性麥克風陣列中的寬邊陣列,寬邊陣列是指聲波方向和麥克風陣列垂直,通過聲波相加得出聲源方位,且抑制來自陣列側邊的聲音,使得前方和後方的響應一致,但該陣列具有軸對稱性,無法分辨出前方和後方聲源,因此適合聲音僅來自前方或後方的產品。通過增加橫向MEMS麥克風數量則能更有效抑制側邊聲音,藉此增加聲源定位距離,不過,MEMS麥克風之間若間距過窄,會降低低頻衰減、增加低頻噪音干擾,但過寬又會造成機構設計困難,降低混迭頻率,因此在產品設計上需特別衡量橫向麥克風數量與其距離的安排。

以電視為例,其擺放的空間大多在較空曠的客廳,且人往往距離電視較遠,因此電視需搭載遠場語音識別讓用戶控制。要強化遠場語音識別的能力和距離,需要將數個MEMS麥克風排列成寬邊陣列,除了可以抑制電視兩側揚聲器所製造的噪音外,也能增強聲源定位距離,但遠距離容易造成聲音在室內不斷反射,導致麥克風不斷收到重覆信號,造成語音識別困難。

2. 線型MEMS麥克風陣列:端射陣列

針對單方向做聲音檢測的產品,例如手機、耳機、助聽器、智能手環與智能手錶等產品,就適合採用線性麥克風陣列中的端射陣列。端射陣列是指聲波方向與麥克風陣列平行,當前方比後方先接收到聲波時,就能通過麥克風拾取聲波的時間差得知聲波來源,通過訊號處理抑制其他方向的聲音干擾,形成空間指向性。

以可穿戴設備為例,由於產品體積較小,難以通過多個麥克風做橫向排列抑制周遭噪音,加上消費者使用可穿戴設備做語音控制時,往往會靠近嘴巴,代表定向聲源只有一個方向,而需抑制的噪音源同樣是來自嘴巴,並非聲源的反方向,因此通過端射陣列設計,能專注收取單一方向的聲音。

3. 環型MEMS麥克風陣列

環型MEMS麥克陣列是端射陣列的延伸應用,適用於需要針對全方位做聲源定位和識別的產品,在設計上各MEMS麥克風需要等距且均勻分佈在圓周上,且排列形成多個端射陣列,以利針對不同角度的聲源做降噪、側向與定位。目前運用最廣的語音識別產品智能音箱,即是使用環型MEMS麥克風陣列。

由於智能音箱在使用上不具備方向性,多擺設在客廳、廚房與臥房,會因為環境多樣性而使得噪聲干擾方式不同,例如在客廳會受到多信號源干擾,在廚房則會受到諸多環境音干擾,在臥房則可能通過智能音箱播放音樂,導致噪音出現,加上用戶聲音可能來自四面八方,因此需通過環型陣列做波束成形的指向性收音和降噪,提高語音識別準確率。

市場百家爭鳴,慎防邊緣化危機

隨著語音應用興起,MEMS麥克風陣列成為語音控制系統中第一道關卡,若MEMS麥克風陣列收音狀況不佳,將嚴重影響識別準確率,MEMS麥克風陣列解決方案成為各廠商重點角逐的市場。當前全球最大的MEMS麥克風廠商為樓氏電子(Knowles),市場佔有率超過3成,同時也掌握MEMS芯片設計、MEMS麥克風封測與MEMS麥克風陣列模組,備受亞馬遜青睞。

不過,並非所有廠商都有一條龍的生產模式,多數廠商涵蓋設計到封測,或封測到系統整合厂部分,最後再由系統整合廠將MEMS麥克風模組或陣列出貨給品牌廠商。像是意法半導體只提供MEMS芯片設計到MEMS麥克風封測,原因在於MEMS麥克風供應鏈呈現金字塔狀,若意法半導體跨足MEMS麥克風陣列模組,將會與原先的合作廠商競爭;此外,如亞馬遜這類提供語音識別授權的業者,也開始進入MEMS麥克風陣列模組市場,將使該市場競爭更加激烈。

歌爾股份和瑞聲科技不具備MEMS芯片設計能力,僅提供封測到系統整合,為各類型產品提供不同解決方案,包含智能手機、可穿戴設備與智能音箱等,但隨著語音廠商開始切入MEMS麥克風陣列模組市場,該市場競爭更加激烈,因此模組廠商開始向上遊發展,像是瑞聲科技開始自行開發ASIC,不僅能借此優化自身MEMS麥克風模組,同時也能增加產品毛利。

歌爾股份則通過封裝方式將多個傳感器集成,使得單一元件擁有多種功能,減少基板使用面積而具有成本優勢。此外,部分聲學廠商同時提供代工服務,例如歌爾股份、共達電聲、奮達科技與美律等,皆提供智能音箱和耳機的代工,優勢在於聲學相關產品的機構設計是聲學廠商強項,且能直接提供聲學模組給品牌廠商。

近期語音廠商開始朝麥克風陣列模組發展,原因在於語音廠商希望達到最佳語音識別準確率,若採取非官方認證的麥克風陣列,語音識別可能會出現誤差,導致消費者體驗不佳。因此,為了讓實際收音和訓練樣本一致,語音識別業者開始推出麥克風陣列解決方案,像是亞馬遜、科大訊飛與阿里巴巴等,都提供相關解決方案,此外,語音識別業者可以通過麥克風陣列模組進行語音數據蒐集,以優化自家語音識別,同時也能擴大自家生態圈,從而拓展到更多產品,可謂一舉數得。

然而,語音識別業者跨入,導致下游MEMS麥克風陣列模組市場開始出現變化,語音識別業者通過軟硬整合方式吸引廠商採用,廠商則能直接進入語音識別業者的生態圈中,這對硬件開發商而言,是有相當強的吸引力。

面對語音識別業者的擠壓,原先的麥克風陣列模組廠商開始朝上游或代工發展,藉此強化自身產品競爭力,否則只能轉向中低端市場,最終面臨被市場邊緣化的風險。

延伸閱讀:

《MEMS產業現狀-2018版》

《Vesper壓電式MEMS麥克風:VM1000》

《聲學MEMS和音頻解決方案-2017版》

《蘋果iPhone X中的MEMS麥克風》

《iPhone 7 Plus中的樓氏MEMS麥克風:專利到產品的全解析》

《醫療、工業和消費類應用的超聲波傳感技術》

原文鏈接:http://www.mems.me/mems/microphone_201901/7654.html


分享到:


相關文章: