破解“延時”與“反饋”體驗端痛點 TWS耳機轉型時機已至?

自取消3.5mm音頻接口成為智能手機的創新潮流之後,耳機無線化與之產生的疊加效應使得近幾年藍牙耳機市場的銷售額佔比連年創出新高,成為當下各體量巨大的互聯網公司、手機巨頭以及傳統耳機大小品牌商們競相逐利的重要戰場。無線化之後,在蘋果、谷歌以及亞馬遜等業界巨頭的強勢推動下,歷經數年應用探索的耳機端AI語音交互也被越炒越熱,被認為是當下TWS耳機跳出音頻“固有圈子”,將全新智能聽覺體驗革命落地到市場的關鍵一步。“TWS+AI語音”雙劍合璧後的智能無線耳機,能夠為用戶帶來更為便捷的手機數據輸入、功能調用以及人機交互等高質量使用體驗,有望驅動未來幾年全球TWS無線耳機市場銷量再攀新高。

TWS市場紅利期已至 無線之後AI語音成“必爭之地”

與主打“家庭”場景的智能音箱不同,耳機作為移動場景的絕對剛需,已是當今手機、平板、PC以及VR等各類終端設備的標準配件。TWS耳機由於兩耳掛不再需要有線連接,左右2個耳機僅通過藍牙即可組成立體聲系統,更加實用便捷,在經受數年洗禮之後現已躋身為全球耳機市場的爆款產品,為用戶端所廣泛接受。



以蘋果的AirPods為例,該產品在推出後的第一個月就斬獲了全美無線耳機網銷市場26%的份額,成為蘋果公司史上最暢銷的配件產品。據最新數據顯示,2018年蘋果AirPods總出貨量突破了2700多萬,知名分析師郭明錤預測2019年AirPods的總出貨量將增加到5000至5500萬,出貨增長達到90%,2021年有望達到1億臺的水平。站在整個行業的角度來看,在蘋果AirPods系列“洪流”的助推下,2020年全球TWS耳機市場有望向1.5億臺年出貨量、400億美元銷售額的宏偉目標邁進。

深圳市原動科技有限公司CEO張海星指出,“經過蘋果AirPods、谷歌、三星及華為等TWS無線耳機大廠為期兩年多的市場教育,現在用戶對於TWS耳機的認知和使用習慣達到了一個比較成熟的水平,TWS智能耳機替代傳統非智能有線耳機的時機也已經成熟。2018年Q4,TWS市場正處於爆發性增長的市場紅利期前夕,根據我們從高通、瑞昱等行業源頭芯片供應商的數據得知,2018年全球TWS耳機的總出貨量達到6500萬臺,2019年我們預計會是1億臺的水平,且其中60%都將會是具有品牌附加值的高端TWS耳機,TWS將繼續蠶食傳統有線藍牙和有線耳機市場的份額。”


或許是嗅到了更大的商機,無線化之後,為TWS耳機增加AI語音智能已成為眼下各主流供貨商們紛紛試水的應用創新。由於耳機比智能音箱更具剛需性,無論是海外的Google、微軟、亞馬遜等AI巨頭,還是國內的BAT、科大訊飛、華為、小米,現在都已瞄準TWS耳機市場,將其視為音箱之後AI語音技術落地的“兵家必爭之地”。不過,“理想很豐滿、現實很骨感”,儘管現在我們能在市面上看到多款據稱具備AI語音交互能力的TWS耳機,但從實際用戶體驗來看效果並不如期。

典型如谷歌的PixelBuds,從官方標稱的功能上看,搭載Google Assistant後的PixelBuds耳機可以說非常強大,不僅能夠做多國語言的實時語音翻譯,而且能夠為用戶讀取信息、郵件、新聞和日曆提醒事項,同時用戶也可以通過語音反饋給耳機自己想做的一些操作,比如選取音樂、切換曲目以及播報熱點、查詢天氣和調用導航地圖等等。但在實際使用中卻被廣為吐槽,據用戶端反映PixelBuds存在不少槽點,例如語音誤操作頻繁、翻譯實時性不高、交互延遲、間斷以及語音反饋質量等問題。以延時為例,在PixelBuds耳機端,用戶想要喚醒GoogleAssistant一般情況下需要長達6s的時間,而如果用戶需要提出問題並得到反饋,還需要額外加上2s,這無疑會令絕大多數用戶抓狂。



東莞智創音頻技術有限公司技術市場經理褚文才在接受本刊採訪時表示:“現階段,其實很多廠商做TWS智能語音耳機最主要的目的還是為了搶佔用戶資源,為以後做移動端AI服務和AI產品開發做前期鋪墊。但站在用戶體驗的角度來看,其實現在智能TWS耳機真正可通過語音來執行的功能還非常初級且簡單,很多語音助手能承包的功能對於用戶來說並沒什麼實際意義,像是解鎖手機屏幕、切換音樂曲目、調用導航以及接聽電話等這類操作,用戶完全可以花1到2秒的時間滑動手機或者通過傳統有線耳機按個按鈕來完成,這樣可能還會更習慣且方便一些。總之就是難以形成獨特的差異化優勢來讓市場買單,所以我們認為語音智能化現在並不足以支撐TWS耳機完全獨立出來成為一款能夠創造高附加值的智能硬件產品,反而很多頗具實用性的功能用AI語音暫時還實現不了,依然需要通過操作智能手機、智能手錶等設備端來實現,依賴性還太強。”

確如褚文才所述,現階段AI語音能夠在耳機端的施展空間還十分有限,畢竟耳機語音智能潮流起步於智能音箱之後,在音箱都尚未實現符合消費者需求的AI語音交互體驗前提下,TWS耳機的智能化應用仍需做進一步的深入探索。不過,作為TWS耳機踏入AI時代的關鍵一步,那些橫亙在基礎技術層面的問題仍然需要儘早被解決,尤其是“語音喚醒+來回程”延遲以及語音反饋質量這兩大突出痛點,其中每一環都會極大影響用戶在耳機端的AI語音交互體驗,成為當前TWS耳機擴展“真”智能語音能力邁向AI時代的兩大勁敵。



語音延時是“頭號殺手” 由表及裡或可逐層“破解”

作為任何一款注重“強體驗”AI語音產品的“頭號殺手”,語音交互的延遲可以說在如今風靡於世的智能音箱乃至TWS智能語音耳機等各類AI語音終端應用中廣泛存在。針對TWS耳機端的語音交互,目前業界在降低延遲上主要圍繞兩個層面進行優化,其一就是表層的端到端延遲。一般來說,立體音頻傳輸過程中,不同的端端之間由於數據編解碼方案、標準以及數據包結構等不同,在端到端傳輸上的延遲也會存在比較大的差異,有的可能高達幾百毫秒,而有的可能才幾十毫秒,二者能夠提供的應用體驗也由此相差甚遠。

事實上,端到端傳輸延遲主要是還是基於音頻技術上的問題,但當其加入到耳機端AI語音交互系統和流程中以後,會對整個系統的延時產生影響,褚文才告訴記者:“事實上,傳統的TWS耳機端音頻延時解決方案在傳輸層主要採用了支持標準SBC編解碼器的A2DP協議以及基於心理聲學感知技術的編碼算法。但基於這種壓縮技術的方案由於採用了幀壓縮,其整體延遲時間比較高,其中包括了音頻編碼器對數據編碼和數據發送的累積延遲、數據包接收延遲和數據包順序編解碼延遲,計算下來整個過程可能高達100ms至500ms。而且,由於比特率設置特點不同,基於這種方案提供的音頻質量也存在高度易變的特性,即使採用的是多個同樣的編解碼器,也無法提供穩定的音頻輸出。”



“在這方面,我們採用了一種基於ADPCM(AdaptiveDifferential Pulse Code Modulation)原理的解決方案,現在已經能夠將延遲降低到50ms以下,基本讓用戶感受不到延時的存在。”褚文才進一步補充到,“該方案是一種針對16Bit或者更高位數聲音波形數據設計的一種有損壓縮的算法,能夠將聲音流中每次採樣的16Bit數據以4Bit進行存儲,壓縮比達到1:4,是獲得低空間消耗、高質量聲音的非常好的途徑。採用這種方案之後,我們的音頻傳輸數據包會變成‘指令詞+數據包’的方式,進一步提高數據包的填充效率,而且解碼工作是從一開始接收到指令詞就已經開始,能夠將聲音質量得到最大程度的還原,並降低好幾倍的延遲時間。”

除上述表層音頻延遲以外,由於現階段TWS耳機自身不具備獨立的數據運算能力,僅僅只是扮演著音頻聲源的角色,智能語音服務均還要通過手機端APP或系統來調取語音,進而傳輸到雲端去做響應和處理。其中,如果網絡傳輸速度差或者中斷的話,可以說基本的語音功能都實現不了,信號差的情況下同樣也會導致響應和回傳等延遲問題。

無論是在智能音箱還是TWS無線耳機等領域,通常在線的智能語音交互非常依賴雲端側的處理,深圳市木瓜電子科技有限公司某技術支持工程師解釋到:“設備的前端往往只做聲音的採集、回聲消除以及噪聲抑制等處理之後,通過網絡送入雲端去做語音識別和處理,處理後的結果又通過網絡返回到設備中,這個過程容易產生兩個問題,一旦網絡出現問題,語音交互功能就可能癱瘓;另外,就算在網絡好的情況下,設備的響應速度還是不盡理想,比如前端語音處理時間大約500ms、再通過網絡端需要100ms。不止如此,雲端處理約500ms,其中還會有延遲再返回,一共加起來可能需要1到2s的時間,尤其是像國內網絡不穩定的情況下,時間可能更長。”

因此,現階段在TWS耳機領域有不少廠商在嘗試用本地語音喚醒方案來解決上述問題,以彌補部分因網絡不佳或斷線的情況下所造成的語音交互進程中斷,這在一定程度上優化了TWS耳機智能語音交互中斷和延遲問題。類似智能家居領域的本地化語音控制,本地化方案也能通過少許的喚醒詞即可在離線情況下通過TWS耳機來實現的音樂的語音控制(切歌、暫停)、接聽電話、查看信息等基礎功能,可以滿足用戶的很多基本需求。

不過,在編者看來,本地語音喚醒對於TWS智能耳機來說只能算是一個過渡方案,隨著5G高速網絡的逐漸普及其市場發展空間可能會逐步縮小,褚文才對此表示贊同,他認為:“5G及萬物互聯真正大規模普及之前,可能本地化語音處理會在TWS智能耳機這類細分市場會有一定的發展空間,但由於此類方案更多的還是屬於控制型而非交互型,並不具備‘真’智能的特性,指令詞也十分有限,實際應用中最多隻會被用來做一個輔助方案,難以形成市場主導,而且給用戶帶來的體驗感實際也很一般;另一方面,由於耳機屬於一種非常小巧的設備,受容量、功耗及數據處理能力等多方限制,要在耳機端做邊緣計算的話,對芯片設計也會提出非常大的挑戰,這不僅是技術方面的問題,更多的可能還會有成本以及剛需的考量在裡面。”



高品質語音反饋“道阻且長” 一場軟硬件端的“持久戰”

如果說語音延時是TWS智能耳機產品體驗的“頭號殺手”,那麼語音反饋質量可能就是產品體驗最直接的“形象代言”。眾所周知,無論當今任何一款AI語音交互設備,用戶最終接收到的語音數據反饋效果都極大程度地依賴於設備及雲端語音平臺對用戶所發出的語音數據接收、識別以及處理的精準度。實際應用場景中,難免會遇到各種環境音、環境波以及語言、語音甚至語意千變萬化所致的干擾,縱使是當今全球最接近人類語音能力的Google Assistant也並不能達到用戶的期許,因此提升TWS智能耳機端的語音反饋質量終將是一場“持久戰”。

褚文才對此表示贊同,他強調:“目前的語音交互系統,還僅停留在能夠適應它們所得到的訓練數據集的水平,而一旦當你把它介紹給它從未聽過的東西時,其語音識別的質量就會大幅下降。例如,如果你的訓練數據集是會話語音,那麼在繁雜的現實環境中你的識別語音效果和最終反饋效果就不會太好,甚至可能很差,而且在有回聲、噪音甚至重音等情況下,算法也很容易出錯。”

那麼,通過積累更多的各類數據集,是否就能夠有效解決該問題呢?褚文才並不這麼認為:“其實,積累數據也有其不利的一面,雖然一般情況下,表現最好的神經網絡還是那些擁有最多數據集的網絡。但由於這些數據通常需要在CPU上進行處理,CPU的壓力也會隨著信息量的增多而增加。今天,可能我們能夠在市場上看到不少性能強大的AI芯片,但事實上這些芯片還遠未達到能夠與移動設備完美集成的程度,很多潛藏的AI能力尚未得到有效挖掘,這就使得實時語音處理這類功能在今天依然無法成為現實。實際上,每次使用Google Assistant時,語音信息都還是會被髮送到數據中心進行外部處理,然後再發送回用戶的手機上。這些計算工作都不是在本地完成的,因為現有的手機都無法存儲神經網絡處理語音所需的龐大數據,更別說TWS無線耳機這類更小型的設備上了。”

所以,要想做好TWS無線耳機終端側的語音交互和反饋體驗,軟件算法和硬件芯片端的共同發力十分必要。褚文才補充到:“國內其實已經有不少比較好的語音算法技術提供商,產品也做的非常不錯,但實際應用場景是變幻莫測的,從技術落地的角度來看其實還需要做很多針對場景端的算法優化,就如TWS無線耳機領域除了普遍存在的降噪、濾波等各種需求外,還會存在不同場景的客製化需求,比如運動場景。”而硬件側,編者認為在現有AI芯片的基礎上做更多針對性的語音處理技術集成以及算法適配尤為關鍵,讓芯片即使處在極端複雜的音頻環境下,仍然能通過特定且對應的軟件算法輔助做好語音交互過程中的各種數據處理,當然這一切還是要以低成本為前提。

總之,智能耳機內置語音助手已成當下全球TWS耳機市場的潮流。不過,從當前的市場需求來看,編者認為業界廠商還需要做到“有的放矢”,因為據相關調查顯示,現在國內外幾乎大部分人仍然是不習慣對著耳機自言自語的,即使是蘋果通過取消手機耳機插孔的強制性方式逐步引導消費者購買Airpods,也是經過了一段相當長時間的市場磨合期。所以,目前廠商還是不要過分抬高消費者對TWS耳機智能化的市場預期的好,可以採取先入為主,即主動為消費者打造剛需的方式,不斷磨合軟硬件技術,一定程度上解決耳機端AI語音交互痛點之後放開市場,才是讓TWS智能耳機市場走上“健康”可持續發展的正道。