2020年中國智能語音行業研究報告

核心摘要:

人類對機器語音識別的探索始於20世紀50年代,迄今已逾70年。2016年,在深度神經網絡的幫助下,機器語音識別準確率第一次達到人類水平,意味著智能語音技術落地期到來。不過人們面對“AI”時希望得到自然、類人的交互體驗,這是一個宏偉的開放性課題,背後涉及的各學科技術仍有不足,還面臨長期的求索方能突破。

消費級智能硬件是最早顯示出市場潛力的賽道,市場各方都在瞄準消費級智能交互終端。而智能終端的背後還有廣闊的生態,包括語音開放平臺、語音操作系統、內容等等,近年行業正在經歷從單一商業模式向多元化商業模式的變遷,技術輸出的“厚度”增加,“邊界”擴大,也帶來了技術落地曲線的加速度增加。

智能語音企業級和公共級市場主要有平臺化技術輸出和解決方案兩類商業模式,解決方案業務佔比較高。與國外市場以醫療為重頭有所差異,我國市場以智能客服、公檢法及教育業務份額更高。智能語音為各行業解決了剛需性問題,將促進各行業業務效率的提升。

目前全國約有超過250家企業參與智能語音語義市場。互聯網巨頭、技術提供方、設備商和行業集成商應分別重視連續性投入支持問題、基礎開發模塊標準化程度提升與商務團隊配置問題、設備後服務增長問題和軟件研發能力建設問題,迎接人機交互升級帶來的行業價值鏈擴張。

智能語音的概念

智能語音即實現人與機器以語言為紐帶的通信

智能語音即實現人與機器以語言為紐帶的通信。人類大腦皮層每天處理的信息中,聲音信息佔20%,它是溝通最重要的紐帶,人機對話將方便人們的工作與生活。完整的人機對話包括聲音信號的前端處理、將聲音轉為文字供機器處理、在機器生成語言之後,用語音合成技術將文本語言轉化為聲波,從而形成完整的人機語音交互。

2020年中國智能語音行業研究報告

智能語音的前情提要

機器“聽覺”本質上是對聲音特徵和文本的分類任務

人的聽覺形成過程是將聲能轉變為機械能、再轉為生物電信號,在聽覺中樞加工、分析的結果,而機器的“聽覺”則經過聲音信號-音頻信號-電信號-特徵向量-解碼為文字-理解的過程,本質是對聲音特徵和文本的分類任務(將字音分類對應為文字、將文字對應為潛在語義),如果需要機器感知聲音的起止和音色等特徵,還需要另外進行信號處理與特徵分類任務。

2020年中國智能語音行業研究報告

深度神經網絡是智能語音技術近年達到落地可用的推動器

2011年,微軟研究院提出的基於上下文相關深度神經網絡和隱馬爾可夫模型的聲學模型在大詞彙量連續語音識別任務上獲得了顯著的性能提升,從此大量研究人員開始轉向深度學習在智能語音領域的研究,2016年,機器語音識別準確率第一次達到人類水平,意味著智能語音技術的落地期到來。近年,研究方向主要是端到端神經網絡及針對實際應用中的算法優化。

2020年中國智能語音行業研究報告

所涉學科及其研究任務

2020年中國智能語音行業研究報告

本章小結

技術閉環完成度有待提升,面臨長期的求索方能突破

智能語音背後涉及的聲學研究、模式識別研究、通用NLP研究及垂直場景的深度語義理解等還未成熟到拼成一個沒有明顯短板的“木桶”,在交互體驗、使用效果、場景性優化等方面都還有很長的路。與人工智能發展最快的分支計算機視覺相比,儘管二者都憑藉深度學習取得重大突破,並在識別準確率上達到人類水平,但計算機視覺通過人臉識別這一大技術分支便高完成度地解決1:1或1:N比對問題,快速滲透到了各行各業;智能語音技術要解決的卻遠遠不是1:1或1:N的比對,而是人們面對“AI”時希望得到的自然、類人、甚至高信息密度的交互體驗,這是一個宏偉的開放性課題,因此儘管智能語音已取得了一些商業上的成就,但仍面臨長期的求索方能突破。

2020年中國智能語音行業研究報告

子研究:消費級市場

國內智能音箱卡位家庭流量遷移(1/3)

從PC與移動互聯網看流量遷移模型

目前移動數據及互聯網業務收入達到固定數據及互聯網業務收入的三倍,說明互聯網流量大量遷移到移動端。智能音箱廠商則希望在智能音箱從用戶家庭場景流量中分一杯羹,成為家庭場景流量入口。借鑑移動互聯網的經驗,有三個關鍵因素將促成設備端口的流量增長:終端可得性、接入便利性、應用豐富性。

2020年中國智能語音行業研究報告

智能音箱的滲透情況

在我國城鎮住房中滲透率達到20%

預計到2019年底,中國智能音箱累計出貨量超過7200萬臺,在我國城鎮住房中滲透率達到20%,接近2012年智能手機的滲透程度,“終端可得性”條件初步具備,跨過了家庭流量遷移的第一道門檻。

2020年中國智能語音行業研究報告

2020年中國智能語音行業研究報告

國內智能音箱卡位家庭流量遷移(2/3)

為什麼說國內智能音箱會成為巨頭的市場

2019年,儘管我國智能音箱硬件補貼已進入收縮階段,補貼額依然達到15.8億元(產品庫存對該數值有一定影響),中小玩家難以支撐大量補貼,因此巨頭佔據了絕大部分市場。目前智能音箱市場主要由天貓精靈、小度音箱和小度在家、小愛音箱佔據,互聯網基因使它們在智能音箱產品上覆制了互聯網玩法——補貼攻城、低價策略、互聯網服務運營回血,同時應用開發者的廣泛聚攏、產品智能化提升的開發都需要強大的資金和資源支持,使智能音箱市場很難存在群雄並起的格局,智能音箱的流量也相應聚攏在大平臺。而在智能音箱的生產成本中,麥克風陣列仍然是最大的部分。

2020年中國智能語音行業研究報告

2020年中國智能語音行業研究報告

國內智能音箱卡位家庭流量遷移(3/3)

流量的變現模式是下一步需要考慮的問題

目前終端設備銷售以外的商業化還不是市場主要關注的問題,但已開始有一些嘗試。智能音箱的應用/技能基本是以設備綁定形式存在,因此品牌設備方本身也是平臺方

(可以理解為智能音箱的核心預置應用、應用商店、主頁、操作系統提供方),這為智能音箱更好地複製互聯網變現模式打下了基礎,電商購物、平臺廣告植入、應用推廣和應用內購買(IAP)分成、用戶增值服務付費、開發者服務等都是可能的變現方式,其中用戶增值服務和電商購物已開始搶跑。與傳統的互聯網產品商業模式相比,由於前述智能音箱在活躍度、應用豐富性、流量質量等尚未取得突破,且口播廣告不符合音箱產品使用邏輯、信息流及原生廣告有待開發,因此廣告形式、應用推廣及IAP形式的變現還存在較大瓶頸。

2020年中國智能語音行業研究報告

本章小結

覆盤消費級市場:商業模式多元化與技術落地曲線的加速度

在智能音箱部分我們探討了品牌設備商如何形成多元化的變現模式,對於消費級市場另一大主力參與者——語音交互技術提供方而言,發展空間也遠遠不止下游B端品牌設備商在設備開發過程中支付的技術付費。一方面,技術提供方可以通過提供芯片、麥克風陣列解決方案、AI算法的全鏈方案,增加技術輸出的“厚度”,同時實現技術與解決方案的研發中基礎環節與模塊標準化,降低客戶的開發配置門檻;另一方面,強化對應用場景的理解,打磨交互功能和用戶體驗,給實際問題提供“向前一步”的解決能力,從而獲得C端收費的可能。這兩類發展空間的實現有賴於兩點基礎要素:(1)具備全鏈條語音交互技術能力;(2)有建立用戶聯繫、獲取用戶體驗反饋的場景。

2020年中國智能語音行業研究報告

子研究:企業級與公共級市場

企業級與公共級市場畫像

平臺化技術輸出和解決方案兩類模式,解決方案業務佔比高

智能語音消費者業務主要通過硬件出售及相關互聯網增值服務獲利,而企業級和公共級業務則主要有兩類合作模式:一是技術平臺輸出模式,將通用技術能力封裝為SDK或API,下游客戶或生態中的開發者使用時向技術提供方支付一定費用,當然為了促進生態的快速發展,一些平臺如華為HiAI、百度語音技術採取面向開發者免費的策略;二是切入傳統行業,提供解決方案(含核心設備),這種情形下涉及智能語音企業與傳統行業集成商或最終客戶進行定製化、深度合作。

2020年中國智能語音行業研究報告

2020年中國智能語音行業研究報告

智能語音與醫療健康(1/2)

核心價值在於提升輸入效率和查詢效率

醫療領域對於智能語音的需求主要來自電子病歷系統上的語音功能,通過語音輸入的方式生成結構化病例、執行病例檢索,節約醫師輸入病歷的時間,解決方案一般包括ASR/NLU技術和專用醫療麥克風。在導診機器人、問診小程序、診後隨訪系統、住院病房管理系統、臨床決策支持系統(CDSS)中也有應用。在落地過程中,需要重視針對醫療專業術語和各科室專有名詞/符號/用藥等知識進行模型訓練和優化,建立篩選機制以過濾問診無關信息,並進一步增強病例整理的語義標準化與深度結構化能力,以使系統便捷提取病例主症狀、伴隨症狀、用藥等重要特徵信息。

2020年中國智能語音行業研究報告

智能語音與醫療健康(2/2)

發展速度受限於我國醫療信息化建設現狀

Nuance是全球最大的智能語音公司,2018年其在醫療業務上取得9.9億美元收入,佔公司總收入的48%。相較而言,我國智能語音市場中2018年醫療健康僅佔0.7%。這主要是由於美國醫療機構以私立為主,對診療服務人性化、醫療信息化關注度更高;我國醫療信息化發展水平相對落後,三級以下醫院信息化建設經費有限、專項政策引導力度有待提升、數據孤島普遍存在,因此目前市場處於單點式推進狀態,短期內推進速度比較平穩。不過,智能臨床決策支持系統和電子病歷語音錄入等應用與醫療信息系統打通集成、分級診療、醫保控費、民生建設等都有直接關係,若相關政策引導加強、醫療數據標準建立和醫療數據跨機構整合推動加速,則有望複製海外市場的醫療業務體量。按照現狀估計,預計到2022年,我國電子病歷語音輸入累計覆蓋近1600家三級與二級醫院(付費數,滲透率分別為36%和4.5%),180萬醫生受益。

2020年中國智能語音行業研究報告

2020年中國智能語音行業研究報告

智能語音與公檢法

幫助公檢法系統實現便捷辦公和戰法突破

2020年中國智能語音行業研究報告

智能語音與教育

應用於教、管、測、考等環節

智能教育領域,AI課堂的建設進入快車道,強調兩點:一是解決家校之間、線上線下之間學習資源互通的問題,二是通過多模態識別收集課堂學情信息並做數據精準分析,因此通過語音轉錄、語音識別等技術實現授課語音轉錄為文字、利用多模態識別進行課堂質量監測不可或缺。另一方面,在線教育競爭呈白熱化態勢,用技術解決教育資源的複用、增加學習交互體驗感等訴求也促進了智能語音技術在線上口語測評、虛擬教師等領域的應用。考試賽道方面,北京、上海、江蘇、廣東等省市近年推行在新中考、新高考英語考試中以機考形式進行口語測試,因此人機對話技術和智能語音評測技術開始應用於考試場景,以提升口語考試的效率。

2020年中國智能語音行業研究報告

智能語音與客服

從人機對話輻射到營銷管理和通話服務質檢

相對於前文所述的醫療健康、公檢法、教育領域,客服領域的行業開放性相對較高,對AI應用迫切性強,參與者眾多,未來一段時期內業務體量較大。目前AI客服可以為IVR、APP、小程序、網頁等各端口提供自動對話功能,應用場景包括智能營銷、呼入服務應答、電話質檢、在線客服及輔助人工服務,在一定程度上滿足了減輕傳統客服中心一線人員工作負擔、減少用戶等待應答、低成本增加企業營銷曝光等需求,應用滲透率較高。但目前AI客服營銷轉化率低、呼入服務應答轉人工率高、業務場景適應性對話系統的建設成本與效果性價比較低、真實場景中對話異常處理靈活度不夠等問題依然是行業痛點。傳統客服產業由客服軟件開發商、呼叫中心廠商、硬件設備廠商、電信運營商和軟件集成商組成,AI客服則涉及多種類型的企業:近年來通訊雲廠商一定程度上取代了傳統呼叫中心,其呼叫中心和雲客服業務可以集成提供客服機器人能力,AI客服機器人公司和客服SaaS也可通過渠道或者直銷模式為客戶提供AI客服服務。

2020年中國智能語音行業研究報告

智能語音與互聯網內容審核監管

特定聲音檢測和語音識別技術幫助淨化網絡環境

互聯網的變遷使音視頻內容的傳播得以快速發展,經統計,我國部分頭部娛樂社交類App月度總有效使用時長達到每月70億-90億小時,用戶每天將從娛樂社交平臺接觸大量信息。這也帶來了垃圾信息審核難題,2019年上半年,多款語音社交App因通過語音傳播違規信息下架。粗略估計娛樂社交類App背後產生的音視頻內容時長接近每月4700萬小時,這一數字如果用年來表示,相當於5400年,顯然通過人工審核音視頻的方式淨化網絡環境是不可能實現的,而如果依靠舉報再人工審核的方式也只如滄海一粟、大量問題語音將被漏查。目前除使用圖像識別技術審核圖片和視頻幀外,以依圖科技為代表的AI公司開始通過特定聲音檢測和語音識別技術賦能實時語音流及音頻文件的內容審核,彌補之前針對互聯網語音內容的審核空白,提高審核效率與準確度。

2020年中國智能語音行業研究報告

2020年中國智能語音行業研究報告

智能語音與泛傳媒

增加媒體產能,豐富傳播形式

智能語音在泛傳媒領域的應用主要包括合成主播自動播發稿件,將外語音視頻新聞或節目自動翻譯、根據畫面同步匹配字幕,及為新聞稿件文字自動合成語音等。以自動播發稿件為例,2019年全國兩會期間,新華社AI合成主播共播發稿件236條,為資訊內容的生產提供了新的方式;而音頻與文字之間的轉換則豐富了媒體的傳播形式,使用戶能夠按需、按喜好獲取資訊服務。

2020年中國智能語音行業研究報告

子研究:市場參與者

中國智能語音行業圖譜

2020年中國智能語音行業研究報告

中國智能語音行業熱度

市場較為理性,入局企業數量252家

據統計,我國人工智能創業項目中處於語音識別和語義分析賽道的共有252家,佔比10.6%。同時,根據國家工業信息安全發展研究中心數據,截至2018年底,我國人工智能領域合計申請專利44.4萬件,而語音識別與自然語言處理技術則合計申請專利6.1萬件,佔比達到13.6%,反映出智能語音領域單位技術產出情況高於行業整體,且發展也更倚重技術要素。

2020年中國智能語音行業研究報告

寫在最後

AI助理的真正形態:向多模態高密度交互升級

在5G快速發展的背景下,高帶寬和低時延特性使多模態識別開始普及,未來支持多模態識別的AI芯片、支持多模態識別的物聯網操作系統以及AI算法將受益。多模態識別的主要應用場景包括車載(第三空間)、智能機器人、身份鑑定,具體將會通過語音識別、人臉識別、表情分析、唇動狀態、眼球跟蹤、手勢識別、觸覺監控等智能人機交互手段綜合識別人的情緒、疲勞狀態、複核驗證人的身份,對於更加精準、主動和個性化地提供人機交互方式十分重要。

另一方面,語音轉寫已經成為智能語音技術落地的重要場景,目前在短時間、對話人數少的場景下應用效果較好,但在企業級和公共級場景下往往面臨對話時間很長的情況,僅做語音轉文字和簡單的結構化,不能甄別有效信息、語義結構分類不理想等將是限制語音轉寫規模化落地的最大問題,行業的高速發展有賴於準確地按照需求提取長時語音消息的有效內容。

2020年中國智能語音行業研究報告

各類企業行動方向

2020年中國智能語音行業研究報告


分享到:


相關文章: