語音轉文字已是紅海,「Voice AI」從“聲紋識別”切入安全解決方案

人工智能主要有三個研究方向:視覺識別、語音識別、自然語言處理NLP。其中,在語音識別領域,聲紋識別屬於相對藍海市場,解決的主要是“我是我”的問題,多應用在安全驗證場景。

語音轉文字賽道,各家的效果可能趨於0.1%、0.2%的差距,為了避免同質化競爭,Voice AI選擇從“聲紋識別”切入,給企業提供解決方案。公司在2016年下半年註冊成立,2017年開始全面運營。

Voice AI有一個典型案例,就是服務了印尼養老基金。這是一個國家級的社保項目,覆蓋印尼250萬人,於2018年5月2日起分批上線。此前,為了確保受益人尚且在世、避免養老金冒領等不合法操作,印尼居民需要去銀行、養老機構等地進行現場認領,效率低下。如今,居民可以在線上選擇指紋拍照、人臉識別、聲紋識別三種方式之一進行認證。與合作伙伴一起拿下該項目後,Voice AI負責其中的聲紋識別部分。

居民提前線上註冊,通過麥克風錄製一段音頻,在養老金申領時,收益人需認讀隨機的數字,Voice AI根據聲紋比對判斷是否為本人。“語音識別會涉及口音,對結果產生較大幹擾,而聲紋是由人體發音系統的物理結構決定,人體構造是獨一無二的,所以聲紋也是唯一的。”Voice AI創始人兼CEO李亞桐解釋。

這個過程中,其實涉及語音識別+聲紋識別兩種技術。語音識別是需要判斷讀出來的隨機數字是否正確,能一定程度上排除機器,聲紋識別的作用則要判斷是否活體、是否本人。之所以把認讀內容限制為數字,主要是避免遇到“文盲”。

據悉,識別的準確率受場景、內容、語句長短影響,李亞桐告知,在養老基金這個項目中,可以做到99.5%以上的準確率。當然,倘若人因故聲音沙啞,勢必影響結果。“但聲紋並不是唯一的驗證方式,未來安全方面的趨勢,一定是採取視覺、聲紋、指紋等多因素綜合驗證。”李亞桐表示。

此外,值得一提的是,Voice AI並不是只做聲紋識別,前段的麥克風陣列、信號處理、語音識別等團隊都有自研技術。

比如,Voice AI服務了某知名油煙機廠商,為其輸出語音指令控制模塊。再比如,在某電力項目中,Voice AI幫企業做語音轉文字的部分。

李亞桐告知,Voice AI現處於項目制落地行業的階段,目前側重大金融、智能硬件等方向。金融主要是反欺詐場景,確定“你是不是你”,建立欺詐者的聲音黑名單庫;智能硬件則是語音控制模塊,已經服務的油煙機廠商是按照“一次性開發費+出貨量抽成費計算”。

據瞭解,Voice AI團隊現在13人。創始人兼CEO李亞桐2005年本科畢業於南開大學,2016年獲香港中文大學工商管理碩士學位,多年從業於身份安全及生物識別領域,曾為國內外多個公共安全、外交、金融、電子證件等商業項目提供基於生物特徵識別的身份安全解決方案。CTO陳東鵬博士於2010年本科於中國科學技術大學,2015年獲香港科技大學計算機科學與工程博士學位,隨後在聯想香港研發中心從事語音、數據挖掘和自然語言理解的研究工作,曾在IEEETASLP, ICASSP, Interspeech等語音領域的國際頂級期刊和會議發表多篇文章。

公司於今年春節獲得個人投資的天使輪融資,目前已啟動Pre-A輪。


分享到:


相關文章: