雲知聲攜手國家電網及平安好醫生打造行業一流水準聲紋系統科技頭條網

2019-01-28 11:31:08 AI第一線

聲紋識別(Voiceprint Recognition，VPR)也稱說話人識別，是一種通過聲音判別說話人身份的技術，分為說話人辨識和說話人確認。前者用以判斷某段語音是若干人中的哪一個所說的，即“ N 選一”；後者用以確認某段語音是否是指定的某人所說，是“1對1匹配”問題。不同的任務和應用會使用不同的聲紋識別技術，如縮小刑偵範圍時可能需要辨認技術，而銀行交易時則需用到確認技術。

雲知聲在聲紋技術領域深耕多年，是國內為數不多具備全棧語音技術能力的人工智能公司。早在 2004 年，尚就職於摩托羅拉公司的雲知聲創始人黃偉博士便帶領團隊研發出世界上第一款手機聲紋認證系統，搭載該系統的相關產品總計銷量超 2 億臺。

雖然聲紋識別優勢明顯，但要想準確分辨聲音特徵卻並非易事。首先，聲紋識別系統性能會受用戶發聲狀態影響，如用戶的身體狀況、情緒等都會影響識別準確度。其次，環境的嘈雜度，以及採集、傳輸音頻的硬件配置，都會在不同程度上對識別系統行成干擾。為解決上述問題，雲知聲聲紋技術團隊進行了一系列技術攻堅與創新。

首先，依託雲知聲強大的語音信號前端處理技術，如 VAD、語音降噪等，準確地捕捉到人聲並進行背景噪聲消除。

其次，雲知聲將 DNN 引入到傳統聲紋識別 ivector 技術框架中，並融合最新端到端聲紋識別技術，基於雲知聲超算平臺和海量聲紋訓練數據，使得模型得以學習到數萬說話人，每人多種發聲的特性，且在雲端針對每個用戶採用說話人自適應技術，達到越用越好的效果。在信道處理上，採用 PLDA 信道補償技術，可將信道影響降到最小。