可歸類兩種作法

過去在多人聲分離領域,大致可歸類兩種作法:

一是採集大量的個人語音音檔,透過聲紋、頻率分離,目前在國際論文上,做到比較好的準確度以 2 人分離或者是 3 人分離為主。目前這種做法需要花大量的時間做客製化聲音的訓練。

二是透過物理麥克風陣列。主要是透過麥克風擺放的物理性解決問題,基本上用兩隻麥克風就能算出角位差,透過這樣的差距可以設計模型透過聲音的差異去分辨人的聲紋、方向等,但是兩隻麥克風有一個問題就是彼此距離稍微長,所以開始有人研究 3 只以上的策略,來縮小終端裝置的體積,不過普遍來看會有一個問題,當兩個頻率接近、而且站得近的人會不太容易分離,因此分離出來的聲音可能還是會遇上體驗不佳的情形。


分享到:


相關文章: