語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音分類

雷鋒網 AI 源創評論按:此前,AI 研習社(https://god.yanxishe.com)陸續推出了醫療、美食、安全等多個領域的圖像識別挑戰賽以及 NLP 方向的挑戰賽 30 餘場。在這過程中,各位 AI 大神在各個挑戰賽中不僅進一步提升了自己的編程實力,也為更多開發者留下了令人印象深刻、受益匪淺的作品。

據一些大神選手反饋,可以肯定的是比賽主題選取都很新穎且有實際意義,只是現在的他們已經不再滿足於初級難度的挑戰啦,並詢問我們是否能夠推出難度更高的比賽呢?

當然沒問題!這不,難度再次升級的「50 種環境聲音分類」的語音識別挑戰賽,來了!

语音识别 AI 挑战赛上线:用深度学习三种结构,对 50 种环境声音分类

深度學習與語音識別

在目前大多數語音識別應用中,深度學習是較為常見的一種方法。它通過模仿人腦結構,建立起了一個深層神經網絡;通過輸入層輸入數據,由低到高逐層提取特徵,建立起低級特徵到高級語義之間複雜的映射關係。

從而實現對輸入的複雜數據的高效處理,使機器可以像人一樣智能地學習不同的知識,並且有效地解決多類複雜的智能問題;例如:語音識別、圖像視頻識別、語言處理和信息檢索等領域。

根據深層神經網絡的構造方式、訓練方法等因素,我們將深度學習分為了 3 大類別:生成深層結構、判別深層結構以及混合深層結構。

语音识别 AI 挑战赛上线:用深度学习三种结构,对 50 种环境声音分类

深度學習與語音識別

深層神經網絡結構

一、生成深層結構

美國哲學家喬姆斯基將語言的結構分為「深層結構」和「表層結構」兩種結構。語言按一定的短語規則和句子規則生成深層結構 (語義介入),而深層結構經轉換規則處理後變成表層結構 (語音介入),於是轉換為了人類看得見聽得懂的話語。

而生成深層結構則是使得機器能夠通過學習觀測數據高階相關性,或觀測數據和關聯類別之間的統計特徵分佈來實現模式分類,從而轉換為機器可以識別語言的一類深層結構。

语音识别 AI 挑战赛上线:用深度学习三种结构,对 50 种环境声音分类

DBN 的組成元件是受限玻爾茲曼機(RBM)

生成深層結構的代表模型是由 Geoffrey Hinton 在 2006 年提出深度信任網絡(Deep Belief Networks,DBN)。它由多層神經元構成,通過一層一層訓練其神經元間的權重,可以讓整個神經網絡按照最大概率來生成訓練數據。

此外,該模型除了可以使用 DBN 識別特徵、分類數據之外,它還可以被用來生成數據。

參考文獻:

《A Fast Learning Algorithm for Deep Belief Nets 》by Geoffrey E. Hinton and Simon Osindero.

https://www.mitpressjournals.org/doi/pdfplus/10.1162/neco.2006.18.7.1527

二、判別深層結構

判別深層結構是通過直接學習不同類別之間的區分表達能力來實現模式分類的一類深層結構。其代表模型是卷積神經網絡(Convolutional Neural Network,CNN)。

目前在語音識別方向,deep cnn 算是其中較為熱門的方向,這和 CNN 的三個重要的思想架構,包括:局部區域感知、權重共享、空間或時間上的採樣有著極強的關聯。

语音识别 AI 挑战赛上线:用深度学习三种结构,对 50 种环境声音分类

CNN 模型

我們知道在通常情況下,語音識別都是基於時頻分析後的語音譜完成的,而其中語音時頻譜則具有較強的結構特點。而卷積神經網絡恰好提供了在時間和空間上的平移不變性卷積,將這一思想應用到語音識別的聲學建模中,則可以很好的克服語音信號本身的多樣性。

從這一角度來看,CNN 可以視為將整個語音信號分析得到的時頻譜,當作一張圖像來處理,然後再採用圖像中廣泛應用的深層卷積網絡對其進行識別。

參考文獻:

《ImageNet Classification with Deep Convolutional Neural Networks》by Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton.

http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

三、混合深層結構

混合深層結構是將上述生成深層模型和判別生成模式相結合而成的一類深層結構。在大部分混合深層模型訓練中,生成單元首先將模型參數初始化為近似最優解,再使用判別單元全局微調,從而解決高度複雜問題的建模與推廣問題。

例如:使用連續受限玻爾茲曼機(continuous restricted Boltzmann machine,CRBM)代替 RBM 對連續數據建模;將傳統 CNN 與貪心逐層無監督學習算法結合從而提高有標籤數據稀少時特徵提取器的訓練性能;用預訓練算法(CD 算法)提高 RBM 的訓練效率;或是採用全局優化算法解決深層神經網絡模型中收斂速度慢、易於過擬合等問題。

這一結構往往更加複雜,但最終取得的效果也更佳。曾有一些研究者在遷移學習的基礎上,將深度學習和機械學習相結合、並可在前端嵌入式實現的算法,使得最終環境聲音識別準確率達到 88%(比此前全球最佳算法提高了近 2 個百分點)。

语音识别 AI 挑战赛上线:用深度学习三种结构,对 50 种环境声音分类

混合深層結構語音識別結果對比

50 種環境聲音分類

在語音識別中,通常我們根據不同識別側重點,將任務細化為不同類別,如:音樂流派識別、說話者識別、說話者性別分類、語音種類分類等,從而提高語音識別的準確率。

在本次 AI 研習社(https://god.yanxishe.com/)推出的挑戰賽中,我們選取了語音種類分類中的「50 種環境聲音分類」主題。

语音识别 AI 挑战赛上线:用深度学习三种结构,对 50 种环境声音分类

開始時間:2020-2-21 09:00:00

結束時間:2020-3-20 23:59:59

本次比賽需要選手準確識別 5 種大類,共計 50 種小類的音頻,每個音頻文件時長 5 秒,格式為 wav。數據集來自 freesound.org 公開項目,從中手動提取,訓練集共計 1600 個,測試集 400 個。

语音识别 AI 挑战赛上线:用深度学习三种结构,对 50 种环境声音分类

5 大類語音分類詳情

其中數據集詳細文件格式如下所示:

文件名命名:{FOLD}-{CLIP_ID}-{TAKE}-{TARGET}.wav

  • {FOLD} -索引

  • {CLIP_ID}-原始剪輯的 ID

  • {TAKE} -在同一剪輯的不同片段之間進行歧義消除的字母

  • {TARGET} -類別-數字格式 [0,49]

數據集下載鏈接:

https://static.leiphone.com/sound_classification_50.zip

評審標準與獎金

最終提交結果文件如下所示,其中,第一個字段位:測試集 ID(注意 ID 即文件名是從 0 開始的);第二個字段:類別-數字 [0,49]。

Ps:結果文件建議使用 UTF-8(BOM)編碼~

(答案示例圖片使用 Notepad++打開)

整個比賽的評審完全透明化,我們將會對比選手提交的 csv 文件,確認正確分辨圖片數據,並按照如下公式計算得分,其中:

  • True:模型分類正確數量

  • Total :測試集樣本總數量

本次大賽依舊提供了基礎獎金池為 3000 元,共設置了三種獎項,包括:參與獎(30%)、突破獎(20%)、排名獎(50%);以上三種獎項均互不衝突,只要你足夠秀,全部拿走也是沒問題的!

语音识别 AI 挑战赛上线:用深度学习三种结构,对 50 种环境声音分类

每日 24:00,我們也會將最新結果更新在官網排行榜上,你可以隨時隨地查看自己的排名情況。

更多信息,可進入參賽主頁查看:

https://god.yanxishe.com/37

雷鋒網 AI 源創評論 雷鋒網


分享到:


相關文章: