亞馬遜發佈 Web 視頻分類新框架:1

雷鋒網 AI 源創評論按:近日,亞⻢遜、⼈⼯智能初創公司 SenseTime 與⾹港中⽂⼤學的研究⼈員,共同開發出了⼀個利⽤ Web 數據的新框架——OmniSource,該框架在視頻識別領域創造了新記錄。

通過解決圖像、短視頻和⻓時間未剪輯視頻等數據格式之間的不兼容,並採⽤數據平衡等方法,OmniSource 能夠⽐最先進的模型更準確地對視頻進⾏分類,但其使⽤的數據卻少了 100 倍。

亚马逊发布 Web 视频分类新框架:1/100 数据量,精度赶超最优模型

OmniSource 工作原理

研究⼈員指出,通常收集訓練視頻分類算法所需的數據既昂貴⼜費時,因為視頻通常包含⼀個或多個主題的多個鏡頭,因此分類時必須完整觀看它們,然後⼿動將其剪切成⽚段,再仔細添加標註。

亚马逊发布 Web 视频分类新框架:1/100 数据量,精度赶超最优模型

OmniSource 的體系結構圖

而 OmniSource 是以集成的⽅式利用各種來源(搜索引擎,社交媒體)的各種形式 Web 數據,例如:圖像、剪輯視頻和未剪輯視頻。然後,AI 系統過濾掉低質量的數據樣本,並對那些通過其集合的數據樣本(平均為 70% 至 80%)進行標記,對每個樣本進行轉換以使其適⽤於⽬標任務,同時提高分類模型訓練的魯棒性。

在給定識別任務後,OmniSource 會獲取所有分類中每個類名的關鍵字,並從上述來源中抓取 Web 數據,並⾃動刪除重複數據。而對於靜態圖像,要預先準備這些圖像,用於聯合訓練期間使⽤,它會通過利⽤移動攝像機使它們⽣成「偽」視頻。

在聯合訓練階段,⼀旦將數據過濾並轉換為與⽬標數據集相同的格式,OmniSource 就會權衡 Web 和⽬標語料庫,然後採⽤跨數據集混合方法,將其中包含的示例對及其標籤⽤於訓練。

更少的數據,更高的精度

在聯合訓練這個階段,據研究⼈員報告稱,當用 OmniSource 從頭訓練視頻識別模型時,儘管微調效果不佳,但交叉數據混合所取得的效果很好。

而在測試中,團隊使⽤了三個⽬標數據集:

  • Kinematics-400,其中包含 400 個分類,每個分類包含 400 個 10 分鐘的視頻;

  • YouTube-car,其中包含數千個視頻,展示了 196 種不同類型的汽⻋;

  • UCF101,包含 100 個剪輯片段和 101 個類別的視頻識別數據集;

亚马逊发布 Web 视频分类新框架:1/100 数据量,精度赶超最优模型

Web 數據集分佈。(a)-(c) 顯示了三個 Web 數據集在過濾前後,各個類別數據分佈中被可視化。(d)給出了 GG-K400 過濾出的圖像(青色框)和剩餘圖像(藍色框)的樣本。雖然成功過濾出了很多不合適的數據,但這使得各類別的數據分佈更加不均

關於網站資源,研究人員從 Google 圖像搜索中收集了 200 萬張圖像,從 Instagram 收集了 150 萬圖像和 500,000 個視頻,以及從 YouTube 收集了 17,000 多個視頻。結合⽬標數據集,所有這些都被輸⼊到一些視頻分類模型中。

據報告顯示,在沒有進行訓練時,只有 350 萬張圖像和 80 萬分鐘的視頻可以從互聯⽹上爬取而得,結果不及先前工作的 2%。而在 Kinetics-400 數據集上,經過訓練的模型則顯示出⾄少 3.0%的準確性提,精度⾼達 83.6%。同時,該框架下從零開始訓練的最佳模型在 Kinetics-400 數據集上,達到了 80.4%的準確度。

可擴展的視頻識別技術

OmniSource 論⽂的作者表示,與最先進的技術相⽐,該框架可以通過更簡單(也更輕巧)的主⼲設計以及更⼩的輸⼊量來實現可持平甚至更好的性能。OmniSource 利⽤了特定於任務的數據集,並且數據效率更⾼,與以前的⽅法相⽐,它⼤⼤減少了所需的數據量。此外,框架可推⼴到各種視頻任務中,例如:視頻識別和細粒度分類等。

亚马逊发布 Web 视频分类新框架:1/100 数据量,精度赶超最优模型

圖⽚來源:Reuters / Thomas Peter

未來,OmniSource 或許還可以應⽤於私⼈和公共場所的安全攝像機中。或者,它可以為諸如 Facebook 之類的社交網站,提供視頻審核算法所需的設計信息與技術。

原文地址:

https://venturebeat.com/2020/04/02/amazon-sensetime-omnisource-framework-web-data-video-recognition/

OmniSource 論文地址:

https://arxiv.org/pdf/2003.13042.pdf

雷鋒網 AI 源創評論 雷鋒網


分享到:


相關文章: