05.02 百度 PaddlePaddle AI 大賽冠軍林天威專訪:如何準確識別綜藝視頻中的「精彩片段」?

雷鋒網 AI 研習社按,在電視綜藝節目的攝製過程中,常常會出現十幾、二十多臺攝像機同時拍攝的情況,比如多臺攝像機跟拍一個藝人。這樣的一次跟拍耗時長,素材多,因此也給視頻的後期和剪輯帶來了非常多的不便,對於視頻剪輯人員來說也頗為枯燥和繁瑣。

這些視頻素材一般會經歷兩個剪輯過程:首先初剪所有的視頻素材,去掉明顯不可用的鏡頭,然後再精剪。但不論哪個過程,都需要導演和剪輯師在剪輯過程中時刻判斷哪些片段是需要留下來的,哪些片段能產生良好的觀賞效果。雖然視頻剪輯師們在識別「精彩鏡頭」方面有著豐富的經驗,但當素材量很大或者需要在同一時刻的數個鏡頭裡做出選擇時,他們仍需要花費不少精力。

針對上述的行業痛點,12 月 28 日,百度和科賽網聯合發起的「PaddlePaddle AI 大賽」正式開賽。本次大賽聚焦於電視綜藝行業,百度 BROAD 數據集提供了來自愛奇藝的 1500 條總共 1200 小時電視綜藝視頻。參賽選手們要利用百度 PaddlePaddle 分佈式深度學習平臺及 BROAD 公開數據集,通過訓練學習視頻幀的圖片特徵序列,輸出實際可用的影視行業預測精彩片段時間戳的算法模型,進而對任意一個未被標註精彩片段的長視頻,輸出其中精彩片段的時間戳,從而減輕視頻剪輯師的工作壓力。

百度 PaddlePaddle AI 大赛冠军林天威专访:如何准确识别综艺视频中的「精彩片段」?

經過 3 個月的角逐,來自上海交通大學自動化系計算機視覺實驗室的在讀研究生林天威在其導師趙旭老師的指導下獲得了本次 PaddlePaddle AI 開發者大賽冠軍,並受邀在百度 AI 開發者實戰營上發表演講。實際上,林天威已經是視頻分析和理解領域的「老手」,在去年CVPR舉辦的ActivityNet Large Scale ActivityRecognition Challenge 上,林天威就獲得了未修剪視頻序列時序動作提名(TemporalAction Proposal)和時序動作定位(Temporal Action Localization)兩項任務的冠軍。

理解視頻中人的動作和行為是計算機視覺領域裡非常具有挑戰性的問題,擁有很大的應用潛力。能夠在兩次視頻分析挑戰賽中奪得冠軍,林天威在視頻分析和處理方面有哪些獨到的經驗?雷鋒網 AI 研習社藉此機會採訪了林天威,向各位 AI 開發者分享他的學習和比賽經歷。

百度 PaddlePaddle AI 大赛冠军林天威专访:如何准确识别综艺视频中的「精彩片段」?

以下是雷鋒網 AI 研習社採訪內容:

請問你參加這次百度 PaddlePaddle AI 挑戰賽的初衷是什麼?

我讀研以來一直在做時序動作檢測領域的研究,百度提出的 BROAD 數據集正好也是做時序檢測任務的,所以我主要想通過 BROAD 數據集和這次競賽來檢測一下時序動作檢測領域算法在實際問題與場景的應用中能獲得怎樣的效果。

對於本次比賽而言,你覺得你的方案有哪些創新之處能讓你保持第一的成績?

此次競賽我直接使用了我近期投稿在 ECCV 的論文中的算法,其主要的創新之處是採用了由局部到整體(local to global)的算法框架,能夠獲得比較高質量的時序片段邊界。由於該算法在 BROAD 數據集上直接跑的效果很好,所以競賽中沒有做模型融合,也沒有添加額外的 trick。

比賽第一階段使用的是已抽取的 10% 的視頻訓練集,而第二階段使用的是全量視頻數據訓練集,這樣的變化給你的訓練帶來怎樣挑戰?

訓練時間以及訓練時需要的內存更大一些,其餘無影響。

視頻幀的特徵包括兩部分,一個是圖像的特徵,一個是語音的特徵,但本次比賽視頻幀特徵序列只從圖像抽取特徵,你覺得本次比賽的結果能否解決實際視頻分析中的問題?

實際上覆賽中可以使用語音的特徵。對於精彩片段檢測問題,由於定義和標註比較明確,所以此次競賽中大家的算法能獲得比較好的檢測效果,我覺得可以用於實際場景中。

本次分析綜藝視頻的技術和經驗能否應用於其他行業?比如安防?

此次競賽其實是「時序動作檢測」任務,我認為相關算法不太適合安防場景,因為安防場景通常需要:1)在線處理 2)同時定位圖像中的目標位置。相對來說,時序動作檢測算法更適合與這次競賽類似的網絡娛樂視頻的分析、檢測和推薦任務。

你曾經參加過 ActivityNet 視頻行為分類比賽並獲得了兩項任務的冠軍,那麼參加 ActivityNet 比賽的經驗對此次 PaddlePaddle AI 挑戰賽有哪些借鑑之處?

實際上兩者的任務非常相似(時序檢測),BROAD 數據集的標註、測評代碼也基本參考了 ActivityNet 中的設計。在 ActivityNet 和 PaddlePaddle AI 競賽中,獲得高質量結果都有兩個要點:(1) 時序檢測片段需要有精確的邊界;(2)時序檢測片段的置信度要準確,從而獲得良好的排序。

本次挑戰賽用到了百度 BROAD 的視頻數據集,你覺得該數據集和你以前接觸過的 ActivityNet、Kinetics、UCF-101、Moments in Time 等視頻數據集相比有哪些特點?開發者在使用BROAD 的視頻數據集訓練模型時需要注意哪些事情?

BROAD 數據集的標註分佈其實和 THUMOS-2014 比較像,但是包含的視頻數量要多一些。BROAD 數據集的優點是提供了質量不錯的特徵,缺點則是類別和場景比較單一,若作為學術場景中使用我覺得多樣性有些不足。

如果在用 BROAD 的視頻數據集訓練模型時,需要注意的點可能有:由於特徵文件比較大,所以可以先對特徵降採樣(比如五分之一),再運行後面的算法。

你在 ActivityNet 比賽裡獲得兩項任務的冠軍,同時在 PaddlePaddleAI 挑戰賽裡一直保持著第一的好成績,你有什麼好的比賽經驗或者建議可以分享給其他的開發者嗎?

我參加的這兩次競賽實際上都算是學術性比較強的競賽,而且我一直研究這個方向,所以對視頻分析比較熟悉。我的建議是,如果是學術類的競賽,還是要多看相關領域的論文;此外,在開始設計模型前,最好先對數據集本身的分佈情況做一個詳盡的分析。

通過這次比賽,你覺得百度的 PaddlePaddle 深度學習框架和其他的深度學習框架相比有什麼特點?

本次比賽中開放使用的版本(paddlepaddle0.10)我覺得可能比較適合生產場景部署吧,作為學術研究的話靈活性比較差。後續的 fluid 接口在這方面應該會好一些。

目前你還在上海交大讀研究生,畢業後你有怎樣的打算?準備往哪個方向發展?

畢業後計劃開始工作,個人希望進入安防或其他視頻分析相關的方向發展。

想查閱上文所提到的論文以及獲取更多視頻分析經驗,請訪問林天威知乎和個人主頁:

知乎:

https://www.zhihu.com/people/wzmsltw/activities

個人主頁:

https://wzmsltw.github.io/


分享到:


相關文章: