CCF BDCI TOP3團隊參賽經驗:知識與實踐融合,在試錯中成長

導讀

在短視頻如此迅猛發展背後,侵權問題卻也愈發嚴重,由於互聯網信息的開放與共享特性,數字產品很容易進行復制、傳播、篡改,一些不法分子利用如今越來越簡易的視頻編輯軟件,把原視頻篡改後變為一個新視頻發佈,這種行為對原視頻作者和視頻製作公司的相關權益造成了嚴重侵犯。

本次愛奇藝與CCF聯合舉辦的“2019CCF大數據與計算智能大賽-視頻版權檢測”賽道,針對侵權行為出現多樣化及規模化特點,將考察選手經過複合變換後的短視頻關聯到對應長視頻的算法效果,其中不僅要找到短視頻的原始長視頻,還要計算出對應的時間段,同時算法模型中圖像特徵具有一定魯棒性,並且有較快執行速度和併發能力。


方案策略

本次“視頻版權檢測”賽道,老梁團隊團隊獲得TOP3的成績,他們的方案策略是:首先,構建參考視頻幀級特徵庫,之後使用短視頻的幀特徵在特徵庫中進行檢索通過匹配策略找到長視頻,再逐幀比對特徵確定侵權段,方案由特徵提取、被侵權視頻檢索,被侵權視頻段定位三部分組成。在特徵提取階段中,老梁團隊採用Hessian Affine特徵提取+SIFT描述子提取局部特徵,然後採用Fisher vector將局部特徵編碼為二進制的全局特徵。之前的工作證明,用該方式提取特徵具有很好的區分度和魯棒性。其次,為了排除同時處理多個參考長視頻對檢測定位精度的影響,老梁將整個版權檢測過程分為兩個階段:在第一階段中,他採用求帶權二部圖的最大匹配的方式,找到與查詢短視頻能在一對一幀匹配的約束下,匹配權重和最大的長視頻。之後在該長視頻中,通過找到在密集匹配約束下的最長遞增子序列來精確定位侵權段,即在該階段匹配幀對時,不僅要求其滿足一對一的約束關係,同時要滿足匹配在時間上的順序性和密集性。

實驗證明,老梁團隊的方案具有良好的性能和檢測精度。最終檢測精度採用F1-score進行評價,即針對每個待檢測侵權視頻,如果正確匹配侵權長視頻ID,並且起止時間段匹配誤差在指定閾值以內,認定為預測結果正確,用TP表示;錯誤匹配長視頻ID或者起止時間段誤差超過指定的閾值,認定為預測結果錯誤,用FP表示;未進行預測數據及預測錯誤數據,用FN表示。在初賽時匹配誤差閾值為5s,複賽時為3秒。通過前面的統計值計算precision和recall,如下式。


CCF BDCI TOP3團隊參賽經驗:知識與實踐融合,在試錯中成長


再由precision和recall計算出F1-score,如下式。


CCF BDCI TOP3團隊參賽經驗:知識與實踐融合,在試錯中成長


針對複雜的query短視頻幀級變換,老梁團隊的方案選取了具有高可區分度、高魯棒性的特徵提取方法。同時在不同階段採用不同粒度的幀抽樣方法,解決丟幀、混剪等視頻級變換對檢測精度的影響。並且他發現,如果同時處理檢索到的多個參考長視頻,很難精確的定位侵權段。為了將匹配精度控制在誤差範圍內,老梁將整個檢測過程分為兩個階段,在第一個階段,逐幀用查詢特徵在參考特徵庫中檢索相似特徵,對所得到的多個長視頻序列進行過濾,找出匹配權重和最高的視頻序列作為被侵權視頻,並在第二階段中精準定位該視頻的被侵權段。最終老梁團隊的方案在複賽測試集中取得的最優得分為 0.9086位列第4。


方案介紹


老梁團隊的檢測系統框架如後文圖1所示,更為詳細直觀的示意圖請掃描圖中二維碼查看。他的檢測系統主要包含以下幾個過程:

(1)特徵提取,分別提取參考視頻和查詢視頻的幀級特徵;

(2)建立索引,用於快速檢索特徵;

(3)被侵權視頻檢測,在索引庫中檢測幀特徵並計算參考視頻id;

(4)侵權段定位,更換特徵相似度計算方式,精準定位被侵權視頻段。


2.1 特徵提取

老梁團隊對視頻幀抽樣後的每幀用Hessian Affine特徵提取+SIFT描述子形成局部特徵,然後採用Fisher Vector將局部特徵編碼為二進制的全局特徵描述子。如文獻[1]中所述,這種提取特徵的方式更具有魯棒性和區分度。同時,隨著深度學習技術的興起,出現了一些基於深度網絡的視頻幀特徵提取方法,為了避免手工特徵存在的語義鴻溝等問題,老梁也嘗試了將深度特徵(RMAC特徵描述符[2])作為補充,融合兩種特徵的檢索得分。


CCF BDCI TOP3團隊參賽經驗:知識與實踐融合,在試錯中成長



CCF BDCI TOP3團隊參賽經驗:知識與實踐融合,在試錯中成長


為了準確找出被侵權的參考視頻段,排除同時處理多個參考視頻對定位精度的影響,本方案將整個檢測流程分為兩個階段,第一階段找出被侵權的參考長視頻。第二階段精準的定位被侵權視頻段。


CCF BDCI TOP3團隊參賽經驗:知識與實踐融合,在試錯中成長


對於第一階段老梁團隊採用faiss[3]在粗粒度(每秒1幀採樣)層次對參考視頻構建二進制索引,在檢索時首先在索引庫中查找與當前查詢幀漢明距離最小的k(k=10)個參考幀。

然後,使用求帶權二部圖的最大匹配的思路尋找被侵權視頻,即在一對一的幀匹配的限定條件下,對檢索到的參考視頻集中的每個參考視頻段,求其與查詢視頻段形成的帶權二分圖中的最大匹配。將匹配權重和最大的參考視頻作為被侵權視頻。該部分參考了文獻[4] 。公式描述如下式:


CCF BDCI TOP3團隊參賽經驗:知識與實踐融合,在試錯中成長

式中:

M(I,K):第k個參考視頻與查詢視頻所組成的匹配對集合。

S(I,Qj),S(I,Rk):分別為M(I,K)中的查詢視頻段和參考視頻段。

qs,rt:為查詢視頻段的第s幀和參考視頻段的第t幀。

w(qs,rt):表示qs和rt之間的相似度。

m(qs,rt):表示qs和rt是否為MIk中的匹配對。

W(I,k):所得到的最大匹配的權重和。

採用最小費用最大流(MCMF)解決該問題。



CCF BDCI TOP3團隊參賽經驗:知識與實踐融合,在試錯中成長


對於第二階段,要完成對被侵權視頻段的精準定位。對第一階段獲得的侵權視頻id,提取對應參考視頻和查詢視頻的全局特徵描述及相關參數。運用文獻[1]中所提出的QAGS(Query-Based Asymmetric GaussianSkipping)的方式計算query與refer各個幀之間的相似度。在實驗中老梁發現,該方法比直接採用漢明距離計算相似度的準確率高很多。但同時他也發現該方法隨著幀抽樣粒度的細化,計算時間會指數倍增加。

之後對每個查詢幀獲取相似度最高的k個參考幀(k=10),需要注意到的是該階段在細粒度(5fps)層次進行幀匹配。根據文獻[4],將侵權視頻段的精準定位問題視為求二部圖的最長遞增匹配密集子序列,即在要求視頻幀是一對一匹配的基礎上,還要保證匹配的時間順序性和密集性。

首先把當前查詢幀qs檢索到的參考幀集,按照時間順序進行排序,並將其和組合為一個個匹配對,形成當前查詢幀qs的匹配集合M(II,S)={(qs,rt)|rt∈S(IIR)},將所有查詢幀形成的匹配合併為 M(II)。然後利用動態規劃的方法求出所有可能的最長遞增匹配子序列。

即對於MII中的每個匹配(qs,rt)將其視為匹配序列的結束點,需要判定在其之後是否存在一個匹配(qs',rt'),使得當前匹配的路徑長度L(s,t)+1>L(s',t')。如果存在則將(qs',rt')併入到序列當中,即P(s',t')=(s,t) ,並更新序列長度L(s',t')=L(s,t)+1以及序列權重和W(s',t')=W(s,t)+w(s',t')。同時需要注意到,當L(s,t)+1=L(s',t')且W(s',t')


CCF BDCI TOP3團隊參賽經驗:知識與實踐融合,在試錯中成長

圖2:最長遞增匹配子序列示意圖

可以看出所得到的匹配序列可能存在一些稀疏的離群匹配,之後通過比較匹配路徑中前後匹配之間的時間差排除掉這些匹配。示例如圖3所示。實驗中老梁發現,該方法一般所得到的匹配段都位於真實的匹配段內部,但是匹配序列長度普遍較短。所以他又對匹配段採用滑動窗口的方式進行雙向掃描。在迭代掃描的操作中,每次移動步長,尋找在時間窗口內滿足順序匹配約束的最大權重匹配對,若該匹配權重大於閾值,並將其作為新的起始(或結束)結點。


CCF BDCI TOP3團隊參賽經驗:知識與實踐融合,在試錯中成長

圖3:增加密集約束後所得到的匹配示意圖

實驗


3.1實驗環境及數據集

老梁團隊使用亞馬遜AWS的c5.4xlarge實例類型完成所有實驗,其包含16核3.6GHz Intel Xeon 可擴展處理器、32G內存。比賽數據集由三部分組成,參考視頻集包括200個視頻,為版權長視頻集,格式為mp4;訓練查詢視頻集包括3000個視頻,由參考長視頻生成;測試查詢視頻集包括1500個視頻,由參考長視頻生成。同時老梁隨機從訓練查詢視頻集抽取500個短視頻,作為驗證集。


3.2實驗結果

表1為一階段測試結果,老梁團隊分別在驗證集上測試Top-1、Top-3和Top-5的視頻檢測準確度。可以發現他的方案在top-1的準確率已經達到95.8%,並且老梁發現,如果取多個視頻進行二階段定位,雖然最終精度會增加,但是檢測時間也會成倍增長。


CCF BDCI TOP3團隊參賽經驗:知識與實踐融合,在試錯中成長

表1:一階段實驗結果


表2為整個方案流程的測試結果,老梁報告了方案在驗證集和測試集上的f1-score以及在測試集上的平均每個短視頻的檢測時間,其中匹配誤差閾值為3s。需要注意到的是,在這裡檢測時間僅做參照,因為方案的整體檢測時間受到了幀抽樣粒度、特徵維度、參考視頻數目等諸多條件的限制,尤其在精準定位時,時間會隨著幀抽樣粒度的增加指數倍增長,這是未來改進的重點。


CCF BDCI TOP3團隊參賽經驗:知識與實踐融合,在試錯中成長

表2:整流程測試結果


總結


本方案利用高魯棒性的特徵提取方式提取幀級特徵,並將版權檢測過程分為兩個階段,利用求二分圖匹配的思路獲得精確的檢測和定位結果。雖然老梁團隊的方案最終取得了較好的檢測精度,並在比賽中取得了不錯成績,但是在時間和效率方面存在很大的不足,特徵融合以及改進二階段的相似度計算方式或許可以突破本方案在時間上的瓶頸,這有待未來進一步探究。

致謝


在本次比賽中,從一開始的不知所措到慢慢找到狀態並晉級決賽,整個過程中讓我的專業素養和思考問題的方式都獲得了很大的提升。在實際中磨練自己所學的知識,將知識內化為自己的能力並運用是本次比賽中給予我的最寶貴的財富。紙上得來終覺淺,一篇優秀的學術論文並不一定會給應用帶來很大的實際提升,但是學會去粗取精,在不同的想法和思路中獲得啟示,並用實驗去驗證,不斷迭代最終形成最適合解決方案,在不斷的試錯中逐漸明白學術論文和實際應用之間的共性和差異,這些都是我在平時難以獲得的寶貴經驗。同時,在比賽中我也發現了自己編程方面的不足,是需要我未來努力加強的。感謝CCF BDCI為我們提供如此優質的平臺,感謝愛奇藝各位老師的辛勤付出,感謝為本次賽事默默付出的工作人員 ,十分傾佩你們認真、嚴謹的工作態度,希望以後我們還能在比賽中再次相見。

團隊簡介


TOP3選手,“小賈的老梁”團隊,本比賽唯一的一人成團。團隊的隊長兼隊員梁彥軍,目前就讀北京科技大學計通學院,為計算機技術專業研二年級學生,研究方向為圖像處理。


參考


[1]Araujo, A., & Girod,B. (2017). Large-scale video retrieval using image queries. IEEE transactionson circuits and systems for video technology, 28(6), 1406-1420.

[2]Du, S., Saha, A. K.,& Johnson, D. B. (2007, May). RMAC: A routing-enhanced duty-cycle MACprotocol for wireless sensor networks. In IEEE INFOCOM 2007-26th IEEEInternational Conference on Computer Communications (pp. 1478-1486). IEEE.

[3]Johnson, J., Douze, M.,& Jégou, H. (2019). Billion-scale similarity search with GPUs. IEEETransactions on Big Data.

[4]Yang, Y., Tian, Y.,& Huang, T. (2019). Multiscale video sequence matching for near-duplicatedetection and retrieval. Multimedia Tools and Applications, 78(1), 311-336.

"


分享到:


相關文章: