愛奇藝短視頻分類技術解析

簡介

近年來,短視頻領域一直廣受關注,且發展迅速。每天有大量 UGC 短視頻被生產、分發和消費,為生產系統帶來了巨大的壓力,其中的難點之一就是為每個短視頻快速、準確地打上標籤。為了解決人工編輯的時效和積壓問題,自動化標籤技術成為各大內容領域公司都非常關注的關鍵課題。短視頻大規模層次分類作為內容理解技術的一個重要方向,為愛奇藝的短視頻智能分發業務提供著強力支持,其輸出被稱為“類型標籤”。

以下是我們對一條愛奇藝短視頻的分類效果:

愛奇藝短視頻分類技術解析


算法結果:遊戲 - 題材 - 角色扮演,與人工結果一致。其實“漫威”、“蜘蛛俠”這類 IP 的作品既可能是“影視”也可能是“遊戲”,或者其他周邊,如果缺乏背景知識,人工也不容易做出準確的分類,但是模型由於見到了足夠多的樣本,反而比單個人工有更大概率做出正確判斷,在一定程度上體現了集體智慧和算法的優勢。

類型標籤在愛奇藝內部有著廣泛的應用。

短視頻生產領域,類型標籤從視頻的生成、准入、審核、標註等多個方面發揮著重要作用。

  • 標籤自動化:部分標籤的準確率已經達到 95% 以上,這部分標籤已經用算法結果替代人工標註,減少了大量標註人力,提高了視頻生產效率;
  • 頻道自動化:目前的頻道由上傳者填寫,上傳者會投機取巧亂填頻道導致頻道混亂,影響用戶的使用體驗,使用類型標籤替換頻道,提升了頻道的分類準確率。

由於準確率很高,短視頻生產系統樂高已經部分將自動化標籤代替人工標籤,並推送到各個業務線,支持著大量業務的智能運營策略。

個性化推薦領域,已使用算法生成的類型標籤全面替代人工標註的頻道,成為推薦系統最重要的基礎數據之一,在以下的策略中發揮了重要作用。

  • 多樣性控制:使用標籤完成多樣性控制,減少相似內容對用戶帶來的疲勞,提升播放時長等關鍵業務指標和多樣性等生態指標;
  • 用戶畫像:基於標籤完善用戶的長期興趣和短期興趣,提升用戶畫像的完整性、準確性和可解釋性;
  • 召回:增強無用戶行為的新視頻的分發能力,提升用戶興趣探索階段的泛化性,提升用戶的負向興趣過濾的泛化性,從而提升用戶體驗;
  • 排序:基於畫像的用戶興趣和視頻類型標籤作為模型的特徵,增強排序模型的排序效果。

本文將詳細介紹愛奇藝短視頻大規模層次分類算法。

技術難點

分類體系複雜

短視頻分類體系是一棵人工精心制定的層次結構,體系和規則都比較複雜:層級最少有 3 級,最多有 5 級,總計近 800 個有效類別,類別間有互斥和共同出現的需求。

愛奇藝短視頻分類技術解析


需要文本、圖像、生態信息等多模態特徵綜合判斷

短視頻具有標題、描述、封面圖、視頻、音頻等媒體信息。同時,一個短視頻也不一定是獨立存在的,它可能來自一個影視、綜藝片段,它的上傳者可能是一個垂直領域的內容貢獻者,所以,關聯正片、視頻來源、上傳者等信息對分類也可能有幫助。

解決方案

短視頻分類可以分為特徵表示 (Feature Representation) 和層次分類 (Hierarchical Classification) 兩個模塊,前者基於多模態特徵建模短視頻的整體表達(在我們的模型中通過 Feature Representation 和 Representation Fusion 兩個子網絡級聯建模完成),後者基於前者完成分類任務。我們模型的整體結構如下圖:

愛奇藝短視頻分類技術解析


下文將分別介紹這兩個模塊。

特徵表示模塊

短視頻的特徵種類和形態各異,只有正確使用這些信息才能提升模型效果的天花板,下文將介紹各種特徵表示的建模方式以及融合方式。

01 文本表示

短視頻一般都有一個代表其視頻意義的簡短標題和更為詳細的描述信息,通過對這些人工抽象出的文本信息進行分類會比直接從視頻學習出分類更容易。下文將首先介紹業界常見的文本表建模方式,然後分享在我們任務中採用的方案。

業界常見建模方式:

1.BOW

Bag-of-words model 忽略掉文檔的語法和語序等要素,將其僅僅看作是若干個詞彙的集合,每個單詞的出現都是獨立的,由一組無序的單詞 (words) 來表達。實際操作上可以直接使用線性分類(單層 NN,下左圖)或者嵌入到一個詞向量空間中進行 AVG 等操作後再進行分類(CBOW,多層 NN,下右圖)。由於模型假設文檔是一個詞袋,忽略了出現的順序和組合,所以在構建特徵時,可以考慮將表示了詞組的 ngram 和詞共現的組合特徵放入模型中,提高模型的效果。

優點:建模容易,性能好,在使用了大量人工構造的特徵後也可以達到極佳的效果。

缺點:過渡依賴人工特徵的構造,構造的人工特徵可能因為過大,在模型訓練上帶來困難。

愛奇藝短視頻分類技術解析


2.CNN

利用 CNN 對文本建模表示進行分類是源自圖像領域 CNN 取得的巨大成功,但是在文本領域僅用 CNN 進行文本建模效果並不突出。CNN 通過不同大小的 filter 對有序的詞向量進行卷積操作,以期望模型能夠從中學到不同大小的 ngram 信息,並且通過 pooling 操作(一般是 max-pooling),找到最強的信號,作為該文本的表示。

優點:建模比較容易,性能不差。

缺點:模型效果上限較低,對長距離共現信息建模較差。

愛奇藝短視頻分類技術解析


3.RNN

利用 RNN(GRU/LSTM)進行文本建模,理論上具有最高的天花板,在實操上效果也介於 CNN 和精選了人工特徵的 BOW,以 LSTM 為例,其不僅對詞序敏感,並且具有長短記憶功能,能夠將短距離的 ngram 信息和長距離的共現信息學習到。

優點:模型效果上限高,效果較好。

缺點:建模和訓練較難,運行時間慢,在大數據集訓練實用性不高。

愛奇藝短視頻分類技術解析


4.Attention

使用 Attention 可以對長距離的共現信息進行建模,並且能夠識別整個序列中最為關注的部分,該技術可以和上述的 CNN 和 RNN 這種與序列有關的技術配合使用,能夠取得更好的效果,下圖是典型的基於點積的(多頭)注意力機制。

優點:建模難度一般(Attention 實現方式多種多樣),幾乎總是能夠提升模型效果。

缺點:無明顯缺點,可以和其他模型共用。

愛奇藝短視頻分類技術解析


我們的建模方式:

權衡模型的執行效率和效果,最終類型標籤採用的是 BOW 和 CNN+Attention 方式完成文本表示的建模。

1.CBOW 與人工特徵構造

前面已經提到 BOW 在使用了大量人工構造的特徵後也可以達到極佳的效果,所以我們也嘗試了很多人工 / 機器構造的特徵:

(1) 字、詞特徵,用以提高模型的泛化能力

(2) Ngram 特徵,提供片段特徵

(3) 詞對特徵,提供遠距離組合特徵

(4) 經過 gbdt 學習到的組合特徵,更高維的組合特徵

(5) 一些 ID 類的離散特徵我們也一起和字和詞組合到一起

2. 帶位置信息的 CNN

普通的 TextCNN 使用的 Max Pooling 是全文進行,忽略了文本表達的順序信息,我們將 Max Pooling 以一定步長進行,提取出每個位置上的文本表示。

愛奇藝短視頻分類技術解析


3.Self-Attention

基於 CNN 提取出的帶位置信息的文本表示,我們加入 Attention 結構,組合不同位置的文本表示,並且讓模型識別應該關注哪個部分。

愛奇藝短視頻分類技術解析


02 圖像表示

短視頻數據存在的文不對題、標題描述類型區分力弱的問題,這些問題都對模型的學習帶來較大的困難。封面圖作為從短視頻中精選的一幀,能夠在一定程度上代表短視頻主題的意義,並且與文本具有互補性,如果能夠從其中識別圖像表徵,補充到類型標籤分類任務,應該能夠提升模型的分類效果。

表達融合方式:

對圖像進行表徵,並融合到分類模型中,目前業界非常流行的做法是基於預訓練的 ImageNet 模型在訓練數據較少的目標任務上進行遷移學習,有 3 種方式:

  1. 特徵抽取
  • 實現方式:把 ImageNet 預訓練的模型作為特徵抽取器,將模型的某一層或者某幾層特徵作為類型標籤模型特徵提取源。
  • 優點:預訓練模型容易獲取,不需要訓練模型,只需要進行特徵抽取,上線速度快。
  • 缺點:模型效果差,需要選擇抽取那一層的輸出作為抽取的特徵,需要保留的特徵如果很多的話,特徵保存的開銷會很大。
  1. FineTune+ 特徵抽取
  • 實現方式:把 ImageNet 預訓練的模型以類型標籤為目標進行 FineTune,然後將模型的某一層或者某幾層特徵作為類型標籤模型特徵提取源(因訓練目標一致,一般選擇最後一層即可達到較好的效果)。
  • 優點:模型效果好,輸出的特徵維度低,容易儲存。
  • 缺點:FineTune 耗時較大。
  1. 模型融合
  • 實現方式:把 ImageNet 預訓練的模型嵌入到類型標籤的模型當中,讓圖像的表示和其他特徵的表示同時進行訓練。
  • 優點:效果最好,End2End 完成最終的上線模型。
  • 缺點:模型訓練調參困難,並且耗時巨大。

基於上述 3 種方式的介紹和分析,我們嘗試了 1、2 兩種方式,最終採納了第 2 種方式。

模型選擇:

圖像模型的好壞直接影響到最終提取的圖像特徵的效果,需要選擇一個效果與效率都很高的模型來完成我們的任務,在項目中我們嘗試了 ResNet50 和 Xception 兩個模型,並且最終選擇後者,後者在我們的場景中訓練、預測耗時接近,Accuracy 高 3%。

愛奇藝短視頻分類技術解析


特徵融合:

通過上述不同的特徵表達方式,每一種特徵都被映射為了一個向量,一種好的特徵融合方式可以提升表示的整體效果,為此我們嘗試了 3 種方案,並最終採用了 LMF 模型。

1.Concatenate

顧名思義,這種方式就是將每種表達連接到一起後連接全連接學習整體的表達,這種方式簡單,並且能夠提供一個不錯的基線。

愛奇藝短視頻分類技術解析


2.CentralNet[6]

該模型藉助多任務對每個模態的表達進行約束,以期 Fusion 後的表達能夠獲取更好的泛化能力,相對於 Concatenate 有 1% 的效果提升,模型示例如下:

愛奇藝短視頻分類技術解析


3.LMF[7]

LMF(Low-rank Multimodal Fusion) 通過將 N 個模態的外積運算近似等價為內積和按位相乘的運算實現特徵的全組合,相對於 CentralNet 有 0.2% 的效果提升,模型示例如下:

愛奇藝短視頻分類技術解析


層次分類模塊

下文將首先介紹業界常見層次分類建模方式,然後分享在我們任務中採用的方案。

業界常見建模方式:

對於層次分類,業界常見的有 4 大類方法。

1. 彈珠機模型

分類樹的每個非葉子節點都有一個獨立的模型,利用分類信息做數據的劃分。優點是擴展性好,但是由於僅從樣本維度使用層次信息,未能共享特徵表達,而且模型數量和層次結構體系對應,在我們的應用場景中,需要數量巨大的獨立模型,代表論文 [1]。以下圖為例,預測過程為:

(1) 模型 1 預測為影視

(2) 模型 2 預測為電視劇

(3) 模型 3、模型 4 分別預測為古裝和解讀

愛奇藝短視頻分類技術解析


2. 級聯策略

低層級模型的輸出作為高層級模型的特徵,僅從分類結果維度使用層次信息,信息利用率低,實驗效果不佳。代表論文 [2],[3]。

3. 正則化約束

通過正則化約束,通過讓有上下級關係的分類模型的參數具有符合該正則化約束的相似性,正則化方式通過人工先驗知識確定,無法讓模型學習,正則化罰項超參也需要人工調整,實驗代價大,效果不佳。代表論文 [4]。

4. 多任務

將各層級分類的多個任務合併,以共享模型參數方式學習模型的層次結構,共享樣本信息和模型參數,使用合併的 Loss 驅動模型調整參數,完成層次結構信息的使用。代表論文 [5]。

我們的解決方案:DHMCN

(Dense Hierarchical Multilabel Classification Network)

結合實際應用場景,經過多次迭代升級,形成了最終的解決方案。

V1:上文提到的多任務模型(HMC):其核心思想可以簡化為採用多任務來分別學習一級、葉子的 global 和 local 表示。

V2:借鑑 DenseNet 的思想,嘗試讓層級間的連接更加的豐富,讓模型更加容易收斂,而不會陷入局部最優解。下圖是一個可視化的解釋:

愛奇藝短視頻分類技術解析


下圖為我們構建的基於多任務的層次分類網絡:

愛奇藝短視頻分類技術解析


其中:

  • X 是短視頻的表達,具體構建方式前文已經介紹
  • AG1和 AG2分別表示 Global 的 1 級和末級分類的隱層表達,PG表示 Global(所有)的分類概率
  • AL1和 AL2分別表示 Local 的 1 級和末級的分類的隱層表達,PL1和 PL2分別表示 1 級和末級分類的概率
  • 訓練的 Loss 由 PG,PL1和 PL2三者與 GroundTruth 計算交叉熵得出
  • PF表示合併了 Local 和 Global 的最終分類概率

V3:借鑑級聯策略,用一級表示形成權重去指導葉子節點的分類,這樣葉子節點就只用專注在某一級的內部去分類,相當於把其他無關的分類全 mask 掉。

愛奇藝短視頻分類技術解析


這是一個端到端的自動學習,我們通過可視化權重,發現學習到的 Reweight Vector 符合我們的預期:模型在預測出一級分類為 19 號分類時發現應該提升該分類對應的葉子分類的置信度(如下圖)。

愛奇藝短視頻分類技術解析


後續工作

  1. 對於長度較短的短視頻,將引入視頻和音頻特徵,保證線上服務性能的情況下提升分類效果
  2. 對於樣本較少的分類,將引入用戶搜索、推薦 Session 行為進行訓練獲取初始化的短視頻表達,然後基於該表達繼續訓練
  3. 更加充分的使用視頻之間的關係進行訓練(同一專輯、劇集、綜藝、UP 主等)

參考文獻

[1] S. Dumais and H. Chen. Hierarchical classification of web content. In ACM SIGIR, 2000.

[2] P.N. Bennett and N. Nguyen. Refined experts: improving classification in large taxonomies. In SIGIR, 2009.

[3] Tengke Xiong and Putra Manggala. Hierarchical Classification with Hierarchical Attention Networks. In KDD, 2018.

[4] Siddharth Gopal and Yiming Yang. 2013. Recursive regularization for large-scale classification with hierarchical and graphical dependencies. In KDD. 257–265.

[5] J. Wehrmann, R. Cerri, and R. C. Barros. Hierarchical multi-label classification networks. Proceedings of the 35th International Conference on Machine Learning (ICML), pages 5075–5084, 2018.

[6] V. Vielzeuf, A. Lechervy, S. Pateux, and F. Jurie. Centralnet: a multilayer approach for multimodal fusion. In ECCV Workshop, 2018.

[7] Zhun Liu, Ying Shen, Varun Bharadhwaj Lakshminarasimhan, Paul Pu Liang, AmirAli Bagher Zadeh, and Louis-Philippe Morency. 2018. Efficient lowrank multimodal fusion with modality-specific factors. In Proceedings of the 56th Annual Meeting of the Associatio

本文轉載自公眾號愛奇藝技術產品團隊(ID:iQIYI-TP)

原文鏈接

https://mp.weixin.qq.com/s/t801Q3OO_DBrgI60fKSJxQ


分享到:


相關文章: