AI領域的風口 內容審核能成為下一個麼?


AI領域的風口 內容審核能成為下一個麼?


一直以來,由於相關法律法規的規定,視頻中不能含有血腥暴力畫面,很多視頻up主在上傳血腥暴力視頻前,會將視頻中涉及到血液的顏色改為藍青紫等顏色。還有一些沒有做改色的up主,在人工審核的失誤下,也會僥倖過審。甚至一些視頻因為內容的特殊性,比如遊戲錄屏、或者衣著時尚、遮蔽較少,就會進入審核,需要系統來檢測是否違規視頻的發佈機制。再比如近年來大火的快手、抖音等短視頻app,作為當下年輕人最喜愛的互動交流媒體,每日的短視頻生產成千上萬,如何能夠用AI技術高精準的審核這些視頻,也成為了各大AI企業值得思考的問題。

人工智能和深度學習下的識別和推理

傳統意義上的深度學習算法以有監督的方式進行訓練,以識別特定類別的事物。在一個典型的任務中,可能會訓練DNN以可視化的方式識別一定數量的類。例如一張只有蘋果和香蕉的圖片,深度學習算法在獲得大量數據和質量的數據時,非常擅長進行精確、低錯誤率和可信的分類。當第三個未知對象出現時,DNN識別就會出現問題。如果引入了訓練集中不存在的未知對象,例如橙色,DNN 網絡將被迫猜測,並將橙色分類為捕獲未知對象的最接近類別一個蘋果。基本上用蘋果、香蕉訓練的DNN的世界完全由蘋果和香蕉組成,機器想不到水果籃裡還有其他的水果。

在訓練過程中,如果 DNN 能夠將項目分類為“蘋果”,“香蕉”或“什麼都沒有”,算法的開發人員可以確定是否還有尚未有效學習識別的類別。也就是如果水果圖片繼續反饋“零”,那麼開發人員可能需要添加另一類“水果”來進行識別,例如橘子。

以AI創業公司Neurala為例,在2017年宣佈在深度學習軟件方面取得重大進展,其Lifelong DNN軟件能夠能夠在邊緣學習增量對象。在此之前,如果一個AI系統學會了一定數量的對象,並且需要再學習一次,那麼它必須針對所有對象再訓練一次。這種傳統方法需要利用強大的服務器,通常是雲上的服務器。

Neurala的Lifelong DNN既能在運行中學習,也能在邊緣學習的能力意味著 Neurala 的新方法可以直接在設備上學習,從而不會有云上學習的所有缺點。此外,它消除了網絡延遲,提高了實時性能,並在需要時確保隱私。最重要的是,它將促進一系列無雲應用的開發。對此吳恩達也評價了從雲到“邊緣”轉化的技術,認為這會加速消費級IoT,帶來新的贏家。

Lifelong DNN 的機制和人類的學習方式類似:我們在潛意識中不斷檢查我們的預測是否符合現實世界。例如,如果有人跟你開玩笑調整了你辦公椅的高度,你馬上就能意識到。那是因為隨著時間的推移,你學習到了辦公椅高度的“模型”,一旦模型有變,你會立即意識到異常。

人類不斷檢查我們的分類是否符合實際情況。如果沒有,我們的大腦就會注意到併發出警報。對人來來說,我們不僅可以認識蘋果、香蕉和蘋果,還可以推理“我還以為是蘋果,但實際上不是。”

商業化視頻審核下的多維度識別

當前,視頻審核多用於在商業化視頻中,而商業化視頻的數據特點,對算法系統的處理速度、效率和準確率提出了較高的要求。商業化視頻算法的總體框架分為五層:1、視頻輸入層進行視頻源的管理;2、視頻處理層進行鏡頭分割、採樣、增強和去噪等工作;3、內容提取層主要分析視頻中內容、語義等信息,進行目標檢測、跟蹤和識別等來檢測目標在視頻中的時間、空間、位置等維度;4、語義融合層進行目標軌跡融合、識別結果融合、特徵表示融合、高層語義融合等;5、在數據輸出層,進行結構化數據管理,方便後續數據檢索與應用。

AI領域的風口 內容審核能成為下一個麼?

視頻內容識別維度多樣,包括場景、物體、人臉、地標、Logo、情緒、動作、聲音等。不同維度的算法結構有所區別。人臉識別算法結構為:輸入視頻後進行鏡頭分割,在進行人臉檢測、跟蹤、人臉對齊,根據質量評估過濾,進行特徵提取和特徵比對識別,最後進行識別結果融合,輸入最終識別結果。

在場景識別算法結構中,首先對輸入視頻進行鏡頭分割採樣,有所不同的是隻需進行時間間隔分割的採樣,再對視頻進行場景類別的初分類,預處理之後進入卷積神經網合階段,卷積神經網絡通過對不同的數據集進行預訓練,得到不同的特徵和描述,將這些特徵進行融合、降維處理得到特徵表示後,對不同場景如高頻場景、次級場景和新增場景,進行分類處理,最終對識別結果進行融合。

在物體、Logo識別算法結構中,有所不同的是需要多尺度提取特徵,跟蹤識別物體軌跡,並關注物體類別,對結果進行優化。

在地標識別算法結構中,分為三步,第一,通過基礎網絡(VGG,ResNet等)獲得特徵圖(一般為最後一層卷積或池化層);第二,從特徵圖中提取特徵(例如R-Mac,SPoC,CroW,GeM等)並用ROI Pooling,PCA 白化,L2-歸一化等方式處理,一般最終維度為256,512,1024,或2048;用kNN,MR,DBA,QE,Diffusion等方式將得到的特徵對數據庫內的特徵進行後處理獲得最終特徵;訓練模型一般損失函數採用contrastive loss或triplet loss,最終比對一般採用餘弦或歐式距離。


AI領域的風口 內容審核能成為下一個麼?

以國內的AI初創企業極鏈科技Video++為例,其推出的神眼系統通過人工智能技術,打造了一個全棧式智能內容安全審核引擎。該系統能對視頻、圖片、文本的內容進行審核,查找出裡面的政治敏感內容、暴力恐怖內容以及色情內容等等不合規的部分。作為一個檢測系統,神眼有著獨特的AI算法,可以逐幀檢測,跟蹤軌跡流。並且在輸出階段,有著三次審核流程,可以確保結果的準確性。

小結:如今人工智能正逐漸滲透到各行各業中,針對視頻內容抄襲和重複、不良視頻內容編輯後二次傳播的問題,越來越多的企業作出了自己的解決辦法。從長期的視角來看,AI機器審核要更為重要。現在的審核多為先AI機審,有問題的再進行人工審,AI機審會審核掉大多數的內容,並且隨著算法的不斷升級和對人工審核的神經學習,AI機審會變得越來越智能。計算機的處理速度和知識儲備也都遠在審核人員之上,即使是當下的視角,AI機器審核也擁有著獨特的地位,或許在視頻發展迅速的未來,AI內容安全審核會成為互聯網下一個重要風口。


分享到:


相關文章: