圖像智能算法在廣電行業的場景化落地科技頭條網

圖像智能算法在廣電行業的場景化落地

2019-11-18 16:14:53 視訊廣電

一、廣電行業常用算法舉例

1.面部解析算法

（1）人臉識別

強烈的市場需求使得人臉識別在人工智能中發展最快，目前多廠家的人臉識別準確率超過99%。2018年11月，美國國家標準與技術研究院發佈的全球權威人臉識別比賽最新報告顯示，在1‰誤報的場景下，人臉識別平均準確率可以達到99.69%。

人臉具有相似性和易變性。一方面，通用特徵成為人臉的檢測標準，也是人臉識別的第一步；另一方面，人臉骨骼的細微差異使得每張人臉具有唯一性。通過器官的位置、大小等特徵數據，與數據庫中人臉對比，完成人臉匹配，即身份識別。

隨著智慧城市的建設需求日益提升，人臉識別算法在公安、交通、金融、機場、地鐵、港口等多場景下都已經成為標配。廣電與安防是人臉識別應用最廣泛的行業，也是效率提升最明顯的行業。

（2）表情識別

憤怒、高興、悲傷、驚訝、厭惡和恐懼是心理學家Ekman與Friesen最早提出的6種主要情感，表情識別算法也基本從這6大維度去匹配，目前微笑識別已經可達90%以上的準確率。

表情識別與人臉識別的前置條件相同，即需要先檢測到人臉，再做人臉對齊、亮度和姿態歸一化、數據增強等步驟。

表情識別具有廣泛的應用前景，例如視頻內容中的人物狀態識別；另一方面，在遠程教育等場景下，捕捉觀眾的情緒狀態，也能發揮巨大作用。

（3）性別、年齡、人種

常見的圖像識別性別標準有臉頰骨骼、皮膚狀況、頸部是否有喉結等。性別還可以通過語音輔助識別。

年齡識別較複雜，即使是人眼也很難準確地判斷出一個人的年齡。人臉的年齡特徵通常表現在皮膚紋理、皮膚顏色、光亮程度和皺紋等，而這些因素通常與遺傳基因、生活習慣、性別、性格特徵和工作環境等方面息息相關。

種族分類以膚色、眼色、毛髮、頭型、臉型等體質特徵作為主要劃分依據。

2.身體解析算法

（1）穿著識別

對衣著、揹包、髮型、帽子等穿戴物的識別，也被稱為精細化識別。

排除光線影響，目前對於衣服、配飾的大致分類以及顏色識別已經較為成熟。得益於公安追蹤系統而發展，人體的精細化識別在商品廣告推薦、流行趨勢與統計上也有著廣泛的應用。

（2）動作識別

動作識別應用廣泛，主要集中在內容分類、暴力識別等，另外基於畫面內容的視頻檢索和智能圖像壓縮等也有著廣闊的應用前景和潛在的經濟價值、社會價值。

常見的行為識別辦法，通過檢測全身關節點，來判斷目標人物的身體狀態。目前移動路徑、打架鬥毆、奔跑、高空墜落等識別已趨於成熟。

3.物品解析算法

人臉和身體都有一致的生物學結構，因此差異化較小，而物體則是千變萬化，沒有特定規律。算法訓練時需要分別對每一個物體訓練並建立基準模型。物體的不同顏色、造型，同一個物體的各個角度、不同光線下的圖片都需要進行標註並導入訓練庫。

目前有很多廠家使用背景圖對比法來實現物體識別，即通過當前圖像與標準圖像的對比，來判斷當前視野下是否存在物品移動、出現消失或其他狀況。這種方法雖然不能準確識別到是什麼物品，但是在狀態上可以給出精準的判斷，從而提示為重要信息。

4.文字識別算法

文字識別也是解放勞動力效果明顯的算法之一。除銀行、圖書館等辦公系統外，文字識別還被廣泛用於字幕識別、場景信息提取、稿件的信息校對等廣電行業場景。

人類對於文字識別的研究始於上世紀50年代，當時就已經研製出了光學字符識別器。目前文字識別的方法主要有模板匹配法、幾何特徵抽取法。

二、智能算法在廣電行業的應用

1.標籤提取與視頻歸類

作為媒體機構最寶貴的財富之一，媒體資源的存儲、管理、編目、歸類與檢索是廣電系統的重要功能。傳統的管理與使用效率較低，且大量消耗人力、CPU和GPU等資源。通過標籤提取和歸類的模式，將極大規範視頻資產的索引。

通過文字識別、人臉識別等算法，將視頻中的內容進行結構化數據提取，並從中提煉出標籤。處理之後的視頻內容將以標籤或其他數字信息的形式進行存儲、檢索、查詢等，運行效率爆炸式提升。

這一形式與線上購物類似，我們不再需要瀏覽各個店鋪的每一個商品，以尋找自己心儀的產品，而是通過多層篩選，如“長袖”、“黑色”等字眼，快速排除五花八門的顏色和款式，視頻傳達的信息更為多樣化。對於一段颱風天氣下，車輛被樹砸變形的視頻，傳統的人工提取的方式，可能僅打上了“颱風”、“轎車”、“樟樹”這些標籤，並被分在了“異常天氣錄像”的分組裡。智能識別將根據運行算法的多樣性，識別行人人數、園區類型、車輛顏色、車牌號，甚至是植被面積、其他車輛狀況等上百條結構化數據。同一視頻多個維度，提高了今後的素材調用的效率，擴大了搜索範圍。

2.內容鑑定與審核

電視製作審片過程中，政治敏感的內容審查非常重要。通過人臉識別、文字識別等手段，對視頻資源的敏感人物進行識別、標註和監測等。圖像智能算法具有更高的準確率和效率，規避了人眼長時間觀看出現的視覺疲勞。同時，通過建立和不斷維護數據庫，反覆進行算法訓練，數據庫能不斷完善，各種算法的識別準確率也更高。

另一方面，視頻數據暴漲，不良信息量也與日俱增，造成的文化汙染、網絡犯罪等事件也不斷成為焦點。如何及時發現不良信息，進而採取有效的監管措施，已經成為十分緊迫的問題。目前主要的識別方式為，首先提取完整視頻文件的關鍵幀圖像，然後採用不良圖像內容識別算法對視頻進行識別。

內容鑑定與審核上，智能識別並未完全取代人工。在使用人工智能進行初步審核後，仍然需要有經驗的專家做人工二次審核，尤其是在政治敏感的廣電傳媒行業。

3.信息採集與自動剪輯

AlphaGo之後，AI作曲、寫詩等消息陸續曝出，而現在，智能算法又開始覬覦剪輯師的崗位，入局視頻製作。智能視頻剪輯應用，提高了新聞編輯製作的效率，成為繼“機器人寫作”之後解放行業生產力的又一救命稻草。

除了自動處理字幕和水印這些常見功能以外，人臉和物品算法也在視頻剪輯中發揮重要作用。例如需要一期以美食為核心的電視節目，人工智能可以快速搜尋到符合條件的所有素材，並根據設置條件，提取素材片段，整合成一段完整的視頻。目前手機應用市場上還有一些配合音樂做卡點特效的小程序，這說明結合音軌的AI自動剪輯也是一大熱點。

自動剪輯以外，智能算法中的人臉識別技術還可以對關鍵人物進行畫面保護，隨人而動、超界提醒等，比傳統手工打碼模式更高效精準。

4.節目與廣告的定向推薦

視頻內容佔據全網流量半壁江山，視頻廣告規模一路瘋長。人工智能基於數據分析實現個性化呈現或者精準推薦，更符合用戶口味。

在上文提到的標籤系統的前提下，通過觀眾的使用習慣，給人群打上標籤，如地域、喜好、不同節目的停留時長等，甚至是線上節目的評分，這些都可以完善觀眾的用戶肖像。推薦系統還可以利用相似觀眾的類似行為進行推送。

5.視頻質量與素材剪輯判斷

廣電節目尤其是電視節目，對素材本身的質量、可靠程度要求很高。除了在素材來源上嚴格把關以外，還可以使用AI技術，通過水印、場景轉換、是否連續等方式判斷素材是否原生。目前水印檢測技術較為成熟，其他方面仍然需要人工逐幀排查。

三、算法落地通用手段

1.配置優化

（1）合理的閾值設置

各種算法的識別能力，本質是基於模型的相似度打分。分值越高，則匹配程度越高。在不同光線等場景干擾下，相同的檢測內容會有不同的匹配程度。因此越來越多的應用廠家開發了“閾值”這一設置項，作為判斷是否通過的標準，以增強“yes or no”的判斷準確性。

以人臉識別為例，若調整閾值到5以下，則大部分人都相似；若調整到95以上，同一個人不同的照片都無法匹配。所以設置合適的閾值在算法應用上尤其重要。

（2）縮小識別範圍

常見的檢測算法基本是一個“掃描”加“判別”的過程，即算法在圖像範圍內掃描，再逐個判定候選區域是否有目標物體。因此算法的計算速度會跟圖像尺寸、圖像內容直接相關。因此我們可以通過設置圖像掃描範圍、限定目標物體上限等方式來加速計算。

2.一物一檔

移動互聯網的爆發，我們積累了大量的數據，同時物聯網也極大擴展了獲取數據的數量和類型。大部分素材收集上來後散落在一旁，等待硬盤滿後覆蓋。

越來越多的廠家開始加入到“無底庫識別”的行列中來，即後臺沒有已建數據庫支撐的情況下，將新收集到的數據按照自己的或標準的分類方式新建數據庫，這是一個收集與建立同步進行的過程。當算法第二次識別到同一人/物體，則與自建數據庫進行比對，並更新數據庫。

3.雲邊計算

雲計算的興起在智能算法上起到了非常關鍵的作用。尤其是算法的深度學習，極其消耗計算資源，通過雲計算就能以低成本獲取大規模的算力。

GPU計算的進步對深度學習也有很大的推動作用，它能夠加速深度學習中的計算速度，有些情況下甚至成百上千倍的提高。技術層面外，近年興起的邊緣計算，強調算法不能只集中在相機的端側或服務器上運行，而是通過“雲—邊—端”逐級下沉的方式，各層面分配合理的算力，處理圖像識別的不同階段，協同完成運算。邊緣計算的概念不僅在算力資源上有了更合理的分配，在圖像延時、帶寬、存儲佔用上都發揮了極大的作用。

4.關鍵幀提取

視頻是由成千上萬個連續的圖像幀組成的，圖像幀之間存在時間和空間冗餘度。為了節省資源，通常使用關鍵的圖像幀來表示整個視頻內容。

目前關鍵幀提取的方法，根據視頻種類的不同，可以分為像素域的關鍵幀提取與壓縮域的關鍵幀提取。在對視頻進行關鍵幀提取、獲得視頻的主要內容後，再提取結構化數據。

5.圖像異常修正

（1）光線照度

光照變化是影響各類識別能力的最關鍵因素，該問題的解決程度關係著圖像算法實用化進程的成敗。光源、遮擋、高光等因素均對識別結果有著巨大影響。目前一般有兩種解決思路：

<1>判斷光照模式，然後進行針對性的光照補償，以消除非均勻正面光照造成的陰影、高光等影響，目前這種方法應用最廣泛。

<2>基於光照子空間模型的任意光照圖像生成算法，用於生成多個不同光照條件的訓練樣本，然後利用具有良好的學習能力的算法進行識別。

（2）分辨率

圖像算法識別需要滿足最低像素要求，例如把人臉一般情況下至少需要64×64的像素大小。在較低的像素下，識別結果往往不準確，因此圖像分辨率的異常也直接影響識別結果。

低分辨率條件下，一般有兩種處理辦法：

<1>超分辨率增強,即先對低分辨率圖像進行圖片增強,得到高分辨率圖片之後,再用成熟有效的高分辨率識別方法，對增強後的圖片進行識別；

<2>直接對低分辨率人臉圖片提取特徵,以重點、有鑑別性的信息特徵為準。

6.語音識別協同

圖像特徵以外，聲音也是視頻數據重要特徵。我們可以通過語音檢測和識別，強化視頻內容的理解和核對。此外，語音識別還可以廣泛用於聽眾來電、熱線報料、稿件轉換、內容核對、智能客服自動答覆等場景。

四、結束語

5G時代到來，4K應用越來越廣泛，視頻將在未來的廣電內容形式中佔據越來越高的比重。隨著人工智能的快速發展，圖像智能算法已經逐漸進入到一個穩定的發展時期，未來將會開拓新的專業領域和市場格局劃分。智慧廣電、融合媒體建設作為新時代廣播電視創新發展的戰略選擇，是以全面提升媒體行業業務能力和服務能力為目標，以雲計算、大數據、物聯網、人工智能、圖像智能解析等綜合數字信息技術為支撐，實現智慧化生產、智慧化傳播、智慧化服務和智慧化監管，著力提供無所不在、無時不在的高質量廣播電視及智慧社區類服務。面對這巨大的信息量，以算法應用為核心、擁有產業鏈優勢的綜合性解決方案提供商將佈局制勝。

分享到:

閱讀更多 視訊廣電 的文章

關鍵字: 中央處理器轎車人臉識別