百度AI獲得WebVision和ActivityNet競賽雙料冠軍科技頭條網

2018-06-21 19:01:29 展望科技

近日，百度視覺技術團隊憑藉領先的圖像識別和視頻理解技術在全球兩大視覺競賽WebVision和ActivityNet中分別擊敗100多家參賽單位和隊伍，獲得多項世界第一，並受邀在全球視覺技術領域頂級學術會議CVPR（IEEE國際計算機視覺與模式識別會議）上做報告分享。繼百度人臉檢測深度學習算法PyramidBox在世界最權威人臉檢測公開評測集WIDER FACE中刷新業內最好成績後，百度視覺技術團隊又在國際知名獎項中折桂。

WebVision是2017年以來新的大規模圖像識別任務權威挑戰賽事，其數據量超過ImageNet。相較於ImageNet競賽數據，WebVision競賽的數據集直接從互聯網爬取，未經人工標註或篩選，識別難度大，但同時也更貼近實際場景。

本次競賽中，主辦方將數據集合由1000類擴大到5000類，訓練數據量由240萬張圖片擴大到1600萬張圖片，數據量更龐大，識別難度大幅提高。WebVision今年共吸引了全球100多支團隊參加，涵蓋眾多頂尖科技公司和知名高校，百度以領先第二名3.95個絕對百分點的優異成績獲得WebVision競賽冠軍。

圖像識別是計算機視覺重要的基礎問題之一。據悉，百度視覺團隊從2013年起開始構建超大規模的圖像分類系統，其中大部分訓練數據均通過互聯網搜索引擎獲取，目前已構建起包含10萬類Tag（標籤），近億圖片的訓練系統。據悉，該系統已經為百度Feed流等眾多百度核心產品線賦能，併為華為、小米等國內一流手機廠商提供精準的物體識別。

在視頻理解領域，百度視覺技術團隊在ActivityNet 2018中擊敗眾多參賽單位和隊伍，獲兩項任務冠軍，相關技術論文已發表於CVPR、AAAI等頂級學術會議。

ActivityNet是目前視頻理解領域影響力最大的賽事，與每年的頂級學術會議CVPR一起召開，今年共舉辦6項比賽。其中，Kinetics視頻動作識別任務是業界最權威的視頻分類數據集，百度連續兩年斬獲該項任務冠軍，並將平均錯誤率由12.4%降至10.9%。Kinetics數據集包含40萬訓練短視頻語料，400個類別，今年主辦方將數據集由400類擴大到600類，訓練數據從40萬增加到50萬，包含的標籤均為人類日常行為，更貼近實際。此外，百度在動作片段判斷Proposal任務中獲第一名，AUC領先第二名1.6個絕對百分點。

視頻理解技術作為重要的計算機視覺技術之一，可以深度解析視頻語義內容，進而輸出視頻相應元素，輔助人工審核編輯，提升精準用戶推薦，豐富視頻內容生產。百度此次獲獎的技術已應用於百度線上Feed視頻自動分類系統，提供視頻語義化解析，在視頻打標籤、視頻比對和視頻推薦等業務上均發揮了重要作用。

去年，百度OCR(文字識別)技術團隊參賽ICDAR 2017組織的Robust Reading競賽，在其中最具挑戰的OCR競賽任務“Incidental Scene Text(自然場景隨拍文字識別)”中，百度OCR技術在檢測、識別和端到端三個核心技術領域，近兩年來多次取得世界第一的排名，具備明顯的領先優勢。

據悉，百度視覺識別技術不僅為百度內部產品帶來顛覆性的改變，也持續對外輸出技術實力。百度計算機視覺技術也已全線開放，包括人臉識別、文字識別（OCR）、圖像審核、圖像識別&圖像搜索5大類別、58項基礎能力，已服務於幾十萬開發者，它將持續為各行各業賦能，推動百度人工智能技術產品的快速落地。

分享到:

閱讀更多 展望科技 的文章

關鍵字: 科技人工智能深度學習