COCO2017「新生」奪冠戰隊感言：夢想還是要有的，萬一實現了呢？

2017-11-17 10:52:15 商湯科技SenseTime

ImageNet曾作為計算機視覺領域的最受關注的比賽，自2010年開賽以來，其數據量大、比賽類別多，一直吸引國際知名院校和企業參賽。商湯科技也曾參加ImageNet大賽中包攬多項冠軍，並在ImageNet 2015年視頻通用物體檢測競賽中取得檢測數量、檢測準確率兩項世界第一，成為首個奪冠的中國企業。在ImageNet 2016年也一舉攬下物體檢測、視頻物體檢測和場景分析三項冠軍。

在ImageNet停辦後，MS COCO（Microsoft Common Objects in Context，常見物體圖像識別）比賽的關注度迅猛增加，成為了全球計算機視覺領域最受關注和最權威的比賽之一。COCO 2017是舉辦的第三屆競賽，本次大賽更是聚焦了detection 21支團隊，segmentation 9支團隊參賽，其參賽團隊的數量和競賽的複雜程度不亞於ImageNet大賽。

在今年ICCV大會期間，代表商湯參賽的劉樞、亓魯、秦海芳和Mentor石建萍等成員，在COCO競賽Workshop中取得了兩項比賽的Segmentation冠軍及Detection亞軍的好成績。此前在7月 CVPR 2017期間，劉樞及其團隊與商湯實習生潘新鋼、李曉瀟、張熠摘取了四項賽事的桂冠，這些計算機視覺領域的前沿技術，未來將廣泛應用在自動駕駛等領域，具有非常強的實用性。

作為COCO 2017 商湯戰隊的成員，在大賽來臨之際劉樞及其團隊成員做了哪些準備？在競爭激烈的標杆比賽中拿下好成績，這支“新生”團隊又有哪些難忘的經歷？作為團隊leader劉樞已經準備好他的故事，分享商湯戰隊奪冠的奧秘，大家快來聽聽吧。

劉樞，商湯科技實習生，現就讀於香港中文大學博士四年級。研究方向是“物體識別與分割”。到目前為止，三年期間，在CVPR和ICCV兩大計算機視覺頂級會議上面共發表學術論文5篇，其中3篇為第一作者（含一篇OralPresentation，錄取率低於5%）。曾受邀作為頂級學術會議NIPS和ICCV的審稿人。今年又率隊參加MS COCO 2017競賽，獲得實例分割任務冠軍，物體檢測任務亞軍，LSUN 2017實例分割任務冠軍。

Q1：摘取了兩項比賽的一個冠軍及一個亞軍的好成績，今年COCO競賽的情況，你們做了哪些準備工作？比賽的情況能否簡單介紹一下？

劉樞：除了ImageNet以外，COCO競賽應該算是最大規模的比賽了，堪稱行業標杆級的競賽，代表圖像識別的最高水平。每年COCO的比賽任務在不斷變化，之前只設有物體識別和實例分割，其中，物體識別是比較傳統的任務，實例分割是將每個物體單獨分割出來，難度更大。在比賽任務上，去年增加了關鍵點檢測，今年又增加了stuff（相當於場景理解）的任務。在參賽規模上，之前實例分割只有2支隊伍，今年增加到9支；detection之前每年最多10支隊伍，今年猛增到21支，漲幅很大。總之，COCO競賽每年的變化都不少。

整個比賽的週期差不多要4、5個月。我們從今年5月份開始準備，7月份的CVPR的時候，我們把基礎框架baseline做得差不多了，從這個節點之後，我們開始做一些這次比賽用到的新技術。因為很多東西之前是沒有的，我們需要花很多時間從頭開始搭建。

開賽之前，我們也survey了很多比賽用到的trick，瞭解到各種技術，然後讓組員們通過這些任務實現技術點，把一些trick的東西找回來。因為當時我們並沒有一套現成state-of-the-art的code可以用，基本是從零開始。在準備的前期我們做了些復現的工作，比如之前提出的Mask-RCNN、FPN，這是前期必要的準備。當時的想法是無論怎樣，我們要先把刀磨快，至少跟別人站在同一起跑線上，這樣才能將比賽做得更好。

Q2：來商湯實習主要負責的哪部分的工作？和比賽中努力的方向有哪些關聯？

劉樞：我在商湯segmentation group實習，現在做一些技術儲備的工作。像COCO這樣的競賽需要我們自己搭建一套東西。比如別人發過的paper，沒有開源的，但效果比較好可以先搭出來，驗證一下。這就相當於一個很不錯的出發點，在這個基礎的系統上再去做改動。

我們一般先看結果，看在現有的網絡或系統上運行是否有問題，針對這些問題來思考如何改進，設計出一個新的網絡或者系統之後再去train，這樣不斷迭代。

Q3：你認為COCO兩項比賽中拿下冠、亞軍的關鍵要素是什麼？比賽過程中有沒有難忘的故事？

劉樞：起初，我對公司內部的框架並不是很熟，開始復現FPN檢測框架的時候，結果一直偏低，卡在這裡五六天沒有進展，最後才發現有些默認參數和之前外部的開源框架是不一樣的，想當然地用錯了，因為理解上的偏差導致用錯了工具。

有一次在搭建整個系統的過程中，當時我們復現的結果始終和原結果差一點，反覆讀了很多遍code，依舊找不出原因。那幾天腦子裡不停地在思考這件事，可能因為深陷其中吧，在睡夢中我還在分析和思考。很意外的是，竟然按照夢裡的線索找到了出錯代碼的地方，並且很快就揭開謎底，雖然“這種方式”有些難以置信，但回想起來系統的搭建，如果很微小的地方出了偏差，沒有及時get到問題所在，都會影響到整個進度和結果。比如每一個像素是否標記正確，縮小或放大是否準確，一個像素的偏差都會影響到實例分割的結果，所以需要非常細心、準確。

還有一件趣事，那時離比賽結束還有三四周吧，我們平時做實驗用的模型比較小，方便快速迭代和驗證，最後我們才會用大模型去train以達到最好的結果。在一開始做小模型實驗的時候，我就夢到了“今年冠軍”的結果46.6這個數字，在最後做模型的融合，我們做到了46.7，正好比夢到的數字高了0.1。當時模型的結果出來之後，我們正好以46.7這個數字拿下了冠軍。