雷鋒網 AI 科技評論按,ICCV(The International Conferenceon Computer Vision)是計算機視覺領域的三大頂級會議之一,騰訊優圖實驗室在 ICCV 2017 中共投稿 15 篇論文,其中 12 篇被大會錄用。錄用論文中,被譽為「一鍵卸妝」的論文
Makeup-Go: Blind Reversion of Portrait Edit在社會各界引起了強烈反響,引爆社交媒體。另一篇超分辨率的論文Detail-revealing Deep Video Super- resolution(細節還原深度視頻超分辨率)相關技術也已經在 QQ 空間成功落地,各項性能指標均超過谷歌的同類技術。近日,雷鋒網 AI 科技評論邀請到騰訊優圖實驗室高級研究員沈小勇,他為我們詳細介紹了騰訊優圖實驗室和前面提到的兩篇論文:「一鍵卸妝」(Makeup-Go: Blind Reversion of Portrait Edit)和視頻超分辨率(Detail-revealing Deep Video Super- resolution)。
嘉賓簡介:沈小勇,騰訊優圖實驗室高級研究員,浙江大學本科、碩士,香港中文大學博士、博士後。主要研究深度學習在圖像視頻處理理解中的應用,包括圖像增強、分割、物體檢測識別、運動與深度估計等,在 CVPR、ICCV、ECCV 等頂級會議和 TPAMI、TOG 等頂級 Journal 上發表論文超過 15 篇。
以下為他的分享內容:
雷鋒網的網友們,大家晚上好,非常高興能在這裡進行直播,我今天分享的題目是《視覺 AI IP 輸出者:騰訊優圖 ICCV 2017 論文》,我是沈小勇,騰訊優圖高級研究員,目前在優圖主要進行人工智能的技術研究及開發工作。
這是我的個人主頁,我本科和研究生就讀於浙江大學,博士就讀於香港中文大學。
下面是對騰訊優圖的簡介,我們主要立足於人臉識別、圖像識別、音頻識別三個方面的研究。
下面是優圖在基礎研究、平臺數據以及業務場景三方面融合的生態。
這是優圖實驗室2017年最新的技術突破。
今天我重點要跟大家分享的是騰訊優圖在 ICCV 2017 上發表的其中 2 篇論文。
Makeup-Go: Blind Reversion of Portrait Edit
我分享的第一篇論文是 Makeup-Go: Blind Reversion of Portrait Edit,即一鍵卸妝,給你一張處理過的圖片(比如經過美圖秀秀把人變白、變美之後的圖片),把軟件處理之前的樣子恢復出來。一般情況下,現在有很多圖片處理 APP,我們想知道在美顏處理之前是照片是什麼樣。
下面是未經過美化的圖片。
美化之後臉上的痘痘消失了,皮膚變得非常光滑。
想要把圖片恢復成處理之前的狀態,難點在哪裡?
簡單暴力的方法是既然有輸入圖片和輸出圖片,能不能訓練出一個神經網絡自動學會處理圖片。在這裡我們做了一個簡單實驗,是2016年 CVPR 的一篇文章,一個非常深的網絡。
下面是輸入和輸出。從這裡可以發現,即使用了一個那麼深、學習能力那麼強的網絡,還是和最初的圖像有很大差別,比如說皺紋和雀斑,都恢復得不是那麼完美。
為什麼現在的 CNN 網絡不能恢復原來的圖片?圖像裡包含很多東西,如果只是簡單用 CNN 去迴歸,只能迴歸出非常少的 component,我們在圖像恢復時發現了一個非常重要的信息,叫 component domination effect,這篇文章重點針對 component domination effect 來改變一鍵卸妝效果。
首先我們對 L2 loss 進行分析,可以對其進行分解,F 是神經網絡的輸出結果,y 是 ground truth。
我們在這裡發現,實際上可以對 L2 loss 進行分解,分解成 PCA 不同 component 的線性組合。
可以繼續對其進行展開。
怎麼理解 component,我們從大到小分解出來。
這裡是我們所做的網絡,稱為 component regression network。相當於把圖經過 PCA 分解為不同的成分,接下來我們希望通過不同的 subnetwork 把每一個 component 都能迴歸得很好,最後把各個 component 綜合在一起,得到最終的結果。
接下來是我們的實驗結果,可以證明這個網絡對於一鍵卸妝是非常有效的。綠色線條是我們的結果,在 component 為 40 時就能達到比較好的效果。大家可以看到與 Euclidean loss 和 Perception loss 的比較。
下面的這張圖經過美圖秀秀處理,把雀斑、皺紋都去除了,可以看到我們復原的結果與 ground truth 修飾的結果的比較。
下面是一張 overly touched 圖片,圖像過度平滑,顏色都改變了,我們恢復的結果能把丟失的細節很好地復原出來。
下面是更多的結果,我們在網上隨便找的照片,可以很好地把圖中雀斑和皺紋恢復出來。
這個網絡並不對所有案例都有效,下面是對 Trump 的圖片的處理,雖然能把圖片恢復出來,但和 ground truth 比還是有差別。
這個工作的總結如下:一、我們在做圖像修復時發現了非常重要的性質 component domination effect;二,提出 component regression network,在很多領域有非常強的應用。
Detail-revealing Deep Video Super- resolution
第二篇論文是 Detail-revealing Deep Video Super-resolution,目前做出來的效果在業界非常好。
首先講一下我們做視頻超分辨率的 motivation。一,這是一個非常傳統和基礎的問題;二,應用非常非常多,比如說在監控場景下分辨車牌號。
對於視頻超分辨率之前的工作,可以分為兩類,一類是 image SR,一類是 video SR,具體的研究工作如 PPT 所示。我們這篇文章在別人的基礎上把研究向前推進了一步。
下面是這個問題的難點。一是怎麼去得到非常 effective 的網絡,二是模型的問題。
首先介紹我們方法的優勢:一是 sub-pixel motion 更好的運用,二是在視覺和數量上我們的結果比之前好很多。另外這個模型是 fully scalable 的,可以是任何輸入大小,實現任何倍數放大。
下面是我們方法的網絡。怎麼解決剛才提到的那些問題呢?一是設置 Fully convolutional,二是 SPMC 層沒有任何參數,三是 Conv LSTM。
下面是我們的分析。對這個網絡,我們輸入三個相同的幀,效果不是很好,而輸入三個連續的幀可以得到比較好的效果。
第二個分析是將 SPMC Layer 和 Baseline 進行比較,SPMC 在此處效果更好。
通過對比可以看到我們的方法比之前的 Bicubic、BayesSR、DESR、VSRNet 都要好。
最後分析下運行時間,我們的方法優於 BayesSR、MFSR、DESR、VSRNet。
最後總結:一是這個工作是端到端的,有很好的適應性,二是提出了 SPMC layer,三是我們的方法質量很高,速度上有較大提升。
下面是對我們騰訊優圖 X-Lab 的簡介。
這是我們的團隊照片,目前我們團隊大概有 30 多個人。
最後我還想在這裡來個簡單的廣告,目前我們團隊處於飛速發展中,如果大家對我們團隊有興趣,歡迎加我微信。
閱讀更多 雷鋒網 的文章