ECCV 2018|騰訊優圖&港科大提出較大前景運動下的深度高動態範圍成像

機器之心發佈

作者:

Shangzhe Wu(吳尚哲)、Jiarui Xu(徐嘉瑞)、Yu-Wing Tai(戴宇榮)、Chi-Keung Tang(鄧志強)

目前最好的高動態範圍(HDR)成像方法通常是先利用光流將輸入圖像對齊,隨後再合成 HDR 圖像。然而由於輸入圖像存在遮擋和較大運動,這種方法生成的圖像仍然有很多缺陷。最近,騰訊優圖和香港科技大學的研究者提出了一種基於深度學習的非光流 HDR 成像方法,能夠克服動態場景下的大範圍前景運動。

論文:Deep High Dynamic Range Imaging with Large Foreground Motions

ECCV 2018|腾讯优图&港科大提出较大前景运动下的深度高动态范围成像

論文鏈接:https://arxiv.org/abs/1711.08937

摘要:本文章基於深度學習,提出了一種非光流的高動態範圍(HDR)成像方法,能夠克服動態場景下的大範圍前景運動。目前最好的 HDR 成像方法,例如 Kalantari 在 2017 年提出的方法,通常是先利用光流將輸入圖像對齊,隨後再合成 HDR 圖像。然而由於輸入圖像存在遮擋和較大運動,這種方法生成的圖像仍然有很多缺陷。與此相反,我們避免了光流,直接將 HDR 成像視為圖像轉換的問題,這為 HDR 成像提供了重要啟示。而且,即使出現了完全遮擋、過曝、曝光不足等問題,簡單的翻譯網絡也能夠生成逼真的細節,這也是傳統優化方法所做不到的。此外,這種方法還能根據不同的指定參照圖生成 HDR 圖像。我們通過足量定性和定量的對比,展示了這種方法能夠生成高質量的 HDR 圖像,與現有技術相比,生成結果的顏色缺陷和形狀畸變都大幅減少了,而且對於不同輸入具有魯棒性,甚至是未進行輻射校正過的圖像。

貢獻: 現有的數碼相機一般都不足以記錄整個場景的動態範圍,而一些用於拍攝 HDR 圖像的特製設備通常都過於昂貴或沉重,因此,合併多張在不同曝光拍攝的低動態範圍(LDR)圖像是另一種比較現實的方法。如果這些 LDR 圖像是完美對齊的,也就是說拍攝時相機以及物體都沒有移動,合併的問題已經基本被解決。但是在大範圍前景位移與輕度相機位移存在的情況下,前景與後景的錯位是不可避免的。後者很大程度上可以用單應性變換來解決,然而前景位移會讓合併過程變得困難。很多已有的方法很容易在最終生成的高動態圖中引入鬼影等缺陷。本文提出了一種用簡易的端到端的卷積神經網絡,即使有較大範圍的前景位移的情況下也能學習如何把多張低動態圖合併成沒有鬼影的高動態圖。不像 Kalantari 的方法,我們的神經網絡是在沒有光流對齊的情況下進行端到端的訓練,從而在本質上避免了錯誤光流造成扭曲等問題。而且,通常由於飽和以及阻擋,一些內容在所有的 LDR 圖像中都沒有被拍攝到,神經網絡同樣可以幻化出合理的細節,這是在處理大範圍的前景位移時是非常實用的。

網絡結構:

ECCV 2018|腾讯优图&港科大提出较大前景运动下的深度高动态范围成像

我們利用翻譯網絡去學習多張 LDR 到 HDR 圖像的映射。網絡主體是對稱的編碼器解碼器架構加以 Unet 與 ResNet 變化。Unet 是映射學習的常用工具。它主要是一個具有跳躍連接的編碼器解碼器的架構,編碼器的輸出的特徵圖直接與相應層的解碼器的輸入拼接。除了簡單的 Unet, 我們也嘗試了 ResNet,用殘差模塊取代中間層。整體來看,網絡結構可以分為 3 個部分,編碼器,合併器,解碼器,對於每個不同的曝光輸入,編碼器的前兩層是分立的,其餘層共享參數。在抽取特徵之後,合併器學習如何去合併他們,而解碼器則負責生成 HDR 圖像。

定性比較:

ECCV 2018|腾讯优图&港科大提出较大前景运动下的深度高动态范围成像

在沒有物體位移的區域,所有的方法都生成了不錯的結果,但是當過曝區域出現較大的物體位移時,其他的方法會出現較明顯的顏色缺陷或幾何畸變。相比之下,我們提出的兩種網絡都生成了很好的結果,ResNet 結構表現通常好於 Unet 結構。

定量比較:

ECCV 2018|腾讯优图&港科大提出较大前景运动下的深度高动态范围成像

我們用生成的圖像與真實圖像的 PSNR 和 SSIM 來比較。我們同時也計算了衡量 HDR 圖像視覺效果的度量 HDR-VDP-2。儘管 Kalantari 的 PSNR 分數略微偏高,但我們的方法得到了相近的 SSIM 分數以及略微高一點的 HDR-VDP-2 分數。

幻化:

ECCV 2018|腾讯优图&港科大提出较大前景运动下的深度高动态范围成像ECCV 2018|腾讯优图&港科大提出较大前景运动下的深度高动态范围成像

我們的方法能夠幻化出缺失的細節,這些細節對於傳統的優化方法是不可能恢復的。在 Fig.5 中,只輸入中等曝光的圖片,我們的網絡可以合理地幻化出飽和區域裡草地的紋理。

如 Fig.6 所示,在過度曝光或者低度曝光的區域裡,有些細節通常會在所有的 LDR 圖像中都缺失,因此這種幻化效果在動態範圍成像中顯得十分有用。

手機拍攝:

ECCV 2018|腾讯优图&港科大提出较大前景运动下的深度高动态范围成像

為了驗證實用性,我們在手機圖片上測試了我們的模型。值得注意的是,這些輸入圖像都沒有經過輻射校正,這也驗證了我們模型的魯棒性。

運行時間:

ECCV 2018|腾讯优图&港科大提出较大前景运动下的深度高动态范围成像

由於傳統的優化方法是用 CPU 進行的,公平起見,我們在相同的 CPU 環境測試所有方法的運行時間。若在 GPU 環境下運行,我們的方法處理 896×1408 的圖像則只需要 0.23 秒。ECCV 2018|騰訊優圖&港科大提出較大前景運動下的深度高動態範圍成像

✄------------------------------------------------

加入機器之心(全職記者 / 實習生):[email protected]

投稿或尋求報道:content@jiqizhixin.com

廣告 & 商務合作:[email protected]


分享到:


相關文章: