人類與機器都愛看:北大提出新型圖像壓縮算法,同時兼顧人與機器的視覺任務需求

人類與機器都愛看:北大提出新型圖像壓縮算法,同時兼顧人與機器的視覺任務需求

From:Arxiv 編譯:T.R

圖像壓縮是視覺領域十分重要的研究方向,其目標是在有限的碼率下實現較高的圖像信號保真度,或是在保證一定圖像質量的情況下儘量降低圖像所需的編碼。雖然先前基於信號保真度驅動的圖像壓縮技術取得了巨大的成功,針對人類視覺的信號編碼和針對機器視覺的特徵編碼各自都發展出了一系列壓縮算法,但是在需要同時滿足人類視覺需求和機器視覺任務要求的情況下這些方法還存在諸如壓縮比較高、壓縮和分析複雜甚至不可回溯等缺點。

為了彌補壓縮算法同時滿足人類視覺與機器視覺的需求,來自北京大學的研究人員通過結合壓縮模型與生成模型,抽取圖像的邊緣結構信息與關鍵像素信息進行有效壓縮編碼,並訓練生成對抗網絡充分利用結構與輔助像素信息重建出高質量的圖像結果,同時滿足了人類視覺與機器視覺的圖像要求,在相同的壓縮率下達到了更好的重建精度,並在人臉關鍵點檢測數據集上顯示出了新型壓縮算法的魯棒性。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

兼顧人類與機器的視覺需求

這種新提出的方法首先通過壓縮模型將入圖像表示為邊緣和稀疏關鍵像素圖,其中邊緣信息被參數化地表示為用於機器視覺的基礎特徵層,參考的像素顏色信息則被表示為增強人類視覺保真度的質量提升層。這種表示方法不僅編碼效率高,同時邊緣圖提供的結構化信息也保證了高效的機器視覺任務。而後為了重建出高質量的圖像,基於邊緣的生成對抗模型被用於重建圖像,並通過參考像素的輔助重建出高質量圖像結果。

整個方法的框架如下圖所示,這種基於視覺驅動的壓縮表示與生成模型的結合非常好的平衡了人類與機器對於圖像的視覺需求。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

稀疏邊緣抽取

整套壓縮算法包含了圖像邊緣抽取,抽取信息的緊緻表達以及最後的重建模型三個部分。邊緣是圖像中最具代表性的抽象特徵之一,它描述了圖像中關鍵的結構特徵。人類可以通過邊緣特徵識別出物體甚至推理出相應的顏色和紋理信息。基於這樣的考量,研究人員採用了稀疏的邊緣表達作為圖像表示的基礎信息。

針對輸入圖像I,首先利用快速邊緣檢測算法抽取I的邊緣圖;而後利用類似pix2pix的流程二值化邊緣圖,並拋棄小於十個像素的細小邊緣。

除了邊緣外,顏色也是圖像信息的重要組成部分,顏色不僅提供了特定的底層視覺信息更在某種程度上給出了類似情感這類高級語義信息。除了邊緣特徵外,一定的顏色特徵抽取和表示也是圖像壓縮和高質量重建的保障。

緊緻表達的抽取

雖然邊緣抽取了圖像結構的稀疏信息,但將其編碼為緊緻的比特流還需要進一步的處理。現有的研究工作大多針對像素級信息的抽取,還缺少高質量的邊緣編碼量化方法。

在這篇文章中,研究人員通過規模矢量圖形化(scalable vector graphics)的方法將邊緣信息轉化為矢量化的表達,從而大大減少了圖像邊緣稀疏表達的參數。這主要通過三種操作來實現,分別是移動(Move)直線化(Line)曲線化(Curve)來進行。

其中移動操作M(x,y)是指移動到目標點(x,y);L(x,y)是指從上一個點畫一條直線到目標點(x,y);C(pa,pb,pt)表示經過中間點pa,pb向目標點pt畫一條三次貝塞爾曲線。由於自然圖像的邊緣一般比較平滑,這些算子可以在很大程度上近似圖像邊緣,而使用的參數量很少。隨後通過PPM的方法將這些參數進行無損的量化壓縮就可以將邊緣中編碼點、直線和曲線的參數轉化為緊緻的壓縮比特流。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

除了邊緣我們還需要一定的顏色信息來輔助圖像的重建過程。研究人員提出了一種嵌入像素表達的方式來採樣和編碼相應的顏色信息。顏色信息對應的採樣點位於直線或曲線的周圍。

下圖顯示了像素採樣的主要過程,採樣點臨近線的中點。對於直線來說,根據其斜率選擇採樣水平或垂直方向上的兩個點,如果斜率小於45度採樣垂直兩點,大於45度則採樣水平兩點。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

對於曲線來說,根據中間點與曲線的切線接觸點以及平行於起始點與目標點間切線的接觸點,計算得到一對採樣點。由於曲線內部點具有更大的梯度和更豐富的信息,同時為了控制編碼效率,所以只對曲線內部一點進行採樣保留。這些像素信息被送入解碼器後,按照相同的規則排布在對應邊緣的對應位置,同時也免去了像素位置座標的編碼信息。這樣就得到了關於圖像結構的向量化編碼與關於圖像顏色採樣編碼的壓縮比特流信息。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

圖像重建

在獲取了緊緻的比特流壓縮編碼後,重建高質量的圖像就是論文的另一個重點。它主要利用了GAN可以學習出魯棒的數據分佈能力,可以將悉數表示重新映射回原始的圖像空間,並同時滿足人類視覺和機器視覺的需要。

首先需要將矢量化的圖像轉化到圖像域中,將矢量化的邊緣表示轉換回通常的比特圖E,而後將稀疏採樣的像素矢量轉換為單通道的圖像掩膜圖M。隨後利用M與輸入的原圖I得到採樣後的三通道像素採樣圖C,沒有采樣的位置都置零表示。通過這樣的計算,將圖像解碼的過程轉換為了在邊緣信息協助下的圖像補全問題。

在圖像修復技術(inpainting)的基礎上,研究人員基於pix2pix的模型來實現,其中包含了一系列跳接層將輸入的底層信息傳輸到解碼器的頂部,更好地保留了結構和顏色信息。

在進行圖像修復的GAN中,生成器主要通過輸入邊緣圖、採樣像素圖和掩膜Ig = G(E,C,M),其損失函數包含了L1損失和結構相似性損失,同時還加入了感知損失以提升機器感知性能:

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

對於判別器來說,則使用了hinge 損失來有效學習數據的分佈:

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

優異的實驗結果

在設計好網絡結構和參數後,研究人員在VGGFace2數據集中進行了充分的訓練,對壓縮效果進行了定量和定性的測評,同時也在機器視覺任務上進行了詳細的比較分析。

首先針對重建的效果,分別與JPEG的幾種不同的壓縮質量進行了比較,下圖顯示了不同壓縮率下的重建結果與本文方法提出結果的比較。其中E表示只輸入邊緣信息進行重建,而E+C則表示了輸入邊緣和顏色採樣信息進行重建,左下腳數字表示了壓縮率(bit per pixel,bpp)。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

可以清晰地看到本方法在很低的bpp下實現的感官重建效果更好,在細節、色調和連續性上都優於對應的JPEG結果。

對於定量結果,研究人員計算了保真度(Fidelity )和視覺美學質量(Aesthetics)。實驗表明在達到0.209碼率時重建圖像的保真度高達0.90,美學評分的視覺質量也達到了0.73,大幅超越了JPEG算法。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

此外,為了驗證這種壓縮方法恢復的圖像,研究人員利用VGGFace2進行了人臉關鍵點檢測的任務測評,並計算了歸一化點對點誤差(normalized point-to-point error,NME)。

實驗表明這種壓縮方法的在人臉關鍵點檢測任務上精度和壓縮率都更高,與JPEG 質量為4的壓縮相比,在不添加顏色信息的情況下錯誤率下降了44.75%;在顏色信息的輔助下比JPEG質量8的壓縮誤差還要小1.15%的NME。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

在數據集上的累積誤差也表明這種方法對於不同類型的數據具有很好的魯棒性,對超過90%的數據誤差小於5%。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

最左上的兩條曲線顯示了這種方法的魯棒性優勢

如果想要詳細瞭解這種新型的壓縮算法,可以參看論文中的細節和參考文獻:

https://arxiv.org/pdf/2001.02915.pdf

同時作者也提供了項目網站供學習和交流:

https://williamyang1991.github.io/projects/VCM-Face/

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求
人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

關於我門

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在近四年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求


分享到:


相關文章: