人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

From:Arxiv 编译:T.R

图像压缩是视觉领域十分重要的研究方向,其目标是在有限的码率下实现较高的图像信号保真度,或是在保证一定图像质量的情况下尽量降低图像所需的编码。虽然先前基于信号保真度驱动的图像压缩技术取得了巨大的成功,针对人类视觉的信号编码和针对机器视觉的特征编码各自都发展出了一系列压缩算法,但是在需要同时满足人类视觉需求和机器视觉任务要求的情况下这些方法还存在诸如压缩比较高、压缩和分析复杂甚至不可回溯等缺点。

为了弥补压缩算法同时满足人类视觉与机器视觉的需求,来自北京大学的研究人员通过结合压缩模型与生成模型,抽取图像的边缘结构信息与关键像素信息进行有效压缩编码,并训练生成对抗网络充分利用结构与辅助像素信息重建出高质量的图像结果,同时满足了人类视觉与机器视觉的图像要求,在相同的压缩率下达到了更好的重建精度,并在人脸关键点检测数据集上显示出了新型压缩算法的鲁棒性。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

兼顾人类与机器的视觉需求

这种新提出的方法首先通过压缩模型将入图像表示为边缘和稀疏关键像素图,其中边缘信息被参数化地表示为用于机器视觉的基础特征层,参考的像素颜色信息则被表示为增强人类视觉保真度的质量提升层。这种表示方法不仅编码效率高,同时边缘图提供的结构化信息也保证了高效的机器视觉任务。而后为了重建出高质量的图像,基于边缘的生成对抗模型被用于重建图像,并通过参考像素的辅助重建出高质量图像结果。

整个方法的框架如下图所示,这种基于视觉驱动的压缩表示与生成模型的结合非常好的平衡了人类与机器对于图像的视觉需求。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

稀疏边缘抽取

整套压缩算法包含了图像边缘抽取,抽取信息的紧致表达以及最后的重建模型三个部分。边缘是图像中最具代表性的抽象特征之一,它描述了图像中关键的结构特征。人类可以通过边缘特征识别出物体甚至推理出相应的颜色和纹理信息。基于这样的考量,研究人员采用了稀疏的边缘表达作为图像表示的基础信息。

针对输入图像I,首先利用快速边缘检测算法抽取I的边缘图;而后利用类似pix2pix的流程二值化边缘图,并抛弃小于十个像素的细小边缘。

除了边缘外,颜色也是图像信息的重要组成部分,颜色不仅提供了特定的底层视觉信息更在某种程度上给出了类似情感这类高级语义信息。除了边缘特征外,一定的颜色特征抽取和表示也是图像压缩和高质量重建的保障。

紧致表达的抽取

虽然边缘抽取了图像结构的稀疏信息,但将其编码为紧致的比特流还需要进一步的处理。现有的研究工作大多针对像素级信息的抽取,还缺少高质量的边缘编码量化方法。

在这篇文章中,研究人员通过规模矢量图形化(scalable vector graphics)的方法将边缘信息转化为矢量化的表达,从而大大减少了图像边缘稀疏表达的参数。这主要通过三种操作来实现,分别是移动(Move)直线化(Line)曲线化(Curve)来进行。

其中移动操作M(x,y)是指移动到目标点(x,y);L(x,y)是指从上一个点画一条直线到目标点(x,y);C(pa,pb,pt)表示经过中间点pa,pb向目标点pt画一条三次贝塞尔曲线。由于自然图像的边缘一般比较平滑,这些算子可以在很大程度上近似图像边缘,而使用的参数量很少。随后通过PPM的方法将这些参数进行无损的量化压缩就可以将边缘中编码点、直线和曲线的参数转化为紧致的压缩比特流。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

除了边缘我们还需要一定的颜色信息来辅助图像的重建过程。研究人员提出了一种嵌入像素表达的方式来采样和编码相应的颜色信息。颜色信息对应的采样点位于直线或曲线的周围。

下图显示了像素采样的主要过程,采样点临近线的中点。对于直线来说,根据其斜率选择采样水平或垂直方向上的两个点,如果斜率小于45度采样垂直两点,大于45度则采样水平两点。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

对于曲线来说,根据中间点与曲线的切线接触点以及平行于起始点与目标点间切线的接触点,计算得到一对采样点。由于曲线内部点具有更大的梯度和更丰富的信息,同时为了控制编码效率,所以只对曲线内部一点进行采样保留。这些像素信息被送入解码器后,按照相同的规则排布在对应边缘的对应位置,同时也免去了像素位置坐标的编码信息。这样就得到了关于图像结构的向量化编码与关于图像颜色采样编码的压缩比特流信息。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

图像重建

在获取了紧致的比特流压缩编码后,重建高质量的图像就是论文的另一个重点。它主要利用了GAN可以学习出鲁棒的数据分布能力,可以将悉数表示重新映射回原始的图像空间,并同时满足人类视觉和机器视觉的需要。

首先需要将矢量化的图像转化到图像域中,将矢量化的边缘表示转换回通常的比特图E,而后将稀疏采样的像素矢量转换为单通道的图像掩膜图M。随后利用M与输入的原图I得到采样后的三通道像素采样图C,没有采样的位置都置零表示。通过这样的计算,将图像解码的过程转换为了在边缘信息协助下的图像补全问题。

在图像修复技术(inpainting)的基础上,研究人员基于pix2pix的模型来实现,其中包含了一系列跳接层将输入的底层信息传输到解码器的顶部,更好地保留了结构和颜色信息。

在进行图像修复的GAN中,生成器主要通过输入边缘图、采样像素图和掩膜Ig = G(E,C,M),其损失函数包含了L1损失和结构相似性损失,同时还加入了感知损失以提升机器感知性能:

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

对于判别器来说,则使用了hinge 损失来有效学习数据的分布:

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

优异的实验结果

在设计好网络结构和参数后,研究人员在VGGFace2数据集中进行了充分的训练,对压缩效果进行了定量和定性的测评,同时也在机器视觉任务上进行了详细的比较分析。

首先针对重建的效果,分别与JPEG的几种不同的压缩质量进行了比较,下图显示了不同压缩率下的重建结果与本文方法提出结果的比较。其中E表示只输入边缘信息进行重建,而E+C则表示了输入边缘和颜色采样信息进行重建,左下脚数字表示了压缩率(bit per pixel,bpp)。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

可以清晰地看到本方法在很低的bpp下实现的感官重建效果更好,在细节、色调和连续性上都优于对应的JPEG结果。

对于定量结果,研究人员计算了保真度(Fidelity )和视觉美学质量(Aesthetics)。实验表明在达到0.209码率时重建图像的保真度高达0.90,美学评分的视觉质量也达到了0.73,大幅超越了JPEG算法。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

此外,为了验证这种压缩方法恢复的图像,研究人员利用VGGFace2进行了人脸关键点检测的任务测评,并计算了归一化点对点误差(normalized point-to-point error,NME)。

实验表明这种压缩方法的在人脸关键点检测任务上精度和压缩率都更高,与JPEG 质量为4的压缩相比,在不添加颜色信息的情况下错误率下降了44.75%;在颜色信息的辅助下比JPEG质量8的压缩误差还要小1.15%的NME。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

在数据集上的累积误差也表明这种方法对于不同类型的数据具有很好的鲁棒性,对超过90%的数据误差小于5%。

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

最左上的两条曲线显示了这种方法的鲁棒性优势

如果想要详细了解这种新型的压缩算法,可以参看论文中的细节和参考文献:

https://arxiv.org/pdf/2001.02915.pdf

同时作者也提供了项目网站供学习和交流:

https://williamyang1991.github.io/projects/VCM-Face/

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求
人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求

关于我门

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门创投基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: [email protected]

人类与机器都爱看:北大提出新型图像压缩算法,同时兼顾人与机器的视觉任务需求


分享到:


相關文章: