最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

From:PennU 编译:T.R

深度补全问题(Depth Completion)作为深度估计问题的延伸,一直以来都具有重要的理论研究意义和现实作用,广泛应用于自动驾驶感知、环境三维重建、精细形貌恢复等领域。典型的深度补全问题利用RGB图像和稀疏的深度采样点作为输入,模型在RGB图特征的引导下,基于稀疏的输入重建出稠密的深度输出。先前的模型都是通过对倒数第二层的多通道特征进行融合与计算得到最终的单通道结果。

来自宾夕法尼亚大学的研究人员提出了一种全新深度补全视角,将深度补全任务中最后一层1x1卷积层替换为了基于最小二乘方法的拟合(least squares fit,LSF)模块通过拟合预测结果与系数的测量结果来计算模块的权重。这种显式的、依赖于输入数据的回归方式可以使得网络学习到更为复杂的表达形式,并最终预测出与测量结果更为接近的深度,大幅提高算法的性能。

深度补全问题

深度补全问题的学习过程可以通过下面的公式来描述,最小化预测深度结果与实际深度之间的差距。其中X为输入的图像,S为稀疏深度测量结果、\\theta为模型f的参数,D为基准深度结果:

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

本方法最大的不同在于将最后一层实现深度回归的卷积层替换为了最小二乘模块,而其他结构则保持不变。整个模型的结构如下图所示,其中虚线显示了先前得到结果的卷积方法,而中间直连则表示本研究提出的最小二乘化深度补全方法。

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

在开始之前我们需要回答三个问题:如何将非线性映射转化为最小二乘问题来处理?如何处理测量中噪声的影响?如何进行多尺度重建以实现更好的深度补全性能?

非线性问题的最小二乘解法

针对一个深度补全神经网络来说,研究人员将倒数第二层的特征视为深度基函数,最后一层进行回归计算本质上可以视为将M个通道的特征B转化为单个通道的深度结果L。由于预测深度有一定的取值范围,最终结果还需要非线性映射函数g来进行计算。在深度补全任务中一般使用下面的非线性激活函数:

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

在此基础上,通过将倒数第二层的M个特征进行加权,随后利用非线性函数就可以估计出对应位置i处的深度:

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

基于上式模型最后一层的权重可以利用网络的基础特征B和足够的稀疏测量结果通过最小二乘的方法计算出来。这一最小二乘拟合方法的目标函数是尽可能地在预测结果上与稀疏测量的深度接近,可以表示为下面的残差形式。其中r为预测结果的残差,N为稀疏测量的数目、M为特征层B的通道数:

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

由于非线性激活函数g的存在这一残差函数是非线性的,研究人员利用拟函数的方法将上式转为了线性形式,从而目标函数也可以改写为典型的线性方程:

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

上式中B为Nx(M+1)的矩阵,包含了M+1个堆叠特征,对应N个采样点,而t则表示转换后的稀疏深度向量。通过伪逆的计算方式可以得到上面这一线性表达式的解,也就是LSF模块的权重:

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

与卷积方法不同,它与基本特征B和系数测量值相关。值得注意的是,用于这一计算的方法是可差分的,使得模块的权重可以通过端到端训练方式得到。对于网络的重新训练使得模型可以充分利用自适应拟合层的优势,得到更好的预测结果。

对抗噪声的鲁棒性

上一部分的方法阐明了如何利用最小二乘模块代替深度补全最后一部分的卷积层,但我们需要得到一个稳定、鲁棒的系统以便有效处理真实世界中的数据。对于典型噪声和局外点的建模与去除十分复杂。这些噪声一般来源于测量误差、误匹配误差、目标运动以及透明/高反射表面。为了处理这一问题并与最小二乘方法相适应,研究人员选择了M-estimator的方法来对噪声进行处理。

根据最小二乘的目标函数,对其进行差分并忽略高阶项将得到下面的形式,其中J为雅可比矩阵用于计算目标函数相对于权重的偏导数。

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节
最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

其中W为反比于每次测量的噪声。通过计算出Δw对前一部分计算出的初始值权重进行不断的优化:

w w + Δw

在实际使用过程中,为了减小计算资源并控制计算时间这里采用了固定的迭代周期,通过实验确定了优化两次来实现更为鲁棒的深度计算结果。

多尺度融合提升预测结果

为了处理深度图预测中的人工痕迹,研究人员利用利用了多尺度的训练方法来进行融合与优化。与先前在解码器不同尺度上直接预测出深度图不同的是,这一方法中从解码器特征不同层级中预测出了多尺度的基准特征,而后将这些基准特征进行融合,每一层级都融合了上一层级特征,使得对应的图像表现出有限带宽的特征。

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

最终的深度可以由下面的公式计算得出,其中K代表不同尺度的特征,对不同尺度特征进行融合得到最终全分辨率的深度图。

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

这种思想十分类似傅里叶级数或小波的概念,将多个不同频段针对不同尺度的部分组合起来构建起完整的信号。

实验结果

实验在KITTI Depth Completion,Virtual KITTI,Synthia以及NYU Depth v2上展开。首先验证了LSF 方法的有效性,其中lsf-代表在预训练模型上应用LSF 模块,而lsf则在原有模型上对LSF 模块进行了重新训练。可以看到这种方法大幅度提升了模型的性能。

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

同时通过迭代的方法证明了参数优化方法对噪声数据的有效性,其中lsf2 代表了两次迭代的结果,lsf2+ 代表了lsf2 鲁棒性归一化的结果。在0.05m的噪声下,迭代优化的方法得到了较好的结果,同时所有的lsf方法都取得了实验中最好的性能。

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

下图中可以清晰的看到本方法中对于细节的恢复性能超过了基于卷积回归的方法:

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

对于多尺度细节的重建也可以看到相互融合提升的效果,随着融合深度不断加深得到的深度图细节恢复也越来越好。

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

如果想要了解更多理论推导细节和实验结果,请参看论文

https://arxiv.org/pdf/1912.10336.pdf

ref:

https://www.grasp.upenn.edu/people/chao-qu

https://www.kumarrobotics.org/people/chao-qu/

https://www.cis.upenn.edu/~cjtaylor/RESEARCH/research.html

https://www.grasp.upenn.edu/people?field_person_type_tid%5B0%5D=21

https://github.com/wvangansbeke/Sparse-Depth-Completion

https://github.com/ShreyasSkandanS/DFuseNet

https://github.com/fangchangma/self-supervised-depth-completion

https://github.com/search?utf8=%E2%9C%93&q=Depth+Completion&type=

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖

将门创新服务、将门技术社群以及将门创投基金。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

将门创新服务

专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群

专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括

机器智能、物联网、自然人机交互、企业计算。

在近四年的时间里,将门创投基金已经投资了包括量化派、码隆科技、禾赛科技、宽拓科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: [email protected]最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节

最小二乘回归代替卷积操作—宾夕法尼亚大学提出深度补全新方法还原深度图纤毫细节


分享到:


相關文章: