|
发布时间: 2021-04-16 |
图像理解和计算机视觉 |
|
|
收稿日期: 2020-04-29; 修回日期: 2020-09-30; 预印本日期: 2020-10-07
基金项目: 国家自然科学基金项目(61876057,61971177)
作者简介:
吴迪, 1996年生, 男, 硕士研究生, 主要研究方向为计算机视觉、光场技术。E-mail: wudi19960512@gmail.com
张旭东, 通信作者, 男, 教授, 主要研究方向为智能信息处理、机器视觉。E-mail: xudong@hfut.edu.cn 张骏, 女, 副研究员, 主要研究方向为计算机视觉、图像处理与分析、机器学习。E-mail: zhangjun@hfut.edu.cn 范之国, 男, 副教授, 主要研究方向为智能信息处理与应用、仿生偏振光导航、偏振光学探测。E-mail: fzghfut@163.com 孙锐, 男, 教授, 主要研究方向为计算机视觉。E-mail: sunrui@hfut.edu.cn *通信作者: 张旭东 E-mail: xudong@hfut.edu.cn
中图法分类号: TP391
文献标识码: A
文章编号: 1006-8961(2021)04-0924-15
|
摘要
目的 光场相机可以通过单次曝光同时从多个视角采样单个场景,在深度估计领域具有独特优势。消除遮挡的影响是光场深度估计的难点之一。现有方法基于2D场景模型检测各视角遮挡状态,但是遮挡取决于所采样场景的3D立体模型,仅利用2D模型无法精确检测,不精确的遮挡检测结果将降低后续深度估计精度。针对这一问题,提出了3D遮挡模型引导的光场图像深度获取方法。方法 向2D模型中的不同物体之间添加前后景关系和深度差信息,得到场景的立体模型,之后在立体模型中根据光线的传输路径推断所有视角的遮挡情况并记录在遮挡图(occlusion map)中。在遮挡图引导下,在遮挡和非遮挡区域分别使用不同成本量进行深度估计。在遮挡区域,通过遮挡图屏蔽被遮挡视角,基于剩余视角的成像一致性计算深度;在非遮挡区域,根据该区域深度连续特性设计了新型离焦网格匹配成本量,相比传统成本量,该成本量能够感知更广范围的色彩纹理,以此估计更平滑的深度图。为了进一步提升深度估计的精度,根据遮挡检测和深度估计的依赖关系设计了基于最大期望(exception maximization,EM)算法的联合优化框架,在该框架下,遮挡图和深度图通过互相引导的方式相继提升彼此精度。结果 实验结果表明,本文方法在大部分实验场景中,对于单遮挡、多遮挡和低对比度遮挡在遮挡检测和深度估计方面均能达到最优结果。均方误差(mean square error,MSE)对比次优结果平均降低约19.75%。结论 针对遮挡场景的深度估计,通过理论分析和实验验证,表明3D遮挡模型相比传统2D遮挡模型在遮挡检测方面具有一定优越性,本文方法更适用于复杂遮挡场景的深度估计。
关键词
光场; 深度估计; 3D遮挡模型; 抗遮挡; 最大期望(EM)
Abstract
Objective Depth estimation from multiple images is a central task in computer vision. Reliable depth information provides an effective source for visual tasks, such as target detection, image segmentation, and special effects for movies. As one of the new multi-view image acquisition devices, the light field camera makes it more convenient to acquire multiple image data. A light field camera can simultaneously sample a scene from multiple viewpoints with a single exposure, which has unique advantages in portability and depth accuracy over other depth sensors. Occlusion is a challenging issue for light field depth estimation. For a non-occluded pixel on Lambertian surfaces, the angular patch corresponding to this pixel exhibits photo-consistency when refocused to its correct depth. However, the occluder will prevent viewpoints from sampling the same point. Thus, the photo-consistency fails to hold at occluded pixels. If the occluded viewpoints are accurately excluded, the photo-consistency of the remaining viewpoints can still be guaranteed. Therefore, how to identify the occluded viewpoints in the angular patch is crucial for accurate depth estimation. Previous works detected occlusion on the basis of the 2D model (RGB image) of the scene. However, occlusion is determined by the scene's 3D model, and it cannot be accurately detected using only the 2D model. Inaccurate occlusion detection will lead to low quality of depth estimation. In this study, we present a light field depth estimation algorithm that is robust to occlusion. Method First, we reconstruct the 3D scene model by adding the foreground-background relation and depth difference between different objects in the 2D model. On the basis of the 3D model, we directly calculate the occlusion state of each view and record it in the occlusion map. Further analysis demonstrates that the generated occlusion map can exclude all occluded viewpoints. Thanks to the occlusion map, the scene is able to be divided into occluded and non-occluded regions, so that more appropriate cost function can be adopted in different regions. In this study, if a spatial point is visible in a subset of viewpoints, this spatial point will be included in the occluded region. The remaining spatial points will be included in the non-occluded regions. In the occluded regions, we exclude the occluded viewpoints by the occlusion map and build the cost volume on the basis of the photo-consistency of the remaining viewpoints. In the non-occluded regions, on the basis of the depth continuity of these regions, we design a defocus grid matching cost function that captures textures over a wider area than traditional methods. A wider capture range means that our cost function is capable of collecting more information to increase its robustness. To propagate the effective information of higher confidence points to low confidence points, every slice in the final data cost volume is filtered using the edge-preserving filter. Compared with graph-based optimization, the filter-based method is more efficient and easy to parallelize. Moreover, because our occlusion map has excluded the possible occlusions, the filter-based method is enough for most examples. The initial disparity label is generated from the filtered cost volume using the winner-takes-all method. Finally, we exploit the dependence between the occlusion map and the depth map to further improve the accuracy of depth estimation. That is, the depth map can help the reconstruction of the 3D model required for occlusion detection, and the occlusion map can help the cost function exclude the occluded viewpoints. On the basis of this dependence, we integrate occlusion detection and depth estimation into an expectation-maximization-based optimization framework to alternatively improve the accuracy of the occlusion map and the depth map. Result Experiments are conducted on the HCI (Heidelberg Collaboratory for Image Processing) synthetic dataset and Stanford Lytro Illum dataset for real scenes. To ensure fairness, the number of depth labels of all cost-volume-based algorithms is uniformly set to 75. For quantitative evaluation, we use the percentage of bad pixels and the mean square error to measure the pros and cons of every algorithm. We also compare our occlusion detection method with state-of-the-art methods. Instead of evaluating the occlusion map of a single angular patch, we evaluate the occlusion map of all angular patches around the occlusion boundary. This evaluation method requires the algorithm to respond correctly to all degrees of occlusion. The experimental results show that the proposed method achieves better performance than other state-of-the-art methods in terms of both occlusion detection and depth estimation for single occlusion, multi-occlusion, and low-contrast occlusion. Compared with the suboptimal method, our mean square error is reduced by about 19.75% on average. Conclusion For the depth estimation of scenes with occlusion, the superiority of the proposed 3D occlusion model is demonstrated through theoretical analysis and experimental verification. The proposed depth estimation algorithm is more suitable for scenes with complex occlusion.
Key words
light field; depth estimation; 3D occlusion model; anti-occlusion; exception maximization(EM)
0 引言
光场相机通过对单个场景进行多视角密集采样,使得高精度深度信息的挖掘成为可能,在深度传感器中不论在便携性还是深度精确性方面都具有显著优势,适用于电影游戏特效、增强现实和人机交互等多种应用场景。
利用光场的各种特性可以挖掘深度信息,基于极平面图像(epipolar plane images,EPIs)(Bolles等,1987)的方法(Wanner和Goldluecke,2012)、多视角立体匹配(multi-view stereo,MVS)方法(Chen等,2014;Jeon等,2015)和基于焦堆栈的方法(Lin等,2015;Strecke等,2017)都取得了一定成果,但对于光场深度估计领域的遮挡、噪声和无纹理等问题依然很难解决。在这些问题中,遮挡是最常见且难以避免的。对一个郎伯面上未遮挡的空间点,若光场聚焦在正确深度,则与该点对应的多视角图(angular patch)将呈现成像一致性(photo-consistency)(Wang等,2015;Williem和Park,2016),该性质是光场深度估计的重要前提。
图 1是基于场景的2D模型和3D模型的估计遮挡图。可以看出,基于2D模型估计遮挡的遮挡检测算法(Sheng等,2017;Zhang等,2018)无法保证估计遮挡图的精确性(图 1(a))。基于采样场景的3D立体模型估计遮挡时,遮挡物的存在使部分采样光线无法到达目标点,导致成像一致性无法成立(图 1(b)),强行基于成像一致性建立成本量将导致遮挡边界附近的深度估计不精确。
从2D模型重建3D模型需要场景的深度信息,但其隐含在光场数据中且无法直接使用。针对这一问题,本文提出基于伪立体模型的遮挡检测方法,通过向2D模型添加深度差信息和不确定的前后景关系对场景进行立体建模,本文将得到的模型定义为伪立体模型。之后基于伪立体模型直接判断每个空间点对应的多视角图的遮挡状态,记录在遮挡图中。得益于遮挡图,场景可根据遮挡状态划分为遮挡区域和非遮挡区域,以在不同区域采取更加适合区域特性的成本量。对于遮挡区域,若能利用遮挡图准确屏蔽多视角图中的被遮挡视角,在郎伯假设下,剩余视角依然可满足成像一致性(图 1(c)),并可以基于剩余视角在聚焦状态的成像一致性建立成本量,因此如何识别多视角图的遮挡部分对于遮挡感知深度估计至关重要。对于非遮挡区域,提出离焦网格匹配成本量,该成本量通过对聚焦状态进行微小偏移,使其能够捕获更广泛区域的色彩纹理,进而增加算法鲁棒性。最后,基于遮挡检测和深度估计的依赖关系(深度图可为遮挡检测提供高精度3D模型,遮挡图可帮助成本量屏蔽被遮挡的视角)设立了基于最大期望(exception maximization,EM)算法的联合优化框架,在该框架下,遮挡图和深度图将通过互相引导的方式来提升彼此精度。
本文的主要贡献如下:1)提出基于伪立体模型的遮挡检测方法,在遮挡检测前首先重建场景的3D模型。相比传统基于2D模型的遮挡检测算法,生成的遮挡图精确度更高。2)提出离焦网格匹配算法,对传统正对焦状态进行小距离偏移,成本量将能够感受更广范围的色彩纹理。3)基于遮挡检测和深度估计的依赖关系设计基于EM的联合优化框架,利用估计的深度图更新场景立体模型,继而完成遮挡图的更新。更新后的遮挡图将引导成本量获取更高精度的深度图。
1 相关工作
光场的多视角采样特性使深度信息的挖掘成为可能,然而受遮挡影响,部分视角与空间点之间的光路被切断,这部分被拦截视角将影响该空间点的深度估计精度。因此,为了获得精确的深度图,正确的遮挡处理十分必要。常用的遮挡处理方法包括空间约束和色彩约束两类。色彩约束将像素映射到直方图,可以忽略遮挡模式,将复杂的遮挡抑制问题转换为离群值约束问题,极大减少了算法复杂度。空间约束借助场景几何结构检测并抑制遮挡影响的视角,具有优秀的遮挡处理能力。由于色彩约束算法的性能受遮挡区域的色彩对比度影响,遮挡抑制效果往往弱于空间约束(Johannsen等,2017)。本文提出的遮挡处理方法旨在提升遮挡场景的深度估计质量,基于空间约束展开,因此仅对基于空间约束的相关工作进行介绍。
空间约束即通过场景几何结构获取多视角图遮挡模式或深度正则化先验信息,借此提升遮挡边界附近的深度估计精度。Wang等人(2015)利用子孔径图像与多视角图中遮挡方向的一致性,使用与子孔径图像边界斜率一致的直线将多视角图划分为大小相等的两个区域,视方差较小的区域为不包含遮挡视角的区域,有效避免了单遮挡。然而当遮挡物的边界不规则或存在多个遮挡物时,多视角图的两个区域无法通过一条直线分隔,因此无法排除所有遮挡影响的视角。为了解决这一问题,Sheng等人(2017)将边界引导改为图像块引导,从中心图像提取更加详细的遮挡信息建立积分引导滤波器(integral guided filter,IGF)以抑制多视角图中可能遮挡的视角,提升了多遮挡情况的深度估计精度。但这种引导方式对平面色彩纹理具有很强的响应,可能会造成有用信息的丢失。为了提升遮挡检测的鲁棒性,Zhang等人(2018)从多视角图中提取遮挡信息并集成于基于微透镜(micro-lens-based,MLB)的深度估计框架。相比于中心图像,多视角图包含的信息更能还原真实遮挡分布,因此更能提高算法的抗遮挡能力,但效果受目标点的视差影响,过大或过小的视差均会降低遮挡约束能力。Chen等人(2018)通过基于超像素正则化检测部分遮挡的边界区域(partially occluded border regions,PROB),并通过遮挡感知正则项将正确的深度标签传播到PROB。遮挡感知正则项可以在保持锐利遮挡边缘的同时平滑深度图,但其正则化能力取决于聚类结果的准确性,边界拟合较差的超像素将加剧混淆趋势。Guo等人(2019)改变了遮挡处理思路,提出无需检测遮挡的遮挡处理算法,设计了一系列视角掩膜分别计算不同掩膜下的成像一致性,并经过最小池化筛选最佳匹配成本,缺陷是遮挡抑制能力受掩膜与遮挡模式的契合程度制约,并且过多的掩膜会引入大量计算成本。
上述算法除了Guo等人(2019)的算法,对遮挡的处理均基于场景的2D模型,缺乏对场景的立体分析。而本文算法的遮挡检测直接基于场景立体模型,得到的遮挡图更加贴近真实遮挡模式,在利用遮挡图的基础上,针对不同区域设计更加契合区域特性的成本量。其中针对非遮挡区域设计的离焦网格匹配成本量,相比传统匹配算法能够感知更广范围的色彩纹理。
2 本文方法
针对光场深度估计的遮挡问题,本文算法首先从光场图像中提取初始遮挡图,之后在遮挡图的引导下对遮挡区域和非遮挡区域分别构建成本量,初始视差图由合并后成本量求解得到,最后采用EM思想,逐步提升视差图的精度,直至收敛。算法框图如图 2所示,具体步骤如下:
1) 提取初始遮挡图。利用提出的基于伪立体模型的遮挡检测算法,完成3D模型的重建,并基于3D模型生成高精度遮挡图。
2) 构造成本量。基于高精度遮挡图,分别在遮挡区域和非遮挡区域构建成本量。
3) 成本量融合及求解。采用滤波方法对成本量进行融合并计算视差图。
4) 迭代。采用EM思想,交替更新遮挡图和视差图,直至收敛。
对光场捕获的光线,本文使用多目成像的表述方式描述,记作
2.1 基于伪立体模型的遮挡检测
检测物体的遮挡状态需要物体之间的3D位置关系,但相机拍摄的2维图像只能得到平面两个维度的位置关系,丢失了深度维。为此,本文在缺乏真实深度信息的情况下利用伪立体模型进行高精度遮挡检测。
2.1.1 伪立体模型的建立
深度不同的两个物体之间的遮挡边界(occlusion boundaries)在2维图像中往往以色彩边界的形式呈现,如图 3(a)所示。本文方法在检测遮挡前,通过向色彩边界两侧加入前后景关系(foreground-background relation,FBR)和深度差Δ
2.1.2 伪立体模型的有效性分析
由于场景中两个点之间的真实深度差无法直接获取,因此伪立体模型采用的深度差Δ
图 4展示了边界两侧区域的遮挡检测过程。为了方便描述,此处将2维平面映射到1维,其中绿色和蓝色实线为边界两侧区域的真实位置,绿色和蓝色虚线表示伪立体模型对前景的预测位置,
2.1.3 基于伪立体模型的遮挡检测公式化表示
假设模型有效性前提Δ
$ occ(\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{p}}) = \left\{ {\begin{array}{*{20}{l}} 0&{\exists {d^\prime } \in (0, \Delta \hat d), {\rm{ s}}{\rm{. t}}.}\\ {}&{{\rm{ }}\mathit{\boldsymbol{edge}}{\rm{ }}\left({\mathit{\boldsymbol{p}} + \left({\mathit{\boldsymbol{s}} - {\mathit{\boldsymbol{s}}_c}} \right) \times {d^\prime }} \right) \ne 0}\\ 1&{{\rm{ 其他 }}} \end{array}} \right. $ | (1) |
式中,
图 5展示了边界点的位置对遮挡状态的影响,为方便描述,此外将视角平面坐标
根据深度—视差映射函数的单调特性(Wanner和Goldluecke,2012),若使式(1)满足伪立体模型的有效性,Δ
$ \Delta \hat{d}>\Delta d $ | (2) |
式中,Δ
2.2 深度估计基于伪立体模型的遮挡检测
在遮挡检测完成后,利用遮挡图将场景分为遮挡区域和非遮挡区域,并为两个区域分别设计成本量。多视角图包含遮挡视角的像素划入遮挡区域
2.2.1 遮挡区域深度估计
使用遮挡图屏蔽遮挡区域像素的遮挡视角后,剩余视角存在局部成像一致性。传统衡量一致性的方式大致分为两类:以中心视角为基准的MVS成本量(Chen等,2014)和基于多视角图(methods based on angular patches,MAP)的成本量(Tao等,2013)。MVS对中心视角赋予了较大权重,因此对其他视角的少数离群值有较强鲁棒性。MAP对每个视角赋予一致的权重,对整体视角灰度值的轻微波动有较强鲁棒性。
为提高算法稳定性,算法默认遮挡检测始终具有一定的漏判率,即遮挡图无法排除所有遮挡视角。MVS与MAP相比有更加出色的抗遮挡性能,因此采用MVS成本量形式,并集成遮挡图,具体为
$ \boldsymbol{E}_{\mathrm{occ}}^{\alpha}(\boldsymbol{p})=\frac{1}{N(\boldsymbol{p})} \sum\limits_{o c c(s, \boldsymbol{p}) \neq 0} \rho\left(\boldsymbol{A}_{p}^{\alpha}(\boldsymbol{s})-\boldsymbol{L}\left(\boldsymbol{s}_{c}, \boldsymbol{p}\right)\right) $ | (3) |
式中,
2.2.2 非遮挡区域深度估计
非遮挡区域与遮挡区域相比有更缓慢的深度变化,并且不会发生深度跳变。在设计数据成本时,传统的MAP或MVS算法都没有很好地利用非遮挡区域的深度连续特性,均使用成像一致性寻找使多视角图颜色最一致的深度标签。但是,若目标像素和周围像素之间的颜色距离较近,则存在大量深度标签可使多视角图均呈现高度一致性,标签的混淆将影响估计深度的精确性。
为了充分利用深度连续特性,设计了离焦网格匹配(defocus grid matching,DGM)成本量。成本量示意图如图 7(a)所示,此时焦点和目标点
$ E_{{\rm{flat }}}^\alpha (\mathit{\boldsymbol{p}}) = \frac{1}{N}\sum\limits_\mathit{\boldsymbol{s}} \rho \left({\mathit{\boldsymbol{A}}_p^{\alpha + \Delta d}(\mathit{\boldsymbol{s}}) - \mathit{\boldsymbol{A}}_p^\prime (\mathit{\boldsymbol{s}})} \right) $ | (4) |
$ \mathit{\boldsymbol{A}}_p^\prime (\mathit{\boldsymbol{s}}) = \mathit{\boldsymbol{L}}\left({{\mathit{\boldsymbol{s}}_c}, \mathit{\boldsymbol{p}} + \left({\mathit{\boldsymbol{s}} - {\mathit{\boldsymbol{s}}_c}} \right) \times \Delta d} \right) $ | (5) |
式中,
与传统匹配方法相比,DGM具有更分散的采样点,因此可捕获更广范围的纹理。当目标点处于无纹理区域时,DGM分散的采样点将能够感知各自位置处的色彩变化,有效减少标签的混淆。
2.3 成本量融合及其优化
遮挡区域和非遮挡区域成本量均根据参与匹配的视角数目进行归一化处理,最终成本量将由两者拼接而成,具体为
$ {\mathit{\boldsymbol{E}}^\alpha }(\mathit{\boldsymbol{p}}) = \left\{ {\begin{array}{*{20}{l}} {E_{{\rm{occ }}}^\alpha (\mathit{\boldsymbol{p}})}&{\mathit{\boldsymbol{p}} \in {\mathit{\Omega }_{{\rm{occ }}}}}\\ {E_{{\rm{flat }}}^\alpha (\mathit{\boldsymbol{p}})}&{\mathit{\boldsymbol{p}} \in {\mathit{\Omega }_{{\rm{flat }}}}} \end{array}} \right. $ | (6) |
为了使高置信度点的有效信息传播到低置信度区域,需要利用光场中心图像作为引导图对成本量进行逐标签引导滤波优化(Rhemann等,2011;Sheng等,2017)。引导滤波能够在传播信息的同时有效保持遮挡边界处的深度不连续性。与基于图割(Boykov等,2001)的优化算法相比,基于滤波的方法具有更低的时间复杂度,且能够并行处理多个标签。而且由于遮挡图的引导作用,成本量已具备较高可靠性,基于滤波的信息传播算法足以应对大部分实验场景,最终视差标签直接由滤波后的成本量通过赢者通吃策略(winner-takes-all)生成。
2.4 基于EM的联合优化框架
视差图可以为遮挡检测提供高精度3D模型,而基于精确3D模型生成的遮挡图将能够有效提升成本量的抗遮挡性能,进而生成更高精度的视差图。基于此特性,设计基于EM的联合优化框架来交替提高遮挡图和视差图的精度。
2.4.1 基于视差图的遮挡检测
光场图像、遮挡图和视差图可分别作为观测数据、隐变量和待估计参数融入EM框架,通过基于伪立体模型的遮挡检测、深度估计和成本量融合及其优化构成了光场图像和遮挡图到视差图的单向估计。为了形成回路,使用视差图估算高精度遮挡图。如图 8所示。
对于视差图中的像素
$ {d_{{\rm{dif}}}}(\mathit{\boldsymbol{p}}) = \mathop {\max }\limits_{q \in {W_r}(\mathit{\boldsymbol{p}})} \{ d(\mathit{\boldsymbol{q}})\} - d(\mathit{\boldsymbol{p}}) $ | (7) |
式中,
使用上述操作筛选出场景所有待检测像素之后,再利用伪立体模型对所有筛选出的待检测像素进行遮挡检测。由于RGB图像边界定位遮挡边界的能力较差,构建伪立体模型时将视差图的边界图作为遮挡边界图输入式(1)。同时,为了进一步利用视差信息,使用
2.4.2 构建联合优化框架
融入基于EM的联合优化框架后,整体深度估计流程如下:
1) 遮挡图(隐变量)的初始值由基于伪立体模型的遮挡检测生成。
2) E(exception)步:在遮挡图的引导下建立成本量(期望函数)。
3) M(maximization)步:最小化成本(最大化期望)计算视差图。之后通过基于视差图的遮挡检测生成更准确的遮挡图(更新隐变量)。
在基于EM的联合优化框架下,算法具有较快的收敛速度。这是由于:1)在参数初始化部分,伪立体模型生成的遮挡图已经具有较高精度,精确的初始化将大幅减少算法迭代次数;2)在设计成本量时充分考虑了算法稳定性,降低了其对输入遮挡图的精度要求。
图 9为算法在不同迭代次数时的视差估计结果。其中第2轮之后迭代结果已趋于平稳,过多的迭代次数将极大提高计算成本。综合考虑,实验将迭代次数
3 实验结果与分析
实验在Light Field Benchmark(Wanner等,2013;Honauer等,2016)合成数据集和Stanford Lytro Illum真实场景数据集上进行。为确保公正性,所有参与评比的算法均以75为标签数目。定量评估利用错误像素比例
$ {B_{{\rm{pix }}}}(t) = \frac{{\left\{ {x \in \mathit{\boldsymbol{M}}:\left| {d(x) - {d_{{\rm{GT}}}}(x)} \right| > t} \right\}}}{{|\mathit{\boldsymbol{M}}|}} $ | (8) |
$ MSE = \frac{1}{{|\mathit{\boldsymbol{M}}|}}\sum\limits_{x \in \mathit{\boldsymbol{M}}} {{{\left({d(x) - {d_{{\rm{GT}}}}(x)} \right)}^2}} \times 100\% $ | (9) |
式中,
3.1 参数选择
在式(3)和式(4)中,参数
在噪声过高的场景,使用预设的
3.2 遮挡检测
判断视角的遮挡状态对深度估计至关重要。实验在不同遮挡模式下将本文方法与LF_OCC(light field occlusion)(Wang等,2015)和IGF(Sheng等,2017)方法进行对比。与单像素的遮挡图比较方式不同,实验着重考察算法对遮挡区域内所有多视角图的判断结果。这种考察方式需要算法能够对所有不同程度的遮挡做出正确响应。图 12展示了不同遮挡模式下算法的遮挡检测结果,其中图像块IV的标记区域为对比度增强后的结果。可以看出,1)LF_OCC算法在单遮挡场景具有较好表现,但仅对位于遮挡边界处的像素做出响应。原因是LF_OCC算法假设遮挡仅发生在遮挡边界处。但通过全聚焦微透镜阵列可以看出,遮挡以遮挡边界为起点向背景扩散。在图像块IV的低对比度遮挡区域,由于边界检测失效而没有对遮挡做出响应。对不包含遮挡的图像块V和VI,由于该区域强纹理导致误判为遮挡区域。2)IGF算法具备较好的遮挡边界定位能力,但估计的遮挡区域覆盖了较多非遮挡区域。原因是IGF算法在2D模型中根据目标点和周围点之间的颜色距离生成遮挡图,缺乏视差信息引导,因此无法分辨前景和背景。并且当目标点处于弱纹理区域时,例如图像块IV,由于遮挡场景的低对比度将无法生成正确遮挡图。与LF_OCC算法类似,由于缺乏视差信息的引导,在图像块V和VI中无法分辨强纹理和遮挡边界。3)本文算法在各种遮挡模式下的表现均优于其他算法,尽管第1次迭代未对图像块IV的低对比度遮挡区域做出正确响应,但在第2次迭代中利用视差信息成功生成了较为精确的遮挡图。对图像块V和VI中的强纹理区域,第1次迭代误将一些未遮挡视角标记为遮挡视角,但是在第2次迭代中通过集成视差信息做出了正确响应。
3.3 深度估计
本文方法与LF_OCC(Wang等,2015)、POBR(partially occluded border regions)(Chen等,2018)、MLB(Zhang等,2018)和LF_PAC(light field partial angular coherence)(Guo等,2019)方法的量化指标
表 1
不同算法的
Table 1
Comparison of
方法 | 场景 | |||
StillLife | Buddha | MonasRoom | Horses | |
LF_OCC | 17.5 | 4.1 | 7.4 | 18.9 |
POBR | 8.0 | 2.6 | 3.3 | 21.0 |
MLB | 5.4 | 1.1 | 3.4 | 5.3 |
LF_PAC | 5.2 | 2.1 | 6.3 | 6.7 |
本文 | 3.2 | 0.8 | 1.7 | 2.6 |
注:加粗字体为各列最优结果。 |
表 2
不同算法的MSE指标比较
Table 2
Comparison of MSE among different algorithms
/% | |||||||||||||||||||||||||||||
方法 | 场景 | ||||||||||||||||||||||||||||
StillLife | Buddha | MonasRoom | Horses | ||||||||||||||||||||||||||
LF_OCC | 3.0 | 0.8 | 0.6 | 1.6 | |||||||||||||||||||||||||
POBR | 4.6 | 0.5 | 0.44 | 1.1 | |||||||||||||||||||||||||
MLB | 1.2 | 0.5 | 0.46 | 3.7 | |||||||||||||||||||||||||
LF_PAC | 1.67 | 0.6 | 0.8 | 2.5 | |||||||||||||||||||||||||
本文 | 1.0 | 0.3 | 0.4 | 0.9 | |||||||||||||||||||||||||
注:加粗字体为各列最优结果。 |
3.3.1 遮挡区域表现
图 13为使用Light Field Benchmark数据集的视差估计结果。可以看出,LF_OCC算法虽然进行了抗遮挡处理,但根据遮挡检测实验可知,其无法处理多遮挡和低对比度遮挡,因此造成了该类型区域的边界混淆。POBR聚类方法由于不能在狭窄多遮挡区域生成正确的超像素,因此造成了遮挡边界附近前后景的混淆。LF_PAC由于其优秀的视角掩膜算法,在单遮挡边界处表现良好,但对复杂遮挡情况,其视角掩膜无法与遮挡模型形成较好匹配,最终导致前后景混淆。本文算法能够较好地判断各种遮挡模式,因此在遮挡区域具有良好表现。
真实场景实验使用Stanford Lytro Illum数据集,并从中挑选了包含复杂遮挡情况的场景,视差估计结果如图 14所示。可以看出,在场景Ⅰ和场景Ⅲ中LF_OCC和LF_PAC算法出现了不同程度的结构断裂,POBR和MLB算法虽然没有出现结构断裂,但是造成了前后景混叠,而本文方法很好地恢复了网格结构,在场景Ⅱ中,本文方法较好地恢复了狭窄的孔洞部分,而其他算法不同程度地将孔洞部分填平,导致信息丢失。
3.3.2 整体表现
图 15为本文方法与SPO(spinning parallelogram operator)(Zhang等,2016)、LF_OCC(Wang等,2015)、CAE(constrained angular entropy)(Williem等,2018)、IGF(Sheng等,2017)和LF_PAC(Guo等,2019)方法在Light Field Benchmark数据集Stratified系列场景中的视差估计结果对比,实验采用的度量标准包括stripes的Low texture度量(弱纹理区域的
表 3为本文算法与对比算法的运行时间对比,数据规格均采用512 × 512 × 9 × 9。可以看出,虽然本文算法在总迭代时间上不占优势,但图 15表明,在深度估计方面本文算法的单次迭代比其他算法具有较大优势。对于单次迭代而言,本文算法的时间复杂度达到次优水准。
表 3
不同方法的运行时间对比
Table 3
Comparison of run times among different methods
/s | |||||||||||||||||||||||||||||
方法 | 运行时间 | ||||||||||||||||||||||||||||
CAE | 668 | ||||||||||||||||||||||||||||
SPO | 952 | ||||||||||||||||||||||||||||
MLB | 879 | ||||||||||||||||||||||||||||
LF_PAC | 296 | ||||||||||||||||||||||||||||
本文(两次迭代) | 471 + 531 | ||||||||||||||||||||||||||||
注:加粗字体为最优结果。 |
4 结论
针对复杂遮挡场景设计了3D遮挡模型引导的光场图像深度估计方法。首先基于伪立体模型生成高精度遮挡图,避免了遮挡视角对成本量的干扰,然后将遮挡检测和深度估计融入基于EM的联合优化框架,提升了深度估计精度。对比目前先进的基于2D模型的遮挡检测算法,本文算法能够更加准确地估计多种复杂遮挡模式,并且针对遮挡区域和非遮挡区域分别设计成本量的策略使本文方法对不同区域具有更好的适应性。本文方法的关键是遮挡图的构建,为此在初始化步骤中将伪立体模型添加的视差差值设置为较大值,此举虽可有效排除大部分遮挡视角,但后果是造成了部分有用信息丢失。下一步工作将通过利用低分辨率算法快速生成粗估计视差来解决初始视差差值不精确的问题,以进一步提升深度估计精度。
参考文献
-
Bolles R C, Baker H H, Marimont D H. 1987. Epipolar-plane image analysis: an approach to determining structure from motion. International Journal of Computer Vision, 1(1): 7-55 [DOI:10.1007/bf00128525]
-
Boykov Y, Veksler O, Zabih R. 2001. Fast approximate energy minimization via graph cuts. IEEE Transactions on Pattern Analysis and Machine Intelligence, 23(11): 1222-1239 [DOI:10.1109/34.969114]
-
Chen C, Lin H T, Yu Z, Kang S B, Yu J Y. 2014. Light field stereo matching using bilateral statistics of surface cameras//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE: 1518-1525[DOI: 10.1109/CVPR.2014.197]
-
Chen J, Hou J H, Ni Y, Chau L P. 2018. Accurate light field depth estimation with superpixel regularization over partially occluded regions. IEEE Transactions on Image Processing, 27(10): 4889-4900 [DOI:10.1109/TIP.2018.2839524]
-
Guo Z H, Wu J L, Chen X F, Ma S, Zhu L C, Yang P, Xu B. 2019. Accurate light field depth estimation using multi-orientation partial angular coherence. IEEE Access, 7: 169123-169132 [DOI:10.1109/ACCESS.2019.2954892]
-
Honauer K, Johannsen O, Kondermann D, Goldluecke B.2016. A dataset and evaluation methodology for depth estimation on 4D light fields//Proceedings of the 13th Asian Conference on Computer Vision. Taipei, China: Springer: 19-34[DOI: 10.1007/978-3-319-54187-7_2]
-
Jeon H G, Park J, Choe G, Park J, Bok Y, Tai Y W, Kweon I S. 2015. Accurate depth map estimation from a lenslet light field camera//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 1547-1555[10.1109/CVPR.2015.7298762]
-
Johannsen O, Honauer K, Goldluecke B, Alperovich A, Battisti F, Bok Y, Brizzi M, Carli M, Choe G, Diebold M, Gutsche M, Jeon H G, Kweon I S, Park J, Park J, Schilling H, Sheng H, Si L P, Strecke M, Sulc A, Tai Y W, Wang Q, Wang T C, Wanner S, Xiong Z, Yu J Y, Zhang S, Zhu H. 2017. A taxonomy and evaluation of dense light field depth estimation algorithms//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, USA: IEEE: 1795-1812[DOI: 10.1109/CVPRW.2017.226]
-
Lin H T, Chen C, Kang S B, Yu J Y. 2015. Depth recovery from light field using focal stack symmetry//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 3451-3459[DOI: 10.1109/ICCV.2015.394]
-
Ng R, Levoy M, Brédif M, Duval G, Horowitz M, Hanrahan P. 2005. Light field photography with a hand-held plenoptic camera. CSTR 2005-02. Stanford University Computer Science: 1-11
-
Rhemann C, Hosni A, Bleyer M, Rother C, Gelautz M. 2011. Fast cost-volume filtering for visual correspondence and beyond//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition 2011. Providence, USA: IEEE: 3017-3024[DOI: 10.1109/CVPR.2011.5995372]
-
Sheng H, Zhang S, Cao X C, Fang Y J, Xiong Z. 2017. Geometric occlusion analysis in depth estimation using integral guided filter for light-field image. IEEE Transactions on Image Processing, 26(12): 5758-5771 [DOI:10.1109/TIP.2017.2745100]
-
Strecke M, Alperovich A, Goldluecke B. 2017. Accurate depth and normal maps from occlusion-aware focal stack symmetry//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 2529-2537[DOI: 10.1109/CVPR.2017.271]
-
Tao M W, Hadap S, Malik J, Ramamoorthi R. 2013. Depth from combining defocus and correspondence using light-field cameras//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE: 673-680[DOI: 10.1109/ICCV.2013.89]
-
Wang T C, Efros A A, Ramamoorthi R. 2015. Occlusion-aware depth estimation using light-fieldcameras//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 3487-3495[DOI: 10.1109/ICCV.2015.398]
-
Wanner S, Goldluecke B. 2012. Globally consistent depth labeling of 4D light fields//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE: 41-48[DOI: 10.1109/CVPR.2012.6247656]
-
Wanner S, Meister S, Goldluecke B. 2013. Datasets and benchmarks for densely sampled 4D light fields//Proceedings of the 18th International Workshop on Vision, Modeling and Visualization. Lugano, Switzerland: The Eurographics Association: 225-226[DOI: 10.2312/PE.VMV.VMV13.225-226]
-
Williem W, Park I K. 2016. Robust light field depth estimation for noisy scene with occlusion//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 4396-4404[DOI: 10.1109/CVPR.2016.476]
-
Williem W, Park I K, Lee K M. 2018. Robust light field depth estimation using occlusion-noise aware data costs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(10): 2484-2497 [DOI:10.1109/TPAMI.2017.2746858]
-
Zhang S, Sheng H, Li C, Zhang J, Xiong Z. 2016. Robust depth estimation for light field via spinning parallelogram operator. Computer Vision and Image Understanding, 145: 148-159 [DOI:10.1016/j.cviu.2015.12.007]
-
Zhang S, Sheng H, Yang D, Zhang J, Xiong Z. 2018. Micro-lens-based matching for scene recovery in lenslet cameras. IEEE Transactions on Image Processing, 27(3): 1060-1075 [DOI:10.1109/TIP.2017.2763823]