发布时间: 2021-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200131
2021 | Volume 26 | Number 4

图像理解和计算机视觉

3D遮挡模型引导的光场图像深度获取

吴迪, 张旭东, 张骏, 范之国, 孙锐

合肥工业大学计算机与信息学院, 合肥 230601

收稿日期: 2020-04-29; 修回日期: 2020-09-30; 预印本日期: 2020-10-07

基金项目: 国家自然科学基金项目（61876057，61971177）

作者简介: 吴迪, 1996年生, 男, 硕士研究生, 主要研究方向为计算机视觉、光场技术。E-mail: wudi19960512@gmail.com
张旭东, 通信作者, 男, 教授, 主要研究方向为智能信息处理、机器视觉。E-mail: xudong@hfut.edu.cn
张骏, 女, 副研究员, 主要研究方向为计算机视觉、图像处理与分析、机器学习。E-mail: zhangjun@hfut.edu.cn
范之国, 男, 副教授, 主要研究方向为智能信息处理与应用、仿生偏振光导航、偏振光学探测。E-mail: fzghfut@163.com
孙锐, 男, 教授, 主要研究方向为计算机视觉。E-mail: sunrui@hfut.edu.cn
*通信作者: 张旭东 E-mail: xudong@hfut.edu.cn

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2021)04-0924-15

摘要

目的光场相机可以通过单次曝光同时从多个视角采样单个场景，在深度估计领域具有独特优势。消除遮挡的影响是光场深度估计的难点之一。现有方法基于2D场景模型检测各视角遮挡状态，但是遮挡取决于所采样场景的3D立体模型，仅利用2D模型无法精确检测，不精确的遮挡检测结果将降低后续深度估计精度。针对这一问题，提出了3D遮挡模型引导的光场图像深度获取方法。方法向2D模型中的不同物体之间添加前后景关系和深度差信息，得到场景的立体模型，之后在立体模型中根据光线的传输路径推断所有视角的遮挡情况并记录在遮挡图（occlusion map）中。在遮挡图引导下，在遮挡和非遮挡区域分别使用不同成本量进行深度估计。在遮挡区域，通过遮挡图屏蔽被遮挡视角，基于剩余视角的成像一致性计算深度；在非遮挡区域，根据该区域深度连续特性设计了新型离焦网格匹配成本量，相比传统成本量，该成本量能够感知更广范围的色彩纹理，以此估计更平滑的深度图。为了进一步提升深度估计的精度，根据遮挡检测和深度估计的依赖关系设计了基于最大期望（exception maximization，EM）算法的联合优化框架，在该框架下，遮挡图和深度图通过互相引导的方式相继提升彼此精度。结果实验结果表明，本文方法在大部分实验场景中，对于单遮挡、多遮挡和低对比度遮挡在遮挡检测和深度估计方面均能达到最优结果。均方误差（mean square error，MSE）对比次优结果平均降低约19.75%。结论针对遮挡场景的深度估计，通过理论分析和实验验证，表明3D遮挡模型相比传统2D遮挡模型在遮挡检测方面具有一定优越性，本文方法更适用于复杂遮挡场景的深度估计。

关键词

光场; 深度估计; 3D遮挡模型; 抗遮挡; 最大期望(EM)

Light field depth estimation guided by 3D occlusion model

Wu Di, Zhang Xudong, Zhang Jun, Fan Zhiguo, Sun Rui

School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230601, China

Abstract

Objective Depth estimation from multiple images is a central task in computer vision. Reliable depth information provides an effective source for visual tasks, such as target detection, image segmentation, and special effects for movies. As one of the new multi-view image acquisition devices, the light field camera makes it more convenient to acquire multiple image data. A light field camera can simultaneously sample a scene from multiple viewpoints with a single exposure, which has unique advantages in portability and depth accuracy over other depth sensors. Occlusion is a challenging issue for light field depth estimation. For a non-occluded pixel on Lambertian surfaces, the angular patch corresponding to this pixel exhibits photo-consistency when refocused to its correct depth. However, the occluder will prevent viewpoints from sampling the same point. Thus, the photo-consistency fails to hold at occluded pixels. If the occluded viewpoints are accurately excluded, the photo-consistency of the remaining viewpoints can still be guaranteed. Therefore, how to identify the occluded viewpoints in the angular patch is crucial for accurate depth estimation. Previous works detected occlusion on the basis of the 2D model (RGB image) of the scene. However, occlusion is determined by the scene's 3D model, and it cannot be accurately detected using only the 2D model. Inaccurate occlusion detection will lead to low quality of depth estimation. In this study, we present a light field depth estimation algorithm that is robust to occlusion. Method First, we reconstruct the 3D scene model by adding the foreground-background relation and depth difference between different objects in the 2D model. On the basis of the 3D model, we directly calculate the occlusion state of each view and record it in the occlusion map. Further analysis demonstrates that the generated occlusion map can exclude all occluded viewpoints. Thanks to the occlusion map, the scene is able to be divided into occluded and non-occluded regions, so that more appropriate cost function can be adopted in different regions. In this study, if a spatial point is visible in a subset of viewpoints, this spatial point will be included in the occluded region. The remaining spatial points will be included in the non-occluded regions. In the occluded regions, we exclude the occluded viewpoints by the occlusion map and build the cost volume on the basis of the photo-consistency of the remaining viewpoints. In the non-occluded regions, on the basis of the depth continuity of these regions, we design a defocus grid matching cost function that captures textures over a wider area than traditional methods. A wider capture range means that our cost function is capable of collecting more information to increase its robustness. To propagate the effective information of higher confidence points to low confidence points, every slice in the final data cost volume is filtered using the edge-preserving filter. Compared with graph-based optimization, the filter-based method is more efficient and easy to parallelize. Moreover, because our occlusion map has excluded the possible occlusions, the filter-based method is enough for most examples. The initial disparity label is generated from the filtered cost volume using the winner-takes-all method. Finally, we exploit the dependence between the occlusion map and the depth map to further improve the accuracy of depth estimation. That is, the depth map can help the reconstruction of the 3D model required for occlusion detection, and the occlusion map can help the cost function exclude the occluded viewpoints. On the basis of this dependence, we integrate occlusion detection and depth estimation into an expectation-maximization-based optimization framework to alternatively improve the accuracy of the occlusion map and the depth map. Result Experiments are conducted on the HCI (Heidelberg Collaboratory for Image Processing) synthetic dataset and Stanford Lytro Illum dataset for real scenes. To ensure fairness, the number of depth labels of all cost-volume-based algorithms is uniformly set to 75. For quantitative evaluation, we use the percentage of bad pixels and the mean square error to measure the pros and cons of every algorithm. We also compare our occlusion detection method with state-of-the-art methods. Instead of evaluating the occlusion map of a single angular patch, we evaluate the occlusion map of all angular patches around the occlusion boundary. This evaluation method requires the algorithm to respond correctly to all degrees of occlusion. The experimental results show that the proposed method achieves better performance than other state-of-the-art methods in terms of both occlusion detection and depth estimation for single occlusion, multi-occlusion, and low-contrast occlusion. Compared with the suboptimal method, our mean square error is reduced by about 19.75% on average. Conclusion For the depth estimation of scenes with occlusion, the superiority of the proposed 3D occlusion model is demonstrated through theoretical analysis and experimental verification. The proposed depth estimation algorithm is more suitable for scenes with complex occlusion.

Key words

light field; depth estimation; 3D occlusion model; anti-occlusion; exception maximization(EM)

0 引言

光场相机通过对单个场景进行多视角密集采样，使得高精度深度信息的挖掘成为可能，在深度传感器中不论在便携性还是深度精确性方面都具有显著优势，适用于电影游戏特效、增强现实和人机交互等多种应用场景。

利用光场的各种特性可以挖掘深度信息，基于极平面图像(epipolar plane images，EPIs)(Bolles等，1987)的方法(Wanner和Goldluecke，2012)、多视角立体匹配(multi-view stereo，MVS)方法(Chen等，2014；Jeon等，2015)和基于焦堆栈的方法(Lin等，2015；Strecke等，2017)都取得了一定成果，但对于光场深度估计领域的遮挡、噪声和无纹理等问题依然很难解决。在这些问题中，遮挡是最常见且难以避免的。对一个郎伯面上未遮挡的空间点，若光场聚焦在正确深度，则与该点对应的多视角图(angular patch)将呈现成像一致性(photo-consistency)(Wang等，2015；Williem和Park，2016)，该性质是光场深度估计的重要前提。

图 1是基于场景的2D模型和3D模型的估计遮挡图。可以看出，基于2D模型估计遮挡的遮挡检测算法(Sheng等，2017；Zhang等，2018)无法保证估计遮挡图的精确性(图 1(a))。基于采样场景的3D立体模型估计遮挡时，遮挡物的存在使部分采样光线无法到达目标点，导致成像一致性无法成立(图 1(b))，强行基于成像一致性建立成本量将导致遮挡边界附近的深度估计不精确。

图 1 2D模型和3D模型的估计遮挡图对比

Fig. 1 Comparison of the occlusion maps estimated between 2D model and 3D model

((a)2D model; (b)3D model; (c)photo-consistency holds)

从2D模型重建3D模型需要场景的深度信息，但其隐含在光场数据中且无法直接使用。针对这一问题，本文提出基于伪立体模型的遮挡检测方法，通过向2D模型添加深度差信息和不确定的前后景关系对场景进行立体建模，本文将得到的模型定义为伪立体模型。之后基于伪立体模型直接判断每个空间点对应的多视角图的遮挡状态，记录在遮挡图中。得益于遮挡图，场景可根据遮挡状态划分为遮挡区域和非遮挡区域，以在不同区域采取更加适合区域特性的成本量。对于遮挡区域，若能利用遮挡图准确屏蔽多视角图中的被遮挡视角，在郎伯假设下，剩余视角依然可满足成像一致性(图 1(c))，并可以基于剩余视角在聚焦状态的成像一致性建立成本量，因此如何识别多视角图的遮挡部分对于遮挡感知深度估计至关重要。对于非遮挡区域，提出离焦网格匹配成本量，该成本量通过对聚焦状态进行微小偏移，使其能够捕获更广泛区域的色彩纹理，进而增加算法鲁棒性。最后，基于遮挡检测和深度估计的依赖关系(深度图可为遮挡检测提供高精度3D模型，遮挡图可帮助成本量屏蔽被遮挡的视角)设立了基于最大期望(exception maximization，EM)算法的联合优化框架，在该框架下，遮挡图和深度图将通过互相引导的方式来提升彼此精度。

本文的主要贡献如下：1)提出基于伪立体模型的遮挡检测方法，在遮挡检测前首先重建场景的3D模型。相比传统基于2D模型的遮挡检测算法，生成的遮挡图精确度更高。2)提出离焦网格匹配算法，对传统正对焦状态进行小距离偏移，成本量将能够感受更广范围的色彩纹理。3)基于遮挡检测和深度估计的依赖关系设计基于EM的联合优化框架，利用估计的深度图更新场景立体模型，继而完成遮挡图的更新。更新后的遮挡图将引导成本量获取更高精度的深度图。

1 相关工作

光场的多视角采样特性使深度信息的挖掘成为可能，然而受遮挡影响，部分视角与空间点之间的光路被切断，这部分被拦截视角将影响该空间点的深度估计精度。因此，为了获得精确的深度图，正确的遮挡处理十分必要。常用的遮挡处理方法包括空间约束和色彩约束两类。色彩约束将像素映射到直方图，可以忽略遮挡模式，将复杂的遮挡抑制问题转换为离群值约束问题，极大减少了算法复杂度。空间约束借助场景几何结构检测并抑制遮挡影响的视角，具有优秀的遮挡处理能力。由于色彩约束算法的性能受遮挡区域的色彩对比度影响，遮挡抑制效果往往弱于空间约束(Johannsen等，2017)。本文提出的遮挡处理方法旨在提升遮挡场景的深度估计质量，基于空间约束展开，因此仅对基于空间约束的相关工作进行介绍。

空间约束即通过场景几何结构获取多视角图遮挡模式或深度正则化先验信息，借此提升遮挡边界附近的深度估计精度。Wang等人(2015)利用子孔径图像与多视角图中遮挡方向的一致性，使用与子孔径图像边界斜率一致的直线将多视角图划分为大小相等的两个区域，视方差较小的区域为不包含遮挡视角的区域，有效避免了单遮挡。然而当遮挡物的边界不规则或存在多个遮挡物时，多视角图的两个区域无法通过一条直线分隔，因此无法排除所有遮挡影响的视角。为了解决这一问题，Sheng等人(2017)将边界引导改为图像块引导，从中心图像提取更加详细的遮挡信息建立积分引导滤波器(integral guided filter，IGF)以抑制多视角图中可能遮挡的视角，提升了多遮挡情况的深度估计精度。但这种引导方式对平面色彩纹理具有很强的响应，可能会造成有用信息的丢失。为了提升遮挡检测的鲁棒性，Zhang等人(2018)从多视角图中提取遮挡信息并集成于基于微透镜(micro-lens-based，MLB)的深度估计框架。相比于中心图像，多视角图包含的信息更能还原真实遮挡分布，因此更能提高算法的抗遮挡能力，但效果受目标点的视差影响，过大或过小的视差均会降低遮挡约束能力。Chen等人(2018)通过基于超像素正则化检测部分遮挡的边界区域(partially occluded border regions，PROB)，并通过遮挡感知正则项将正确的深度标签传播到PROB。遮挡感知正则项可以在保持锐利遮挡边缘的同时平滑深度图，但其正则化能力取决于聚类结果的准确性，边界拟合较差的超像素将加剧混淆趋势。Guo等人(2019)改变了遮挡处理思路，提出无需检测遮挡的遮挡处理算法，设计了一系列视角掩膜分别计算不同掩膜下的成像一致性，并经过最小池化筛选最佳匹配成本，缺陷是遮挡抑制能力受掩膜与遮挡模式的契合程度制约，并且过多的掩膜会引入大量计算成本。

上述算法除了Guo等人(2019)的算法，对遮挡的处理均基于场景的2D模型，缺乏对场景的立体分析。而本文算法的遮挡检测直接基于场景立体模型，得到的遮挡图更加贴近真实遮挡模式，在利用遮挡图的基础上，针对不同区域设计更加契合区域特性的成本量。其中针对非遮挡区域设计的离焦网格匹配成本量，相比传统匹配算法能够感知更广范围的色彩纹理。

2 本文方法

针对光场深度估计的遮挡问题，本文算法首先从光场图像中提取初始遮挡图，之后在遮挡图的引导下对遮挡区域和非遮挡区域分别构建成本量，初始视差图由合并后成本量求解得到，最后采用EM思想，逐步提升视差图的精度，直至收敛。算法框图如图 2所示，具体步骤如下：

图 2 本文算法框架

Fig. 2 The framework of the proposed algorithm

1) 提取初始遮挡图。利用提出的基于伪立体模型的遮挡检测算法，完成3D模型的重建，并基于3D模型生成高精度遮挡图。

2) 构造成本量。基于高精度遮挡图，分别在遮挡区域和非遮挡区域构建成本量。

3) 成本量融合及求解。采用滤波方法对成本量进行融合并计算视差图。

4) 迭代。采用EM思想，交替更新遮挡图和视差图，直至收敛。

对光场捕获的光线，本文使用多目成像的表述方式描述，记作${\mathit{\boldsymbol{L}}}({\mathit{\boldsymbol{s}}}, {\mathit{\boldsymbol{p}}})$，其中${\mathit{\boldsymbol{s}}}=(u, v)$为采样到该光线的视角在视角平面内的坐标，${\mathit{\boldsymbol{p}}}=(x, y)$为该光线在视角${\mathit{\boldsymbol{s}}}$成像中的坐标。特别地，使用${\mathit{\boldsymbol{s}}}_{c}=(u_{c}, v_{c})$表示中心视角对应的视角平面内的坐标，并将其作为参考视角。

2.1 基于伪立体模型的遮挡检测

检测物体的遮挡状态需要物体之间的3D位置关系，但相机拍摄的2维图像只能得到平面两个维度的位置关系，丢失了深度维。为此，本文在缺乏真实深度信息的情况下利用伪立体模型进行高精度遮挡检测。

2.1.1 伪立体模型的建立

深度不同的两个物体之间的遮挡边界(occlusion boundaries)在2维图像中往往以色彩边界的形式呈现，如图 3(a)所示。本文方法在检测遮挡前，通过向色彩边界两侧加入前后景关系(foreground-background relation，FBR)和深度差Δ$\hat z$对场景完整建模。图 3(b)(c)为边界两侧区域两种可能的前后景关系。其中，蓝色和绿色物体轮流作为前景。图 3(b)为蓝色物体作为前景的情况，深度比绿色物体小Δ$\hat z$，图 3(c)反之。图 3(d)(e)为与图 3(b)(c)对应的遮挡模型。因无法确切判定场景的2D采样(图 3(a))具体对应哪种前后景关系，为了达到遮挡检测的目的，采用同时包含两种前后景关系的立体模型。当检测绿色区域目标点的遮挡状态时，采用图 3(b)的前后景关系Ⅰ；反之，使用图 3(c)的前后景关系Ⅱ，即默认目标点始终来自背景。本文将这种同时包含两种前后景关系的立体模型定义为伪立体模型。虽然伪立体模型的逻辑假设不符合物理规律，但是这种假设能将边界两侧所有遮挡情况同时合并为一个模型，在缺失前后景信息的情况下包含所有遮挡情况。

图 3 不同前后景关系(FBR)对应的遮挡模型

Fig. 3 Occlusion models for different FBR

((a)2D model; (b)FBRⅠ; (c)FBRⅡ; (d)occlusion model based on FBRⅠ; (e)occlusion model based on FBRⅡ)

2.1.2 伪立体模型的有效性分析

由于场景中两个点之间的真实深度差无法直接获取，因此伪立体模型采用的深度差Δ$\hat z$也难以直接确定。Δ$\hat z$与真实深度差不匹配将造成遮挡图计算不精确。加入的深度差满足条件Δ$\hat z>$Δ$z$时，基于伪立体模型的遮挡检测将能准确估计所有遮挡视角，其中Δ$z$为边界两侧区域的真实深度差。

图 4展示了边界两侧区域的遮挡检测过程。为了方便描述，此处将2维平面映射到1维，其中绿色和蓝色实线为边界两侧区域的真实位置，绿色和蓝色虚线表示伪立体模型对前景的预测位置，$C_{1}\sim C_{3}$表示视角，填充色为采样真实位置(即实线位置)处的颜色。图 4(a)为蓝色实线目标点的遮挡检测，当满足条件Δ$\hat z>$Δ$z$时，若视角被真实前景(绿色实线)遮挡，其必然也会被模型预测前景(绿色虚线)遮挡，如视角$C_{1}$的采样光线在到达真实前景前必然经过预测前景，因此真实遮挡视角始终是模型估计结果的子集。图 4(b)为绿色实线目标点的遮挡检测，由于真实遮挡视角为空集，可被任意集合包含，因此也必然是模型估计结果的子集。由此可推出当满足条件Δ$\hat z>$Δ$z$时，伪立体模型是有效的。

图 4 真实遮挡与算法估计结果的对比

Fig. 4 Comparison between ground truth occlusion and its prediction((a)occlusion prediction for point from blue object; (b) occlusion prediction for point from green object)

2.1.3 基于伪立体模型的遮挡检测公式化表示

假设模型有效性前提Δ$\hat z>$Δ$z$已满足，给定中心图像的边界图${\mathit{\boldsymbol{edge}}}$，光线$L({\mathit{\boldsymbol{s}}}, {\mathit{\boldsymbol{p}}})$的遮挡状态可由下式获取

$ occ(\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{p}}) = \left\{ {\begin{array}{*{20}{l}} 0&{\exists {d^\prime } \in (0, \Delta \hat d), {\rm{ s}}{\rm{. t}}.}\\ {}&{{\rm{ }}\mathit{\boldsymbol{edge}}{\rm{ }}\left({\mathit{\boldsymbol{p}} + \left({\mathit{\boldsymbol{s}} - {\mathit{\boldsymbol{s}}_c}} \right) \times {d^\prime }} \right) \ne 0}\\ 1&{{\rm{ 其他 }}} \end{array}} \right. $

(1)

式中，$occ$为0表示对应光线遮挡，$occ$为1表示未遮挡。Δ$\hat z$为伪立体模型向边界两侧区域添加的视差的差值。$occ({\mathit{\boldsymbol{s}}}, {\mathit{\boldsymbol{p}}})=0$对应的条件表示在中心图像的目标点${\mathit{\boldsymbol{p}}}$和点${\mathit{\boldsymbol{p}}}+({\mathit{\boldsymbol{s}}}－{\mathit{\boldsymbol{s}}}_{c})×$Δ$\hat z$之间存在边界点。

图 5展示了边界点的位置对遮挡状态的影响，为方便描述，此外将视角平面坐标${\mathit{\boldsymbol{s}}}$和${\mathit{\boldsymbol{s}}}_{c}$、空间图像坐标${\mathit{\boldsymbol{p}}}$压缩为1维，分别对应于$s$、$s_{c}$和$p$，${\mathit{\boldsymbol{L}}}$压缩为2维光场。图 5中$P$和$P_{\rm{edge}}$分别表示空间点$P$和边界点$P_{\rm{edge}}$在中心视角像平面内的坐标。因模型有效性已验证，故遮挡状态由模型直接确定。以$s=－1$为例，若在点$p$和点$p+(s－s_{c})×$Δ$\hat z$检测到边界点$p_{\rm{edge}}$，根据伪立体模型定义可知，以$p_{\rm{edge}}$为分界线，$p$所在的一侧将建模为背景，另一侧为前景，建模结果表明光线$L(s, p)$被遮挡，如图 5(a)所示，相反，若点$p$和点$p+(s－s_{c})×$Δ$\hat z$之间不存在边界点，则$L(s, p)$将不被遮挡，如图 5(b)所示。

图 5 边界点的位置对遮挡状态的影响

Fig. 5 Influence of the positions of edge points on occlusion state

((a)the viewpoint $C_{1}$ is determined to be occluded; (b)the viewpoint $C_{1}$ is determined to be un-occluded)

根据深度—视差映射函数的单调特性(Wanner和Goldluecke，2012)，若使式(1)满足伪立体模型的有效性，Δ$\hat z$的取值范围可直接由有效性前提Δ$\hat z>$Δ$z$转换得到，转换结果为

$ \Delta \hat{d}>\Delta d $

(2)

式中，Δ$d$为边界两侧区域真实视差的差值。虽然Δ$d$无法直接计算, 但其有上界Δ$d_{\rm{max}}$, Δ$d_{\rm{max}}$表示待估计场景的视差跨度，场景内任意两区域的视差跨度均小于此值。Δ$d_{\rm{max}}$的大小取决于相机基线以及场景的深度跨度，可固定为一个较大值或根据拍摄设备和应用场景进行调整。在实验部分，对于合成场景，使用数据集提供的视差范围设置Δ$d_{\rm{max}}$，对于Lytro Illum拍摄的真实场景，Δ$d_{\rm{max}}$固定为1.5。考虑到精确率和召回率的平衡，实验设置Δ$\hat z=$$c$Δ$d_{\rm{max}}$，其中$c = \frac{2}{3}$。图 6(c)为使用式(1)对光场数据进行遮挡检测的结果。与有效性分析一致，基于伪立体模型的遮挡检测可估计出所有遮挡视角，但由于伪立体模型同时包含两种前后景关系，会误将部分非遮挡区域判定为遮挡区域，继而导致信息丢失，该问题可通过加入视差信息解决。

图 6 遮挡检测结果

Fig. 6 Results of occlusion detection((a)center image; (b)all-in-focus micro-lens array; (c)occlusion map based on pseudo stereo model; (d)occlusion map based on disparity map)

2.2 深度估计基于伪立体模型的遮挡检测

在遮挡检测完成后，利用遮挡图将场景分为遮挡区域和非遮挡区域，并为两个区域分别设计成本量。多视角图包含遮挡视角的像素划入遮挡区域$\mathit{\Omega }_{\rm{occ}}$，其余像素划入非遮挡区域$\mathit{\Omega }_{\rm{flat}}$。

2.2.1 遮挡区域深度估计

使用遮挡图屏蔽遮挡区域像素的遮挡视角后，剩余视角存在局部成像一致性。传统衡量一致性的方式大致分为两类：以中心视角为基准的MVS成本量(Chen等，2014)和基于多视角图(methods based on angular patches，MAP)的成本量(Tao等，2013)。MVS对中心视角赋予了较大权重，因此对其他视角的少数离群值有较强鲁棒性。MAP对每个视角赋予一致的权重，对整体视角灰度值的轻微波动有较强鲁棒性。

为提高算法稳定性，算法默认遮挡检测始终具有一定的漏判率，即遮挡图无法排除所有遮挡视角。MVS与MAP相比有更加出色的抗遮挡性能，因此采用MVS成本量形式，并集成遮挡图，具体为

$ \boldsymbol{E}_{\mathrm{occ}}^{\alpha}(\boldsymbol{p})=\frac{1}{N(\boldsymbol{p})} \sum\limits_{o c c(s, \boldsymbol{p}) \neq 0} \rho\left(\boldsymbol{A}_{p}^{\alpha}(\boldsymbol{s})-\boldsymbol{L}\left(\boldsymbol{s}_{c}, \boldsymbol{p}\right)\right) $

(3)

式中，${\mathit{\boldsymbol{A}}}^{α}_{p}({\mathit{\boldsymbol{s}}})$表示重聚焦(Ng等，2005)标签为$α$时像素${\mathit{\boldsymbol{p}}}$处的多视角图；$N(\mathit{\boldsymbol{p}}) = \sum\limits_{s \in \Pi } {occ} (\mathit{\boldsymbol{s}}, \mathit{\boldsymbol{p}})$统计各个像素处未遮挡的视角数目；$\rho (x) = 1 - {{\rm{e}}^{ - \frac{{|\left| x \right|}}{{2{\sigma ^2}}}}}$，$σ$表示控制函数对颜色差异的敏感程度。

2.2.2 非遮挡区域深度估计

非遮挡区域与遮挡区域相比有更缓慢的深度变化，并且不会发生深度跳变。在设计数据成本时，传统的MAP或MVS算法都没有很好地利用非遮挡区域的深度连续特性，均使用成像一致性寻找使多视角图颜色最一致的深度标签。但是，若目标像素和周围像素之间的颜色距离较近，则存在大量深度标签可使多视角图均呈现高度一致性，标签的混淆将影响估计深度的精确性。

为了充分利用深度连续特性，设计了离焦网格匹配(defocus grid matching，DGM)成本量。成本量示意图如图 7(a)所示，此时焦点和目标点$P$所在平面之间存在一定距离，多视角图中各个视角均采样不同空间位置。假设目标点$P$所在平面为前平行面(front-parallel plane)，在相邻视角之间基线相等的情况下，这些采样点将对应以$P$为中心的网格的顶点，该采样模式定义为多视角网格采样。如果利用中心视角对该平面等间距采样，其采样点也将对应于网格的顶点，本文将此采样模式定义为子孔径网格采样，如图 7(b)所示。DGM成本量基于两种采样模式的采样结果的差异构建而成，其中子孔径网格采样使用固定的采样间隔，多视角网格采样通过改变聚焦参数来调整其采样间隔。若两种采样模式的采样间隔相等，将得到相同的采样结果。DGM成本量函数为

图 7 离焦网格匹配

Fig. 7 Defocus grid matching

((a)angular grid sampling; (b)sub-aperture grid sampling)

$ E_{{\rm{flat }}}^\alpha (\mathit{\boldsymbol{p}}) = \frac{1}{N}\sum\limits_\mathit{\boldsymbol{s}} \rho \left({\mathit{\boldsymbol{A}}_p^{\alpha + \Delta d}(\mathit{\boldsymbol{s}}) - \mathit{\boldsymbol{A}}_p^\prime (\mathit{\boldsymbol{s}})} \right) $

(4)

$ \mathit{\boldsymbol{A}}_p^\prime (\mathit{\boldsymbol{s}}) = \mathit{\boldsymbol{L}}\left({{\mathit{\boldsymbol{s}}_c}, \mathit{\boldsymbol{p}} + \left({\mathit{\boldsymbol{s}} - {\mathit{\boldsymbol{s}}_c}} \right) \times \Delta d} \right) $

(5)

式中，$N$表示多视角图包含视角的数量，Δ$d$表示子孔径采样间隔，${\mathit{\boldsymbol{A}}}^{α+Δd}_{p}$为像素${\mathit{\boldsymbol{p}}}$处重聚焦标签为$α+$Δ$d$时的多视角网格采样点，${\mathit{\boldsymbol{A}}}′_{p}$为${\mathit{\boldsymbol{p}}}$处的子孔径网格采样点。

与传统匹配方法相比，DGM具有更分散的采样点，因此可捕获更广范围的纹理。当目标点处于无纹理区域时，DGM分散的采样点将能够感知各自位置处的色彩变化，有效减少标签的混淆。

2.3 成本量融合及其优化

遮挡区域和非遮挡区域成本量均根据参与匹配的视角数目进行归一化处理，最终成本量将由两者拼接而成，具体为

$ {\mathit{\boldsymbol{E}}^\alpha }(\mathit{\boldsymbol{p}}) = \left\{ {\begin{array}{*{20}{l}} {E_{{\rm{occ }}}^\alpha (\mathit{\boldsymbol{p}})}&{\mathit{\boldsymbol{p}} \in {\mathit{\Omega }_{{\rm{occ }}}}}\\ {E_{{\rm{flat }}}^\alpha (\mathit{\boldsymbol{p}})}&{\mathit{\boldsymbol{p}} \in {\mathit{\Omega }_{{\rm{flat }}}}} \end{array}} \right. $

(6)

为了使高置信度点的有效信息传播到低置信度区域，需要利用光场中心图像作为引导图对成本量进行逐标签引导滤波优化(Rhemann等，2011；Sheng等，2017)。引导滤波能够在传播信息的同时有效保持遮挡边界处的深度不连续性。与基于图割(Boykov等，2001)的优化算法相比，基于滤波的方法具有更低的时间复杂度，且能够并行处理多个标签。而且由于遮挡图的引导作用，成本量已具备较高可靠性，基于滤波的信息传播算法足以应对大部分实验场景，最终视差标签直接由滤波后的成本量通过赢者通吃策略(winner-takes-all)生成。

2.4 基于EM的联合优化框架

视差图可以为遮挡检测提供高精度3D模型，而基于精确3D模型生成的遮挡图将能够有效提升成本量的抗遮挡性能，进而生成更高精度的视差图。基于此特性，设计基于EM的联合优化框架来交替提高遮挡图和视差图的精度。

2.4.1 基于视差图的遮挡检测

光场图像、遮挡图和视差图可分别作为观测数据、隐变量和待估计参数融入EM框架，通过基于伪立体模型的遮挡检测、深度估计和成本量融合及其优化构成了光场图像和遮挡图到视差图的单向估计。为了形成回路，使用视差图估算高精度遮挡图。如图 8所示。

图 8 EM框架

Fig. 8 Framework of expectation-maximization

对于视差图中的像素${\mathit{\boldsymbol{p}}}$，设其视差值为$d({\mathit{\boldsymbol{p}}})$。当像素${\mathit{\boldsymbol{p}}}$周围存在视差值较大的另一像素${\mathit{\boldsymbol{q}}}$，${\mathit{\boldsymbol{p}}}$处多视角图中的部分视角将可能被${\mathit{\boldsymbol{q}}}$遮挡。基于这一性质筛选可能被遮挡的像素，具体为

$ {d_{{\rm{dif}}}}(\mathit{\boldsymbol{p}}) = \mathop {\max }\limits_{q \in {W_r}(\mathit{\boldsymbol{p}})} \{ d(\mathit{\boldsymbol{q}})\} - d(\mathit{\boldsymbol{p}}) $

(7)

式中，${\mathit{\boldsymbol{W}}}_{r}({\mathit{\boldsymbol{p}}})$为以${\mathit{\boldsymbol{p}}}$为中心、$r$为边长的矩形窗。当$d_{\rm{dif}}$$({\mathit{\boldsymbol{p}}})>0$，则将${\mathit{\boldsymbol{p}}}$标记为待检测像素。式(7)可以有效分辨边界两侧的前景和背景，当像素${\mathit{\boldsymbol{p}}}$来自视差较小的背景时，$d_{\rm{dif}}$$({\mathit{\boldsymbol{p}}})>0$；反之，$d_{\rm{dif}}$$({\mathit{\boldsymbol{p}}})=0$。为了避免将斜平面和曲面误判为遮挡场景，为$d_{\rm{dif}}$$({\mathit{\boldsymbol{p}}})$设置略微大于零的阈值$d_{\rm{thred}}$，若$d_{\rm{dif}}$$({\mathit{\boldsymbol{p}}})>d_{\rm{thred}}$，则${\mathit{\boldsymbol{p}}}$为待检测像素。

使用上述操作筛选出场景所有待检测像素之后，再利用伪立体模型对所有筛选出的待检测像素进行遮挡检测。由于RGB图像边界定位遮挡边界的能力较差，构建伪立体模型时将视差图的边界图作为遮挡边界图输入式(1)。同时，为了进一步利用视差信息，使用$d_{\rm{dif}}$$({\mathit{\boldsymbol{p}}})$代替伪立体模型的预设值Δ$\hat z$。基于视差图引导的遮挡检测结果如图 6(d)所示，与图 6(c)未使用视差引导的检测结果相比，在伪立体模型中使用视差信息引导，能够有效地去除被误判的遮挡区域，进一步提高了遮挡检测精度。

2.4.2 构建联合优化框架

融入基于EM的联合优化框架后，整体深度估计流程如下:

1) 遮挡图(隐变量)的初始值由基于伪立体模型的遮挡检测生成。

2) E(exception)步：在遮挡图的引导下建立成本量(期望函数)。

3) M(maximization)步：最小化成本(最大化期望)计算视差图。之后通过基于视差图的遮挡检测生成更准确的遮挡图(更新隐变量)。

在基于EM的联合优化框架下，算法具有较快的收敛速度。这是由于：1)在参数初始化部分，伪立体模型生成的遮挡图已经具有较高精度，精确的初始化将大幅减少算法迭代次数；2)在设计成本量时充分考虑了算法稳定性，降低了其对输入遮挡图的精度要求。

图 9为算法在不同迭代次数时的视差估计结果。其中第2轮之后迭代结果已趋于平稳，过多的迭代次数将极大提高计算成本。综合考虑，实验将迭代次数$iters$固定为2。

图 9 不同迭代次数的深度估计结果和错误像素指标

Fig. 9 Depth estimation results and bad pixel metrics of different iterations

((a)the 1st iteration; (b)the 2nd iteration; (c)the 3rd iteration; (d)the 4th iteration)

3 实验结果与分析

实验在Light Field Benchmark(Wanner等，2013；Honauer等，2016)合成数据集和Stanford Lytro Illum真实场景数据集上进行。为确保公正性，所有参与评比的算法均以75为标签数目。定量评估利用错误像素比例$B_{\rm{pix}}$$(t)$和均方误差$MSE$来衡量算法的优劣，具体为

$ {B_{{\rm{pix }}}}(t) = \frac{{\left\{ {x \in \mathit{\boldsymbol{M}}:\left| {d(x) - {d_{{\rm{GT}}}}(x)} \right| > t} \right\}}}{{|\mathit{\boldsymbol{M}}|}} $

(8)

$ MSE = \frac{1}{{|\mathit{\boldsymbol{M}}|}}\sum\limits_{x \in \mathit{\boldsymbol{M}}} {{{\left({d(x) - {d_{{\rm{GT}}}}(x)} \right)}^2}} \times 100\% $

(9)

式中，$d(x)$为算法生成视差，$d_{\rm{GT}}$$(x)$为真实视差，${\mathit{\boldsymbol{M}}}$为视差图像素集合。

3.1 参数选择

在式(3)和式(4)中，参数$σ$决定着$ρ(x)$对颜色差异$x$的敏感程度，如图 10所示，$σ$越小越会放大相似像素之间的距离，而离群值的能量贡献将会因为饱和变为常数，从而有效避免多视角图中遮挡像素的影响，提供清晰的视差边界。大部分实验中遮挡区域的$σ$设为0.08，非遮挡区域的$σ$设为0.15。

图 10 $σ$取不同值时的$ρ(x)$曲线

Fig. 10 $ρ(x)$ corresponding to different $σ$

在噪声过高的场景，使用预设的$σ$值将导致较高的错误率，这是因为最佳参数往往与场景的信噪比相关。如果多视角图存在过多噪声干扰的像素，在$σ$较小的情况下，这些像素将因能量饱和造成信息丢失。因此需要增大$σ$以提高饱和区的阈值，使系统能够感知受轻微噪声影响的像素的颜色变化。图 11展示了在高噪情况下使用不同$σ$的深度估计情况，图中红色区域为$B_{\rm{pix}}$(0.07)判定的错误像素。使用预设$σ$值的结果存在大面积坏像素，但随着$σ$值的变大，坏像素的比例逐渐减少，最终维持在较低水平。对高噪场景，实验将$σ$设置为0.5。

图 11 $σ$取不同值时对高噪声图像的处理能力

Fig. 11 The ability to process high-noise scenes when σ takes different values((a)$σ=0.08$; (b)$σ=0.$15;(c)$σ=0.$30;(d)$σ=0.$50)

3.2 遮挡检测

判断视角的遮挡状态对深度估计至关重要。实验在不同遮挡模式下将本文方法与LF_OCC(light field occlusion)(Wang等，2015)和IGF(Sheng等，2017)方法进行对比。与单像素的遮挡图比较方式不同，实验着重考察算法对遮挡区域内所有多视角图的判断结果。这种考察方式需要算法能够对所有不同程度的遮挡做出正确响应。图 12展示了不同遮挡模式下算法的遮挡检测结果，其中图像块IV的标记区域为对比度增强后的结果。可以看出，1)LF_OCC算法在单遮挡场景具有较好表现，但仅对位于遮挡边界处的像素做出响应。原因是LF_OCC算法假设遮挡仅发生在遮挡边界处。但通过全聚焦微透镜阵列可以看出，遮挡以遮挡边界为起点向背景扩散。在图像块IV的低对比度遮挡区域，由于边界检测失效而没有对遮挡做出响应。对不包含遮挡的图像块V和VI，由于该区域强纹理导致误判为遮挡区域。2)IGF算法具备较好的遮挡边界定位能力，但估计的遮挡区域覆盖了较多非遮挡区域。原因是IGF算法在2D模型中根据目标点和周围点之间的颜色距离生成遮挡图，缺乏视差信息引导，因此无法分辨前景和背景。并且当目标点处于弱纹理区域时，例如图像块IV，由于遮挡场景的低对比度将无法生成正确遮挡图。与LF_OCC算法类似，由于缺乏视差信息的引导，在图像块V和VI中无法分辨强纹理和遮挡边界。3)本文算法在各种遮挡模式下的表现均优于其他算法，尽管第1次迭代未对图像块IV的低对比度遮挡区域做出正确响应，但在第2次迭代中利用视差信息成功生成了较为精确的遮挡图。对图像块V和VI中的强纹理区域，第1次迭代误将一些未遮挡视角标记为遮挡视角，但是在第2次迭代中通过集成视差信息做出了正确响应。

图 12 不同算法估计的遮挡图对比

Fig. 12 Comparison of the occlusion maps estimated among different algorithms((a)center images; (b)all-in-focus micro-lens array; (c)LF_OCC; (d)IGF; (e)the 1st iteration of ours; (f)the 2nd iteration of ours)

3.3 深度估计

本文方法与LF_OCC(Wang等，2015)、POBR(partially occluded border regions)(Chen等，2018)、MLB(Zhang等，2018)和LF_PAC(light field partial angular coherence)(Guo等，2019)方法的量化指标$B_{\rm{pix}}$(0.1)和MSE(mean square error)的对比如表 1和表 2所示。可以看出，本文算法在所有场景中的表现均优于其他算法。

表 1 不同算法的$B_{\rm{pix}}$(0.1)指标比较
Table 1 Comparison of $B_{\rm{pix}}$(0.1) among different algorithms

下载CSV

方法	场景
方法	StillLife	Buddha	MonasRoom	Horses
LF_OCC	17.5	4.1	7.4	18.9
POBR	8.0	2.6	3.3	21.0
MLB	5.4	1.1	3.4	5.3
LF_PAC	5.2	2.1	6.3	6.7
本文	3.2	0.8	1.7	2.6
注：加粗字体为各列最优结果。

表 2 不同算法的MSE指标比较
Table 2 Comparison of MSE among different algorithms

下载CSV

/%
方法	场景
方法	StillLife	Buddha	MonasRoom	Horses
LF_OCC	3.0	0.8	0.6	1.6
POBR	4.6	0.5	0.44	1.1
MLB	1.2	0.5	0.46	3.7
LF_PAC	1.67	0.6	0.8	2.5
本文	1.0	0.3	0.4	0.9
注：加粗字体为各列最优结果。

3.3.1 遮挡区域表现

图 13为使用Light Field Benchmark数据集的视差估计结果。可以看出，LF_OCC算法虽然进行了抗遮挡处理，但根据遮挡检测实验可知，其无法处理多遮挡和低对比度遮挡，因此造成了该类型区域的边界混淆。POBR聚类方法由于不能在狭窄多遮挡区域生成正确的超像素，因此造成了遮挡边界附近前后景的混淆。LF_PAC由于其优秀的视角掩膜算法，在单遮挡边界处表现良好，但对复杂遮挡情况，其视角掩膜无法与遮挡模型形成较好匹配，最终导致前后景混淆。本文算法能够较好地判断各种遮挡模式，因此在遮挡区域具有良好表现。

图 13 不同方法在Light Field Benchmark数据集中的视差图对比

Fig. 13 Comparisons of disparity maps on Light Field Benchmark dataset among different mothods

((a)center images; (b)ground truth; (c)LF_OCC; (d)POBR; (e)MLB; (f)LF_PAC; (g)ours)

真实场景实验使用Stanford Lytro Illum数据集，并从中挑选了包含复杂遮挡情况的场景，视差估计结果如图 14所示。可以看出，在场景Ⅰ和场景Ⅲ中LF_OCC和LF_PAC算法出现了不同程度的结构断裂，POBR和MLB算法虽然没有出现结构断裂，但是造成了前后景混叠，而本文方法很好地恢复了网格结构，在场景Ⅱ中，本文方法较好地恢复了狭窄的孔洞部分，而其他算法不同程度地将孔洞部分填平，导致信息丢失。

图 14 不同方法在Stanford Lytro Illum数据集中的视差图对比

Fig. 14 Comparisons of disparity maps on Stanford Lytro Illum dataset among different mothods

((a)center images; (b)LF_OCC; (c)POBR; (d)MLB; (e)LF_PAC; (f)ours)

3.3.2 整体表现

图 15为本文方法与SPO(spinning parallelogram operator)(Zhang等，2016)、LF_OCC(Wang等，2015)、CAE(constrained angular entropy)(Williem等，2018)、IGF(Sheng等，2017)和LF_PAC(Guo等，2019)方法在Light Field Benchmark数据集Stratified系列场景中的视差估计结果对比，实验采用的度量标准包括stripes的Low texture度量(弱纹理区域的$B_{\rm{pix}}$(0.07)度量)，Backgammon和Dots的$B_{\rm{pix}}$(0.07)度量和Pyramids的MSE度量。可以看出，SPO算法在低纹理区域存在较多错误像素，原因是其基于EPIs的方法只使用部分视角信息，无法捕捉更大范围的纹理。LF_OCC算法只能处理单遮挡情况，因此其无法重建Backgammon的狭窄缝隙。场景Pyramids包含大量强纹理，由于IGF算法的遮挡图屏蔽了较多未遮挡的视角，丢失了较多有用信息，因此即使在非遮挡区域也生成了错误像素。LF_PAC算法在stripes的低纹理区域存在大量错误像素，这是由于其掩膜集合在此区域均具有相近的响应，无法通过最小池化选出与遮挡匹配的视角掩膜。相比之下，在遮挡区域，本文算法在每个多视角图中均排除了几乎所有遮挡视角，取得了较好表现。在强纹理和噪声区域，在视差信息的引导下，本文算法成功避免了非遮挡区域纹理的干扰，充分利用光场每个视角提供信息。实验结果表明，本文算法在大多数场景均具有最好表现，与其他算法相比，可以实现更高的整体精度。

图 15 不同方法在Light Field Benchmark数据集Stratified系列场景中的视差图对比

Fig. 15 Comparison of disparity maps in Stratified scenes on Light Field Benchmark dataset among different methods

((a)center images; (b)LF_OCC; (c)CAE; (d)SPO; (e)IGF; (f)LF_PAC; (g)the 1st iteration of ours; (h)the 2nd iteration of ours)

表 3为本文算法与对比算法的运行时间对比，数据规格均采用512 × 512 × 9 × 9。可以看出，虽然本文算法在总迭代时间上不占优势，但图 15表明，在深度估计方面本文算法的单次迭代比其他算法具有较大优势。对于单次迭代而言，本文算法的时间复杂度达到次优水准。

表 3 不同方法的运行时间对比
Table 3 Comparison of run times among different methods

下载CSV

/s
方法	运行时间
CAE	668
SPO	952
MLB	879
LF_PAC	296
本文(两次迭代)	471 + 531
注：加粗字体为最优结果。

4 结论

针对复杂遮挡场景设计了3D遮挡模型引导的光场图像深度估计方法。首先基于伪立体模型生成高精度遮挡图，避免了遮挡视角对成本量的干扰，然后将遮挡检测和深度估计融入基于EM的联合优化框架，提升了深度估计精度。对比目前先进的基于2D模型的遮挡检测算法，本文算法能够更加准确地估计多种复杂遮挡模式，并且针对遮挡区域和非遮挡区域分别设计成本量的策略使本文方法对不同区域具有更好的适应性。本文方法的关键是遮挡图的构建，为此在初始化步骤中将伪立体模型添加的视差差值设置为较大值，此举虽可有效排除大部分遮挡视角，但后果是造成了部分有用信息丢失。下一步工作将通过利用低分辨率算法快速生成粗估计视差来解决初始视差差值不精确的问题，以进一步提升深度估计精度。

参考文献

Bolles R C, Baker H H, Marimont D H. 1987. Epipolar-plane image analysis: an approach to determining structure from motion. International Journal of Computer Vision, 1(1): 7-55 [DOI:10.1007/bf00128525]

Boykov Y, Veksler O, Zabih R. 2001. Fast approximate energy minimization via graph cuts. IEEE Transactions on Pattern Analysis and Machine Intelligence, 23(11): 1222-1239 [DOI:10.1109/34.969114]

Chen C, Lin H T, Yu Z, Kang S B, Yu J Y. 2014. Light field stereo matching using bilateral statistics of surface cameras//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE: 1518-1525[DOI: 10.1109/CVPR.2014.197]

Chen J, Hou J H, Ni Y, Chau L P. 2018. Accurate light field depth estimation with superpixel regularization over partially occluded regions. IEEE Transactions on Image Processing, 27(10): 4889-4900 [DOI:10.1109/TIP.2018.2839524]

Guo Z H, Wu J L, Chen X F, Ma S, Zhu L C, Yang P, Xu B. 2019. Accurate light field depth estimation using multi-orientation partial angular coherence. IEEE Access, 7: 169123-169132 [DOI:10.1109/ACCESS.2019.2954892]

Honauer K, Johannsen O, Kondermann D, Goldluecke B.2016. A dataset and evaluation methodology for depth estimation on 4D light fields//Proceedings of the 13th Asian Conference on Computer Vision. Taipei, China: Springer: 19-34[DOI: 10.1007/978-3-319-54187-7_2]

Jeon H G, Park J, Choe G, Park J, Bok Y, Tai Y W, Kweon I S. 2015. Accurate depth map estimation from a lenslet light field camera//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 1547-1555[10.1109/CVPR.2015.7298762]

Johannsen O, Honauer K, Goldluecke B, Alperovich A, Battisti F, Bok Y, Brizzi M, Carli M, Choe G, Diebold M, Gutsche M, Jeon H G, Kweon I S, Park J, Park J, Schilling H, Sheng H, Si L P, Strecke M, Sulc A, Tai Y W, Wang Q, Wang T C, Wanner S, Xiong Z, Yu J Y, Zhang S, Zhu H. 2017. A taxonomy and evaluation of dense light field depth estimation algorithms//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, USA: IEEE: 1795-1812[DOI: 10.1109/CVPRW.2017.226]

Lin H T, Chen C, Kang S B, Yu J Y. 2015. Depth recovery from light field using focal stack symmetry//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 3451-3459[DOI: 10.1109/ICCV.2015.394]

Ng R, Levoy M, Brédif M, Duval G, Horowitz M, Hanrahan P. 2005. Light field photography with a hand-held plenoptic camera. CSTR 2005-02. Stanford University Computer Science: 1-11

Rhemann C, Hosni A, Bleyer M, Rother C, Gelautz M. 2011. Fast cost-volume filtering for visual correspondence and beyond//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition 2011. Providence, USA: IEEE: 3017-3024[DOI: 10.1109/CVPR.2011.5995372]

Sheng H, Zhang S, Cao X C, Fang Y J, Xiong Z. 2017. Geometric occlusion analysis in depth estimation using integral guided filter for light-field image. IEEE Transactions on Image Processing, 26(12): 5758-5771 [DOI:10.1109/TIP.2017.2745100]

Strecke M, Alperovich A, Goldluecke B. 2017. Accurate depth and normal maps from occlusion-aware focal stack symmetry//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 2529-2537[DOI: 10.1109/CVPR.2017.271]

Tao M W, Hadap S, Malik J, Ramamoorthi R. 2013. Depth from combining defocus and correspondence using light-field cameras//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE: 673-680[DOI: 10.1109/ICCV.2013.89]

Wang T C, Efros A A, Ramamoorthi R. 2015. Occlusion-aware depth estimation using light-fieldcameras//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 3487-3495[DOI: 10.1109/ICCV.2015.398]

Wanner S, Goldluecke B. 2012. Globally consistent depth labeling of 4D light fields//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE: 41-48[DOI: 10.1109/CVPR.2012.6247656]

Wanner S, Meister S, Goldluecke B. 2013. Datasets and benchmarks for densely sampled 4D light fields//Proceedings of the 18th International Workshop on Vision, Modeling and Visualization. Lugano, Switzerland: The Eurographics Association: 225-226[DOI: 10.2312/PE.VMV.VMV13.225-226]

Williem W, Park I K. 2016. Robust light field depth estimation for noisy scene with occlusion//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 4396-4404[DOI: 10.1109/CVPR.2016.476]

Williem W, Park I K, Lee K M. 2018. Robust light field depth estimation using occlusion-noise aware data costs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(10): 2484-2497 [DOI:10.1109/TPAMI.2017.2746858]

Zhang S, Sheng H, Li C, Zhang J, Xiong Z. 2016. Robust depth estimation for light field via spinning parallelogram operator. Computer Vision and Image Understanding, 145: 148-159 [DOI:10.1016/j.cviu.2015.12.007]

Zhang S, Sheng H, Yang D, Zhang J, Xiong Z. 2018. Micro-lens-based matching for scene recovery in lenslet cameras. IEEE Transactions on Image Processing, 27(3): 1060-1075 [DOI:10.1109/TIP.2017.2763823]