发布时间: 2017-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170324
2017 | Volume 22 | Number 12

图像理解和计算机视觉

自适应成本量的抗遮挡光场深度估计算法

熊伟, 张骏, 高欣健, 张旭东, 高隽

合肥工业大学计算机与信息学院, 合肥 230601

收稿日期: 2017-06-30; 修回日期: 2017-09-12

基金项目: 国家自然科学基金项目（61403116）；中国博士后基金项目（2014M560507）；中央高校基本科研业务费专项基金项目

第一作者简介: 熊伟(1991-), 男, 合肥工业大学计算机与信息学院信号与信息处理专业硕士研究生, 主要研究方向为计算机视觉, 光场技术。E-mail:xiongwei@mail.hfut.edu.cn.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2017)12-1709-14

摘要

目的光场相机通过一次成像同时记录场景的空间信息和角度信息，获取多视角图像和重聚焦图像，在深度估计中具有独特优势。遮挡是光场深度估计中的难点问题之一，现有方法没有考虑遮挡或仅仅考虑单一遮挡情况，对于多遮挡场景点，方法失效。针对遮挡问题，在多视角立体匹配框架下，提出了一种对遮挡鲁棒的光场深度估计算法。方法首先利用数字重聚焦算法获取重聚焦图像，定义场景的遮挡类型，并构造相关性成本量。然后根据最小成本原则自适应选择最佳成本量，并求解局部深度图。最后利用马尔可夫随机场结合成本量和平滑约束，通过图割算法和加权中值滤波获取全局优化深度图，提升深度估计精度。结果实验在HCI合成数据集和Stanford Lytro Illum实际场景数据集上展开，分别进行局部深度估计与全局深度估计实验。实验结果表明，相比其他先进方法，本文方法对遮挡场景效果更好，均方误差平均降低约26.8%。结论本文方法能够有效处理不同遮挡情况，更好地保持深度图边缘信息，深度估计结果更准确，且时效性更好。此外，本文方法适用场景是朗伯平面场景，对于含有高光的非朗伯平面场景存在一定缺陷。

关键词

深度估计; 光场; 遮挡; 重聚焦; 成本量

Anti-occlusion light-field depth estimation from adaptive cost volume

Xiong Wei, Zhang Jun, Gao Xinjian, Zhang Xudong, Gao Jun

School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230601, China

Supported by: National Natural Science Foundation of China (61403116); China Post-Doctoral Science Foundation (2014M560507); Fundamental Research Funds for the Central Universities

Abstract

Objective A light-field camera can record space and angular information of a scene within one shot. The space information reflects the position of scene while the angular information reveals the views of scene. Multi-view and refocusing images can be obtained from light-field cameras, which possess unique advantage especially in depth estimation. Occlusion is a challenging issue for light-field depth estimation. Previous works have failed to model occlusion or have considered only single occlusion, thereby failing to achieve accurate depth for multi-occlusion. In this study, we present a light-field depth estimation algorithm that is robust to occlusion in a multi-view stereo matching framework. Method First, we apply the digital refocusing algorithm to obtain refocusing images. Then, we define occlusions into non-occlusion, single-occlusion, and multi-occlusion types. Given that different occlusions present dissimilar properties, we build the corresponding cost volume with refocusing images based on different occlusion types. Thereafter, we choose the optimal cost volume and calculate the local depth map in accordance with the min-cost principle. Finally, we utilize the graph cut algorithm to optimize local depth results by combining the cost volume and the smoothness constraint in a Markov random field framework to improve the accuracy of depth estimation. We apply the weighted median filter algorithm to remove noise and preserve the edge information of image. Result Experiments are conducted on the HCI synthetic dataset and Stanford Lytro Illum dataset for real scenes. The proposed approach works better for occluded scenes than do other state-of-the-art methods as its MSE decreases by approximately 26.8%. Conclusion Our approach obtains highly accurate edge-preserved depth map and is robust to different occlusion types. In addition, the running-time efficiency outperforms that of other methods. Although our approach performs well in the Lambertian scene, it may fail in non-Lambertian scene with glossy objects.

Key words

depth estimation; light field; occlusion; refocusing; cost volume

0 引言

深度，是指场景中某点到相机中心平面的距离，反映了场景的3维几何信息。可靠的深度信息为图像分割^[1]、目标检测与识别^[2]、显著性检测^[3]和3维表面重建^[4]等视觉任务提供了有效的信息来源。深度估计已成为计算视觉领域的重要研究内容之一。

现有深度估计方式主要分为主动式和被动式两类：1)主动式深度估计是指通过向场景目标发射可控光束或激光点，利用几何关系或飞行时间来计算被测目标表面深度值，如飞行时间法(TOF)^[5]。主动深度估计方法测量范围有限，且容易受场景限制和其他光照干扰，因而往往用于室内环境；2)被动式深度估计可以直接采集室内、外场景数据，通过分析目标运动、亮度、颜色等信息来估计场景深度，其主要方法有双目立体视觉^[6]和多视角立体视觉^[7]。该类方法需要一般需要复杂的标定过程，且往往需要从多个视角多次拍摄，很难获取动态场景精确的深度信息。

随着传感器技术的发展，光场相机作为一种新型的被动式多视角成像设备，相比于传统被动式CCD相机，光场相机通过一次拍摄即可获得空间光线的4维光场信息^[8]，即空间信息和角度信息，通常用两个平行平面参数化表示^[9]，记为$LF$($x$, $y$, $s$, $t$)，其中($x$, $y$)代表空间信息，($s$, $t$)代表角度信息。空间信息反映了场景的位置信息，角度信息反映了场景的视角变化，因此光场数据能够更好地揭示场景的3维结构，拥有数字重聚焦^[8]的优势。近年来，随着商业光场相机Lytro、Raytrix和Lytro Illum的相继面世，使得光场数据获取更为容易，加速了光场相机在深度估计中的发展与应用^[10-11]。

根据光场表现特征的不同，现有光场深度估计方法可以分为3类：基于极线平面图像(EPI)的深度估计^[12-14]、基于光场数字重聚焦的深度估计^[15-18]，以及基于多视角立体匹配的深度估计^[19-21]。尽管文献[11]从原理上将基于数字重聚焦方法与多视角立体匹配归为一类，但是由于重聚焦表现在图像聚焦前后清晰度上，多视角表现在图像视角偏差上，为区分其不同的特征表现形式，本文分成3类分别阐述。其中，基于EPI的光场深度估计是将3维场景点投影到不同视角，不同投影点形成的直线构成一幅2维的极线平面图像，该直线斜率与该场景点深度相关。因此，深度估计问题可以转化成EPI直线斜率检测问题。例如，Wanner等人^[12-13]利用EPI图像的结构张量分析像素匹配方向，获取局部深度信息，并通过全局可见性约束获取全局深度信息。然而，该方法没有充分利用4维光场信息，仅仅使用了某1维的角度信息，对于遮挡场景点(遮挡场景点在参考视角中可见，在其他视角中被遮挡而不可见)，像素匹配方向随机性增大，导致深度估计性能降低。另外，EPI在提取过程中计算量较大、时间复杂度较高，因此该类方法实时性较差。

基于光场数字重聚焦的深度估计是利用光场数字重聚焦的优势，通过对重聚焦图像进行聚焦性检测来提取深度信息。例如，Tao等人^[15]首次结合散焦和相关性等线索提取重聚焦图像中的局部深度图，再利用马尔可夫随机场(MRF)对二者融合获得最终深度图。进一步，他们利用角度相干性^[16]构造新的散焦和相关性线索，同时引入阴影和光照线索约束并校正深度图，最后通过非线性最小二乘法进行优化，提升了深度估计的准确性。但是这两种方法仅仅适合简单近距离场景深度估计，对于遮挡、远距离场景目标深度估计会产生较大误差。

基于多视角立体匹配的深度估计充分利用了光场多视角图像的颜色一致性，与传统立体匹配方法类似，该方法通过构造成本量来获取深度信息。例如，Yu等人^[20]充分利用光线辐射空间中3D直线几何结构，以3D直线作为约束条件，引入直线辅助图像分割(LAGC)算法提取深度信息。然而，当场景存在严重遮挡时，该3D直线就会被分割成小而不连续的断线，从而导致深度估计误差增大。Jeon等人^[21]首次明确解决了光场深度估计中窄基线问题，利用傅里叶变换中的相移理论获得微透镜阵列之间的亚像素位移，将中心视角作为参考视角与其他视角进行立体匹配，然后利用图割优化算法进行多标签优化，最终通过迭代优化将离散深度图转换成连续的深度图。该方法尽管深度提取精度较高，但需要对每个多视角图像对分别构造成本函数，时间复杂度高，且无法处理遮挡问题。

综上可知，上述方法可以在某些特定场景中获取较为准确的深度信息。然而，这些方法均包含了一个隐含的假设：成像一致性原则^[19]，即从不同视角观察同一个空间点，该空间点颜色是相似的。当场景中存在遮挡点时，成像一致性原则不再满足，导致这些方法失效。

于是，针对光场深度估计中的遮挡问题，一些学者提出了不同的解决办法^{[17-18, 22-23]}。例如，Wang等人^[17]首次对光场深度估计遮挡问题明确建模，根据光场空间图像边缘与角度图像边缘方向的一致性，利用Canny边缘算子检测空间图像边缘，并利用此边缘直线将角度图像块分为遮挡视角与非遮挡视角，最后通过MRF对初始深度图进行优化。该方法对于单遮挡场景点(即该场景点在角度图像中仅仅被一个目标点遮挡)的深度估计效果较好。但是，当场景点被多个场景目标点遮挡时，边缘提取误差较大，导致深度图边缘平滑失真。Williem等人^[18]引入信息熵度量作为相关性响应，并融合散焦响应获取深度信息。该算法可以有效处理轻微遮挡，但是当遮挡严重时，该方法就会失效。Chen等人^[23]利用表面相机模型构建子孔径图像匹配问题，通过双边统计度量来区分遮挡视角与非遮挡视角，最后利用MRF优化平滑深度图。但是，该方法对于双边统计度量的参数选择缺乏明确指导，只能根据经验对不同场景图像进行调整，并且算法抗噪性能较差，对光场相机在真实场景中采集图像的估计效果欠佳。分析上述方法我们发现，目前针对遮挡的光场深度估计算法主要存在以下两个问题：1)模型较为复杂，且参数设置依赖经验，缺乏知识指导；2)只对单遮挡场景点有效，无法准确估计多遮挡场景点的深度信息。

本文在多视角立体匹配框架下，提出了一种对遮挡鲁棒，由粗到细、由局部到全局的光场深度估计算法。将遮挡定义为3种类型：无遮挡(场景点没有被其他目标遮挡，满足成像一致性原则)、单遮挡(场景点被一个场景目标遮挡)、多遮挡(场景点被两个或多个场景目标遮挡)。针对3种不同遮挡类型，利用多视角相关性分别构造均值成本量、中值成本量和平均中值成本量，根据成本最小准则，自适应选择适用于估计场景的最佳成本量，并直接求解局部深度图。进一步，利用MRF模型^[24]，结合成本量和平滑约束，将深度估计问题转换为能量最小化问题，并通过图割(GC)算法^[24-25]求解。最后，通过加权中值滤波(WMF)算法^[26]去除深度图中的颗粒噪声，得到全局优化深度图。本文方法简单有效，在保证算法时效性的同时，提升了深度估计精度。文献[16-17, 21]是光场深度估计近年来最具代表性方法，因此本文将与其进行定性和定量实验比较。实验结果表明，与其他先进方法相比，如图 1所示，本文算法可以更有效地解决遮挡问题，保持了深度图边缘信息，由实验结果可知，均方误差平均降低约26.8%。

图 1 不同算法光场深度估计结果对比

Fig. 1 Comparison of depth estimation results with different algorithms ((a) center view image; (b) reference[16] method; (c) reference[17] method; (d) reference[21] method; (e) our method)

本文主要贡献归纳如下：1)在多视角立体匹配框架下，提出了一种对遮挡鲁棒的由粗到细、由局部到全局的光场深度估计算法。局部深度估计能够有效去除遮挡，保持图像边缘信息，获取初始深度图；全局深度估计能够优化局部深度图中的匹配误差，获取全局一致深度图，去除了局部深度图中的颗粒噪声，能够进一步提升深度图精度。2)特别地，定义了3种不同场景遮挡类型，构造相应的成本量函数并自适应选择最佳成本量。所得成本量弥补了传统成像一致性的缺陷，能够获取不同遮挡场景较为准确的局部深度图。

1 成像原理与数字重聚焦

光场相机在主透镜和像素传感器之间加入一个微透镜阵列，如图 2所示^[8]，物体上某一点反射光线经主透镜汇聚到微透镜阵列上，然后通过微透镜阵列将光线按照入射方向分散到像素传感器上。因此，像素传感器在记录场景空间信息的同时也记录了角度信息。

图 2 光场相机成像模型

Fig. 2 The imaging model of light field camera system

与传统CCD相机不同，光场相机利用数字重聚焦原理^[8]，能够获取聚焦到不同深度平面的重聚焦图像。假设光线在重聚焦平面上的投影坐标是($x$, $y$, $s$, $t$)，根据三角测量原理，光线在像素传感器上的投影坐标为$\left( s+\frac{x-s}{\alpha },t+\frac{y-t}{\alpha },s,t \right)$。

如图 3所示，$F$′是透镜平面到重聚焦平面的距离，且$F$′=$\alpha $ $F$，$\alpha $为聚焦参数。根据光线在自由空间传播能量不变原理，则有

图 3 光场数字重聚焦

Fig. 3 Digital refocusing of light field

$ \begin{array}{l} {I_\alpha }\left( {x,y,s,t} \right) = {I_0}\left( {s + \frac{{x - s}}{\alpha },t + \frac{{y - t}}{\alpha },s,t} \right) = \\ \;\;\;\;\;\;{I_0}\left( {s\left( {1 - \frac{1}{\alpha }} \right) + \frac{x}{\alpha },t\left( {1 - \frac{1}{\alpha }} \right) + \frac{y}{\alpha },s,t} \right) \end{array} $

(1)

根据经典辐射理论^[9]，改变聚焦参数$\alpha $即可得到聚焦到不同深度的重聚焦图像，当利用式(1)进行数字重聚焦时，图像尺寸会发生变化。因此，本文采取与文献[15-17]类似的方式，舍去空间坐标($x$, $y$)前面的系数$\frac{1}{\alpha }$，则有

$ \begin{array}{l} {I_\alpha }\left( {x,y,s,t} \right) = {I_0}\left( {s\left( {1 - \frac{1}{\alpha }} \right) + x,t\left( {1 - \frac{1}{\alpha }} \right) + y,s,t} \right) = \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{I_0}\left( {s * {D_\alpha } + x,t * {D_\alpha } + y,s,t} \right) \end{array} $

(2)

式中，$I_0$代表输入的光场图像，$I$_{$\alpha $}代表重聚焦图像，${{D}_{\alpha }}=\left( 1-\frac{1}{\alpha } \right)$是视差系数^[27]。

2 本文方法

在多视角立体匹配框架下，提出了一种对遮挡鲁棒的由粗到细、由局部到全局的光场深度估计算法。算法主要步骤为：1)利用数字重聚焦算法获取聚焦到不同深度的重聚焦图像；2)针对不同遮挡类型，利用多视角相关性在重聚焦图像上构造成本量；3)通过最小化成本量直接求解局部深度图；4)利用MRF融合成本量和平滑约束，并通过图割(GC)算法和加权中值滤波(WMF)获取全局优化深度图。算法流程如图 4所示。

图 4 本文算法框图

Fig. 4 The pipeline of our approach

2.1 成本量构造

利用数字重聚焦算法^[8]获取聚焦到$M$个不同深度层$d$_$m$($m$=1, 2, …, $M$)的重聚焦图像，其中深度值$d$与视差系数${{D}_{\alpha }}=1-\frac{1}{\alpha }$一一对应，则重聚焦图像记为$I$_$d$($x$, $y$, $s$, $t$)。如图 5(a)所示，针对无遮挡、单遮挡、多遮挡等不同类型遮挡点，利用多视角图像块像素点之间的相关性分别构造均值成本量、中值成本量、平均中值成本量，并根据成本最小原则，自适应选择适用于不同场景点的最佳成本量。与文献[16-17, 21]方法类似，本文选取中心视角图像$I$_$d$($x$, $y$, 0, 0)作为参考图像，为简化书写，令$p$代表图像空间坐标($x$, $y$)，$v$代表图像角度坐标($s$, $t$)，$P$代表中心视角图像，则重聚焦图像记为$I$_$d$($p$, $v$)，中心视角图像记为$P$($p$)，具体方法如下：

图 5 不同成本量曲线对比

Fig. 5 Comparisons of different cost volume curve ((a) colorful image and different occluded points; (b) cost curve of non-occluded point; (c) cost curve of one-occluded point; (d) cost curve of multi-occluded point)

1) 均值成本量。对于无遮挡场景点，满足成像一致性原则，即当重聚焦到正确深度时，多视角图像块像素点与中心视角像素点平均偏差最小。因此，定义均值成本量为

$ {C_1}\left( {p,d} \right) = \frac{1}{{N\left( v \right)}}\sum\limits_v {\left| {{I_d}\left( {p,v} \right) - P\left( p \right)} \right|} $

(3)

式中，$N$($v$)代表光场图像所有视角数目。

2) 中值成本量。对于单遮挡类场景点，其遮挡视角一般不超过总视角的一半，但成像一致性原则已经不再满足。当重聚焦到正确深度时，相比非遮挡视角，遮挡视角像素点与中心视角像素点之间偏差更大。由于遮挡视角不超过视角总数一半，所以中值可以很好地反映非遮挡视角像素点与中心视角像素点偏差情况，定义中值相关性成本为

$ {C_2}\left( {p,d} \right) = median\left\{ {\left| {{I_d}\left( {p,v} \right) - P\left( p \right)} \right|,v \in \mathit{\boldsymbol{V}}} \right\} $

(4)

式中，$\mathit{\boldsymbol{V}}$代表光场图像所有视角集合，$median$()表取中值函数。

3) 平均中值成本量。对于多遮挡类场景点，遮挡视角数目往往超过了非遮挡视角数目，即超过总视角数一半。此时，中值成本量已经无法反映非遮挡视角与中心视角偏差情况。因此，我们定义多视角像素点与中心视角像素点偏差的平均中值作为成本量，即最大偏差$C$_max与最小偏差$C$_min的平均值，$C$_max反映了遮挡视角的极限偏差情况，$C$_min反映了非遮挡视角的极限偏差情况，通过求二者平均值即可抑制遮挡视角偏差、增强非遮挡视角偏差

$ \left\{ \begin{array}{l} {C_3}\left( {p,d} \right) = \frac{1}{2}\left( {{C_{\max }} + {C_{\min }}} \right)\\ {C_{\max }} = \max \left( {\left| {{I_d}\left( {p,v} \right) - P\left( p \right)} \right|,v \in \mathit{\boldsymbol{V}}} \right)\\ {C_{\min }} = \min \left( {\left| {{I_d}\left( {p,v} \right) - P\left( p \right)} \right|,v \in \mathit{\boldsymbol{V}}} \right) \end{array} \right. $

(5)

最后，通过成本最小原则，自适应选择最佳成本量

$ C\left( {p,d} \right) = \min \left\{ {{C_1}\left( {p,d} \right),{C_2}\left( {p,d} \right),{C_3}\left( {p,d} \right)} \right\} $

(6)

2.2 局部深度估计

由2.1节可知，成本量是关于图像像素空间坐标$p$和深度层$d$的函数，反映了不同像素点在不同深度层上成本大小，成本越小则表明该像素点取该深度值越可靠。因此，求解深度估计问题，即提取每个空间点最小成本所对应的深度值$d$，从而获得局部深度图，记为$d_l$，则有

$ {d_l}\left( p \right) = \mathop {\arg \min }\limits_d C\left( {p,d} \right) $

(7)

图 5给出了针对不同遮挡类型的不同成本曲线。为了便于观察，将3种遮挡类型放大显示，如图 5(a)所示。图 5(b)—(d)分别对应无遮挡点、单遮挡点和多遮挡点成本量曲线图，虚线对应该点的深度真值(GT)。从图 5中可以看出，对于无遮挡点(图 5(b)，GT为36)，3种成本量都可以获得较为准确的深度估计值；对于单遮挡点(图 5(c)，GT为69)，均值成本量估计结果较差，中值成本量估计结果相对准确，平均中值成本量估计结果($d$为70)最精确；对于多遮挡点(图 5(d)，GT为70)，均值成本量和中值成本量都无法获得准确深度，而平均中值成本量可以获得较为精确的深度。因此，本文构造的均值成本量、中值成本量、平均中值成本量分别对无遮挡、单遮挡、多遮挡等不同情况有效，通过自适应选择最佳成本量能够有效地解决不同类型遮挡问题，获得较为精确的深度值。

2.3 全局深度估计

由于基于成本量的局部深度估计没有考虑空间点邻域信息，导致局部初始深度图不准确。为此，本文利用MRF框架，结合成本量和邻域平滑约束，将深度估计问题转变为能量泛函最小化过程即

$ \begin{array}{*{20}{c}} {{d_g}\left( p \right) = \arg \min \sum\limits_p {{E_{{\rm{data}}}}\left( {p,{d_l}\left( p \right)} \right)} + }\\ {\lambda \sum\limits_p {\sum\limits_{q \in \mathit{\boldsymbol{N}}\left( p \right)} {{E_{{\rm{smooth}}}}\left( {p,q,{d_l}\left( p \right),{d_l}\left( q \right)} \right)} } } \end{array} $

(8)

并利用GC算法进行求解

$ \begin{array}{*{20}{c}} {{E_{{\rm{smooth}}}}\left( {p,q,{d_l}\left( p \right),{d_l}\left( q \right)} \right) = }\\ {\nabla I\left( {p,q} \right)\min \left( {\left| {{d_l}\left( p \right) - {d_l}\left( q \right)} \right|,\tau } \right)} \end{array} $

(9)

$ {E_{{\rm{data}}}}\left( {p,{d_l}\left( p \right)} \right) = C\left( {p,{d_l}\left( p \right)} \right) $

(10)

式中，$p$代表像素点的空间坐标($x$, $y$)，$q$代表像素点$p$的邻域像素点坐标，$d$_$l$($p$)代表空间点深度值，即局部深度信息(式(7))。$E$_data代表数据项，表示像素点$p$局部深度信息的可靠性，$E$_smooth代表平滑项，用于约束邻域像素的一致性，当两个相邻像素点颜色接近时，则两点平滑约束较强，否则平滑约束较弱。$\lambda $是加权系数，∇ $I$($p$, $q$)代表像素点间梯度，$\tau $为阈值。对于实际拍摄的光场数据，由于光照及拍摄条件影响，往往存在噪声。为了消除这一影响，本文采用加权中值滤波去除深度图噪声。图 6给出了本文算法不同步骤下深度估计结果对比，图 6 (d)是通过加权中值滤波获得的最终全局深度图。由图 6可见，图割优化算法能够获取全局一致深度信息。然而，对于噪声较严重的光场图像，经过图割优化之后噪声依然存在，通过加权中值滤波可以更有效地去除了噪声，同时保持深度图边缘信息，进一步提升深度估计准确性。

图 6 本文方法不同步骤深度图比较

Fig. 6 Comparison of depth maps at different step of our method ((a) center view image; (b) local depth map; (c) depth map with gcalgorithm; (d) global depth map)

3 实验结果及分析

3.1 实验设置

实验使用的PC机配置为：Intel Core i5-4590 CPU 3.3 GHz×4cores，RAM 16 GB，Windows 7的64位操作系统，编译软件为MATLAB 2014a。将本文方法与文献[16-17, 21]方法进行比较分析。

1) 实验数据集：实验采用合成数据集与实际场景数据集两种类型。(1)HCI光场合成数据集1^[28]和合成数据集2^[29]。该数据集采用Blender软件对虚拟场景图像进行渲染，提供了场景的深度真值$d$_$GT$其中，HCI合成数据集1^[28]图像空间分辨率为768×768像素，角度分辨率为9×9，HCI合成数据集2^[29]图像空间分辨率为512×512像素，角度分辨率为9×9；(2)Stanford Lytro Illum数据集^[30]。该数据集是由Lytro Illum光场相机拍摄的真实场景图像，其中包含了建筑、汽车、人物等不同场景，并存在不同程度的遮挡情况。图像空间分辨率为375×541像素，角度分辨率为14×14，但由于实际拍摄微透镜边缘光照不足，导致边缘视角图像存在黑影，因此本文取该数据集的9×9个视角作为实验数据。

2) 参数设置：由于不同场景视差系数范围不同，为了便于对比，本文通过实验调节视差系数$D$_{$\alpha $}至最优，并且所有方法保持一致。全局优化参数$\lambda $=0.5，$\tau $=10，深度图的最大分层为$M$=75。

3) 评价指标：采用均方误差(作为量化指标进行评价，即

$ MSE = \frac{{\sum {{{\left( {{d_{{\rm{GT}}}} - d} \right)}^2}} }}{{H \times W}} $

(11)

式中，$H$, $W$分别表示图像高度和宽度，$d$_GT表示深度图真值，$d$表示预测深度图。

3.2 实验结果

3.2.1 局部深度估计对比

1) 定量结果。为了验证成本量构造对深度估计的影响，本实验在不考虑全局优化情况下，将本文方法与文献[16-17, 21]方法在HCI合成数据集上进行局部深度估计结果对比。表 1和图 7分别给出了4种方法对不同遮挡点的局部深度估计的定量结果及其成本曲线。由结果可以看出，对于无遮挡场景点，文献[16-17, 21]方法尽管可以获得较为准确的深度估计结果，但是本文方法深度估计值最精确；对于单遮挡或多遮挡场景点，本文局部深度估计方法的性能明显优于其他方法，预测深度值更接近于真值。这是由于本文所构造的成本量考虑了场景中可能存在的不同遮挡类型，并通过自适应选择的方式确定了相应的成本量函数，适用性更广，鲁棒性更好。

表 1 不同遮挡点局部初始深度估计值比较(深度范围175)
Table 1 Comparisons of local initial depth to different occluded points(depth range 175)

下载CSV

方法	无遮挡点	单遮挡点	多遮挡点
文献[16]	34	21	23
文献[17]	38	52	38
文献[21]	39	26	26
本文	36	70	68
GT	36	69	70
注：黑体为最优结果。

图 7 不同方法遮挡点成本量曲线对比

Fig. 7 Comparisons to curve of cost volume with different methods ((a) colorful image and different occluded points; (b) cost curve of non-occluded point; (c) cost curve of one-occluded point; (d) cost curve of multi-occluded point)

2) 定性结果。图 8给出了本文方法与其他方法局部深度估计的定性结果对比，其中红色框和绿色框分别对应不同场景点及其深度估计图。从Mona和Papillon可以看出，对于叶子边缘等多遮挡空间点，文献[16-17, 21]方法对于边缘都存在一定程度的平滑，即前景膨胀效应。本文方法针对不同遮挡情况建模，能够有效地处理多遮挡场景点，保持深度图边缘信息。此外，本文方法局部深度估计结果颗粒噪声更少，精确度更高。

图 8 合成数据集局部深度图对比

Fig. 8 Comparisons of local depth map on synthetic sample images ((a) center view images; (b) GT; (c) reference[16] method; (d) reference[17] method; (e) reference[21] method; (f) ours)

3.2.2 全局深度估计对比

1) 定性结果。实验分别在HCI合成数据集和Stanford Lytro Illum实际数据集上进行，对比了文献[16-17, 21]与本文方法经过全局优化后的最终深度估计结果。

图 9给出了HCI合成数据集上全局优化深度估计结果及其局部放大示意图。可以看出，在遮挡少且纹理丰富(如Medieval)的场景中，文献[16-17, 21]都可以获得较好的深度估计结果。但是当遮挡情况增多时(如Mona、StillLife和Table)，文献[16, 21]方法的深度估计结果存在前景膨胀效应，误差较大，尽管文献[17]利用Canny算子检测的一条边缘直线将角度图像块的遮挡视角和非遮挡视角进行分割来处理遮挡问题，但是该方法仅仅对于细长且大的单遮挡直线边缘(如Mona中的绿色框部分，Papillon中的绿色框部分)效果较好，而对于多遮挡(Mona中的红色框部分，StillLife中绿色框部分)、小区域遮挡(StillLife中红色框部分)、非直线遮挡(Table中红色和绿色框部分)效果较差。本文方法针对不同遮挡情况分别构造成本函数，并通过成本最小原则自适应选择最佳成本量，能够有效地处理不同类型遮挡情况，局部初始深度估计结果更好，经过全局优化后深度图更准确，能够有效地保持图像边缘信息。

图 9 合成数据集全局深度图及局部放大图

Fig. 9 Global depth map partial enlarged details on synthetic dataset ((a) center view images; (b) GT; (c) reference[16] method; (d) reference[17] method; (e) reference[21] method; (f) ours)

图 10给出了HCI合成数据集中其他图像的全局优化深度估计结果。从Buddha和Pens的结果可以看出，对于丰富纹理且少遮挡的朗伯场景，文献[16-17, 21]和本文方法都可以获得较为精确的深度信息。但是对于多遮挡(如Rosemary)或弱纹理(如Greek)场景，文献[16-17, 21]所获得深度估计结果较差，尽管本文方法对非朗伯场景点(如Greek中前景桌面部分)存在一定缺陷，但是有效地解决了遮挡问题，没有前景膨胀效应，整体深度估计效果更好，深度图精度更高。

图 10 HCI合成数据集全局深度图

Fig. 10 Global depth map on synthetic dataset ((a) center view images; (b) GT; (c) reference[16] method; (d) reference[17] method; (e) reference[21] method; (f) ours)

图 11给出了文献[16-17, 21]与本文方法在Stanford Lytro Illum数据集(该数据集未提供深度真值GT)上对不同遮挡程度场景的全局深度估计结果。对于轻微遮挡场景如occlusion 1，文献[16-17, 21]方法虽然可以获得较好的深度图，但是随着场景遮挡程度加深，如场景occlusion 2，文献[16-17, 21]方法所得深度估计结果较差，存在前景膨胀效应，而本文方法能够准确估计被遮挡区域的深度信息，且具有较好的边缘保持效果。对于多遮挡场景(如occlusions 3-5)，本文方法也明显优于文献[17]等方法。

图 11 Stanford Lytro Illum数据集全局深度图

Fig. 11 Global depth map on Stanford Lytro Illum dataset ((a) center view images; (b) reference[16] method; (c) reference[17] method; (d) reference[21] method; (e) ours)

2) 定量结果。表 2给出了4种方法深度估计的MSE定量评价结果。由于Stanford Lytro Illum数据集未提供GT值，因此本实验仅对HCI合成数据集中的场景进行定量分析。从实验结果可以看出，本文方法深度估计结果误差更小。相比次优结果，本文方法所得到的MSE平均降低0.002 1，降低比例约26.8%。

表 2 深度估计均方误差比较
Table 2 Comparison of MSE to depth estimation

下载CSV

场景名	视差系数范围	文献[16]方法	文献[17]方法	文献[21]方法	本文方法
Buddha	-1.6~1	0.004 0	0.001 8	0.002 9	0.001 3
Mona	-0.7~0.8	0.006 9	0.003 6	0.002 8	0.002 6
StillLife	-2.5~2.8	0.002 7	0.001 2	0.000 8	0.000 5
Papillon	-0.8~1.1	0.010 1	0.002 2	0.016 9	0.001 8
Medieval	-0.9~2.2	0.004 7	0.001 3	0.005 8	0.001 0
Pens	-1.5~1.6	0.010 0	0.005 2	0.005 8	0.004 3
Boxes	-1~2.3	0.010 1	0.006 8	0.014 8	0.007 2
Table	-1.2~2.2	0.008 2	0.011 0	0.010 9	0.004 8
Rosemary	-1.5~2.0	0.033 9	0.022 2	0.048 7	0.016 7
Greek	-1.3~2.1	0.029 1	0.025 3	0.041 1	0.015 9
注：黑体为最优结果，下划线为次优结果。

3.2.3 时间效率对比

对于深度估计的计算复杂度，实验比较了4种方法在不同数据集上每幅图像的平均计算时间，如表 3所示。可以看出，本文方法的计算速率明显优于其他方法，这从另一个角度验证了本文方法的有效性。

表 3 不同算法总耗费时间
Table 3 Total cost time for different algorithms

下载CSV

/s
数据集	文献[16]方法	文献[17]方法	文献[21]方法	本文方法
HCI合成数据集1	1108	464	2133	435
HCI合成数据集2	390	174	1061	172
Stanford Lytro Illum	311	155	953	150
注：黑体为最优结果。

3.3 实验讨论

通过实验可得，本文算法分别对不同遮挡类型进行建模，构建了对遮挡鲁棒的成本量，可以有效地处理深度估计中单遮挡、多遮挡问题，深度估计精度更高。其他方法没有考虑遮挡情况或者仅仅考虑单一遮挡类型，导致局部初始深度估计不准确，特别是对于多遮挡部分，即使通过全局优化依然不能很好地解决。

然而，对于一些特殊场景效果不佳。例如，对于极其细长的遮挡(如图 9中Papillon的绿色框部分)，文献[17]使用Canny算子检测出遮挡边缘，深度估计结果更准确。同时，浓密多层遮挡场景(如图 10中Rosemary的中间叶子部分、图 11中occlusion5的中间浓密遮挡部分)深度估计是极富挑战的问题，本文方法与当前所有算法一样都不能很好地解决该问题。此外，本文方法假设场景为朗伯平面，对于存在高光的非朗伯平面场景点(如图 10中Mona的灯和铁球部分、图 11中Greek的前景桌面部分)，本文方法产生了错误估计。

4 结论

针对光场深度估计中的遮挡问题，本文在多视角立体匹配框架下，提出了一种对遮挡鲁棒的深度估计算法。根据不同遮挡类型，利用多视角相关性在重聚焦图像上构造成本量，然后通过最小化成本量直接求解获取局部初始深度图，最后利用马尔可夫随机场^[24]结合成本量和平滑约束，将深度估计表示为能量泛函最小化过程，并通过图割优化算法^[24-25]以及加权中值滤波^[26]获得全局优化深度图。实验结果表明，与现有其他方法相比，本文方法对不同遮挡类型场景的深度估计均有较好的效果，能够保持场景中的边缘信息，深度估计结果更为精确，同时时效性更好。针对本文方法的缺陷，下一步，我们将重点研究光照对深度估计的影响，构造适用于非朗伯平面的相关性成本量，进一步提高深度估计精度。

参考文献

[1] Wanner S, Straehle C, Goldluecke B. Globally consistent multi-label assignment on the ray space of 4D light fields[C]//Proceedings of the 2013 IEEE Conference Computer Vision and Pattern Recognition. Portland, USA:IEEE, 2013:1011-1018.[DOI:10.1109/CVPR.2013.135]

[2] Maeno K, Nagahara H, Shimada A, et al. Light field distortion feature for transparent object recognition[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA:IEEE, 2013:2786-2793.[DOI:10.1109/CVPR.2013.359]

[3] Zhang J, Wang M, Gao J, et al. Saliency detection with a deeper investigation of light field[C]//Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina:AAAI Press, 2015:2212-2218.

[4] Tian L, Waller L. 3D intensity and phase imaging from light field measurements in an LED array microscope[J]. Optica, 2015, 2(2): 104–111. [DOI:10.1364/OPTICA.2.000104]

[5] Xiao L, Heide F, O'Toole M, et al. Defocus deblurring and superresolution for time-of-flight depth cameras[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA:IEEE, 2015:2376-2384.[DOI:10.1109/CVPR.2015.7298851]

[6] Kolmogorov V, Zabih R. Graph cut algorithms for binocular stereo with occlusions[M]//Paragios N, Chen Y, Faugeras O. Handbook of Mathematical Models in Computer Vision. Boston, MA:Springer, 2006:423-437.[DOI:10.1007/0-387-28831-7_26]

[7] Furukawa Y, Hernández C. Multi-view stereo:a tutorial[J]. Foundations and Trends^® in Computer Graphics and Vision, 2015, 9(1-2): 1–148. [DOI:10.1561/0600000052]

[8] Ng R, Levoy M, Brédif M, et al. Light field photography with a hand-held plenoptic camera[R].Stanford Technical Report CSTR 2005-02, 2005:1-11.

[9] Levoy M, Hanrahan P. Light field rendering[C]//Proceedings of the 23rd Annual Conference on Computer Graphics and Interactive Techniques. New York, USA:ACM Press, 1996:31-42.[DOI:10.1145/237170.237199]

[10] Wu G C, Masia B, Jarabo A, et al. Light field image processing:an overview[J]. IEEE Journal of Selected Topics in Signal Processing, 2017. [DOI:10.1109/JSTSP.2017.2747126]

[11] Zhang C, Liu F, Hou G Q, et al. Light field photography and its application in computer vision[J]. Journal of Image and Graphics, 2016, 21(3): 263–281. [张弛, 刘菲, 侯广琦, 等. 光场成像技术及其在计算机视觉中的应用[J]. 中国图像图形学报, 2016, 21(3): 263–281. ] [DOI:10.11834/jig.20160301]

[12] Wanner S, Goldluecke B. Globally consistent depth labeling of 4D light fields[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA:IEEE, 2012:41-48.[DOI:10.1109/CVPR.2012.6247656]

[13] Wanner S, Goldluecke B. Variational light field analysis for disparity estimation and super-resolution[J]. IEEE transactions on Pattern Analysis and Machine Intelligence, 2014, 36(3): 606–619. [DOI:10.1109/TPAMI.2013.147]

[14] Zhang Y B, Lv H J, Liu Y B, et al. Light-field depth estimation via Epipolar plane image analysis and locally linear embedding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 27(4): 739–747. [DOI:10.1109/TCSVT.2016.2555778]

[15] Tao M W, Hadap S, Malik J, et al. Depth from combining defocus and correspondence using light-field cameras[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney, Australia:IEEE, 2013:673-680.[DOI:10.1109/ICCV.2013.89]

[16] Tao M W, Srinivasan P P, Malik J, et al. Depth from shading, defocus, and correspondence using light-field angular coherence[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA:IEEE, 2015:1940-1948.[DOI:10.1109/CVPR.2015.7298804]

[17] Wang T C, Efros A A, Ramamoorthi R. Depth estimation with occlusion modeling using light-field cameras[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(11): 2170–2181. [DOI:10.1109/TPAMI.2016.2515615]

[18] Williem W, Kyu Park I. Robust light field depth estimation for noisy scene with occlusion[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA:IEEE, 2016:4396-4404.[DOI:10.1109/CVPR.2016.476]

[19] Bowen A, Mullins A, Rajpoot N, et al. Photo-consistency and multiresolution methods for light field disparity estimation[C]//Proceedings of the IEE International Conference on Visual Information Engineering. Glasgow, UK:IET, 2005:401-408.[DOI:10.1049/cp:20050119]

[20] Yu Z, Guo X Q, Lin H B, et al. Line assisted light field triangulation and stereo matching[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney, Australia:IEEE, 2013:2792-2799.[DOI:10.1109/ICCV.2013.347]

[21] Jeon H G, Park J, Choe G, et al. Accurate depth map estimation from a lenslet light field camera[C]//Proceedings of the 2015 IEEE Conferenceon Computer Vision and Pattern Recognition. Boston, USA:IEEE, 2015:1547-1555.[DOI:10.1109/CVPR.2015.7298762]

[22] Yu Z, Yu J Y, Lumsdaine A, et al. Plenoptic depth map in the case of occlusion[C]//Proceedings of the SPIE Conference on Multimedia Content and Mobile Devices. Burlingame, USA:SPIE, 2013:#86671S.[DOI:10.1117/12.2005847]

[23] Chen C, Lin H T, Yu Z, et al. Light field stereo matching using bilateral statistics of surface cameras[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA:IEEE, 2014:1518-1525.[DOI:10.1109/CVPR.2014.197]

[24] Boykov Y, Veksler O, Zabih R. Fast approximate energy minimization via graph cuts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(11): 1222–1239. [DOI:10.1109/34.969114]

[25] Kolmogorov V, Zabih R. Multi-camera scene reconstruction via graph cuts[C]//Proceedings of the 7th European Conference on Computer Vision. Copenhagen, Denmark:Springer-Verlag, 2002:82-96.[DOI:10.1007/3-540-47977-5_6]

[26] Ma Z Y, He K M, Wei Y C, et al. Constant time weighted median filtering for stereo matching and beyond[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney, Australia:IEEE, 2013:49-56.[DOI:10.1109/ICCV.2013.13]

[27] Fiss J, Curless B, Szeliski R. Refocusing plenoptic images using depth-adaptive splatting[C]//Proceedings of 2014 IEEE International Conference on Computational Photography. Santa Clara, USA:IEEE, 2014:1-9.[DOI:10.1109/ICCPHOT.2014.6831809]

[28] Wanner S, Meister S, Goldlücke B. Datasets and benchmarks for densely sampled 4D light fields[C]//Proceedings of the 18th InternationalWorkshop on Vision, Modeling and Visualization. Lugano Switzerland:The Eurographics Association, 2013:225-226.[DOI:10.2312/PE.VMV.VMV13.225-226]

[29] Honauer K, Johannsen O, Kondermann D, et al. A dataset and evaluation methodology for depth estimation on 4D light fields[C]//Proceedings of the 13th Asian Conference on Computer Vision. Taipei, China:Springer-Verlag, 2016:19-34.[DOI:10.1007/978-3-319-54187-7_2]

[30] Raj A S, Lowney M, Shah R. Light-field database creation and depth estimation[R]. Palo Alto, USA:Stanford University, 2016.