发布时间: 2022-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210048
2022 | Volume 27 | Number 8

图像处理和编码

双尺度顺序填充的深度图像修复

陈东岳, 朱晓明, 马腾, 宋园园, 贾同

东北大学信息科学与工程学院，沈阳 110819

收稿日期: 2021-02-07; 修回日期: 2021-05-12; 预印本日期: 2021-05-19

基金项目: 国家重点研发计划资助(2017YFC0821402)；国家自然科学基金项目(U1613214)

作者简介: 陈东岳，1980年生，男，教授，博士生导师，主要研究方向为计算机视觉和图像处理。E-mail：chendongyue@ise.neu.edu.cn
朱晓明，男，硕士研究生，主要研究方向为图像处理和机器视觉。E-mail：fuxiao567@163.com
马腾，男，硕士研究生，主要研究方向为图像处理和计算机视觉。E-mail：mateng0328@outlook.com
宋园园，女，硕士研究生，主要研究方向为3D人体重建。E-mail：2992046483@qq.com
贾同，通信作者，男，教授，博士生导师，主要研究方向为计算机视觉和生物医学图像处理和分析。E-mail：jiatong@ise.neu.edu.cn
*通信作者: 贾同 jiatong@ise.neu.edu.cn

中图法分类号: TN911.73

文献标识码: A

文章编号: 1006-8961(2022)08-2344-12

摘要

目的深度图像作为一种重要的视觉感知数据，其质量对于3维视觉系统至关重要。由于传统方法获取的深度图像大多有使用场景的限制，容易受到噪声和环境影响，导致深度图像缺失部分深度信息，使得修复深度图像仍然是一个值得研究并有待解决的问题。对此，本文提出一种用于深度图像修复的双尺度顺序填充框架。方法首先，提出基于条件熵快速逼近的填充优先级估计算法。其次，采用最大似然估计实现缺失深度值的最优预测。最后，在像素和超像素两个尺度上对修复结果进行整合，准确实现了深度图像孔洞填充。结果本文方法在主流数据集MB(Middlebury)上与7种方法进行比较，平均峰值信噪比(peak signal-to-noise ratio，PSNR)和平均结构相似性指数(structural similarity index，SSIM)分别为47.955 dB和0.998 2；在手工填充的数据集MB+中，本文方法的PSNR平均值为34.697 dB，SSIM平均值为0.978 5，对比其他算法，本文深度修复效果有较大优势。在时间效率对比实验中，本文方法也表现优异，具有较高的效率。在消融实验部分，对本文提出的填充优先级估计、深度值预测和双尺度改进分别进行评估，验证了本文创新点的有效性。结论实验结果表明，本文方法在鲁棒性、精确度和效率方面相较于现有方法具有比较明显的优势。

关键词

深度图像修复; 顺序填充; 条件熵快速逼近; 深度最优预测; 超像素

Depth image recovery based on dual-scale sequential optimized filling

Chen Dongyue, Zhu Xiaoming, Ma Teng, Song Yuanyuan, Jia Tong

College of Information Science and Engineering, Northeastern University, Shenyang 110819, China

Supported by: National Key R & D Program of China (2017YFC0821402); National Natural Science Foundation of China (U1613214)

Abstract

Objective The acquired depth information has led to the research development of three-dimensional reconstruction and stereo vision. However, the acquired depth images issues have challenged of image holes and image noise due to the lack of depth information. The quality of the depth image is as a benched data source for each 3D-vision(3DV) system. Our method is focused on the lack of depth map information repair derived from objective factors in the depth acquisition process. It is required of the high precision, the spatial distribution difference between color and depth features, the interference of noise and blur, and the large scale holes information loss. Method Real-time ability is relatively crucial in terms of the depth image recovery algorithms serving as pre-processing modules in the 3DV systems. The sequential filling method has been optimized in computational speed by processing each invalid point in one loop. The invalid points based pixels are obtained without depth values. By contrast, depth values captured pixels are referred to as valid points. Therefore, we facilitate a dual-scale sequential filling framework for depth image recovery. We carry out filling priority estimation and depth value prediction of the invalid points in this framework. For the evaluation of the priority of invalid points, we use conditional entropy as the benchmark for evaluating the priority of invalid point filling evaluation and verification. It is incredible to estimate the filling priority and filling depth value through the overall features of a single pixel and its 8-neighborhood. However, the use of multi-scale filtering increases the computational costs severely. We introduce the super-pixel over-segmentation algorithm to segment the input image into more small patches, which ensures the pixels inside the super-pixel homogeneous contexts like color, texture, and depth. We believe that the super-pixels can provide more reliable features in larger scale for priority estimation filling and depth value prediction. In addition, we optioned a simple linear iterative clustering (SLIC) algorithm to handle the super-pixel segmentation task and added a depth difference metric for the image characteristics of RGB-D to make it efficient and reliable. For depth estimation, we use maximum likelihood estimation to estimate the depth of invalid points integrated to the depth value exhaustive method. Finally, the restoration results are integrated on the pixel and super-pixel scales to accurately fill the holes in the depth image. Result Our method is compared to 7 methods related to dataset Middlebury (MB), which shows great advantages on deep repair effection. The averaged peak signal-to-noise ratio (PSNR) is 47.955 dB and the averaged structural similarity index (SSIM) is 0.998 2. Our PSNR reached 34.697 dB and the SSIM reached 0.978 5 in MB based manual populated data set for deep repair. The method herein verifies that this algorithm has relatively strong efficiency in comparison to time efficiency validation. Our filling priority estimation, depth value prediction and double-scale improvement ability are evaluated in the ablation experimental section separately. Conclusion We illustrate a dual-scale sequential filling framework for depth image recovery. The experimental results demonstrate that our algorithm proposed has its priority to optimize robustness, precision and efficiency.

Key words

depth image recovery; sequential filling; fast approximation of conditional entropy; depth value prediction; super-pixel

0 引言

3维视觉(three dimensional vision, 3DV)是图形学、计算机视觉和图像处理相互交叉的一个重要研究方向，广泛应用于场景建模、人机交互、工业产品测量、无人驾驶汽车和智能移动机器人等领域。深度图像作为感知、表征和存储3维信息的一种基本数据形式，广泛应用于各类3D(three dimensional)感知和建模方法。深度图像的准确性和完整性在很大程度上决定了3D点云和网格模型的质量。然而在具体应用中，无论使用多视角、结构光、TOF(time of flying)或激光扫描，在捕获的深度图像中都不可避免地会出现一些孔洞，这严重影响了3D重建的性能。因此，深度图像孔洞填充一直是3DV领域的一个关键问题。由于标签信息的缺失、孔洞位置和大小的不确定性以及对实时性能的高要求，深度图像孔洞填充目前仍然是一个未得到充分解决的开放性课题。现有的深度图像修复方法主要有3种思路：滤波、顺序填充和局部优化。

滤波方法通常使用滤波函数的输出预测孔洞区域无效点的深度值。典型算法包括多模式联合滤波算法和时空滤波算法。前者采用彩色图像与深度图像的双边联合滤波。典型的有：Min等人(2012)提出的基于联合直方图的加权滤波；Kopf等人(2007)提出的联合双边上采样方法；李应彬等人(2013)提出的利用直方图生成孔洞掩膜的双边滤波算法。后者基于无效点周围的时空邻域进行滤波实现深度预测。Matyunin等人(2011)利用视频对象的运动和颜色信息对深度图进行修复；林玲等人(2019)提出了在前期加入卡尔曼滤波对跳变进行处理的解决方案。滤波方法快速、简便，但通常只适用于类似于噪声点的面积较小的孔洞。对于比较大的孔洞，无论是放大滤波器窗口还是采用迭代滤波策略，都无法保证算法的准确性、可靠性和计算成本。

顺序填充法的代表性工作是快速行进法(fast marching method，FMM)(Telea，2004)，根据到种子区域的快速行进距离对所有孔洞区域无效点进行排序，并根据其邻域的距离加权平均值进行填充。尽管可以通过引入基于颜色的权重作为指导来改进FMM(Gong等，2013)，但是当边界附近的无效点在其邻域未完全处理之前被预先填充时，FMM往往会增加虚假边缘。此外，快速行进距离的更新非常耗时。

局部优化的基本思想是找到一种面向能量函数优化的局部填充模式。最常用的局部优化算法是低秩矩阵补全，比较经典的有Lee等人(2014)提出的可以自适应减少迭代步长的ADMiRA(atomic decomposition for minimum rank approximation)。低秩矩阵补全这类方法对直线区域补全效果较高，但对曲线形状孔洞的填充效果无法令人满意。局部优化方法中，比较典型的有马尔可夫随机场(Harrison和Newman，2010)和采取混沌粒子群优化的马尔可夫方法(曾祥进和卢成，2013)。此外，Liu和Gong(2013)和郑传远等人(2016)也尝试将各向异性扩散用于深度图像修复。基于马尔可夫随机场和各向异性扩散的一些研究工作也属于局部优化法，但上述算法的修复结果通常带有毛刺和边缘模糊。

基于以上分析，本文在彩色图像和深度图像联合修复的假设下，主要面向具有较大面积的深度图像孔洞，将基于最大似然估计的局部优化方法融入基于条件熵的顺序填充框架中，通过对正常像素和超像素两个尺度上的深度预测结果的融合实现深度图像修复。本文具体贡献可概括为如下两点：1)基于条件熵在像素和超像素两个尺度上的快速逼近，提出一种填充优先级估计的新算法，用于生成更加合理的填充顺序；2)提出基于最大似然估计的深度值优化算法来填充无效点。通过在顺序填充框架下对上述两点进行整合，最终提出并实现了深度图像的准确快速恢复。

1 算法

大多数深度图像修复算法在实际应用中对实时性要求较高。相比于其他类型方法，顺序填充方法由于仅需要对每个无效点处理一次，在计算速度上具有明显优势。因此本文采用顺序填充作为基本框架，将孔洞区域像素称为无效点，其他像素称为有效点，以无效点的填充优先级估计和深度值预测作为核心内容。算法框架如图 1所示。

图 1 顺序填充框架流程图

Fig. 1 Flow chart of sequential filling frame

1.1 RGB-D图像的超像素分割

完全依靠单个像素及其8-邻域特征来估计填充优先级和填充深度值是不可靠的，而使用多尺度滤波通常会显著增加计算负担。因此本文引入了超像素分割算法，将输入图像分为多个具有内部特征匀质性的超像素块。超像素可以在更大尺度上为填充优先级估计和深度值预测任务提供更可靠的判别与计算依据。

在超像素分割任务上，本文在可靠性与实时性表现最稳定的SLIC(simple linear Iterative clustering)(Achanta等，2012)算法的基础上，根据RGB-D图像的特点对算法进行了改进。原始的SLIC算法使用颜色和位置的差异来测量特定像素与相邻超像素之间的聚类距离。本文通过添加深度差构建了一种新的距离度量。具体为

$D = \sqrt {d_{\rm{c}}^2 + {{\left({\frac{{{d_{\rm{s}}}}}{S}} \right)}^2}{m^2} + {{\left({\frac{{{d_{\rm{r}}}}}{R}} \right)}^2}{k^2}} $

(1)

式中，$ d_{\rm{c}}$是LAB空间中像素和超像素中心的色彩差异，$ d_{\rm{s}}$是图像平面中两个位置之间的欧氏距离，新添加的$ d_{\rm{r}}$是两者的深度差。根据SLIC标准模型，在本文实验中，超像素局部搜索邻域边长设为$ S=\sqrt {N/K} $，其中$ N$为图像像素数量，超像素个数设为$ K=400$，紧致度设为$ m=10$；深度差归一化因子为$ R = \max \left({{d_{\rm{r}}}} \right)$，深度比例系数设为$ k=8$。采用式(1)给出的距离度量，对具有相似颜色、位置和深度的像素进行聚类，形成一个超像素块，如图 2所示。应该注意的是，深度图像中所有无效点的深度值最初都设为零，这有助于相邻无效点的聚类。从图 2可以很容易发现，同一超像素内部的像素几乎有着相同的深度值。该结论对于填充优先级估计和填充深度预测具有重要意义。

图 2 改进SLIC算法在RGB-D图像上的超像素分割结果

Fig. 2 Super-pixel segmentation results of a typical RGB-D image by the improved SLIC algorithm

((a) RGB image; (b) depth image)

1.2 填充优先级估计

本文基于当前无效点实际深度值可由其邻域深度进行预测的假设，建立了顺序填充框架。为了加快填充过程，每个像素在顺序填充框架中仅填充一次。由于填充深度值主要取决于其有效邻域点的深度，即无效点邻域周围有效点越多，填充深度值时可以参考的有用信息就越多，因此应尽可能多地填充当前无效点的相关邻近像素。这正是本文将填充顺序作为研究重点的原因。

在确定填充顺序之前，本文需要为无效点的可预测性建立数学描述。在最大似然估计的框架下，当前无效点$ x$可以视为彩色—深度联合空间中的随机向量。假设当前无效点$ x$与其邻域点$ {x_i} \in \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}(x)$满足独立同分布(independent and identically distributed，IID)，则其深度值的后验概率分布为

$\begin{array}{l} {p_{\rm{d}}}(x\mid \mathit{\boldsymbol{S}}(x)) = p(d(x)\mid \mathit{\boldsymbol{c}}(x), \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}(x)) = \\ \frac{{p(d(x), \mathit{\boldsymbol{c}}(x), \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}(x))}}{{p(\mathit{\boldsymbol{c}}(x))p(\mathit{\boldsymbol{ \boldsymbol{\varOmega} }}(x))}} = \frac{{p(d(x), \mathit{\boldsymbol{c}}(x))}}{{p(\mathit{\boldsymbol{c}}(x))}} \end{array}$

(2)

式中，$ \mathit{\boldsymbol{S}}(x)$表示所有可从RGB-D图像中观测到的与当前无效点$ x$的深度值有关的特征集合，主要包括其邻域$ \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}(x)$中像素的深度与色彩特征和$ x$点自身的色彩特征$ \mathit{\boldsymbol{c}}(x)$。$ {{d}}(x)$代表深度值。根据信息论，微分熵可作为随机变量不可预测性的度量。因此，$ {{d}}(x)$的不可预测性可以在$ \mathit{\boldsymbol{c}}(x)$的条件下通过条件熵$ {En}{t_{\rm{d}}}(x)$预测，该熵根据条件概率密度函数$ {p_{\rm{d}}}(x\mid \mathit{\boldsymbol{S}}(x))$计算。具体为

$\begin{array}{c} En{t_{\rm{d}}}(x\mid \mathit{\boldsymbol{S}}(x)) = \\ - \int_0^{ + \infty } {{p_{\rm{d}}}} (x\mid \mathit{\boldsymbol{S}}(x))\log {p_{\rm{d}}}(x\mid \mathit{\boldsymbol{S}}(x)){\rm{d}}(d(x)) \end{array}$

(3)

本文将无效点$ x$的完全特征向量表示为$ \mathit{\boldsymbol{f}}\left(x \right) = {\left[ {d(x), c{{(x)}^{\rm{T}}}} \right]^{\rm{T}}}$。使用IID假设，可以通过将邻域$ \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}(x)$视为一组样本来估计联合概率分布$ p(d(x), \mathit{\boldsymbol{c}}(x)) = p(\mathit{\boldsymbol{f}}(x))$，并假设$ p(\mathit{\boldsymbol{f}}(x))$服从高斯混合模型(Gaussian mixture model，GMM)，即

$p(\mathit{\boldsymbol{f}}(x)) = \sum\limits_{{x_i} \in \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}(x)} {{\alpha _i}} p_i^f(x)$

(4)

式中，$ {{\alpha _i}}$是基于相邻像素$ {{x_i} \in \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}(x)}$建立的高斯分布$ p_i^f(x) = N\left({\mathit{\boldsymbol{f}}\left({{x_i}} \right), \Sigma _i^f} \right)$的权重。具体为

$p_i^{\rm{f}}(x) = \frac{{\exp \left({ - \frac{1}{2}{\mathit{\boldsymbol{\theta }}_i}{{(x)}^{\rm{T}}}{{\left({\Sigma _i^{\rm{f}}} \right)}^{ - 1}}{\mathit{\boldsymbol{\theta }}_i}(x)} \right)}}{{\sqrt {{{(2\pi)}^l}\left| {\Sigma _i^{\rm{f}}} \right|} }}$

(5)

${\mathit{\boldsymbol{\theta }}_i}(x) = \mathit{\boldsymbol{f}}(x) - \mathit{\boldsymbol{f}}\left({{x_i}} \right)$

(6)

式中，$ l$是特征向量$ \mathit{\boldsymbol{f}}(x)$的维数，对于3个颜色通道和1个深度通道，通常$ l=4$。$ \sum\nolimits_i^{\rm{f}} \in {{\bf{R}}^{l \times l}}$是第$ i$个高斯成分$ p_i^{\rm{f}}(x)$的协方差矩阵。对于8-邻域中的某个像素，以左下角邻域为例，统计当前图像的所有有效的$ M$组中心像素及其左下角邻域像素，根据式(6)计算两者的特征差值向量$ {{\mathit{\boldsymbol{\theta }}_i}}$($ i$是左下角邻域在8-邻域中的序号)，共得到$ M$个$ {{\mathit{\boldsymbol{\theta }}_i}}$向量，统计其协方差矩阵$ {\mathop{\rm Cov}\nolimits} \left({{\mathit{\boldsymbol{\theta }}_i}} \right)$来估计$ \Sigma_i^{\rm{f}} $。因此，式(4)的GMM模型参数无需使用期望最大化算法求解。

式(2)中的项$ p(\mathit{\boldsymbol{c}}(x))$是$ \mathit{\boldsymbol{c}}(x)$的边缘概率，可以通过沿$ d(x)$方向积分$ p(\mathit{\boldsymbol{f}}(x))$计算，即

$p(\mathit{\boldsymbol{c}}(x)) = \int_0^{ + \infty } p (\mathit{\boldsymbol{f}}(x)){\rm{d}}(d(x))$

(7)

根据式(2)和式(3)分别计算条件概率分布$ {p_{\rm{d}}}(x\mid \mathit{\boldsymbol{S}}(x))$和条件熵$ {E{n{t_{\rm{d}}}}}(x\mid \mathit{\boldsymbol{S}}(x))$。根据$ {E{n{t_{\rm{d}}}}}(x)$的基本定义，认为具有较低熵值的无效点$ x$具有较强的可预测性。基于以上分析，最佳填充顺序应使所有无效点的整体条件熵最小。通过将填充过程视为时间序列$ \mathit{\boldsymbol{Q}} = \left\{ {{x^{(1)}}, {x^{(2)}}, \cdots, {x^{(n)}}} \right\}$，总条件熵$ H\left(\mathit{\boldsymbol{Q}} \right)$定义为

$H(\mathit{\boldsymbol{Q}}) = \sum\limits_{t = 1}^n E n{t_{\rm{d}}}\left({{x^{(t)}}\mid \mathit{\boldsymbol{S}}\left({{x^{(t)}}} \right)} \right)$

(8)

最佳填充顺序的求解可以视为一个优化问题，即

${\mathit{\boldsymbol{Q}}^*} = \mathop {{\mathop{\rm argmin}\nolimits} }\limits_\mathit{\boldsymbol{Q}} [H(\mathit{\boldsymbol{Q}})]$

(9)

需要注意的是，邻域$ \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}\left({{x^{(t)}}} \right)$可能会被先前填充的序列改变，其条件熵会相应发生变化，整体熵$ H\left(\mathit{\boldsymbol{Q}} \right)$也会随之变化，因此填充序列$ \mathit{\boldsymbol{Q}}$的优化是一个动态的NP完全问题，对于真实深度图像，无效点的总数$ n$可能非常大(通常为10³~10⁵)。因此，很难对式(9)的优化问题给出全局最优解。本文采用一种基于启发式搜索的前向分布优化策略，即在每个时刻$ t$，以最小条件熵$ Ent_{\rm{d}}^{(t)}(x\mid \mathit{\boldsymbol{S}}(x))$选择无效点$ {x^{(t)}}$进行填充，即

${x^{(t)}} = \mathop {{\mathop{\rm argmin}\nolimits} }\limits_x \left[ {Ent_{\rm{d}}^{(t)}(x\mid \mathit{\boldsymbol{S}}(x))} \right]$

(10)

因此，条件熵$ {Ent_{\rm{d}}^{(t)}(x\mid \mathit{\boldsymbol{S}}(x))}$将作为无效点填充优先级的评估依据。

1.3 条件熵的快速估计

为了快速计算每个无效点当前的条件熵$ Ent_{\rm{d}}^{(t)}(x\mid \mathit{\boldsymbol{S}}(x))$，本文提出一种条件熵快速逼近算法。为简单起见，将$ {\mathop{ Ent}\nolimits} _{\rm{d}}^{(t)}(x\mid \mathit{\boldsymbol{S}}(x)), {p_{\rm{d}}}(x\mid \mathit{\boldsymbol{S}}(x))$, $ p(\mathit{\boldsymbol{f}}(x))$, $ p(\mathit{\boldsymbol{c}}(x))$和$ d(x)$分别表示为$ En{t_{\rm{d}}}, {p_{\rm{d}}}, {p_{\rm{f}}}, {p_{\rm{c}}}$和$ d$，根据多元正态分布(multivariate normal distribution, MND)的边缘概率分布仍服从正态分布的属性，根据式(4)—(7)，$ {p_{\rm{c}}}$可写为

$\begin{array}{l} {p_{\rm{c}}} = \sum\limits_{{x_i} \in \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}(x)} {{\alpha _i}} p_i^{\rm{c}}(x) = \\ \sum\limits_{{x_i} \in \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}(x)} {{\alpha _i}} N\left({\mathit{\boldsymbol{c}}\left({{x_i}} \right), \Sigma _i^{\rm{c}}} \right) \end{array}$

(11)

式中，$ {\Sigma _i^{\rm{c}}}$是$ \mathit{\boldsymbol{c}}(x)$的协方差矩阵，可以直接从$ {\Sigma _i^{\rm{f}}}$中提取。对于真实的深度图像，式(3)的积分可以通过对所有可能的离散深度值$ \mathit{\boldsymbol{D}} = \left\{ {{d_1}, {d_2}, \cdots, {d_n}} \right\}$进行加权求和来近似。即

$\begin{array}{c} En{t_{\rm{d}}} \approx - \sum\limits_{d \in \mathit{\boldsymbol{D}}} {\frac{{{p_{\rm{f}}}}}{{{p_{\rm{c}}}}}} \log \frac{{{p_{\rm{f}}}}}{{{p_{\rm{c}}}}} = \\ - \frac{1}{{{p_{\rm{c}}}}}\sum\limits_{d \in \mathit{\boldsymbol{D}}} {{p_{\rm{f}}}} \left({\log {p_{\rm{f}}} - \log {p_{\rm{c}}}} \right) = \frac{{ - \sum\limits_{d \in \mathit{\boldsymbol{D}}} {{p_{\rm{f}}}} \log {p_{\rm{f}}}}}{{{p_{\rm{c}}}}} + \\ \frac{{\log {p_{\rm{c}}}}}{{{p_{\rm{c}}}}}\sum\limits_{d \in \mathit{\boldsymbol{D}}} {{p_{\rm{f}}}} = \frac{{En{t_{\rm{f}}}}}{{{p_{\rm{c}}}}} + \log {p_{\rm{c}}} \end{array}$

(12)

显然，条件熵$ En{t_{\rm{d}}}$的估计值由色彩特征边缘概率$ {{p_{\rm{c}}}}$和RGB-D特征的熵$ En{t_{\rm{f}}}$共同决定。$ {{p_{\rm{c}}}}$的具体数值可以根据式(11)计算得到。问题的主要挑战来自于$ En{t_{\rm{f}}}$的估计。

根据式(4)，RGB-D特征$ \mathit{\boldsymbol{f}}(x)$服从GMM分布。作为一个经典问题，GMM分布的熵没有解析解。但Kampa等人(2011)以及Hershey和Olsen(2007)为GMM分布的熵给出了近似估计。为了加快估计算法，本文基于Huber等人(2008)提出的零阶泰勒级数展开式，选择一种简单的近似方法。具体为

$En{t_{\rm{f}}}(x) \approx - \sum\limits_{d \in \mathit{\boldsymbol{D}}{x_i} \in \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}(x)} {\sum\limits_i {\log } } \left({\sum\limits_{{x_j} \in \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}(x)} {{\alpha _j}} p_j^{\rm{f}}\left({{x_i}} \right)} \right)$

(13)

式中，$ {{\alpha _i}}$值表示式(4)的GMM分布中每一个高斯成分的比例权重，其取值应与当前无效点$ x$和其有效邻域$ x_i$之间满足独立同分布假设的置信度成正比。正如本文在1.1节提到的，如果只考虑两个相邻像素自身的特征相似度来判断两者是否满足独立同分布假设，结果通常是不可靠的。因此本文从像素和超像素两个尺度对权重$ {{\alpha _i}}$进行估计，即

$\begin{array}{c} {\alpha _i} = \\ \frac{{(1 - \eta)r\left({{\mathit{\boldsymbol{c}}^{\rm{p}}}(x), {\mathit{\boldsymbol{c}}^{\rm{p}}}\left({{x_i}} \right)} \right) + \eta r\left({{\mathit{\boldsymbol{c}}^{{\rm{sp}}}}(x), {\mathit{\boldsymbol{c}}^{{\rm{sp}}}}\left({{x_i}} \right)} \right)}}{C} \end{array}$

(14)

式中，函数$ r(\cdot, \cdot)$用于计算两个向量之间的相似度，$ {\mathit{\boldsymbol{c}}^{\rm{p}}}(x)$是像素$ x$的LAB色彩向量，而$ {\mathit{\boldsymbol{c}}^{\rm{sp}}}(x)$是像素$ x$所在的超像素的平均色彩向量，$ \eta \in [0, 1]$是两个尺度的比例因子，$ C$为归一化系数，确保所有$ {{\alpha _i}}$的总和为1。基于式(11)—(14)，可以在任意给定时刻$ t$对所有无效点的条件熵进行快速估计，并选择条件熵$ En{t_{\rm{d}}}$最小的无效点优先填充。

为了论证本文提出的条件熵快速估计方法的合理性，首先根据式(12)分析$ En{t_{\rm{d}}}$与边缘概率$ {{p_{\rm{c}}}}$的关系。由于$ \partial En{t_{\rm{d}}}/\partial {p_{\rm{c}}} = \left({{p_{\rm{c}}} - En{t_{\rm{f}}}} \right)/p_{\rm{c}}^2$，考虑到色彩特征$ \mathit{\boldsymbol{c}}$和深度$ \mathit{\boldsymbol{d}}$的取值范围为[0, 255]，则色彩特征的边缘概率密度函数$ {{p_{\rm{c}}}}$的取值通常远小于1，而$ En{t_{\rm{f}}}$一般明显大于1，所以得到$ \partial En{t_{\rm{d}}}/\partial {p_{\rm{c}}} < 0$。即条件熵$ En{t_{\rm{d}}}$随着色彩边缘概率$ {{p_{\rm{c}}}}$的增加而减小，表示其可预测性更好，应该优先填充。概率$ {p_{\rm{c}}}(x)$越大，表示当前无效点的色彩$ \mathit{\boldsymbol{c}}(x)$与其邻域像素的色彩相似度越高，表明该点越容易预测，这与前面得出的结论一致。其次分析$ En{t_{\rm{d}}}$与$ En{t_{\rm{f}}}$以及$ p_{j}^{\mathrm{f}}\left(x_{i}\right)$的关系。如果$ x_j$是未填充的无效邻域点，那么它对当前无效点$ x$的深度估计没有帮助，于是设$ p_{j}^{\mathrm{f}}\left(x_{i}\right)=0$，根据式(13)，这会导致熵$ En{t_{\rm{f}}}$增大，进而导致$ En{t_{\rm{d}}}$值变大。更多的邻域无效点$ x_j$会使得中心无效点$ x$的深度值更难以估计。显然，基于条件熵的填充优先级估计结果与基于邻域知识给出的直觉判断在趋势上是一致的，这说明本文推导的条件熵快速估计结果具有较高的可信度与实用性。

1.4 深度值最优预测

本文在第1.2节提到，无效点$ x$的深度值$ d(x)$视为服从概率分布$ {p_{\rm{d}}}(x\mid \mathit{\boldsymbol{S}}(x))$的随机变量，因此可以直接使用最大似然估计方法对$ d(x)$进行最优预测。即

${d^*}(x) = \mathop {{\mathop{\rm argmax}\nolimits} }\limits_{d(x) \in \mathit{\boldsymbol{D}}} {p_{\rm{d}}}(x\mid \mathit{\boldsymbol{S}}(x))$

(15)

由于$ {{p_{\rm{c}}}}$对于不同的$ d(x)$保持恒定，根据式(2)，可得出式(15)的优化问题与$ p_{\rm{f}}$最大化问题有相同的最优解。然而，$ p_{\rm{f}}$定义为GMM分布，其全局最大化问题没有封闭解且存在很多局部最优解。同时，考虑到在每个无效点$ x$上都需要进行优化求解，因此采用梯度下降法的寻优思路也难以保证算法速度，且容易陷入局部最优陷阱。幸运的是，作为自变量的深度值$ d(x)$具有有限数量的离散值。例如，对于8位灰度深度图像有$ \mathit{\boldsymbol{D}} = \{ 0, 1, 2, \cdots, 255\} $。这意味着本文可以使用穷举搜索策略而不必担心巨大的计算负担。此外，本文通过一些典型的局部统计量(例如8邻域有效点的平均值、中值、局部最大值和加权平均值)近似估计$ {d^*}(x)$，这些统计量易于计算，并在图像处理领域频繁使用。

1.5 算法步骤

本文提出的条件熵快速逼近的双尺度顺序优化填充算法流程可简化归纳为填充优先级估计和深度值预测，具体步骤如下：

输入：RGB-D图像。彩色图像部分使用LAB色彩空间。

输出：填充后的深度图像。

初始化：

1) 执行改进SLIC算法，统计超像素色彩特征$ {\mathit{\boldsymbol{c}}^{{\rm{sp}}}}(x)$ //式(1)；

2) 统计有效点集合$ \mathit{\boldsymbol{V}}$和无效点集合$ \mathit{\boldsymbol{U}}$。

初始化$ p_i^{\rm{f}}(x), \forall x \in \mathit{\boldsymbol{V}}, {x_i} \in \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}(x)$ //式(5)；

初始化$ p_i^{\rm{c}}(x), \forall x \in \mathit{\boldsymbol{V}}, {x_i} \in \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}(x)$ //式(11)；

初始化$ {p_c}\left({{x_j}} \right), \forall {x_j} \in \mathit{\boldsymbol{U}}$ //式(11)；

3) 计算$ En{t_{\rm{f}}}\left({{x_j}} \right), \forall {x_j} \in \mathit{\boldsymbol{U}}$ //式(13)；

4) $ En{t_{\rm{d}}}\left({{x_j}} \right), \forall {x_j} \in \mathit{\boldsymbol{U}}$ //式(12)；

顺序填充：

1) 在集合$ \mathit{\boldsymbol{U}}$中找出$ En{t_{\rm{d}}}$值最小的点$ {x_{k^*}}$；

2) 为$ {x_{k^*}}$填充深度值最优预测值$ {d^*}\left({{x_{{k^*}}}} \right)$ //式(15)；

3) 更新$ p_{{k^*}}^{\rm{f}}(x)$ //式(5)；

4) 在集合$ \mathit{\boldsymbol{U}}$中搜索$ {x_{k^*}}$的邻域点，记做集合$ \mathit{\boldsymbol{ \boldsymbol{\varPsi} }}\left({{x_{{k^*}}}} \right)$；

5) 更新$ {p_{\rm{c}}}\left({{x_k}} \right), En{t_{\rm{f}}}\left({{x_k}} \right), En{t_{\rm{d}}}\left({{x_k}} \right), \forall {x_k} \in \mathit{\boldsymbol{ \boldsymbol{\varPsi} }}\left({{x_{{k^*}}}} \right)$ //式(11)—(13)；

6) 将$ {x_{k^*}}$从集合$ \mathit{\boldsymbol{U}}$移入集合$ \mathit{\boldsymbol{V}}$，计算$ p_{{k^*}}^{\rm{f}}(x)$和$ {p_{\rm{c}}}(x)$ //式(5)(11)；

7) 重复上述步骤，直到集合$ \mathit{\boldsymbol{U}} = \emptyset $。

在初始化步骤中，首先对RGB-D图像进行超像素分割，并统计每个超像素对应的平均色彩特征向量$ {\mathit{\boldsymbol{c}}^{{\rm{sp}}}}(x)$。统计有效点集合$ \mathit{\boldsymbol{V}}$和无效点集合$ \mathit{\boldsymbol{U}}$。对于每一个有效点$ {x_i} \in \mathit{\boldsymbol{V}}$计算其在GMM模型中的高斯分量$ p_i^{\rm{f}}(x)$和$ p_i^{\rm{c}}(x)$。以此为基础，根据式(11)和式(13)，对每一个无效点$ {x_j} \in \mathit{\boldsymbol{U}}$分别计算其色彩特征的GMM概率模型$ {p_{\rm{c}}}\left({{x_j}} \right)$和熵$ {Ent_{\rm{f}}}\left({{x_j}} \right)$, 最后，根据式(12)得到每一个无效点对应的条件熵$ En{t_{\rm{d}}}$。

在顺序填充阶段，从无效点集合$ \mathit{\boldsymbol{U}}$中找出条件熵$ En{t_{\rm{d}}}$值最小的$ {x_{k^*}}$。采用式(15)表示的最大似然估计结合穷举法填充最优深度估计值$ {d^*}\left({{x_{{k^*}}}} \right)$。更新与$ {x_{k^*}}$相邻的其他无效点的色彩特征GMM模型$ {{p_{\rm{c}}}}$，联合特征的熵$ En{t_{\rm{f}}}$以及条件熵$ En{t_{\rm{d}}}$，最后，将填充好的$ {x_{k^*}}$从无效点集合$ \mathit{\boldsymbol{U}}$移到有效点集合$ \mathit{\boldsymbol{V}}$中，并初始化该点对应的特征高斯分量$ p_{{k^*}}^{\rm{f}}(x)$和$ p_{{k^*}}^{\rm{c}}(x)$。重复上述步骤，直到所有的无效点均完成填充，集合$ \mathit{\boldsymbol{U}} = \emptyset $为止。

2 实验结果与分析

实验使用具有32 GB RAM、1个Intel Xeon E5-2620处理器和2个GT1080Ti GPU卡的工作站，在MATLAB R2017a软件平台上测试。

2.1 数据集

实验采用在深度图像修复领域广泛使用的数据集Middlebury 2006(MB)(Scharstein和Pal，2007), 并建立了在深度通道上带有噪声和孔洞的RGB-D图像及其真值深度图像两个新数据集，以验证本文算法。第1个数据集称为MB+，包含直接从原始MB的21组数据集中收集的10组测试图像，相应的真实深度图是通过人工手动填充测试深度图像的孔来制作的，如图 3(a)(b)所示。第2个数据集称为MB-，其真实深度图与MB数据集的原始图像相同，相应的测试图像是通过添加一些新的孔来制作的，如图 3(c)(d)所示。

图 3 数据集MB+和MB-的一些典型示例的图示

Fig. 3 Illustration of some typical samples of the datasets MB+ and MB-

((a) test depth images of MB+; (b) the corresponding ground truth of MB+; (c) test depth images of MB-; (d) the corresponding ground truth of MB-)

2.2 消融实验

为了客观衡量算法对深度图像的修复效果，采用峰值信噪比和结构相似性指数作为评价指标。峰值信噪比(peak signal-to-noise ratio，PSNR)主要用于衡量有损变换的重建质量，单位是dB，其值越大，代表图像失真越少。结构相似性指数(structural similarity index，SSIM)主要用于量化两幅图像间的结构相似性的指标，其值的范围为0~1，越大代表图像越相似。

消融实验对本文提出的填充优先级估计、深度值优化和双尺度改进分别进行评估，以验证本文创新点的有效性。在第1个实验中，将本文提出的基于条件熵的填充优先级估计方法(Ent)替换为渐进式Z-scanning(Zscan)、geodesic distance(GD)、基于颜色的快速行进距离(color-based fast marching distance，CFM)、基于深度的快速行进距离(depth-based fast marching distance，DFM)、有效邻域数(valid neighbors number，VN)和局部协方差(covariance，COV)等6种方法，其中，GD、CFM和DFM优先考虑与有效点距离较小的无效点，VN倾向于使用具有更多有效邻域的点，COV优先考虑具有较低局部协方差的像素点。实验将这些方法与本文提出的基于最大似然估计的深度值预测方法(maximum-probability-based depth value prediction，MaxP)结合起来，分别在MB+和MB-数据集上进行测试，得到的PSNR分数如图 4所示。

图 4 不同填充排序方法在MB+和MB-数据集上的PSNR得分

Fig. 4 The PSNR scores with different filling ordering methods on the MB+ and MB- datasets

((a)MB+ dataset; (b)MB- dataset)

与上述方法相似，在第2个实验中，采用本文提出的基于条件熵的填充优先级估计方法，并将基于最大似然估计的深度值预测方法(MaxP)与加权平均法(weighted mean，WMean)、中值滤波法(median filter，Med)和最近邻法(nearest neighbor，NN)等深度值填充方法进行比较，在MB+和MB-数据集上进行测试，结果如图 5所示。

图 5 不同深度值预测方法在MB+和MB-数据集上的PSNR分数

Fig. 5 The PSNR scores of different depth value prediction methods on the MB+ and MB- datasets

((a)MB+ dataset; (b)MB- dataset)

上述结果表明，对于数据集MB+和MB-中的大多数图像，在填充优先级估计和深度值预测两个实验中，本文算法均优于其他算法。表 1显示了MB+和MB-数据集上的9种替代算法以及本文算法的平均PSNR和SSIM得分。可以看出，本文算法Ent+MaxP在4个条件下均得分最高。结果表明，在两个阶段中本文方法都具有更好的精度和鲁棒性。从次优和第3优得分对比于其他没有应用基于熵的填充优先级的方法中可以看出，相比深度值预测，填充优先级估计的作用更关键。

表 1 MB+和MB-上不同组合的平均PSNR和SSIM分数
Table 1 Average PSNR and SSIM scores of different methods for the MB+ and MB-datasets

下载CSV

算法	MB+数据集		MB-数据集
算法	PSNR/dB	SSIM	PSNR/dB	SSIM
Ent+MaxP	34.696 7	0.978 5	47.954 6	0.998 2
Ent+Wmean	34.445 8	0.978 1	47.424 3	0.998 2
Ent+Med	34.218 8	0.976 3	46.554 5	0.997 3
Ent+NN	34.123 8	0.977 0	44.782 4	0.997 0
Zscan+MaxP	32.460 6	0.972 9	42.498 4	0.994 9
GD+MaxP	30.428 8	0.961 4	36.939 2	0.989 1
CFM+MaxP	30.938 1	0.962 0	40.019 7	0.992 9
DFM+MaxP	31.053 8	0.963 3	39.300 6	0.990 6
VN+MaxP	32.915 0	0.974 4	43.001 2	0.994 1
COV+MaxP	32.225 6	0.971 6	42.261 1	0.993 0
注：加粗、斜体、加下划线字体分别表示各列最优、次优、第3优结果。

此外，本文还通过改变式(14)中的比例因子$ \eta $的值，分析了双尺度权重对修复结果的影响。图 6绘制了$ \eta $的变化值与平均PSNR的比率曲线。尽管曲线的变化不稳定，但本文注意到，像素尺度和超像素尺度的组合通常比单独使用一个尺度要好。根据数据集MB+和MB-的平均值曲线，本文选择$ \eta=0.7 $，使得PSNR比率最大化。

图 6 不同比例因子$ \eta $的平均PSNR比率曲线

Fig. 6 Average PSNR ratio curves with different scale factor $ \eta $

2.3 与其他算法的比较

为进一步验证本文算法的性能，与其他7个深度图像修复算法进行比较，包括各向异性扩散(anisotropic diffusion，AD)(Liu和Gong，2013)、快速行进方法(fast marching method, FMM)(Telea，2004)、低秩矩阵补全(low-rank matrix completion，LRC)(Wang等，2016)、马尔可夫随机场(Markov random field，MRF)(Harrison和Newman，2010)、加权模式滤波器(weighted mode filter，WMF)(Min等，2012)、基于区域的深度修复(region-based depth recovery，RDR)(Pertuz和Kamarainen，2017)和深度补全(deep depth completion，DDC)(Zhang和Funkhouser，2018)。

图 7显示了本文算法和本领域7个代表性算法在MB+和MB-上的PSNR得分。相对应地，图 8显示了8种算法在MB+和MB-数据集上的SSIM得分。结果显示，与其他竞争算法相比，本文算法具有明显优势。

图 7 不同算法在MB+和MB-数据集上的PSNR分数

Fig. 7 PSNR scores of different algorithms on the MB+ and MB- datasets

((a)MB+ dataset; (b)MB- dataset)

图 8 不同算法在MB+和MB-数据集上的SSIM分数

Fig. 8 SSIM scores of different algorithms on the MB+ and MB- datasets

((a)MB+ dataset; (b)MB- dataset)

为了更加直观地展示本文算法在修复效果上的优势，图 9显示了MB+中大多数图像在不同方法下的修复结果，从下至上依次为baby1、baby2、bowling、cloth、flowerpots、lampshade、midd、rocks1和rocks2图像，共9幅。图 10则具体显示了MB+中最典型的“芦荟(aloe)”图像的修复结果。

图 9 MB+数据集中9幅图像的深度图像修复结果

Fig. 9 Depth image recovery results of nine images on the MB+ dataset

((a) input; (b) ground truth; (c) ours; (d) AD; (e) FMM; (f) LRC; (g) MRF; (h) WMF; (i) RDR; (j) DDC)

图 10 “芦荟”图像的修复结果比对

Fig. 10 The comparison of recovery results of "aloe"

((a) RGB image; (b) depth image; (c) ground truth; (d) ours; (e) AD; (f) FMM; (g) LRC; (h) MRF; (i) WMF; (j) RDR; (k) DDC)

为了更好地展示各算法的修复效果，本文给出了“芦荟”图像修复细节放大图，如图 11所示。通过仔细观察，可以清楚地发现AD、MRF和WMF算法容易在边缘周围产生毛刺和模糊。FMM和LRC算法则经常会出现超出真实边界的伪边缘。RDR算法整体表现良好，但是也会在一些物体边缘产生模糊现象，导致细节缺失。而本文算法可以更清晰、更完整地保留真实边界，并且几乎不会产生毛刺。

图 11 8种算法修复细节图和真值细节图

Fig. 11 Eight kinds of algorithms repair details images and ground truth map details

((a) ground truth; (b) ours; (c) AD; (d)FMM; (e) LRC; (f) MRF; (g) WMF; (h) RDR; (i) DDC)

在修复速度方面，本文算法与其他7种深度图像修复算法进行了比较，结果如表 2所示。

表 2 不同算法时间效率对比
Table 2 The time efficiency comparison of different algorithms

下载CSV

/s
方法	图像					平均
方法	aloe	baby1	bowling	midd	rocks1	平均
AD	3.859 2	3.587 7	3.803 7	3.629 9	3.683 8	3.712 8
FMM	1.279 5	1.202 2	1.131 9	1.095 7	1.169 0	1.175 6
LRC	5.242 3	5.407 8	5.232 6	5.379 3	5.585 3	5.369 5
MRF	10.841 9	8.995 7	9.174 1	9.479 2	9.023 6	9.502 9
WMF	23.043	23.635 2	23.631 1	24.284 1	24.217 5	23.762 2
DDC	5.194 7	3.744 3	3.822 3	3.766 1	3.607 3	4.026 9
RDR	18.576 0	19.105 5	18.741 1	20.448 1	19.839 6	19.342 1
本文	0.499 4	0.503 0	0.459 9	0.438 0	0.437 3	0.467 5
注：加粗字体表示各列最优结果。

本文算法与其他对比算法相比，主要优势来自基于条件熵的填充优先级评估方法，该方法会优先修复深度平坦区域的无效点，之后再修复不确定性较大的边缘区域，显著地提高了填充深度的鲁棒性。

3 结论

深度图像修复任务对精度要求很高，颜色和深度特征之间的空间分布差异、噪声和模糊的干扰以及大面积孔洞导致的信息丢失等问题都对图像的精准修复提出了巨大挑战。本文在双尺度顺序填充的框架下，提出了基于条件熵快速逼近的填充优先级估计方法和基于最大似然估计的深度值优化填充算法，为深度图像修复任务提供了一种具有更加清晰的数学模型背景的解决方案，在MB+和MB-数据集上，PSNR分别达到34.697 dB和47.955 dB，SSIM分别达到0.978 5和0.998 2，明显超过其他7种对比算法。此外，通过实验验证了本文方法可以更清晰、更完整地保留真实边界，并且几乎不会产生毛刺。实验表明，在总体效果和边缘保存方面，与其他对比方法相比，本文算法在准确性、鲁棒性和效率上均具有明显优势。在大孔洞修复方面，虽然本文方法对比其他算法有着更好的效果，但仍有改进空间。在未来工作中，将重点研究如何通过引入特征的全局分布作为深度预测的参考来进一步提高算法的鲁棒性。

参考文献

Achanta R, Shaji A, Smith K, Lucchi A, Fua P, Süsstrunk S. 2012. SLIC superpixels compared to state-of-the-art superpixel methods. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(11): 2274-2282 [DOI:10.1109/tpami.2012.120]

Gong X J, Liu J Y, Zhou W H, Liu J L. 2013. Guided depth enhancement via a fast marching method. Image and Vision Computing, 31(10): 695-703 [DOI:10.1016/j.imavis.2013.07.006]

Harrison A and Newman P. 2010. Image and sparse laser fusion for dense scene reconstruction//Proceedings of Field and Service Robotics. Berlin, Germany: Springer: 219-228 [DOI: 10.1007/978-3-642-13408-1_20]

Hershey J R and Olsen P A. 2007. Approximating the Kullback Leibler divergence between Gaussian mixture models//Proceedings of 2007 IEEE International Conference on Acoustics, Speech and Signal Processing—ICASSP'07. Honolulu, USA: IEEE: IV-317-IV-320 [DOI: 10.1109/icassp.2007.366913]

Huber M F, Bailey T, Durrant-Whyte H and Hanebeck U D. 2008. On entropy approximation for Gaussian mixture random vectors//Proceedings of 2008 IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems. Seoul, Korea (South): IEEE: 181-188 [DOI: 10.1109/mfi.2008.4648062]

Kopf J, Cohen M F, Lischinski D and Uyttendaele M. 2007. Joint bilateral upsampling//Proceedings of ACM SIGGRAPH 2007 Papers. San Diego, USA: ACM [DOI: 10.1145/1275808.1276497]

Kampa K, Hasanbelliu E and Principe J C. 2011. Closed-form Cauchy-Schwarz PDF divergence for mixture of Gaussians//Proceedings of 2011 International Joint Conference on Neural Networks. San Jose, USA: IEEE: 2578-2585. [DOI: 10.1109/IJCNN.2011.6033555]

Li Y B, Feng J, Zhang H X, Li C Q. 2013. New algorithm of depth hole filling based on intensive bilateral filter. Industrial Control Computer, 26(11): 105-106, 109 (李应彬, 冯杰, 张华熊, 李晨勤. 2013. 基于改进双边滤波的Kinect深度图像空洞修复算法研究. 工业控制计算机, 26(11): 105-106, 109) [DOI:10.3969/j.issn.1001-182X.2013.11.046]

Lin L, Chen Y J, Guo T H. 2019. Kinect depth image restoration algorithm based on space-time domain data fusion. Science Technology and Engineering, 19(30): 215-220 (林玲, 陈姚节, 郭同欢. 2019. 基于时空域数据融合的Kinect深度图像修复算法. 科学技术与工程, 19(30): 215-220) [DOI:10.3969/j.issn.1671-1815.2019.30.032]

Liu J Y and Gong X J. 2013. Guided depth enhancement via anisotropic diffusion//Proceedings of the 14th Pacific-Rim Conference on Multimedia. Nanjing, China: Springer: 408-417 [DOI: 10.1007/978-3-319-03731-8_38]

Matyunin S, Vatolin D, Berdnikov Y and Smirnov M. 2011. Temporal filtering for depth maps generated by Kinect depth camera//Proceedings of 2011 3DTV Conference: the True Vision-Capture, Transmission and Display of 3D Video (3DTV-CON). Antalya, Turkey: IEEE: 1-4 [DOI: 10.1109/3dtv.2011.5877202]

Min D B, Lu J B, Do M N. 2012. Depth video enhancement based on weighted mode filtering. IEEE Transactions on Image Processing, 21(3): 1176-1190 [DOI:10.1109/tip.2011.2163164]

Pertuz S and Kamarainen J. 2017. Region-based depth recovery for highly sparse depth maps//Proceedings of 2017 IEEE International Conference on Image Processing (ICIP). Beijing, China: IEEE: 2074-2078 [DOI: 10.1109/icip.2017.8296647]

Scharstein D and Pal C. 2007. Learning conditional random fields for stereo//Proceedings of 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, USA: IEEE: 1-8 [DOI: 10.1109/cvpr.2007.383191]

Telea A. 2004. An image inpainting technique based on the fast marching method. Journal of Graphics Tools, 9(1): 23-34 [DOI:10.1080/10867651.2004.10487596]

Lee K, Bresler Y. 2010. ADMiRA: atomic decomposition for minimum rank approximation. IEEE Transactions on Information Theory, 56(9): 4402-4416

Wang Z Y, Song X W, Wang S Z, Xiao J, Zhong R, Hu R M. 2016. Filling kinect depth holes via position-guided matrix completion. Neurocomputing, 215: 48-52 [DOI:10.1016/j.neucom.2015.05.146]

Zeng X J, Lu C. 2013. The application of MRF based-on chaos-PSO optimization in depth information estimation. Journal of Huazhong University of Science and Technology (Natural Science Edition), 41(Z1): 223-225 (曾祥进, 卢成. 2013. 混沌PSO优化的马尔可夫随机场的深度恢复. 华中科技大学学报(自然科学版), 41(Z1): 223-225) [DOI:10.13245/j.hust.2013.s1.059]

Zhang Y D and Funkhouser T. 2018. Deep depth completion of a single RGB-D image//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 175-185 [DOI: 10.1109/cvpr.2018.00026]

Zheng C Y, Li L F, Xiao Z S, Lu C. 2016. A depth image enhancement algorithm based on improved anisotropic diffusion. Computer Engineering and Science, 38(9): 1823-1829 (郑传远, 李良福, 肖樟树, 陆铖. 2016. 一种改进的各向异性扩散深度图像增强算法. 计算机工程与科学, 38(9): 1823-1829) [DOI:10.3969/j.issn.1007-130X.2016.09.013]