|
发布时间: 2018-04-16 |
图像处理和编码 |
|
|
收稿日期: 2017-08-17; 修回日期: 2017-10-25
基金项目: 国家自然科学基金项目(61771269,61620106012,U1301257);浙江省自然科学基金项目(LY16F010002,LY15F010005,LY17F010005)
第一作者简介:
黄超(1991-), 男, 宁波大学信息科学与工程学院电子与通信工程专业在读硕士研究生, 主要研究方向为视频信号处理与编码。E-mail:121080986@qq.com.
中图法分类号: TN919
文献标识码: A
文章编号: 1006-8961(2018)04-0500-10
|
摘要
目的
针对高效3维视频编码标准(3D-HEVC)深度视频编码复杂度高和获取不准确的两个问题,现有算法单独进行处理,并没有进行联合优化。为了同时提升深度视频编码速度和编码效率,提出一种联合深度视频增强处理和帧内快速编码的方法。方法
首先,引入深度视频空域增强处理,消除深度视频中的虚假纹理信息,增强其空域相关性,为编码单元(CU)划分和预测模式选择提供进一步优化的空间;然后,针对增强处理过的深度视频的空域特征,利用纹理复杂度将CU进行分类,提前终止平坦CU的分割过程,减少了CU分割次数;最后,利用边缘强度对预测单元(
关键词
3D-HEVC; 深度视频增强; 帧内快速编码; 纹理复杂度; 边缘强度
Abstract
Objective
With the development of 3D content acquisition and display technologies in recent years, three-dimensional (3D) video has received increasing attention. The multi-view video plus depth format is the main representation of a 3D scene. In the 3D extension of high-efficiency video coding (3D-HEVC), the main framework for depth video is similar to that of HEVC. Each coding unit (CU) is recursively divided into four sub-CUs. Each CU depth level enables 37 types of intra modes in intra frames. Unlike conventional texture videos, depth videos are not used for watching, but for virtual view rendering. The preservation of depth sharp object edges is important for depth video compression. Several new techniques, such as depth modeling mode (DMM) and view synthesis optimization, are introduced into the current 3D-HEVC test model to improve the efficiency of depth video intra coding and the quality of synthesized views. These techniques improve the coding efficiency of depth videos. However, they greatly increase the computational complexity of depth intra coding, thereby hindering the real-time applications of 3D-HEVC. Depth videos are also inaccurate and inconsistent because of the limitations of mainstream capture technologies. The inaccuracy of depth videos further increases the computational complexity of intra coding. Previous research on low-complexity depth video intra coding and depth video enhancement has been conducted separately. Thus, a joint depth video enhancement and fast intra-coding algorithm is proposed in this study.
Method
An enhancement method is applied before encoding to remove inaccurate textures in a depth video and enhance the spatial correlation of the depth video. The edge region is preserved for rendering performance. For non-edge regions, Gaussian and adaptive window smoothing filters are used. The enhanced depth video is mainly characterized by sharp object edges and large areas of nearly constant regions. We can skip some prediction modes and CU depth levels rarely used in homogeneity regions by fully exploiting such features. CUs are classified according to texture complexity, and the partition process of CUs with low texture complexity is terminated early. Prediction units (PUs) are classified according to edge intensity. The proposed algorithm selectively omits unnecessary DMM in the mode decision process on the basis of the
Key words
3D extension of high efficiency video coding(3D-HEVC); depth video enhancement; fast intra coding; texture complexity; edge intensity
0 引言
近年来,基于多视点彩色加深度(MVD)[1]格式的3维视频(3DV)在3维电视(3DTV)和自由视点视频(FVV)[2]中得到广泛地应用。在MVD系统中,深度视频表征场景中的几何特征。在解码端,深度视频和彩色视频通过深度图绘制(DIBR)[3]技术合成虚拟视点。深度视频的采集主要包括Kinect[4]传感器、基于飞行时间原理[5]深度采集系统和深度估计软件等。这些采集技术获取的深度视频存在深度采集不准确的问题,导致平坦的区域出现虚假纹理。这不仅会降低绘制虚拟视点的质量,而且会增加编码复杂度[6]。
新一代高效视频编码(HEVC)[7]的3D视频编码扩展标准(3D-HEVC)[8],旨在提高MVD格式视频的编码效率,是当前编码MVD格式视频的最新编码标准。3D-HEVC针对深度视频特征引入的帧内编码新技术[8],在提升编码效率的同时也使帧内编码复杂度急剧增加。因此,降低深度视频帧内编码复杂度成为3D-HEVC的研究重点[9]。3D-HEVC深度视频帧内编码复杂度较高有以下两方面原因:一方面是沿用HEVC四叉树编码结构,编码单元(CU)递归划分,遍历03深度级选择出最优编码深度;另一方面是帧内模式数目较多,除了35种HEVC帧内模式,还新增了两种复杂度较高的深度模型模式(
为了解决深度视频不准确和帧内编码复杂度高的问题,许多学者提出了帧内低复杂度编码算法[10-13]和深度视频增强算法[14-16]。Zhang等人[10]利用率失真代价值简化最优
本文在前期工作中已经在联合深度视频帧间低复杂度编码和深度视频处理[6]上做了相关工作,针对深度视频帧内编码,提出一种联合深度视频增强的3D-HEVC帧内编码快速算法。主要从以下3个方面进行改进:首先,引入深度视频空域增强处理,消除深度视频中由于获取不准确而造成的虚假纹理,为CU划分和帧内预测模式选择提供进一步优化的空间;然后,基于增强处理后的深度视频的空域特征,利用纹理复杂度对CU进行分类,提前终止低纹理复杂度CU的分割过程,减少CU划分次数;最后,根据边缘强度,对
1 深度视频增强及3D-HEVC帧内编码复杂度分析
1.1 深度视频增强分析
1.2 3D-HEVC帧内编码复杂度分析
3D-HEVC继承了HEVC的四叉树编码结构,在帧内编码过程中,每一帧图像会被分割成许多64×64的编码块,即最大编码单元(LCU)。如图 2所示,每一个LCU会被划分成4个大小一样的子CU,一直递归划分到最大编码深度3(分割深度范围
3D-HEVC帧内模式预测支持深度级为04的
2 联合深度视频增强的3D-HEVC帧内编码快速算法
为了解决原始深度视频存在虚假纹理和3D-HEVC深度视频帧内编码复杂度较高的问题,本文提出一种联合深度视频增强的3D-HEVC帧内编码快速算法,总体流程如图 5所示。该算法从以下3个方面进行改进:1)深度视频空域增强;2)基于纹理复杂度的CU快速划分;3)基于边缘强度的
2.1 深度视频空域增强
深度视频边缘决定着不同物体的边界,是深度视频中最为重要的区域,因此深度视频增强时需要对边缘进行保护。采用Canny算子对深度视频进行边缘检测,检测结果如图 6(a)所示,黑色为边缘区域EA,白色为平坦区域FA。对FA,进行深度突变检测,检测方法为计算相邻两个像素的绝对差值,如果大于阈值则认为这两个像素属于深度突变区域,计算公式为
$ \begin{array}{l} \;\;\;DA = \{ (i, j), (i- 1, j)\\ ||{p_d}(i- 1, j)- {p_d}(i, j)| > {T_0}, \\ \;\;\;i \in [0, W), j \in [0, H)\} \end{array} $ | (1) |
式中,
图 6(b)为图 1(b)的深度突变检测结果,黑色为深度突变区域
经过增强处理后的深度图如图 7(a)所示,与图 1(b)中的原始深度图相比,总体更加平滑,消除了由于获取不准确而导致的虚假纹理。图 7(b)为增强后深度图的CU分割图,与图 1(c)相比,由于虚假纹理得到平滑处理,CU分割最佳尺寸更大,为CU划分提供了进一步优化的空间。
2.2 基于纹理复杂度的CU快速划分算法
经过空域增强处理,深度视频的空域相关性增强。利用其空域特征,提出一种基于纹理复杂度的CU快速划分算法,提前终止CU的划分过程,减少CU递归次数,从而降低编码复杂度。
2.2.1 CU全局纹理复杂度
3D-HEVC中,CU的分割深度主要与纹理复杂度有关,纹理复杂的区域CU划分更精细,而纹理简单的区域则采用尺寸较大的CU进行编码。本文利用与文献[12]相同的阈值根据纹理复杂度,将当前CU分为SCU和NCU,具体定义如下:若当前CU满足纹理复杂度
CU纹理复杂度
$ \begin{array}{l} Var = \sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {f{{\left( {i, j} \right)}^2}- } } \\ \frac{1}{{N \times N}}{\left[{\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {f\left( {i, j} \right)} } } \right]^2} \end{array} $ | (2) |
$ Th = \left\{ {{{\left( {\max \left( {Q \gg 3-1, 3} \right)} \right)}^2}-8} \right\}\;\; \ll 2 $ | (3) |
式中,
2.2.2 CU局部纹理复杂度
观察发现,一些整体纹理复杂度不高的NCU内部仍然存在纹理信息。如果继续利用CU的整体纹理复杂度来判断CU是否划分,会造成CU尺寸选取不够准确。如图 8所示,当前CU的纹理复杂度为
本文利用当前CU的4个子CU的纹理复杂度,对算法做进一步的优化。将当前CU分为大小相同的4个区域即4个子CU,仍然采用式(2)计算4个子CU的纹理复杂度,分别表示为
综上分析,本文基于纹理复杂度的CU快速划分算法定义如下:
1) 计算当前CU以及其4个子CU的纹理复杂度
2) 计算阈值
3) 若满足
本文算法的CU分割结果如图 9所示,从图 9中可以看出本文算法在边界区域CU划分结果与原始平台的划分结果(图 1(c))相当,但是对于同一物体区域(如图 9中圈出的人体),CU划分的尺寸更大。因为本文算法包含深度视频增强处理和CU快速划分两部分,经过深度视频增强处理以后,消除了深度视频中同一物体上本不应该出现的虚假纹理,CU划分的尺寸更大;CU快速划分算法的划分结果基本与原始平台保持一致,只是根据纹理复杂度提前终止CU划分,减少了率失真代价计算次数。所以,本文算法在保持准确性的前提下有效地降低了CU分割编码复杂度。
2.3 基于边缘信息的${\rm PU}$ 模式快速选择
3D-HEVC增加
2.3.1 基于边缘强度的${\rm PU}$ 分类
3D-HEVC帧内预测模式决定过程中,在尺寸为4×4、8×8、16×16、32×32的
1) 求取当前
2) 计算图 10(b)中3×3的像素块的水平边缘强度和垂直边缘强度,每个
$ {G_x} = \sum\limits_{i = 0}^2 {\sum\limits_{j = 0}^2 {p\left( {i, j} \right)} \times {G_x}\left( {i, j} \right)} $ | (4) |
$ {G_y} = \sum\limits_{i = 0}^2 {\sum\limits_{j = 0}^2 {p\left( {i, j} \right)} \times {G_y}\left( {i, j} \right)} $ | (5) |
式中,
$ {G_x}\left( {i, j} \right) = \left| {\begin{array}{*{20}{c}} {-1}&0&1\\ {-2}&0&2\\ {-1}&0&1 \end{array}} \right| $ | (6) |
$ {G_y}\left( {i, j} \right) = \left| {\begin{array}{*{20}{c}} 1&2&1\\ 0&0&0\\ {-1}&{-2}&{-1} \end{array}} \right| $ | (7) |
3) 取水平方向和垂直方向边缘强度的最大值作为当前
$ G = \left\{ {\begin{array}{*{20}{l}} {|{G_x}|}&{|{G_y}| < |{G_x}| \le 255}\\ {|{G_y}|}&{|{G_x}| < |{G_y}| \le 255}\\ {255}&{其他} \end{array}} \right. $ | (8) |
根据所求
$ {E_{{\rm{\rm PU}}}} = \left\{ {{\rm{PU|}}G > TH} \right\} $ | (9) |
最终边缘强度检测结果如图 11所示。
2.3.2 基于$ {\rm PU}$ 类型的模式快速决定
本文统计了深度视频序列中
表 1
Table 1
Statistical analysis of
序列 | |||||
Newspaper | 0.137 6 | 0.862 4 | 0.024 5 | 0.005 1 | 0.116 4 |
Balloons | 0.152 8 | 0.847 2 | 0.025 6 | 0.004 1 | 0.132 6 |
Kendo | 0.101 3 | 0.898 7 | 0.015 1 | 0.002 9 | 0.126 4 |
Poznan_Street | 0.097 7 | 0.902 3 | 0.011 3 | 0.004 2 | 0.123 0 |
平均值 | 0.122 4 | 0.877 7 | 0.019 1 | 0.004 1 | 0.124 6 |
表 1表明,深度视频序列中
1) 计算边缘强度,将
2) 若当前
3) 选择率失真代价最小的模式作为最佳预测模式。
3 实验结果与分析
为了验证本文算法编码性能,3D-HEVC测试平台HTM-16.0上测试本文算法。本文采用全帧内3视点彩色加深度编码方式,其他配置如表 2所示。由于本文算法是针对非计算机辅助合成的自然场景深度视频,因此使用表 3中的测试序列进行测试。
表 2
测试环境
Table 2
Test conditions
所有测试序列纹理图和深度图 | |
Color |
25, 30, 35, 40 |
Depth |
34, 39, 42, 45 |
VSO: | ON |
Texture SAO:ON | Depth SAO:OFF |
RDOQ: | ON |
表 3
测试序列
Table 3
Test sequences and configuration parameters
序列 | 3-view input |
Newspaper | 2-4-6 |
Balloons | 1-3-5 |
Kendo | 1-3-5 |
Poznan_Street | 5-4-3 |
3.1 深度视频增强结果分析
在视频解码端,深度视频是辅助彩色视频合成虚拟视点的中间信息。本文采用合成虚拟视点的质量计算
3.2 总体算法结果分析
为了体现本文算法的先进性,将本文算法与文献[10]提出的帧内编码快速算法进行比较。表 4中列出了本文算法和Zhang[10]提出的算法相对于原始测试平台在复杂度和率失真两方面的测试结果,分别用深度视频编码时间节省
/% | ||||
序列 | ||||
Newspaper | +0.89 | -33.85 | -4.30 | -61.35 |
Balloons | +0.67 | -35.49 | -3.50 | -62.93 |
Kendo | +0.43 | -38.23 | -2.60 | -61.63 |
Poznan_Street | +0.29 | -39.67 | -8.10 | -65.73 |
平均值 | +0.57 | -36.81 | -4.63 | -62.91 |
$ \begin{array}{l} \Delta {T_j} = \frac{1}{4}\sum\limits_{i = 1}^{Q{P_i}} {\frac{{T_j^{Q{P_i}}-T_{{\rm{HTM16}}{\rm{.0}}}^{Q{P_i}}}}{{T_{{\rm{HTM16}}{\rm{.0}}}^{Q{P_i}}}} \times 100\% } \\ \;\;\;\;\;\;\;Q{P_i} = \left\{ {34, 39, 42, 45} \right\} \end{array} $ | (10) |
式中,
实验结果表明,本文算法在深度视频编码时间节省和率失真性能上与对比文献相比都有显著提升。在深度视频帧内编码复杂度方面,Zhang的算法则平均节省36.81%深度视频编码时间,本文算法平均节省62.91%深度视频编码时间。Zhang所提算法对帧内模式选择和视点合成优化进行了相应改进,未对深度视频进行平滑处理,并且对复杂度较高的CU分割过程也未做相应的处理,深度视频编码时间减少不多;而本文算法首先对深度视频进行空间增强处理,去除了原始深度视频中的虚假边缘,使其CU分割尺寸更大,并减少了
在率失真性能方面,对于不同测试序列Zhang提出的算法
图 13为Balloons序列3视点第40帧原始图像以及合成图像及其相应部位的放大图。从图 13可以看出,在红色方框圈出的小腿边缘区域,本文算法的绘制失真小于原始深度视频的绘制失真。原始深度测试序列在小腿边缘区域存在较多深度突变区域,会造成合成虚拟视点出现如图 13原始深度绘制结果中的几何失真,而本文算法在编码之前对深度图中的深度突变区域进行检测并平滑处理,不但减少了编码所消耗的码率还有效地减少了因深度突变造成的合成虚拟视点几何失真,能获得较好主观质量的虚拟视点。
4 结论
针对自然场景深度视频存在获取不准确和帧内编码复杂度较高的问题,提出一种联合深度视频增强的3D-HEVC帧内编码快速算法。首先,对深度视频进行空域增强处理,消除深度图中的虚假纹理,增强深度视频空域相关性;然后,针对增强处理后的深度视频,利用纹理复杂度对CU进行分类,提前终止低纹理复杂度CU的分割过程;最后,根据
参考文献
-
[1] Chen Y, Vetro A. Next-generation 3D formats with depth map support[J]. IEEE Multimedia, 2014, 21(2): 90–94. [DOI:10.1109/MMUL.2014.31]
-
[2] Huszák Á. Advanced free viewpoint video streaming techniques[J]. Multimedia Tools and Applications, 2017, 76(1): 373–396. [DOI:10.1007/s11042-015-3048-9]
-
[3] Fehn C. Depth-image-based rendering (DIBR), compression, and transmission for a new approach on 3D-TV[C]//Proceedings of the SPIE 5291, Stereoscopic Displays and Virtual Reality Systems XI. San Jose, California, United States: SPIE, 2004, 5291: 93-104. [DOI:10.1117/12.524762]
-
[4] Zhang S, Wang C, Chan S C. A new high resolution depth map estimation system using stereo vision and kinect depth sensing[J]. Journal of Signal Processing Systems, 2015, 79(1): 19–31. [DOI:10.1007/s11265-013-0821-8]
-
[5] Honnungar S, Holloway J, Pediredla A K, et al. Focal-sweep for large aperture time-of-flight cameras[C]//Proceedings of 2016 IEEE International Conference on Image Processing (IPIC). Phoenix: IEEE, 2016: 953-957. [DOI:10.1109/ICIP.2016.7532498]
-
[6] Peng Z J, Han H M, Chen F, et al. Joint processing and fast encoding algorithm for multi-view depth video[J]. EURASIP Journal on Image and Video Processing, 2016, 2016: #24. [DOI:10.1186/s13640-016-0128-3]
-
[7] Sullivan G J, Ohm J, Han W J, et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1649–1668. [DOI:10.1109/TCSVT.2012.2221191]
-
[8] Tech G, Chen Y, Müller K, et al. Overview of the multiview and 3D extensions of high efficiency video coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(1): 35–49. [DOI:10.1109/TCSVT.2015.2477935]
-
[9] Zhang H B, Fu C H, Su W M, et al. Fast coding unit decision algorithm for depth intra coding in 3D-HEVC[J]. Journal of Electronics & Information Technology, 2016, 38(10): 2523–2530. [张洪彬, 伏长虹, 苏卫民, 等. 3D-HEVC深度图像帧内编码单元划分快速算法[J]. 电子与信息学报, 2016, 38(10): 2523–2530. ] [DOI:10.11999/JEIT151426]
-
[10] Zhang H B, Fu C H, Chan Y L, et al. Probability-based depth intra mode skipping strategy and novel VSO metric for DMM decision in 3D-HEVC[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 28(2): 513–517. [DOI:10.1109/TCSVT.2016.2612693]
-
[11] Lei J J, Duan J H, Wu F, et al. Fast mode decision based on grayscale similarity and inter-view correlation for depth map coding in 3D-HEVC[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 99: 1. [DOI:10.1109/TCSVT.2016.2617332]
-
[12] Park C S. Edge-based intramode selection for depth-map coding in 3D-HEVC[J]. IEEE Transactions on Image Processing, 2015, 24(1): 155–162. [DOI:10.1109/TIP.2014.2375653]
-
[13] Zheng H J, Zhu J Q, Zeng H Q, et al. Low complexity depth intra coding in 3D-HEVC based on depth classification[C]//Proceedings of 2016 Visual Communications and Image Processing. Chengdu: IEEE, 2016: 1-4. [DOI:10.1109/VCIP.2016.7805527]
-
[14] Peng Z J, Guo M S, Chen F, et al. A depth video processing algorithm based on cluster dependent and corner-ware filtering[J]. Neurocomputing, 2016, 215: 90–99. [DOI:10.1016/J.NEUCOM.2015.07.154]
-
[15] Zhang Y, Zhu L W, Liu X K, et al. Allowable depth distortion based depth filtering for 3D high efficiency video coding[C]//2016 IEEE International Symposium on Circuits and Systems (ISCAS). Montreal: IEEE, 2016: 2559-2562. [DOI:10.1109/ISCAS.2016.7539115]
-
[16] Yoon S M, Yoon J. Depth map enhancement using adaptive moving least squares method with a total variation minimization[J]. Multimedia Tools and Applications, 2016, 75(23): 15929–15938. [DOI:10.1007/S11042-015-2905-X]
-
[17] Boseen F. 3D-HEVC software HTM16. 0[Online]. [2017-08-17] http://hevc.hhi.fraunhofer.de/svn/svn3DVCSoft/tags/HTM16.0, 2015.
-
[18] Peng Z J, Zhou H, Jiang G Y, et al. Depth video preprocessing algorithm based on adaptive window[J]. Journal of Optoelectronics·Laser, 2013, 24(4): 769–776. [彭宗举, 周浩, 蒋刚毅, 等. 基于自适应窗口的深度视频预处理算法[J]. 光电子·激光, 2013, 24(4): 769–776. ]
-
[19] Huynh-The T, Banos O, Lee S, et al. NIC:a robust background extraction algorithm for foreground detection in dynamic scenes[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 27(7): 1478–1490. [DOI:10.1109/TCSVT.2016.2543118]
-
[20] Bjøntegaard G. Calculation of average PSNR differences between RD-curves. VCEG-M33[R]. Austin:Video Coding Experts Group, 2001.