Print

发布时间: 2018-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170452
2018 | Volume 23 | Number 4




    图像处理和编码    




  <<上一篇 




  下一篇>> 





联合深度视频增强的3D-HEVC帧内编码快速算法
expand article info 黄超1, 彭宗举1, 苗瑾超1,2, 陈芬1
1. 宁波大学信息科学与工程学院, 宁波 315211;
2. 新疆大学科学技术学院, 阿克苏 843000

摘要

目的 针对高效3维视频编码标准(3D-HEVC)深度视频编码复杂度高和获取不准确的两个问题,现有算法单独进行处理,并没有进行联合优化。为了同时提升深度视频编码速度和编码效率,提出一种联合深度视频增强处理和帧内快速编码的方法。方法 首先,引入深度视频空域增强处理,消除深度视频中的虚假纹理信息,增强其空域相关性,为编码单元(CU)划分和预测模式选择提供进一步优化的空间;然后,针对增强处理过的深度视频的空域特征,利用纹理复杂度将CU进行分类,提前终止平坦CU的分割过程,减少了CU分割次数;最后,利用边缘强度对预测单元(${\rm PU}$)进行分类,跳过低边缘强度$ {\rm PU}$的深度模型模式。结果 实验结果表明,与原始3D-HEVC的算法相比,本文算法平均节省62.91%深度视频编码时间,并且在相同虚拟视点质量情况下节省4.63%的码率。与当前代表性的帧内低复杂度编码算法相比,本文算法深度视频编码时间进一步减少26.10%,相同虚拟视点质量情况下,编码码率节省5.20%。结论 该方法通过深度视频增强处理,保证了虚拟视点质量,提升了编码效率。对深度视频帧内编码过程中复杂度较高的CU划分和预测模式选择分别进行优化,减少了率失真代价计算次数,有效地降低了帧内编码复杂度。

关键词

3D-HEVC; 深度视频增强; 帧内快速编码; 纹理复杂度; 边缘强度

Joint depth video enhancement and fast intra encoding algorithm in 3D-HEVC
expand article info Huang Chao1, Peng Zongju1, Miao Jinchao1,2, Chen Fen1
1. Faculty of Information Science and Engineering, Ningbo University, Ningbo 315211, China;
2. Xinjiang University Institute of Science and Technology, Akesu 843000, China
Supported by: National Natural Science Foundation of China(61771269, 61620106012, U1301257)

Abstract

Objective With the development of 3D content acquisition and display technologies in recent years, three-dimensional (3D) video has received increasing attention. The multi-view video plus depth format is the main representation of a 3D scene. In the 3D extension of high-efficiency video coding (3D-HEVC), the main framework for depth video is similar to that of HEVC. Each coding unit (CU) is recursively divided into four sub-CUs. Each CU depth level enables 37 types of intra modes in intra frames. Unlike conventional texture videos, depth videos are not used for watching, but for virtual view rendering. The preservation of depth sharp object edges is important for depth video compression. Several new techniques, such as depth modeling mode (DMM) and view synthesis optimization, are introduced into the current 3D-HEVC test model to improve the efficiency of depth video intra coding and the quality of synthesized views. These techniques improve the coding efficiency of depth videos. However, they greatly increase the computational complexity of depth intra coding, thereby hindering the real-time applications of 3D-HEVC. Depth videos are also inaccurate and inconsistent because of the limitations of mainstream capture technologies. The inaccuracy of depth videos further increases the computational complexity of intra coding. Previous research on low-complexity depth video intra coding and depth video enhancement has been conducted separately. Thus, a joint depth video enhancement and fast intra-coding algorithm is proposed in this study. Method An enhancement method is applied before encoding to remove inaccurate textures in a depth video and enhance the spatial correlation of the depth video. The edge region is preserved for rendering performance. For non-edge regions, Gaussian and adaptive window smoothing filters are used. The enhanced depth video is mainly characterized by sharp object edges and large areas of nearly constant regions. We can skip some prediction modes and CU depth levels rarely used in homogeneity regions by fully exploiting such features. CUs are classified according to texture complexity, and the partition process of CUs with low texture complexity is terminated early. Prediction units (PUs) are classified according to edge intensity. The proposed algorithm selectively omits unnecessary DMM in the mode decision process on the basis of the${\rm PU}$ classification results. The algorithm is implemented on the reference software, HTM-16.0, of the 3D-HEVC standard and tested under common test conditions required by the Joint Collaborative Team on 3D Video Coding to evaluate its performance. The proposed algorithm is specially designed for depth videos that are estimated using stereo matching; thus, sequences synthesized by a computer are not tested. The proposed scheme aims at depth video intra coding, and all test sequences are coded with intra-only structure and three-view configuration. The rate distortion performance of the proposed algorithm is evaluated by using the Bjontegaard delta bitrate, which is calculated by the peak signal-to-noise ratio of the synthesis view quality and the total bitrate, including color and depth videos. Result Experimental results show that the proposed algorithm significantly saves the encoding time of the depth video and reduces bitrate under the same synthesized virtual view quality. The coding time reduction obtained by the proposed algorithm compared with that of the original 3D-HEVC encoder ranges from 61.35% to 65.73% and is 62.91% on average. In terms of coding efficiency, our proposed algorithm can reduce bitrate by 4.63% under the condition of the same synthesized virtual view quality, in which the maximal and minimal reductions are 8.10% and 2.60%, respectively. The subjective quality of the proposed algorithm is significantly improved compared with that of the original 3D-HEVC encoder. The significant performance improvement of depth video coding contributes to the depth video enhancement and the fast algorithm. The proposed algorithm is superior to the state-of-the-art fast depth intra-coding algorithm. The encoding time saving of depth video is greatly increased by 26.10%, and the bitrate is further reduced by 5.20% under the condition of the same synthesized virtual view quality. Conclusion A joint depth video enhancement and fast intra-coding algorithm is proposed to solve the problems in 3D-HEVC, the high computational complexity of depth video intra coding, and the inaccuracy of depth videos. The proposed enhancement method improves the spatial correlation of depth videos. The fast intra-coding scheme can significantly reduce the encoding time of depth videos. Therefore, the proposed method not only reduces encoding time but also improves the compression performance of depth video intra coding.

Key words

3D extension of high efficiency video coding(3D-HEVC); depth video enhancement; fast intra coding; texture complexity; edge intensity

0 引言

近年来,基于多视点彩色加深度(MVD)[1]格式的3维视频(3DV)在3维电视(3DTV)和自由视点视频(FVV)[2]中得到广泛地应用。在MVD系统中,深度视频表征场景中的几何特征。在解码端,深度视频和彩色视频通过深度图绘制(DIBR)[3]技术合成虚拟视点。深度视频的采集主要包括Kinect[4]传感器、基于飞行时间原理[5]深度采集系统和深度估计软件等。这些采集技术获取的深度视频存在深度采集不准确的问题,导致平坦的区域出现虚假纹理。这不仅会降低绘制虚拟视点的质量,而且会增加编码复杂度[6]

新一代高效视频编码(HEVC)[7]的3D视频编码扩展标准(3D-HEVC)[8],旨在提高MVD格式视频的编码效率,是当前编码MVD格式视频的最新编码标准。3D-HEVC针对深度视频特征引入的帧内编码新技术[8],在提升编码效率的同时也使帧内编码复杂度急剧增加。因此,降低深度视频帧内编码复杂度成为3D-HEVC的研究重点[9]。3D-HEVC深度视频帧内编码复杂度较高有以下两方面原因:一方面是沿用HEVC四叉树编码结构,编码单元(CU)递归划分,遍历03深度级选择出最优编码深度;另一方面是帧内模式数目较多,除了35种HEVC帧内模式,还新增了两种复杂度较高的深度模型模式($ {\rm DMM}$)[9],进一步增加了深度视频帧内编码复杂度。

为了解决深度视频不准确和帧内编码复杂度高的问题,许多学者提出了帧内低复杂度编码算法[10-13]和深度视频增强算法[14-16]。Zhang等人[10]利用率失真代价值简化最优${\rm DMM} $选择过程,同时利用粗选率失真代价值提前决定最优模式,进一步降低了编码复杂度。Lei等人[11]利用CU之间的相似性限制CU的划分深度,并进一步利用视点间相关性决定最优模式,从而降低编码复杂度。Park[12]利用哈达玛变换系数将深度图分为边缘区域和非边缘区域,在模式选择过程中提前跳过${\rm DMM} $,降低深度视频编码时间。Zheng等人[13]提取深度视频方向梯度直方图特征,利用支持向量机对预测单元($ {\rm PU}$)进行分类,模式选择时只搜索每一类${\rm PU} $的最有可能模式而跳过其他模式达到降低复杂度的目的。Peng等人[14]提出一种基于特征分析和角点感知滤波的深度视频增强算法,深度视频非边缘区域采用改进的C均值聚类滤波,边缘区域采用角点感知滤波,提高了虚拟视点的质量。Zhang等人[15]利用可容忍深度失真模型指导深度视频进行无失真滤波,提升了虚拟视点质量和编码效率。Sang等人[16]提出一种基于最小方差的自适应最小二乘法深度视频增强算法,对深度视频进行噪声滤波和边界锐化,提高了虚拟视点质量。以上两类算法分别提升了深度视频帧内编码速度和编码效率,但还存一些问题:1)帧内低复杂度算法都是基于不准确的深度视频提出的,会造成虚拟视点质量下降;2)深度视频增强算法只考虑提升虚拟视点质量,并没有提升深度视频编码性能;3)没有对深度视频帧内快速编码和深度视频处理进行联合优化。因此,现有算法还有进一步优化的空间。

本文在前期工作中已经在联合深度视频帧间低复杂度编码和深度视频处理[6]上做了相关工作,针对深度视频帧内编码,提出一种联合深度视频增强的3D-HEVC帧内编码快速算法。主要从以下3个方面进行改进:首先,引入深度视频空域增强处理,消除深度视频中由于获取不准确而造成的虚假纹理,为CU划分和帧内预测模式选择提供进一步优化的空间;然后,基于增强处理后的深度视频的空域特征,利用纹理复杂度对CU进行分类,提前终止低纹理复杂度CU的分割过程,减少CU划分次数;最后,根据边缘强度,对$ {\rm PU}$进行分类,跳过低边缘强度$ {\rm PU}$$ {\rm DMM}$选择过程。实验结果表明,本文算法能同时提升深度视频帧内编码的速度和压缩效率。

1 深度视频增强及3D-HEVC帧内编码复杂度分析

1.1 深度视频增强分析

深度视频是由一系列的灰度图像组成,包含着场景中的几何信息,其深度值大小代表着拍摄相机到真实场景距离的远近。深度视频的获取通常使用深度相机和深度估计软件等技术,但是这些采集技术存在获取不准确的问题。图 1(a)中人体躯干部位的像素点距离相机的距离变化较小,相应的深度值变化应该较小,但是在图 1(b)中,人体躯干部位的深度值差异很大,具有虚假纹理信息。这使深度视频空间相关性减弱,不仅对虚拟视点质量造成很大的影响,而且会增加CU分割次数。因此,为了进一步提高虚拟视点的质量,降低编码复杂度,需要对采集不准确的深度视频进行空域增强处理。

图 1 Balloons序列及其CU分割
Fig. 1 Balloons sequence and CU partition
((a)texture video; (b)original depth video; (c)CU partition)

1.2 3D-HEVC帧内编码复杂度分析

3D-HEVC继承了HEVC的四叉树编码结构,在帧内编码过程中,每一帧图像会被分割成许多64×64的编码块,即最大编码单元(LCU)。如图 2所示,每一个LCU会被划分成4个大小一样的子CU,一直递归划分到最大编码深度3(分割深度范围$d$为03对应的CU大小为64×64、32×32、16×16和8×8),每个LCU具体被分割为多少个CU是根据率失真代价准则确定的。遍历03深度级,根据率失真代价准则确定最优CU划分深度的四叉树编码结构是深度视频帧内编码复杂度高的主要原因。深度视频具有大面积的平坦区域,因此其CU划分较为简单,主要分布在低深度级。本文统计了3D-HEVC标准测试序列Newspaper在全帧内测试条件下,CU深度级的分布情况。从图 3中可以看出,深度视频CU主要分布在0和1深度级,并且随着量化参数(${\rm QP}$)增加,大尺寸的CU的比例升高。因此,如果能提前终止大尺寸CU划分,减少CU递归划分次数,可以有效降低帧内编码复杂度。

图 2 3D-HEVC四叉树结构
Fig. 2 Quadtree coding structure of 3D-HEVC
图 3 CU深度统计
Fig. 3 Statistical analysis of CU depth

3D-HEVC帧内模式预测支持深度级为04的$ {\rm PU}$(分割深度范围为04对应的$ {\rm PU}$大小为64×64、32×32、16×16、8×8和4×4)。深度级14的${\rm PU} $帧内预测模式选择时,除了要遍历35种帧内模式外,还增加了两种复杂度较高的DMM(1和DMM4),进一步增加了深度视频帧内编码复杂度。3D-HEVC标准测试平台(3D-HEVC Test Model,HTM)16.0[17]版本中,DMM4不再参与帧内编码,因此本文的帧内编码优化算法的DMM是指DMM1。本文统计了深度视频帧内编码各过程中的复杂度分布以及最优帧内预测模式分布,如图 4所示。图 4(a)表明,在3D-HEVC深度视频帧内编码的最优模式中,DMM仅为1.91%,其他内模式为98.09%。从图 4(b)可以看出,DMM选择过程占整个深度视频帧内编码时间的20.25%,复杂度较高。通过统计分析可以看出,在深度视频帧内编码过程中,只有少量${\rm PU} $的最优模式为耗时较多的DMM。因此,根据$ {\rm PU}$的边缘强度,提前跳过低边缘强度${\rm PU} $的DMM选择,则可以有效地节省编码时间。

图 4 深度视频帧内编码统计分析
Fig. 4 Statistical analysis of depth video intra coding
((a)distribution of optimal prediction mode; (b)distribution of computational complexity)

2 联合深度视频增强的3D-HEVC帧内编码快速算法

为了解决原始深度视频存在虚假纹理和3D-HEVC深度视频帧内编码复杂度较高的问题,本文提出一种联合深度视频增强的3D-HEVC帧内编码快速算法,总体流程如图 5所示。该算法从以下3个方面进行改进:1)深度视频空域增强;2)基于纹理复杂度的CU快速划分;3)基于边缘强度的${\rm PU} $模式快速选择。经过空域增强处理,深度视频总体变得更加平滑,空域相关性增强。基于增强后的深度视频空域特征,进一步利用纹理复杂度将CU分为简单纹理CU和复杂纹理CU,提前终止简单纹理CU分割过程,减少不必要的CU递归次数。利用边缘信息将$ {\rm PU}$分为平坦${\rm PU}$和边缘${\rm PU}$,预测模式选择过程时,平坦${\rm PU} $跳过DMM,降低DMM选择带来的编码复杂度。为了叙述方便,本文把简单纹理CU、复杂纹理CU、平坦$ {\rm PU}$、边缘${\rm PU} $分别记为NCU、SCU、${\rm FPU}$${\rm EPU}$

图 5 本文算法流程图
Fig. 5 Flowchart of the proposed algorithm

2.1 深度视频空域增强

深度视频边缘决定着不同物体的边界,是深度视频中最为重要的区域,因此深度视频增强时需要对边缘进行保护。采用Canny算子对深度视频进行边缘检测,检测结果如图 6(a)所示,黑色为边缘区域EA,白色为平坦区域FA。对FA,进行深度突变检测,检测方法为计算相邻两个像素的绝对差值,如果大于阈值则认为这两个像素属于深度突变区域,计算公式为

图 6 深度图${\rm EA}$${\rm DA}$检测结果
Fig. 6 ${\rm EA}$ and${\rm DA}$ extraction
((a)${\rm EA}$ extraction; (b)${\rm DA}$ extraction)

$ \begin{array}{l} \;\;\;DA = \{ (i, j), (i- 1, j)\\ ||{p_d}(i- 1, j)- {p_d}(i, j)| > {T_0}, \\ \;\;\;i \in [0, W), j \in [0, H)\} \end{array} $ (1)

式中,$DA$表示深度突变区域,$p_{d}(i, j)$表示坐标$(i, j)$处的深度像素值,$W$$H$表示深度图像的宽度和高度,$T_{0}$为经验阈值,本文设置为10。

图 6(b)图 1(b)的深度突变检测结果,黑色为深度突变区域${\rm DA}$,白色为深度非突变的连续区域${\rm CA}$,分别采用高斯滤波和自适应平滑处理[18]

经过增强处理后的深度图如图 7(a)所示,与图 1(b)中的原始深度图相比,总体更加平滑,消除了由于获取不准确而导致的虚假纹理。图 7(b)为增强后深度图的CU分割图,与图 1(c)相比,由于虚假纹理得到平滑处理,CU分割最佳尺寸更大,为CU划分提供了进一步优化的空间。

图 7 深度增强结果
Fig. 7 Result of depth video enhancement
((a) enhanced depth video; (b) CU partition)

2.2 基于纹理复杂度的CU快速划分算法

经过空域增强处理,深度视频的空域相关性增强。利用其空域特征,提出一种基于纹理复杂度的CU快速划分算法,提前终止CU的划分过程,减少CU递归次数,从而降低编码复杂度。

2.2.1 CU全局纹理复杂度

3D-HEVC中,CU的分割深度主要与纹理复杂度有关,纹理复杂的区域CU划分更精细,而纹理简单的区域则采用尺寸较大的CU进行编码。本文利用与文献[12]相同的阈值根据纹理复杂度,将当前CU分为SCU和NCU,具体定义如下:若当前CU满足纹理复杂度$Var≥Th$,则当前CU定义为SCU,否则为NCU。在CU划分过程中,跳过四个子CU的率失真代价计算,SCU直接划分而NCU不再继续划分。

CU纹理复杂度$Var$及阈值$Th$

$ \begin{array}{l} Var = \sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {f{{\left( {i, j} \right)}^2}- } } \\ \frac{1}{{N \times N}}{\left[{\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {f\left( {i, j} \right)} } } \right]^2} \end{array} $ (2)

$ Th = \left\{ {{{\left( {\max \left( {Q \gg 3-1, 3} \right)} \right)}^2}-8} \right\}\;\; \ll 2 $ (3)

式中,$f(i, j)$为当前CU中第$i$行第$j$列的像素值,$N$为当前CU的宽,式(3)中$Q$为当前CU的${\rm QP}$

2.2.2 CU局部纹理复杂度

观察发现,一些整体纹理复杂度不高的NCU内部仍然存在纹理信息。如果继续利用CU的整体纹理复杂度来判断CU是否划分,会造成CU尺寸选取不够准确。如图 8所示,当前CU的纹理复杂度为$Var=6$,比式(3)中计算得到的阈值$Th$小,被判定为不再继续划分的NCU。但实际上其子CU包含边缘信息,应进一步划分。因此,判断CU是否继续划分不仅需要考虑CU的整体纹理复杂度,还要考虑CU的局部纹理复杂度。

图 8 当前CU及其子CU
Fig. 8 Current CU and it's sub-CUs

本文利用当前CU的4个子CU的纹理复杂度,对算法做进一步的优化。将当前CU分为大小相同的4个区域即4个子CU,仍然采用式(2)计算4个子CU的纹理复杂度,分别表示为$Var_{1}、Var_{2}、Var_{3}、Var_{4}$。取4个子CU中纹理复杂度的最大值定义为$Var_{{\rm sub}}$。比较$Var$$Var_{{\rm sub}}$,如果满足$Var_{{\rm sub}}>Var$,则认为当前CU纹理复杂度较高,需要进一步划分,否则不划分。

综上分析,本文基于纹理复杂度的CU快速划分算法定义如下:

1) 计算当前CU以及其4个子CU的纹理复杂度$Var_{1}、Var_{2}、Var_{3}、Var_{4}$$Var_{{\rm sub}}$

2) 计算阈值$Th$

3) 若满足$Var≥Th$$Var_{{\rm sub}}>Var$,则当前CU定义为SCU继续划分,否则定义为NCU不再继续划分。

本文算法的CU分割结果如图 9所示,从图 9中可以看出本文算法在边界区域CU划分结果与原始平台的划分结果(图 1(c))相当,但是对于同一物体区域(如图 9中圈出的人体),CU划分的尺寸更大。因为本文算法包含深度视频增强处理和CU快速划分两部分,经过深度视频增强处理以后,消除了深度视频中同一物体上本不应该出现的虚假纹理,CU划分的尺寸更大;CU快速划分算法的划分结果基本与原始平台保持一致,只是根据纹理复杂度提前终止CU划分,减少了率失真代价计算次数。所以,本文算法在保持准确性的前提下有效地降低了CU分割编码复杂度。

图 9 CU划分结果
Fig. 9 Result of CU partition

2.3 基于边缘信息的${\rm PU}$模式快速选择

3D-HEVC增加${\rm DMM}$用来更准确地编码深度视频中的边缘信息,而深度视频经过增强处理后,消除了本不应该存在的虚假边缘,${\rm DMM}$作为最佳预测模式的${\rm PU} $比例下降。因此,针对深度增强处理后的深度视频,提出一种基于边缘信息的${\rm PU}$模式提前决定算法。根据$ {\rm PU}$边缘强度值,将深度视频中的${\rm PU} $分为${\rm EPU}$${\rm FPU}$,跳过${\rm FPU}$的DMM选择,进一步降低帧内编码复杂度。

2.3.1 基于边缘强度的${\rm PU}$分类

3D-HEVC帧内预测模式决定过程中,在尺寸为4×4、8×8、16×16、32×32的$ {\rm PU}$中加入${\rm DMM}$。本文算法利用边缘算子提取这4个尺寸${\rm PU}$的水平边缘强度和垂直边缘强度。以8×8 ${\rm PU}$块为例,具体边缘强度提取过程描述如下:

1) 求取当前${\rm PU}$内每个$p_{i, j}$的值,$p_{i, j}$表示图 10(a)中黑色方框内4个像素的均值,将当前$ {\rm PU}$看做由$p_{i, j}$组成的3×3的像素块,如图 10(b)所示。

图 10 边缘强度提取示意图
Fig. 10 Illustration of edge strength extraction
((a) 8×8PU; (b) equivalent pixel block)

2) 计算图 10(b)中3×3的像素块的水平边缘强度和垂直边缘强度,每个${\rm PU}$对应计算出一个水平边缘强度值$G_{x}$和一个垂直边缘强度值$G_{y}$,计算方法为

$ {G_x} = \sum\limits_{i = 0}^2 {\sum\limits_{j = 0}^2 {p\left( {i, j} \right)} \times {G_x}\left( {i, j} \right)} $ (4)

$ {G_y} = \sum\limits_{i = 0}^2 {\sum\limits_{j = 0}^2 {p\left( {i, j} \right)} \times {G_y}\left( {i, j} \right)} $ (5)

式中,$G_{x}$$G_{y}$分别为$ {\rm PU}$的水平和垂直方向边缘强度值,$G_{x}(i,j)$$G_{y}(i,j)$为水平和垂直方向边缘强度提取算子,定义为

$ {G_x}\left( {i, j} \right) = \left| {\begin{array}{*{20}{c}} {-1}&0&1\\ {-2}&0&2\\ {-1}&0&1 \end{array}} \right| $ (6)

$ {G_y}\left( {i, j} \right) = \left| {\begin{array}{*{20}{c}} 1&2&1\\ 0&0&0\\ {-1}&{-2}&{-1} \end{array}} \right| $ (7)

3) 取水平方向和垂直方向边缘强度的最大值作为当前$ {\rm PU}$边缘强度$G$,计算公式为

$ G = \left\{ {\begin{array}{*{20}{l}} {|{G_x}|}&{|{G_y}| < |{G_x}| \le 255}\\ {|{G_y}|}&{|{G_x}| < |{G_y}| \le 255}\\ {255}&{其他} \end{array}} \right. $ (8)

根据所求${\rm PU} $度值,将深度图中的${\rm PU} $分为${\rm EPU}$${\rm FPU}$。为了降低噪声干扰提高准确率,本文算法采用最大类间方差阈值(OTSU)$TH$作为区分边缘的阈值[19],边缘${\rm PU} $定义为

$ {E_{{\rm{\rm PU}}}} = \left\{ {{\rm{PU|}}G > TH} \right\} $ (9)

最终边缘强度检测结果如图 11所示。

图 11 边缘强度检测
Fig. 11 Edge intensity extraction

2.3.2 基于$ {\rm PU}$类型的模式快速决定

本文统计了深度视频序列中$E_{\rm PU}$$F_{\rm PU}$的比例,以及最优预测模式分布情况,统计结果如表 1所示。其中$P(X∈E_{\rm PU})、P(X∈F_{\rm PU})$分别为视频序列中${\rm EPU}$${\rm FPU}$所占的比例;$P(M={\rm DMM})$表示${\rm DMM}$作为最佳预测模式的${\rm PU}$的概率;$P(M={\rm DMM}|X∈F_{\rm PU})$$P(M={\rm DMM}|X∈{\rm E}_{\rm PU})$分别表示$F_{\rm PU}$$E_{\rm PU}$中最佳预测模式为${\rm DMM}$的概率。

表 1 ${\rm PU}$统计分析
Table 1 Statistical analysis of${\rm PU}$

下载CSV
序列 $P(X∈E$ ${\rm PU})$ $P(X∈F_{\rm PU})$ $P(M={\rm DMM})$ $P(M={\rm DMM}|X∈F_{\rm PU})$ $P(M={\rm DMM}|X∈E_{\rm PU})$
Newspaper 0.137 6 0.862 4 0.024 5 0.005 1 0.116 4
Balloons 0.152 8 0.847 2 0.025 6 0.004 1 0.132 6
Kendo 0.101 3 0.898 7 0.015 1 0.002 9 0.126 4
Poznan_Street 0.097 7 0.902 3 0.011 3 0.004 2 0.123 0
平均值 0.122 4 0.877 7 0.019 1 0.004 1 0.124 6

表 1表明,深度视频序列中$F_{\rm PU}$所占比例较高,平均占87.77%,因此针对$F_{\rm PU}$提出模式快速决定策略会显著降低深度视频整体编码复杂度。表 1还表明${\rm DMM}$为最佳预测模式的概率只有1.91%,$F_{\rm PU}$$E_{\rm PU}$中最佳预测模式为${\rm DMM}$的概率分别为0.41%和12.46%。因此,本文算法在预测模式选择时,${\rm FPU}$跳过${\rm DMM}$,而$E_{\rm PU}$则不跳过${\rm DMM}$。具体过程描述如下:

1) 计算边缘强度,将${\rm PU}$分为$F_{\rm PU}$$E_{\rm PU}$

2) 若当前${\rm PU}$是尺寸为64×64,则不进行${\rm DMM}$选择;若当前${\rm PU}$是尺寸为4×4、8×8、16×16、32×32的${\rm PU}$$F_{\rm PU}$跳过${\rm DMM}$,而$E_{\rm PU}$则将${\rm DMM}$加入率失真候选列表中。

3) 选择率失真代价最小的模式作为最佳预测模式。

3 实验结果与分析

为了验证本文算法编码性能,3D-HEVC测试平台HTM-16.0上测试本文算法。本文采用全帧内3视点彩色加深度编码方式,其他配置如表 2所示。由于本文算法是针对非计算机辅助合成的自然场景深度视频,因此使用表 3中的测试序列进行测试。

表 2 测试环境
Table 2 Test conditions

下载CSV
所有测试序列纹理图和深度图
Color $ {\rm QP}$ values: 25, 30, 35, 40
Depth $ {\rm QP}$ values: 34, 39, 42, 45
VSO: ON
Texture SAO:ON Depth SAO:OFF
RDOQ: ON

表 3 测试序列
Table 3 Test sequences and configuration parameters

下载CSV
序列 3-view input
Newspaper 2-4-6
Balloons 1-3-5
Kendo 1-3-5
Poznan_Street 5-4-3

3.1 深度视频增强结果分析

在视频解码端,深度视频是辅助彩色视频合成虚拟视点的中间信息。本文采用合成虚拟视点的质量计算$BDBR$[20]来衡量在相同虚拟视点质量的情况下,深度视频增强带来的编码增益。实验结果如图 12所示,负值表示码率节省。在相同虚拟视点质量的情况下,增强后的各深度视频序列与原始深度序列相比,节省4.11%至10.02%的码率,平均可以节省6.36%的码率。带来这些编码增益的原因为本文算法在对重要的边界区域进行保护的同时,对引起虚拟视点空洞的深度突变区域进行了高斯平滑,并且对虚假纹理区域进行自适应平滑处理。因为Poznan_Street序列为高清视频序列,由大面积的平坦区域和少部分的纹理区域组成,经过平滑处理后消除了更多的虚假纹理区域,编码码率显著降低,所以Poznan_Street序列的率失真性能提高更为明显。

图 12 深度视频增强算法编码性能
Fig. 12 Encoding performance of the enhancement algorithm

3.2 总体算法结果分析

为了体现本文算法的先进性,将本文算法与文献[10]提出的帧内编码快速算法进行比较。表 4中列出了本文算法和Zhang[10]提出的算法相对于原始测试平台在复杂度和率失真两方面的测试结果,分别用深度视频编码时间节省$ΔT$$BDBR$。计算方法为

表 4 本文算法与Zhang[10]算法的编码性能比较
Table 4 Encoding performance comparison between the proposed and Zhang’s algorithms

下载CSV
/%
序列 $ BDBR_{{\rm zhang}}$ $ ΔT_{{\rm zhang}}$ $ BDBR_{{\rm Proposed}}$ $ ΔT_{{\rm Proposed}}$
Newspaper +0.89 -33.85 -4.30 -61.35
Balloons +0.67 -35.49 -3.50 -62.93
Kendo +0.43 -38.23 -2.60 -61.63
Poznan_Street +0.29 -39.67 -8.10 -65.73
平均值 +0.57 -36.81 -4.63 -62.91

$ \begin{array}{l} \Delta {T_j} = \frac{1}{4}\sum\limits_{i = 1}^{Q{P_i}} {\frac{{T_j^{Q{P_i}}-T_{{\rm{HTM16}}{\rm{.0}}}^{Q{P_i}}}}{{T_{{\rm{HTM16}}{\rm{.0}}}^{Q{P_i}}}} \times 100\% } \\ \;\;\;\;\;\;\;Q{P_i} = \left\{ {34, 39, 42, 45} \right\} \end{array} $ (10)

式中,$BDBR_{j}$表示算法$j$在相同虚拟视点情况下的码率节省,$ΔT_{j}$表示算法$j$在不同$QP$深度视频编码时间相对于原始测试平台深度视频编码时间节省百分比,$QP_{i}$$QP;T^{QP_{i}}_{j}$$T^{QP_{i}}_{{\rm HTM16.0}}$为采用不同$QP$时,算法$j$和原始平台的视频编码时间。

实验结果表明,本文算法在深度视频编码时间节省和率失真性能上与对比文献相比都有显著提升。在深度视频帧内编码复杂度方面,Zhang的算法则平均节省36.81%深度视频编码时间,本文算法平均节省62.91%深度视频编码时间。Zhang所提算法对帧内模式选择和视点合成优化进行了相应改进,未对深度视频进行平滑处理,并且对复杂度较高的CU分割过程也未做相应的处理,深度视频编码时间减少不多;而本文算法首先对深度视频进行空间增强处理,去除了原始深度视频中的虚假边缘,使其CU分割尺寸更大,并减少了${\rm DMM}$比例,在此基础上提前终止CU划分和跳过${\rm DMM}$选择过程,节省了大量的深度视频编码时间,本文算法较Zhang的算法在深度视频编码时间进一步减少26.10%。

在率失真性能方面,对于不同测试序列Zhang提出的算法$BDBR$平均上升0.57%,本文算法$BDBR$平均下降4.63%。相对于Zhang的算法,本文算法码率节省5.20%。序列本文算法的率失真性能明显优于Zhang提出的算法,其原因是Zhang提出的算法为了降低深度视频帧内编码的复杂度,简化了视点合成优化过程,造成了率失真性能的损失;而本文算法并未改变视点合成优化过程,并且引入了深度视频空域增强处理,在保证虚拟视点质量的前提下,有效降低了编码码率,所以率失真性能得到显著提升。

图 13为Balloons序列3视点第40帧原始图像以及合成图像及其相应部位的放大图。从图 13可以看出,在红色方框圈出的小腿边缘区域,本文算法的绘制失真小于原始深度视频的绘制失真。原始深度测试序列在小腿边缘区域存在较多深度突变区域,会造成合成虚拟视点出现如图 13原始深度绘制结果中的几何失真,而本文算法在编码之前对深度图中的深度突变区域进行检测并平滑处理,不但减少了编码所消耗的码率还有效地减少了因深度突变造成的合成虚拟视点几何失真,能获得较好主观质量的虚拟视点。

图 13 原始图像及绘制结果对比
Fig. 13 Original image and rendering result comparison

4 结论

针对自然场景深度视频存在获取不准确和帧内编码复杂度较高的问题,提出一种联合深度视频增强的3D-HEVC帧内编码快速算法。首先,对深度视频进行空域增强处理,消除深度图中的虚假纹理,增强深度视频空域相关性;然后,针对增强处理后的深度视频,利用纹理复杂度对CU进行分类,提前终止低纹理复杂度CU的分割过程;最后,根据${\rm PU}$边缘强度对${\rm PU}$进行分类,跳过低边缘强度${\rm PU}$${\rm DMM}$选择过程。测试结果表明,本文算法不仅显著降低3D-HEVC深度视频帧内编码复杂度,而且使其率失真性能得到有效提升,平均节省了62.91%的深度编码时间,$BDBR$平均下降4.63%。与对比文献相比,本文算法深度视频编码时间进一步减少26.10%,相同虚拟视点质量情况下,编码码率节省5.20%。下一步将会从联合深度视频时空域增强和深度视频低复杂度编码的角度展开研究,进一步解决深度视频编码复杂度高的问题。

参考文献

  • [1] Chen Y, Vetro A. Next-generation 3D formats with depth map support[J]. IEEE Multimedia, 2014, 21(2): 90–94. [DOI:10.1109/MMUL.2014.31]
  • [2] Huszák Á. Advanced free viewpoint video streaming techniques[J]. Multimedia Tools and Applications, 2017, 76(1): 373–396. [DOI:10.1007/s11042-015-3048-9]
  • [3] Fehn C. Depth-image-based rendering (DIBR), compression, and transmission for a new approach on 3D-TV[C]//Proceedings of the SPIE 5291, Stereoscopic Displays and Virtual Reality Systems XI. San Jose, California, United States: SPIE, 2004, 5291: 93-104. [DOI:10.1117/12.524762]
  • [4] Zhang S, Wang C, Chan S C. A new high resolution depth map estimation system using stereo vision and kinect depth sensing[J]. Journal of Signal Processing Systems, 2015, 79(1): 19–31. [DOI:10.1007/s11265-013-0821-8]
  • [5] Honnungar S, Holloway J, Pediredla A K, et al. Focal-sweep for large aperture time-of-flight cameras[C]//Proceedings of 2016 IEEE International Conference on Image Processing (IPIC). Phoenix: IEEE, 2016: 953-957. [DOI:10.1109/ICIP.2016.7532498]
  • [6] Peng Z J, Han H M, Chen F, et al. Joint processing and fast encoding algorithm for multi-view depth video[J]. EURASIP Journal on Image and Video Processing, 2016, 2016: #24. [DOI:10.1186/s13640-016-0128-3]
  • [7] Sullivan G J, Ohm J, Han W J, et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1649–1668. [DOI:10.1109/TCSVT.2012.2221191]
  • [8] Tech G, Chen Y, Müller K, et al. Overview of the multiview and 3D extensions of high efficiency video coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(1): 35–49. [DOI:10.1109/TCSVT.2015.2477935]
  • [9] Zhang H B, Fu C H, Su W M, et al. Fast coding unit decision algorithm for depth intra coding in 3D-HEVC[J]. Journal of Electronics & Information Technology, 2016, 38(10): 2523–2530. [张洪彬, 伏长虹, 苏卫民, 等. 3D-HEVC深度图像帧内编码单元划分快速算法[J]. 电子与信息学报, 2016, 38(10): 2523–2530. ] [DOI:10.11999/JEIT151426]
  • [10] Zhang H B, Fu C H, Chan Y L, et al. Probability-based depth intra mode skipping strategy and novel VSO metric for DMM decision in 3D-HEVC[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 28(2): 513–517. [DOI:10.1109/TCSVT.2016.2612693]
  • [11] Lei J J, Duan J H, Wu F, et al. Fast mode decision based on grayscale similarity and inter-view correlation for depth map coding in 3D-HEVC[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 99: 1. [DOI:10.1109/TCSVT.2016.2617332]
  • [12] Park C S. Edge-based intramode selection for depth-map coding in 3D-HEVC[J]. IEEE Transactions on Image Processing, 2015, 24(1): 155–162. [DOI:10.1109/TIP.2014.2375653]
  • [13] Zheng H J, Zhu J Q, Zeng H Q, et al. Low complexity depth intra coding in 3D-HEVC based on depth classification[C]//Proceedings of 2016 Visual Communications and Image Processing. Chengdu: IEEE, 2016: 1-4. [DOI:10.1109/VCIP.2016.7805527]
  • [14] Peng Z J, Guo M S, Chen F, et al. A depth video processing algorithm based on cluster dependent and corner-ware filtering[J]. Neurocomputing, 2016, 215: 90–99. [DOI:10.1016/J.NEUCOM.2015.07.154]
  • [15] Zhang Y, Zhu L W, Liu X K, et al. Allowable depth distortion based depth filtering for 3D high efficiency video coding[C]//2016 IEEE International Symposium on Circuits and Systems (ISCAS). Montreal: IEEE, 2016: 2559-2562. [DOI:10.1109/ISCAS.2016.7539115]
  • [16] Yoon S M, Yoon J. Depth map enhancement using adaptive moving least squares method with a total variation minimization[J]. Multimedia Tools and Applications, 2016, 75(23): 15929–15938. [DOI:10.1007/S11042-015-2905-X]
  • [17] Boseen F. 3D-HEVC software HTM16. 0[Online]. [2017-08-17] http://hevc.hhi.fraunhofer.de/svn/svn3DVCSoft/tags/HTM16.0, 2015.
  • [18] Peng Z J, Zhou H, Jiang G Y, et al. Depth video preprocessing algorithm based on adaptive window[J]. Journal of Optoelectronics·Laser, 2013, 24(4): 769–776. [彭宗举, 周浩, 蒋刚毅, 等. 基于自适应窗口的深度视频预处理算法[J]. 光电子·激光, 2013, 24(4): 769–776. ]
  • [19] Huynh-The T, Banos O, Lee S, et al. NIC:a robust background extraction algorithm for foreground detection in dynamic scenes[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 27(7): 1478–1490. [DOI:10.1109/TCSVT.2016.2543118]
  • [20] Bjøntegaard G. Calculation of average PSNR differences between RD-curves. VCEG-M33[R]. Austin:Video Coding Experts Group, 2001.