发布时间: 2017-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20170304
2017 | Volume 22 | Number 3

图像分析和识别

融合双目多维感知特征的立体视频显著性检测

周洋¹, 何永健¹, 唐向宏¹, 陆宇¹, 蒋刚毅²

1. 杭州电子科技大学通信工程学院, 杭州 310018;

2. 宁波大学信息科学与工程学院, 宁波 315211

收稿日期: 2016-08-03; 修回日期: 2016-11-23

基金项目: 国家自然科学基金项目（61401132，61471348）；浙江省自然科学基金项目（LY17F020027）

第一作者简介: 周洋(1979-), 男, 副教授, 2013年于宁波大学获通信与信息系统博士学位, 主要研究工作是3维视频编码和立体视觉显著性检测。E-mail:zhouyang_hz@126.com

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2017)03-0305-10

摘要

目的立体视频能提供身临其境的逼真感而越来越受到人们的喜爱，而视觉显著性检测可以自动预测、定位和挖掘重要视觉信息，可以帮助机器对海量多媒体信息进行有效筛选。为了提高立体视频中的显著区域检测性能，提出了一种融合双目多维感知特性的立体视频显著性检测模型。方法从立体视频的空域、深度以及时域3个不同维度出发进行显著性计算。首先，基于图像的空间特征利用贝叶斯模型计算2D图像显著图；接着，根据双目感知特征获取立体视频图像的深度显著图；然后，利用Lucas-Kanade光流法计算帧间局部区域的运动特征，获取时域显著图；最后，将3种不同维度的显著图采用一种基于全局-区域差异度大小的融合方法进行相互融合，获得最终的立体视频显著区域分布模型。结果在不同类型的立体视频序列中的实验结果表明，本文模型获得了80%的准确率和72%的召回率，且保持了相对较低的计算复杂度，优于现有的显著性检测模型。结论本文的显著性检测模型能有效地获取立体视频中的显著区域，可应用于立体视频/图像编码、立体视频/图像质量评价等领域。

关键词

立体视频; 立体显著性检测; 视觉注意力; 双目感知特征; 深度显著性; 运动显著性

Incorporation of multi-dimensional binocular perceptual characteristics to detect stereoscopic video saliency

Zhou Yang¹, He Yongjian¹, Tang Xianghong¹, Lu Yu¹, Jiang Gangyi²

1. Faculty of Communication, Hangzhou Dianzi University, Hangzhou 310018, China;

2. Institute of Information Science and Engineering, Ningbo University, Ningbo 315211, China

Supported by: National Natural Science Foundation of China (61401132, 61471348); Natural Science Foundation of Zhejiang Province, China (LY17F020027)

Abstract

Objective Stereoscopic three-dimensional (3D) video services, which aim to provide realistic and immersive experiences, have gained considerable acceptance and interest. Visual saliency detection can automatically predict, locate, and identify important visual information, as well as help machines to effectively filter valuable information from high-volume multimedia data. Saliency detection models are widely studied for static or dynamic 2D scenes. However, the saliency problem of stereoscopic 3D videos has received less attention. Moreover, few studies are related to dynamic 3D scenes. Given that 3D characteristics, such as depth and visual fatigue, affect the visual attention of humans, the saliency models of static or dynamic 2D scenes are not directly applicable for 3D scenes. To address the gap in the literature, we propose a novel model for 3D salient region detection in stereoscopic videos. The model utilizes multi-dimensional, perceptual, and binocular characteristics. Methods The proposed model computes the visual salient region for stereoscopic videos from spatial, depth, and temporal domains of stereoscopic videos. The proposed algorithm is partitioned into four blocks:the measures of spatial, depth, temporal (motion) saliency, and fusion of the three conspicuity maps. In the spatial saliency module, the algorithm considers the spatial saliency in each frame of videos as a visual attention dimension. The Bayesian probabilistic framework is adopted to calculate the 2D static conspicuity map. The spatial saliency in the framework emerges naturally as self-information of visual features. These visual features are obtained from the spatial natural statistics of each stereoscopic 3D video frame rather than from a single test frame. In the depth saliency module, the algorithm considers depth as an additional visual attention dimension. Depth signals have specific characteristics that differ from those of natural signals. Therefore, the measure of depth saliency is derived from depth-perception characteristics. The model extracts the foreground saliency from a disparity map, which is combined with depth contrast to generate a depth conspicuity map. In the motion (temporal) saliency module, the algorithm considers motion as another visual dimension. The optical flow algorithm is applied to acquire the inter-frame motion information between adjacent frames. To reduce the computational complexity of optical flow algorithms, the model first extracts the salient region of the current frame in accordance with the previously obtained spatial conspicuity map and depth conspicuity map. The Lucas-Kanade optical flow algorithm is adopted to calculate the motion characteristics between local salient regions of adjacent frames, and the motion conspicuity map is produced by the regional motion vector map. In the fusion step, a new pooling approach is developed to combine the three conspicuity maps to obtain the final saliency map for stereoscopic 3D videos. This fusion approach is based on the principle that human visual systems simultaneously focus on a unique salient region and divert attention to several salient regions in a saliency map. To generate the final saliency maps of stereoscopic videos, the proposed approach replaces the conventional average weighted sum for the fusion of different features and uses a fusion method that is based on global-local difference. Results We evaluated the proposed scheme for stereoscopic video sequences with various scenarios. Moreover, we compared the proposed model with five other state-of-the-art saliency detection models. The experimental results indicated that the proposed model is efficient, effective, and has superior precision and recall with an 80% precision and 72% recall rate. Conclusion The proposed model demonstrated its efficiency and effectiveness in saliency detection for stereoscopic videos. The model can be applied to stereoscopic videos or image coding, stereoscopic videos or image quality assessment, and object detection and recognition.

Key words

stereoscopic video; stereoscopic saliency detection; visual attention; binocular perceptual characteristics; depth saliency; motion saliency

0 引言

三维(3D) 视频由于其左右视点图像之间存在视差，能带给观众身临其境的体验感和更高的逼真度，是新一代视频技术的重要发展方向。而视觉显著区域检测可以自动预测、定位和挖掘多媒体信息中的重要视觉信息，是视频信号处理和计算机视觉领域的共同研究热点^[1]。目前已有的人类视觉研究表明，由于眼球的聚焦功能，人眼不能同时关注立体(或3D) 视频中的近处物体和远处物体，必须聚焦于某一区域，导致人类的3D视觉选择性比2D视觉选择性更强，表现在3D视频上其区域显著性更突出。3D视频显著区域获取对于3D图像/视频压缩，3D图像/视频的质量评估，自然场景中物体的识别与跟踪，以及视觉导航等研究都具有指导意义。

如何计算3D视频中的显著性区域或者如何自动识别3D视频中的人眼感兴趣区域，是一项极具挑战性的工作。近几十年来，研究者们对自然场景的显著性检测展开了深入研究，并取得了一些有意义的成果^[2-17]。在2D图像/视频显著性计算中，Itti等人^[2]通过计算图像的亮度、颜色和方向三类视觉特征的显著图，然后将三类显著图线性组合来获取图像的显著图。Hou等人^[3]分析图像频域特征，通过计算傅里叶谱残差(SR) 进行背景剔除来获取显著区域。Achanta等人^[4]提出一种基于频率调谐(FT) 的计算方法，通过计算图像亮度和颜色特征估计出中心四周差异值来获取显著目标。Zhang等人^[5]基于自然图像统计特性提出基于贝叶斯框架的显著性分析模型。但以上计算模型只计算了图像空间特征的显著性，没有考虑深度特征，只适应于2D图像的显著性检测。视差(或深度) 特征是影响人类立体感知的主要特征，它反映物体距离观察者的远近，距离较近的物体容易引起人眼的关注^[6-7]。针对立体图像显著性检测，文献[6-9]在2D图像显著特征检测基础上引入深度信息，从空间和深度两个维度进行立体图像的显著性计算，如文献[9]先利用协方差矩阵和Sigma特征集分别计算得到图像显著图和深度显著图，然后相互组合得到立体图像显著图。但这些模型是面向立体图像，没有计算视频中相邻帧之间的运动信息，无法凸显出运动区域的显著性。

对于视频而言，引起人眼视觉刺激的因素不只是空间特征，还包括对象运动。Li等人^[10]提出了一种基于区域空时动态对比度的视频显著性计算模型。Wang等人^[11]采用梯度流(GF) 将帧内边界信息和帧间运动特征充分结合来获取视频图像的显著区域。Rahtu等人^[12]采用滑动窗对视频图像的局部特征对比度进行缜密的统计描述，并结合随机场(RSF) 和基于能量最小化的分割方法来提取显著目标。Harel等人^[13]提出基于图论的显著性计算模型(GBVS)，将视频帧间运动信息作为额外的关键特征来计算物体显著性。Zhou等人^[14]通过统计傅里叶谱的相位变化(PDA) 来获取运动显著特征。然而，上述模型是针对2D视频图像。从目前已有相关资料来看，针对立体视频的显著性计算模型研究较少。Ferreira等人^[15]采用中心偏置加权函数来融合3D视频的空域、时域和深度特征。Zhang等人^[16]提出一种整合立体视频中深度、运动、亮度、颜色以及方向信息的显著性模型，但未将各显著特征进行有效融合。Kim等人^[17]根据立体视频中的亮度、色度、运动和深度等视觉特征计算出各自的显著强度，接着将各显著强度通过不同方法进行组合，再与先前分割得到的各目标区域相乘来计算最终的立体视频显著图，但是该模型实现算法复杂高。

针对现有立体视频显著性检测模型存在复杂场景检测效果不佳等问题，本文设计了一种融合双目多维感知特性的立体视频显著性检测方法。在2D静态显著特征提取中，通过Bayesian模型计算当前帧图像空间特征像素点的显著值来获取空域显著图；在深度显著特征提取中，本文从左右视点序列的视差图中分别提取出前景显著区域和深度对比度，并将它们相互融合作为深度显著图，克服了先前方法存在显著区域边缘模糊等问题；在运动显著特征提取中，先基于2D静态显著图和深度显著图划分出当前帧的显著区域，接着采用局部光流法计算出相邻帧之间的运动特征获取运动显著图，有效降低了计算复杂度；最后在显著特征融合部分，将不同维度的3类显著图采用一种基于全局-区域差异度大小的融合方法进行融合，进而获取最终的立体视频显著图。

1 显著特征提取

本文算法总体框图如图 1所示，它主要包括显著特征提取和显著特征融合两大部分，其中显著特征提取又分3个模块：1) 2D图像显著特征提取；2) 深度显著特征提取；3) 运动显著特征提取。

图 1 立体视频显著性检测框图

Fig. 1 Framework of stereoscopic video saliency detection

1.1 2D图像显著特征提取

针对2D图像显著图计算，基于Bayesian模型^[5]，通过计算单点的感兴趣概率大小来估计像素点z的显著程度s_z。根据文献[5]可得

$ \log {s_z} = - \log p\left( {F = {f_z}} \right) $

(1)

式中，F为某点的视觉特征，$ {f_z} $表示注视在z点的视觉特征值。由式(1) 可知，2D图像的整体显著性可通过计算单点像素的自信量获得。

考虑到Center-Surround是一种模拟人眼视觉神经从影像中提取显著特征的计算模型^[7]，而DoG算子可实现像素的Center-Surround滤波。因此，本文采用DoG (difference of Gaussians) 高斯差分滤波器对输入图像的强度和两个颜色通道(红/绿，蓝/黄) 进行预处理，实现公式为

$ \begin{array}{*{20}{c}} {DoG\left( {x,y} \right) = \frac{1}{{2{\rm{ \mathsf{ π} }}{\sigma ^2}}}\exp \left( { - \frac{{{x^2} + {y^2}}}{{{\sigma ^2}}}} \right) - }\\ {\frac{1}{{2{\rm{ \mathsf{ π} }}{K^2}{\sigma ^2}}}\exp \left( { - \frac{{{x^2} + {y^2}}}{{{K^2}{\sigma ^2}}}} \right)} \end{array} $

(2)

式中，$(x, y) $是滤波位置，σ和K分别用来控制滤波器的尺度和高斯核的半径比。为实现高效DoG滤波，文中取σ=32，K=1.6(近似于高斯拉普拉斯算子)。将DoG滤波器分别与图像的强度和颜色通道进行卷积，产生每个通道的滤波响应分布图$ {F_i} $，其分布可用概率密度函数进行拟合^[18]，即

$ p\left( {f;\sigma ,\theta } \right) = \frac{\theta }{{2\sigma \Gamma \left( {\frac{1}{\theta }} \right)}}\exp \left( { - {{\left| {\frac{f}{\sigma }} \right|}^\theta }} \right) $

(3)

式中，Γ为伽马函数、θ为形状参数、σ尺度参数、$ f $为滤波响应。将其代入$\text{log}~\ p({{F}_{i}}={{f}_{i}}) $可得

$ \begin{array}{*{20}{c}} {\log p\left( {{F_i} = {f_i}} \right) = \log {\theta _i} - \log 2 - \log \sigma - }\\ {\log \Gamma \left( {\frac{1}{{{\theta _i}}}} \right) - {{\left| {\frac{{{f_i}}}{\sigma }} \right|}^\theta } = - {{\left| {\frac{{{f_i}}}{\sigma }} \right|}^{{\theta _i}}} + const} \end{array} $

(4)

式中，$ const $表示常数，下标$ i $=1, 2, 3，分别对应一个强度和两个色度通道。因此，该点2D静态显著性计算公式为

$ \log {s_z} = \log p\left( {F = f} \right) = \sum\limits_{i = 1}^3 {{{\left| {\frac{{{f_i}}}{\sigma }} \right|}^{{\theta _i}}} + const} $

(5)

利用式(5) 求得图像中每个像素点显著性，进而得到一帧图像的2D显著图SM_image, 如图 2(c)所示，图中亮度越高代表该区域的显著性越强。

图 2 立体视频显著性检测

Fig. 2 Stereoscopic video saliency detection ((a) left view image; (b) right view image; (c) two-dimensional saliency map; (d) disparity map; (e) foreground saliency map; (f) depth contrast map; (g) depth saliency; (h) motion feature; (i) motion saliency map; (j) stereoscopic saliency map)

1.2 深度显著特征提取

在立体图像/视频中，深度特征是双目视觉感知的主要特征之一。已有人类视觉生理学和心理学研究表明，相对于距离较远的物体，人眼更容易关注到距离较近的物体，此外人眼对深度变化较剧烈的物体也更注意^[19-20]。因此，在立体视频显著性检测中必须考虑反映距离远近的深度信息对立体视觉注意力的影响。深度信息一般通过计算左右视点图的视差图来获取，利用DERS (depth estimation reference software) 软件^[21]根据输入的第$ k $帧左视点图和右视点图计算出该帧的视差图，如图 2(d)所示。

鉴于人眼更容易关注到距离较近的物体，意味着前景物体相对于背景物体更为显著。考虑到距离较近的物体具有较大视差值，而距离较远的物体视差值较低，先根据视差图中的最大视差值$ {d_{{\rm{max}}}} $和最小视差值$ {d_{{\rm{min}}}} $将视差值归一化到[0, 1]区间。当某点像素的视差值接近$ {d_{{\rm{max}}}} $则赋予大的视差值，相反接近$ {d_{{\rm{min}}}} $则赋予小的视差值。通过给前景物体与背景物体赋予不同的显著性，可得到前景显著图D_foreground，其计算结果如图 2(e)所示，图中前景物体相对于背景物体更为显著。

然而，仅将视差图中的距离信息作为深度显著特征会忽略掉其他重要感知特征，比如深度边缘特征和轮廓特征，而忽略这些重要立体感知特征会导致检测精度降低^[7]。鉴于深度对比度能有效反映物体的深度变化程度，是深度感知特征的重要衡量指标^[22]，因此再选取深度对比度作为另一深度显著特征。采用式(2) 来提取视差图的深度对比度D_contrast。当高斯差分滤波器的高斯核内外半径比为1.6时，可以近似为一个LoG (Laplacian of Gaussian) 滤波器用来提取图像边缘和其他细节信息，其计算结果如图 2(f)所示。

最后，将获取的深度前景图D_foreground和深度对比度图D_contrast进行线性加权融合获取深度显著图，即

$ \mathit{\boldsymbol{S}}{\mathit{\boldsymbol{M}}_{{\rm{depth}}}} = {\omega _1}{\mathit{\boldsymbol{D}}_{{\rm{foreground}}}} + {\omega _2}{\mathit{\boldsymbol{D}}_{{\rm{constrast}}}} $

(6)

式中，ω₁和ω₂分别为D_foreground和D_constrast的权重，且ω₁=ω₂=0.5。图 2(g)所示为融合结果，从图中可看出距离较近的物体具有更高的显著性，且边缘轮廓也具有较高的显著性，其结果更符合人眼的立体视觉特性。

1.3 运动显著特征提取

视频与静态图像不同，它含有另一个重要视觉显著特征-运动，发生运动的物体更易引起人眼的注意，尤其是运动程度剧烈、速度快的物体。目前大部分的运动特征计算模型都是基于计算每帧图像中每个像素点的运动矢量，会产生很大的计算复杂度。为了降低计算复杂度，基于当前帧的2D显著图SM_image和深度显著图SM_depth先提取出当前帧的显著区域，然后对当前帧的显著连通区域采用光流法提取运动特征，具体实现步骤如下：

1) 显著区域提取。先对2D静态显著图SM_image和深度显著图SM_depth进行二值化，即

$ \begin{array}{l} S{{M'}_i}\left( {x,y} \right) = \left\{ \begin{array}{l} 1\;\;\;\;S{M_i}\left( {x,y} \right) > {T_i}\\ 0\;\;\;\;其他 \end{array} \right.\\ i = {\rm{image,depth}} \end{array} $

(7)

式中，$(x, y) $为显著图中的像素坐标，${\boldsymbol{SM}}{\prime _i} $为二值化后的显著图，$ {T_i} $为门限值，其值通过大津算法^[23]获取。接着将$ \mathit{\boldsymbol{SM}}{\prime _{{\rm{image}}}} $和$ \mathit{\boldsymbol{SM}}{\prime _{{\rm{depth}}}} $代入式(8) 中来确定当前帧图像的显著区域，即

$ \begin{array}{*{20}{c}} {{P_s}\left( {x,y} \right)}\\ {\left[ {S{{M'}_{{\rm{image}}}}\left( {x,y} \right) \cup S{{M'}_{{\rm{depth}}}}\left( {x,y} \right)} \right] \cdot P\left( {x,y} \right)} \end{array} $

(8)

式中，$ P(x, y) $和$ {P_s}(x, y) $分别表示当前帧像素点$(x, y) $处的灰度值和进行显著区域分割后的灰度值，其计算结果如图 3(a)所示。然后对显著区域采用连通域划分法^[24]处理获取矩形的光流计算区域，如图 3(b)所示，图中加框部分为显著连通域。

2) 利用Lucas-Kanade微分光流法^[25]计算显著连通域的运动特征，即

$ {I_x}{V_x} + {I_y}{V_y} = - {I_t} $

(9)

式中，$ {V_x} $、$ {V_y} $分别表示光流矢量沿$x $、$y $方向分量，$ {I_x} $、$ {I_y} $和$ {I_t} $是像素点沿$x $、$y $、$ t $这3个方向的微分，其矢量形式表达式为

$ \nabla {\mathit{\boldsymbol{I}}^{\rm{T}}} \cdot \mathit{\boldsymbol{V = }} - {\mathit{\boldsymbol{I}}_t} $

(10)

式中，$ \nabla ~{{\mathit{\boldsymbol{I}}}^{\rm{T}}}={{({{I}_{x}}, {{I}_{y}})}^{\rm{T}}} $是该点的梯度方向，$ \boldsymbol{V}=({{V}_{x}}, {{V}_{y}}) $是该点的光流。对于像素$ i = 1, \cdots, n $，联立$ n $个光流方程并采用最小二乘法求解$x $，$y $方向的速度，可得

$ \left[ {\begin{array}{*{20}{c}} {{V_x}}\\ {{V_y}} \end{array}} \right] = {\left[ {\begin{array}{*{20}{c}} {\sum {{I_{{x_i}}}{I_{{x_i}}}} }&{\sum {{I_{{x_i}}}{I_{{y_i}}}} }\\ {\sum {{I_{{x_i}}}{I_{{y_i}}}} }&{\sum {{I_{{y_i}}}{I_{{x_i}}}} } \end{array}} \right]^{ - 1}}\left[ {\begin{array}{*{20}{c}} { - \sum {{I_{{x_i}}}{I_{{t_i}}}} }\\ { - \sum {{I_{{x_i}}}{I_{{t_i}}}} } \end{array}} \right] $

(11)

式中的求和是从1到$ n $。图 3(c)所示为对图 3(b)显著连通区域的计算结果，图中箭头表示像素点的运动方向，长度表示运动速度。然后，将式(11) 得到的运动矢量散点图经孟塞尔颜色系统^[26]进行显著性表征，结果如图 2(h)所示，图中不同颜色表示像素点的不同运动方向，颜色的深浅反映运动的剧烈程度，颜色越深表示该点像素运动越剧烈，颜色越浅表示运动越平缓。最后，归一化得到运动显著图SM_motion，如图 2(i)所示。

图 3 运动特征检测结果

Fig. 3 Result of motion detection ((a) the k^th frame saliency region; (b) salient connected domain; (c) motion vector fields)

2 立体视频显著区域融合

生成立体视频显著区域需将2D静态显著图，深度显著图以及运动显著图这3类不同维度的显著图进行融合。最常见的融合方法是把所有显著图先进行归一操作，N表示把显著图归一化到0到1区间，然后给每幅显著图赋予统一权重进行相加来获取最终的立体视频显著图，其公式为

$ \begin{array}{*{20}{c}} {\mathit{\boldsymbol{SM = }}\frac{1}{3}\sum\limits_i {N\left( {\mathit{\boldsymbol{S}}{\mathit{\boldsymbol{M}}_i}} \right)} }\\ {i = {\rm{image,depth,motion}}} \end{array} $

(12)

但这种融合策略没有考虑不同显著特征对立体视频显著性的贡献度大小，导致融合结果并不理想。

人类视觉感知研究表明，某维场景中如果存在多个显著区域会分散视觉注意力，反之在某维场景中只存在一个显著区域就能汇聚视觉注意力^[22]，比如抬头仰望夜空中发光的星星。因此，采用一种基于全局-区域差异度大小的融合方法将2D静态显著图SM_image、深度显著图SM_depth和运动显著图SM_motion进行融合。具体实现步骤如下：

1) 为避免因不同方法生成的各类显著图存在幅值范围差异，先将它们归一化到01区间。

2) 对于某维显著图$ \mathit{\boldsymbol{S}}{\mathit{\boldsymbol{M}}_i} $，计算其全局最大值$ {M_i} $；接着以64×64块为单位求取该块的区域极大值$ m_i^k $，并对所有区域极大值求平均值$ {\bar m_i} $，即

$ {{\bar m}_i} = \frac{1}{K}\sum\limits_{k = 1}^K {m_i^k} $

(13)

式中，K为一幅显著图中64×64块的个数。

3) 最后将归一化后的各维显著图进行线性加权组合获取立体视频显著图SM，加权权重为

$ \begin{array}{*{20}{c}} {\mathit{\boldsymbol{SM}} = \sum\limits_i {\left[ {\left( {N\left( {\mathit{\boldsymbol{S}}{\mathit{\boldsymbol{M}}_i}} \right)} \right) \cdot {{\left( {{M_i} - {{\bar m}_i}} \right)}^2}} \right]} }\\ {i = {\rm{image,depth,motion}}} \end{array} $

(14)

本文通过将各维显著图中的全局最大值$ {M_i} $与所有局部极大值的平均值$ {{\bar m}_i} $进行比较，当两者差

值很大时，表明该显著图中的显著特征更为明显，应赋予大的权重；相反当差值很小的时候，表明该显著图的显著特征更为均匀，应赋予较小的权重进行抑制。图 2(j)所示为通过该融合方法获得的立体视频显著图，该融合策略通过临近相似特征相互抑制的方式来近似地模拟了人类视觉感知特征，能降低显著区域均匀分布的显著图权重，凸显了局部显著峰值。

3 实验结果与分析

3.1 实验设置

采用Lovebird^[27]、Newspaper^[28]、Café^[28]、Champagne_tower^[29]和Book Arrival^[30]这5组不同场景下的3D视频测试序列进行实验，其中Lovebird序列为室外场景，Champagne_tower、Newspaper、Cafe和Book Arrival序列为室内场景，而其中Newspaper、Cafe和Book Arrival序列中场景较为复杂，运动信息较为丰富, 具体参数参见表 1。各立体序列的显著性评价基准通过眼动仪由人工标注获得。所有的测试是在Window 7系统下，配置为Intel i5-6400@2.7 GHz, 8 GB RAM的同一台电脑上完成。

表 1 3D测试序列的具体参数
Table 1 3D Test sequence specific parameters

下载CSV

序列来源	测试序列名	图像属性	相机参数
ETRI	Lovebird	1 024×768像素，30帧/s	12 cameras with 3.5 cm spacing
GIST	Newspaper	1 024×768像素，30帧/s	9 cameras with 5 cm spacing
GIST	Cafe	1 920×1 080像素，30帧/s	5 cameras with 6.5 cm spacing
Nagoya	Champagne_tower	1 280×960像素，30帧/s	80 cameras with 5 cm spacing
Heinrich-Hertz-Institute	Book Arrival	1 024×768像素，67帧/s	16 cameras with 6.5 cm spacing

3.2 不同显著性计算结果与分析

为验证本文模型的有效性，本文实验结果分别与RSF^[12]、PDA^[14]、GBVS^[13]、GF^[11]、FT^[4]，这5种典型的显著性计算模型进行比较验证，其显著性检测结果对比如图 4所示，相应的运行效率对比如表 2所示。在从图 4和表 2中的结果可发现，在简单和复杂场景下的立体视频下，图 4(b)的RSF模型利用统计分析法计算一帧图像中各局部特征的显著性，再通过随机场理论进行显著对象分割获取显著区域，但存在显著区域误判现象，且计算复杂度高；图 4(c)的PDA模型在简单的背景下可以很好地计算出显著区域，但存在较多噪声的复杂场景下，就无法准确计算出显著区域；图 4(d)的GBVS模型运行速度较快，获取的显著区域较符合人类视觉的特性，颜色及亮度对比度较强的地方获得较高的显著性，但显著区域显得较为模糊，而且边缘轮廓特征算，该模型能够有效计算出2D视频相邻帧间的显著区域，并且可以应用在复杂以及多种运动模式的场景中，但每帧也没有得到很好地保留；图 4(e)的GF模型是基于帧内与帧间信息的梯度流场进行视频的显著性计图像的平均运行时间需84 s；图 4(f)的FT模型计算速度最快，且能排除噪声干扰使显著区域清晰，但不能有效获取运动区域的显著性；而本文提出的模型能将立体视频中内含的空间、深度和运动这3个不同维度的显著特征进行有效的描述和提取，它不仅计算出2D图像的显著区域，还能获取深度对比度强烈的3维显著区域以及帧间运动显著的区域。从图 4(g)可以看出，在简单或者复杂场景下，本文方法都能成功计算出立体视频的显著性区域，并很好地保留了显著性区域的边缘细节信息，计算结果均优于其他显著模型，与人眼的视觉感知特性更相吻合。在深度图已知的情况下，本文模型的平均检测时间约为62 s，优于文中大多数检测模型，这是由于本文方法采用了局部光流法，仅对待处理的准显著区域采用光流法，显著降低了计算复杂度。

图 4 立体视频显著性计算结果对比

Fig. 4 Comparison of saliency detection results of Stereoscopic video ((a) left view sequence; (b) RSF model; (c) PDA model; (d) GBVS model; (e) GF model; (f) FT model; (g) proposed model; (h) ground truth)

表 2 计算每帧图像显著性的运行时间比较
Table 2 Comparison of operation time for calculating the saliency of each frame image

下载CSV

/s
方法	Lovebird	Champagne_tower	Cafe	Book Arrival	Newspaper	平均运行时间
RSF	57.84	99.14	219.20	47.29	63.63	97.42
PDA	53.75	71.09	93.92	51.35	56.68	65.36
GBVS	42.98	58.10	135.09	43.51	54.40	66.82
GF	96.04	68.46	108.65	84.78	62.24	84.04
FT	34.94	43.85	74.20	34.85	34.08	44.38
本文	41.95	70.83	102.44	47.38	49.62	62.44

3.3 显著性检测客观评价结果

为了进一步客观评价本文模型有效性，采用3个常用的指标进行衡量：准确率(Precision)、召回率(Recall) 和综合评价指标(F-Measure)^[31]，其中在计算F-Measure时，控制参数β²取默认值0.3。

图 5和图 6分别表示本文模型与其他模型计算上述几组立体视频序列的Precision-Recall曲线和F-Measure曲线分布图。从图中可以看出，在不同的场景下进行显著性计算，本文模型结合了深度对比度等立体感知显著特征，获得了80%的准确率和72%的召回率，在立体视频显著性检测上相比于其他计算模型具有更高的准确率和召回率，并且本文模型获取的F度量值也优于其他算法，这也从客观评价角度上验证了本文模型能够很好地完成立体视频的显著性检测。

图 5 Precsion-Recall曲线

Fig. 5 Prescsion-Recall curve

图 6 F-Measure直方图

Fig. 6 F-Measure histogram

4 结论

根据人眼注意力机制以及立体视频的特点，提出一种基于人眼立体视觉感知特性的立体视频显著性检测模型。该模型先对立体视频3个不同维度的视图信息进行显著性计算，分别提取出空间、深度以及时域(运动) 显著图。其中在深度显著性计算中考虑了深度对比度与立体视觉显著性的关联性；在运动显著性计算中仅对帧间图像局部区域采用光流法来提取显著特征，减轻了算法复杂度。然后，考虑到3幅不同维度的显著图的显著区域分布对立体视频显著性分布的贡献度大小不同，而采用了一种更符合人眼视觉感知特征的，基于全局-区域差异度大小的融合方法将3幅不同维度的显著图融合在一起。实验结果表明，本文提出的显著性检测模型能在不同的场景下有效地计算出立体视频的显著性区域，检测结果具有边缘细节清晰、更符合人眼立体注意力机制的特点，优于当前流行的视觉显著性检测模型。

该模型可应用于立体视频/图像编码、立体视频/图像质量评价、自动驾驶导航系统、立体视频目标检测与跟踪等领域。而如何更有效地提取出与人类立体视觉感知特征更吻合的深度显著区域，是下一步研究重点。

参考文献

[1] Li Y Y, Xu Y L, Ma S P, et al. Saliency detection based on deep convolutional neural network[J]. Journal of Image and Graphics, 2016, 21(1): 53–59. [李岳云, 许悦雷, 马时平, 等. 深度卷积神经网络的显著性检测[J]. 中国图象图形学报, 2016, 21(1): 53–59. DOI:10.11834/jig.20160107]

[2] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254–1259. [DOI:10.1109/34.730558]

[3] Hou X D, Zhang L Q. Saliency detection:a spectral residual approach[C]//Proceeding of 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN:IEEE, 2007:1-8.[DOI:10.1109/CVPR.2007.383267]

[4] Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[C]//Proceeding of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL:IEEE, 2009:1597-1604.[DOI:10.1109/CVPR.2009.5206596]

[5] Zhang L Y, Tong M H, Marks T K, et al. SUN:A Bayesian framework for saliency using natural statistics[J]. Journal of Vision, 2008, 8(7): 1–20. [DOI:10.1167/8.7.32]

[6] Lee J E, Park R H. Segmentation with saliency map using colour and depth images[J]. IET Image Processing, 2015, 9(1): 62–70. [DOI:10.1049/iet-ipr.2014.0044]

[7] Wang J L, Da Silva M P, Le Callet P, et al. Computational model of stereoscopic 3D visual saliency[J]. IEEE Transactions on Image Processing, 2013, 22(6): 2151–2165. [DOI:10.1109/TIP.2013.2246176]

[8] Cong R M, Lei J J, Zhang C Q, et al. Saliency detection for stereoscopic images based on depth confidence analysis and multiple cues fusion[J]. IEEE Signal Processing Letters, 2016, 23(6): 819–823. [DOI:10.1109/LSP.2016.2557347]

[9] Shao F, Jiang Q P, Jiang G Y, et al. Prediction of visual discomfort of stereoscopic images based on saliency analysis[J]. Optics and Precision Engineering, 2014, 22(6): 1631–1638. [邵枫, 姜求平, 蒋刚毅, 等. 基于显著性分析的立体图像视觉舒适度预测[J]. 光学精密工程, 2014, 22(6): 1631–1638. DOI:10.3788/OPE.20142206.1631]

[10] Li Y, Sheng B, Ma L Z, et al. Temporally coherent video saliency using regional dynamic contrast[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2013, 23(12): 2067–2076. [DOI:10.1109/TCSVT.2013.2270367]

[11] Wang W G, Shen J B, Shao L. Consistent video saliency using local gradient flow optimization and global refinement[J]. IEEE Transactions on Image Processing, 2015, 24(11): 4185–4196. [DOI:10.1109/TIP.2015.2460013]

[12] Rahtu E, Kannala J, Salo M, et al. Segmenting salient objects from images and videos[C]//Proceedings of the 11th European Conference on Computer Vision on Computer Vision-ECCV 2010. Berlin Heidelberg:Springer, 2010:366-379.[DOI:10.1007/978-3-642-15555-0_27]

[13] Harel J, Koch C, Perona P. Graph-based visual saliency[C]//Advances in Neural Information Processing Systems 19:Proceedings of the 2006 Conference. Cambridge, MA:MIT Press, 2007:545-552.

[14] Zhou B L, Hou X D, Zhang L Q. A phase discrepancy analysis of object motion[C]//Proceedings of the 10th Asian Conference on Computer Vision-ACCV 2010. Berlin Heidelberg:Springer-Verlag, 2011:225-238.[DOI:10.1007/978-3-642-19318-7_18]

[15] Ferreira L, da Silva Cruz L A, Assuncao P. A method to compute saliency regions in 3D video based on fusion of feature maps[C]//Proceedings of 2015 IEEE International Conference on Multimedia and Expo. Turin, Italy:IEEE, 2015:1-6.[DOI:10.1109/ICME.2015.7177474]

[16] Zhang Y, Jiang G Y, Yu M, et al. Stereoscopic visual attention model for 3D video[C]//Proceedings of the 16th International Multimedia Modeling Conference on Advances in Multimedia Modeling. Berlin Heidelberg:Springer, 2010:314-324.[DOI:10.1007/978-3-642-11301-7_33]

[17] Kim H, Lee S, Bovik A C. Saliency prediction on stereoscopic videos[J]. IEEE Transactions on Image Processing, 2014, 23(4): 1476–1490. [DOI:10.1109/TIP.2014.2303640]

[18] Song K S. A globally convergent and consistent method for estimating the shape parameter of a generalized gaussian distribution[J]. IEEE Transactions on Information Theory, 2006, 52(2): 510–527. [DOI:10.1109/TIT.2005.860423]

[19] Sheng H, Liu X Y, Zhang S. Saliency analysis based on depth contrast increased[C]//Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Shanghai, China:IEEE, 2016:1347-1351.[DOI:10.1109/ICASSP.2016.7471896]

[20] Park J, Oh H, Lee S, et al. 3D visual discomfort predictor:analysis of disparity and neural activity statistics[J]. IEEE Transactions on Image Processing, 2015, 24(3): 1101–1114. [DOI:10.1109/TIP.2014.2383327]

[21] Tanimoto M, Fujii T, Suzuki K. Depth estimation reference software (DERS) 5.0[R]. ISO/IEC JTC1/SC29/WG11, M16923, 2009.

[22] Van Ee R, Banks M S, Backus B T. An analysis of binocular slant contrast[J]. Perception, 1999, 28(9): 1121–1145. [DOI:10.1068/p281121]

[23] Ostu N. A threshold selection method from gray-level histograms[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1979, 9(1): 62–66. [DOI:10.1109/TSMC.1979.4310076]

[24] Zhang X J, Guo X, Jin X Y. The pixel labeled algorithm with label rectified of connecting area in binary pictures[J]. Journal of Image and Graphics, 2003, 8(2): 198–202. [张修军, 郭霞, 金心宇. 带标记矫正的二值图象连通域像素标记算法[J]. 中国图象图形学报, 2003, 8(2): 198–202. DOI:10.11834/jig.20030271]

[25] Bruhn A, Weickert J, Schnörr C. Lucas/kanade meets horn/schunck:combining local and global optic flow methods[J]. International Journal of Computer Vision, 2005, 61(3): 211–231. [DOI:10.1023/B:VISI.0000045324.43199.43]

[26] Liu W Q, Feng R, Zhou F K. The relation between munsell color system and visual perception brightness[J]. Optics and Precision Engineering, 1998, 6(3): 31–35. [刘伟奇, 冯睿, 周丰昆. 孟塞尔颜色系统与人眼主观亮度的关系[J]. 光学精密工程, 1998, 6(3): 31–35. ]

[27] ISO/IEC JTC1/SC29/WG11, Call for proposals on 3D video coding technology. Tech. Rep. N12036, ISO/IEC JTC1/SC29/WG11, mar 2011.[EB/OL] [2016-08-03]ftp://ftp.merl.com/pub/avetro/3dv-cfp/.

[28] Gwangju Institute of Science and Technology[EB/OL].[2016-08-03]ftp://203.253.128.142/GIST_Tes_Sequence/.

[29] Nagoya University.[EB/OL].[2016-08-03]http://en.nagoya-u.ac.jp/.

[30] Mobile 3DTV Solid Eyesight. Fraunhofer HHI Mobile 3DTV project[EB/OL].[2016-08-03]http://sp.cs.tut.fi/mobile3dtv/.

[31] Powers D M W. Evaluation:from precision, recall and F-measure to ROC, informedness, markedness & correlation[J]. Journal of Machine Learning Technologies, 2011, 2(1): 37–63. [DOI:10.9735/2229-3981]