网刊加载中。。。

0引言视觉显著性在许多基于视觉的应用中起着非常重要的作用，例如目标检测和跟踪(黎万义等，2014；杨勇等，2018)、视觉内容分析(Guo等，2016)、场景分类(史静等，2017)、图像/视频压缩(王瑞等，2013)、图像质量评价(吴金建，2014)和行人检测(许茗等，2018)等。显著性模型可以分为视觉显著性检测模型和显著目标检测模型两大类。视觉显著性检测模型旨在预测图像或视频中各区域受人眼关注的程度，其输出为连续值显著图(Banitalebi-Dehkordi等，2016)；显著目标检测模型旨在检测并分割图像或视频中的显著物体，其输出为二值显著图(袁泉等，2018)。早期研究者们提出了许多基于传统2维图像的视觉显著性检测模型，为显著性研究领域奠定了基础。视觉应用领域出现了由2维视觉到3维视觉的转换，以RGB-D数据为代表，出现了许多创新性的应用，例如用于视觉伺服的目标定位(Li等，2018)、人机交互的心理评价(Ficocelli等，2016)、无人驾驶车辆的交通标志检测(Huang等，2017)等。在这些应用中，传统RGB显著性模型不再适用，基于RGB-D数据的显著性模型称为新的研究热点，3维场景不同模态的视觉线索，包括平面线索、深度线索和运动线索等，应该被充分挖掘。现有的RGB-D显著性模型通常包含两个阶段，第1阶段从彩色图和深度图提取各种各样的视觉线索，包含平面、深度和运动等多模态线索；第2阶段将这些线索融合得到最终显著图。在第1阶段，RGB-D显著性模型与RGB显著性模型的不同点之一在于提供了场景额外的深度信息来辅助显著性检测。模型通常根据特定的假设来基于深度图计算显著性，例如，一些模型直接将原始深度图作为调节因子与平面显著图融合，它们认为离人眼越近的区域越容易受到关注，直接用原始深度值度量显著性(Zhang等，2010；Coria等，2012)，或者根据视差范围计算视觉舒适度作为显著度(Niu等，2012；Park等，2012)。还有一些模型在深度图上提取各种各样的特征，例如直方图对比度(Desingh等，2013)、各向异性中央—周围差异(Ju等，2014)、离散余弦变换直流分量的对比度(Fang等，2014)、LBE(local background enclosure)特征(袁泉等，2018)等。随后，不同线索对应的显著图被融合在一起生成最终显著图。多模态显著图通常可以简单地通过线性加权和(Ouerhani和Hugli，2000；Fang等，2017)进行融合，这类方法简单直观，然而显著图之间差异较大, 在各显著图之间存在冲突时难以获得好的融合结果。还有一些更复杂的融合方法，例如贝叶斯框架(赵宏伟和何劲松，2018)和基于条件随机场(Liu等，2011)的融合方法等。基于学习的融合方法得到了广泛研究，如支持向量机(Ma和Hang，2015)、AdaBoost(Liang和Hu，2015)、随机森林(Banitalebi-Dehkordi等，2016)和深度神经网络(Qu等，2017)等。尽管上述一些融合方法在RGB显著性模型中取得了不错的成果，但面对更有挑战的RGB-D显著性检测，这些方法难以有效地处理多模态线索。RGB-D显著性模型中所涉及的多模态线索之间存在竞争排斥与互补融合现象(Stuit等，2010)，具体表现在多模态线索对应的显著区域之间存在很大差异，这种差异揭示了多模态线索之间的竞争关系，给RGB-D显著性模型的融合阶段带来了挑战。因此，如何避免这种竞争关系带来的干扰，有效地融合多模态线索，是本文模型的重点研究内容。本文提出了一个基于超像素下条件随机场的RGB-D显著性检测模型：1)对RGB-D立体视频每一帧提取平面线索、深度线索和运动线索，并得到相应的显著图；2)以超像素为单位建立条件随机场模型，设计了一个全局能量函数，该能量函数联合了多模态显著性线索的影响和相邻超像素显著值平滑约束，将显著图融合建模为全局优化问题；3)由于多模态显著性线索在不同类型的场景中各有优势，本文训练了一个基于卷积神经网络(convolutional neural network, CNN)的权重学习网络来学习多模态显著性线索在能量函数中的权重因子。所提模型不仅能充分利用多模态线索的优势，还能通过邻域约束抑制不同显著图之间的竞争，取得更可靠的检测结果。实验结果表明，在两个RGB-D显著性数据集上，所提模型的5个评价指标均优于其他先进的模型。1多模态显著图生成所提模型的总体框架如图 1所示，输入数据为彩色图序列和对应的深度图序列，在第1阶段，提取平面线索、深度线索和运动线索，并生成对应的显著图；第2阶段，在图像上以超像素为单位建立条件随机场模型，并用基于CNN的权重学习网络训练多模态线索的权重，建立全局能量函数，优化后得到最终显著图。图1 所提出的RGB-D显著性检测模型的总体框架 The overall framework of our RGB-D saliency detection modelFig 1在显著性线索提取阶段，具体地，对于RGB-D视频每一帧，基于深度图$\boldsymbol{D} $计算深度显著图$ {\boldsymbol{S}}_D$，基于当前帧与前一帧的彩色图和深度图生成的运动矢量图$ \boldsymbol{M}$计算运动显著图$ {\boldsymbol{S}}_M$，基于彩色图$ \boldsymbol{I} $计算平面显著图$ {\boldsymbol{S}}_S$。1.1深度显著图为了降低计算复杂度和减少噪声，以超像素为单位计算深度显著图。使用简单非迭代聚类(simple non-iterative clustering, SNIC)(Achanta和Süsstrunk，2017)的超像素分割算法将彩色图分割为$ N$个不重合的超像素$\left\{R_{i} \mid i=1, 2, \cdots, N\right\} $，将分割掩膜映射到深度图上，计算每个超像素对应像素位置深度值的均值，得到各超像素的深度值$\left\{ {{\mathit{\boldsymbol{d}}_i}\mid i = 1, 2, \cdots, N} \right\} $。然后提取全局对比度、背景先验和中心偏向先验等特征。全局对比度为每个超像素与其他超像素深度值差异的加权和 1 $G C\left(R_{i}\right)=\sum\limits_{j \neq i} w(i, j)\left\|\boldsymbol{d}_{i}-\boldsymbol{d}_{j}\right\|$ 式中，$w$($ i$, $ j$)为两个超像素之间的空间权重，设置为$\exp \left(-\lambda_{l}\left\|\boldsymbol{c r d}_{i}-\boldsymbol{c r d}_{j}\right\|\right) $，目的是用空间距离来控制两个超像素对比度的权重，$ {\mathit{\boldsymbol{cr}}{\mathit{\boldsymbol{d}}_i}}$和$ {\mathit{\boldsymbol{cr}}{\mathit{\boldsymbol{d}}_j}}$分别为两个超像素的中心坐标，$ \lambda_{l}$为控制参数，一般情况下可设置为0.025。由定义可知，某超像素与图像上其他超像素的深度值差异越大，其全局对比度越大，显著度越高。背景先验特征的基础假设是将与图像边界相邻的超像素看做伪背景，计算每个超像素与伪背景的差异，差异越大，该超像素越显著。中心偏向先验特征是赋予离图像中心较近的超像素更高的显著性。最后将这3种特征相乘得到深度显著图$ {\boldsymbol{S}}_D$。1.2运动显著图计算运动显著图之前首先要估计当前帧与前一帧之间的运动矢量图，传统光流法只能估计水平方向和竖直方向的运动矢量，本文针对3维场景，在传统光流法的基础上进一步引入了深度方向的运动矢量。首先，利用LDOF(large displacement optical flow)光流法(Brox和Malik，2011)估计当前帧彩色图上每个像素$(x, y) $相对于前一帧彩色图的位移矢量$\left({\Delta x, \Delta y} \right) $，则像素$(x, y) $在前一帧中的对应位置为$(x - \Delta x, y - \Delta y) $，然后根据前后两帧的深度图计算深度方向的位移：$\Delta z = {D_t}(x, y) - {D_{t - 1}}(x - \Delta x, y - \Delta y) $。由此得到3维运动矢量图，与深度显著图类似，在3维运动矢量图上提取全局对比度、背景先验和中心偏向先验等特征得到运动显著图$ {\boldsymbol{S}}_M$。1.3平面显著图采用基于布尔图的显著性模型BMS(Boolean map saliency)(Zhang和Sclaroff，2013)来基于彩色图计算低层显著图。BMS模型将低层特征映射划分为一组具有不同阈值的布尔映射，并基于格式塔原理和图形—背景分离为每个布尔映射计算显著图，将所有显著图融合得到低层显著图。此外，高层次的语义信息，如人脸，具有很强的视觉吸引力。因此，在彩色图上应用Viola-Jones人脸检测器(Viola和Jones，2004)来生成高层语义显著性。最后，将低层显著图与高层语义显著图相加得到平面显著图$ {\boldsymbol{S}}_S$。2多模态显著图融合为了有效地处理平面显著图、深度显著图和运动显著图之间的互补和竞争关系，提出了一个基于超像素下条件随机场的显著图融合模型，该融合模型联合了多模态显著性线索的影响和相邻超像素之间的显著性平滑约束，将显著图融合建模为一个全局优化问题，能够取得更好的融合结果。此外，训练了基于CNN的权重学习网络来学习多模态显著图的权重，使它们可以自适应地在不同场景中发挥各自的优势。2.1显著图融合模型在融合阶段，输入平面显著图$ {\boldsymbol{S}}_S$、深度显著图$ {\boldsymbol{S}}_D$、运动显著图$ {\boldsymbol{S}}_M$以及前一帧的融合显著图$ {\boldsymbol{S}}_P$，将显著图融合问题定义为，给定当前帧的显著图$\boldsymbol{F} $={$ {\boldsymbol{S}}_S$, $ {\boldsymbol{S}}_D$, $ {\boldsymbol{S}}_M$, $ {\boldsymbol{S}}_P$}，融合得到最终显著图$ {\boldsymbol{S}}$，表示为条件概率$P $($ {\boldsymbol{S}}$ | $\boldsymbol{F} $)。以超像素为结点建立图模型，相邻超像素之间以边连接，每个结点对应一个随机变量$ s_i$∈{0，1}，其中0代表不显著，1代表显著。由吉布斯定理，条件概率可以表示为 2 $p(\boldsymbol{S} \mid \boldsymbol{F})=\frac{1}{Z} \exp (-E(\boldsymbol{S} \mid \boldsymbol{F}))$ 式中，$Z=\sum\limits_{S} \exp (-E(\boldsymbol{S} \mid \boldsymbol{F})) $，为归一化常数，称为配分函数，$E(\boldsymbol{S} \mid \boldsymbol{F}) $为全局能量函数，由数据能量项和平滑能量项组成 3 $E(\boldsymbol{S} \mid \boldsymbol{F})=\sum\limits_{i} E_{\text {data }}\left(s_{i}\right)+\sum\limits_{j \in N(i)} E_{\text {smooth }}\left(s_{i}, s_{j}\right)$ 式中，数据能量项$E_{\text {data }}\left(s_{i}\right) $是显著性线索和显著标签之间的函数，用于描述显著特征对最终显著标签的影响，定义为$E_{\text {data }}\left(s_{i}\right)=\Sigma\left(\alpha_{i}^{k}\left|s_{i}-f_{i}^{k}\right|\right) $，其中$ s_i$为第$ i$个超像素待求的显著标签，取值为0或1，$ {f_i^k}$为第$k $幅显著图归一化后对应第$ i$个超像素的显著值，取值范围为[0, 1]，假设超像素的显著值$ {f_i^k}$接近1，当$ s_i$=1时数据能量项$\left|s_{i}-f_{i}^{k}\right| $较小，当$ s_i$=0时数据能量项$\left|s_{i}-f_{i}^{k}\right| $较大，因此融合模型倾向于选取与显著特征相近的显著标签。$\alpha _i^k $是多模态显著图的权重，平面、深度和运动显著图的权重由网络训练得到，前一帧融合显著图的权重设置为0.2。二元势函数${E_{{\rm{smooth }}}}\left({{s_i}, {s_j}} \right) $是相邻两个超像素显著值的函数，用于描述相邻超像素之间的显著值平滑约束，定义为$E_{\text {smooth }}\left(s_{i}, s_{j}\right)=\beta_{i j}\left|s_{i}-s_{j}\right| $，其中${\beta _{ij}} $用于控制平滑约束的强度，定义为 4 $\beta_{i j}=\lambda_{1} \exp \left(\frac{\left\|\boldsymbol{c}_{i}-\boldsymbol{c}_{j}\right\|^{2}}{2 \delta_{1}^{2}}\right)+\lambda_{2} \exp \left(\frac{\left\|\boldsymbol{d}_{i}-\boldsymbol{d}_{j}\right\|^{2}}{2 \delta_{2}^{2}}\right)$ 式中，$ \boldsymbol{c}_{i}, \boldsymbol{c}_{j}, \boldsymbol{d}_{i}, \boldsymbol{d}_{j}$分别是两个超像素的颜色向量和深度值，参数$\delta_{1}^{2}=\left\langle\left\|\boldsymbol{c}_{i}-\boldsymbol{c}_{j}\right\|^{2}\right\rangle, \delta_{2}^{2}=\left\langle\left\|\boldsymbol{d}_{i}-\boldsymbol{d}_{j}\right\|^{2}\right\rangle $，其中〈·〉为求期望操作(Blake等，2004)，计算方式为对图像中所有超像素对的$ \left\|\boldsymbol{c}_{i}-\boldsymbol{c}_{j}\right\|^{2}$求均值。通常情况下，参数$ \lambda_{1}$和$\lambda_{2} $均设置为0.1。由定义可知，两个相邻超像素之间的颜色向量的差异和深度值的差异越小，${\beta _{ij}} $越大，显著标签之间的约束强度越大，当这两个像素取不一样的标签时，能量函数给予较大的惩罚，因此具有相似颜色和深度的两个相邻超像素更可能具有相同的显著标签。融合模型的目标是将能量函数最小化，数据项能量约束了多模态显著图与最终显著标签之间的差异，平滑项能量约束了相邻超像素的显著标签之间的差异，假如某超像素上多模态显著值不一致，产生竞争，导致难以获得准确的融合结果，此时借助邻域平滑约束，将当前超像素与相邻超像素的显著值拉近，可以获得更可靠的融合结果。2.2基于CNN的权重学习网络多模态显著性线索在不同类型的场景中各有优势和劣势，为了能自适应地调节多模态显著图的权重，本文方法的训练环节是基于CNN的权重学习网络来训练多模态显著图在能量函数中的权重因子。网络结构如图 2所示，利用了残差网络ResNet(residual network)(He等，2016)中提出的“残差连接”的结构。从图中可以看到，第2个卷积层的输入和第3个卷积层的输出之间存在残差连接。网络中最后一个卷积层输出维度为3，其他所有卷积层输出为64，所有卷积核大小为3×3，每个卷积层后有对应的批标准化(batch normalization, BN)层和ReLU(rectified linear units)激活函数。网络输入为彩色图$ \boldsymbol{I} $、深度图$\boldsymbol{D} $、运动矢量图$ \boldsymbol{M}$、平面显著图$ {\boldsymbol{S}}_S$、深度显著图$ {\boldsymbol{S}}_D$和运动显著图$ {\boldsymbol{S}}_M$，将它们沿特征维度拼接，输入到网络，将输出上采样到与输入尺寸一致，得到3幅显著图对应的权重图$ \boldsymbol{w}=\left\{\boldsymbol{w}_{s}, \boldsymbol{w}_{d}, \boldsymbol{w}_{m}\right\}$，将权重图与显著图对应元素求和，并将求和后结果分别相加，得到显著图$\boldsymbol{S}^{*}=\boldsymbol{w}_{s} \odot \boldsymbol{S}_{S}+\boldsymbol{w}_{d} \odot \boldsymbol{S}_{D}+ \boldsymbol{w}_{m} \odot \boldsymbol{S}_{M}$，$\odot $表示对应元素相乘，计算$ {\boldsymbol{S}}^{*}$与真值图$\boldsymbol{G} $之间的损失，定义为Kullback-Leibler距离 5 $L\left(\boldsymbol{S}^{*}, \boldsymbol{G}\right)=\frac{1}{W \times H} \sum\limits_{x=1}^{W} \sum\limits_{y=1}^{H}\left(G(x, y) \log \frac{G(x, y)}{S^{*}(x, y)}\right)$ 图2 基于CNN的多模态显著图的权重学习网络 The CNN based weight-learning network for multi-modality saliency mapsFig 2式中，$ W$和$ H$分别为图像的宽和高。模型训练好之后，将多模态显著图的权重加入到全局能量函数。具体地，每张显著图上每个像素具有一个权重值，对于第$k $张显著图上第$ i$个超像素$ {f_i^k}$，将该超像素对应的所有像素的权重值求平均值，即得到全局能量函数数据能量项中的权重$\alpha _i^k $。最后，利用置信度传播算法优化能量函数，将算法收敛之后每个超像素的置信度作为最终显著值。3实验结果与分析3.1实验设置3.1.1数据集为了评价所提模型的性能，在两个RGB-D视频显著性数据集上进行实验，分别是IRCCyN(Institut de Recherche en Communications et Cybernétique de Nantes)数据集(Fang等，2017)和DML-iTrack-3D(Digital Multimedia Lab iTrack-3D)数据集(Banitalebi-Dehkordi等，2016)。IRCCyN数据集由47个视频组成，DML-iTrack-3D数据集包含27个视频，两个数据集中的每个视频均包含彩色图序列、深度图序列和对应的人眼注视密度图(真值图)。随机选择IRCCyN数据集中的34个视频和DML-iTrack-3D数据集中的16个视频作为训练集，其余视频作为测试集。3.1.2评价指标选择了显著性检测领域5个常用的指标来客观评价模型的性能，分别是：1) AUC(area under curve)。受试者工作曲线(receiver operating characteristic curve, ROC)下的面积，将检测显著图作为二值分类器，与真值显著图进行比较, 画出ROC曲线，计算得到AUC。AUC值在[0, 1]之间，值越大模型性能越好。2) Shuffled AUC(sAUC)。AUC的变体，为了消除中心偏向效应的影响，随机地从其他显著图中挑选负类样本。3) 相似性度量(similarity, SIM)。将检测显著图和真值图显著值之和分别归一化为1，计算每个像素两个显著值之间最小值之和，若SIM值为1，则说明检测显著图与真值图完全一致。4) 皮尔逊相关系数(Pearson correlation coefficient, PCC)。衡量检测显著图和真值图之间的线性关系，当PCC为+1或-1时，说明两幅图具有完全的正/负相关关系。5) 标准化扫描路径显著性(normalized scanpath saliency, NSS)。将检测显著图归一化为零均值，单位标准差，NSS为注视点位置所有显著值之和，NSS越大，模型性能越好。3.1.3网络实现细节将输入图像尺寸归一化到224×224像素，并随机水平和竖直翻转来扩充训练集。每个卷积层的参数进行随机高斯初始化，每次训练小批量样本的数量设置为16，初始学习率为1E-4，权重衰减为0.000 5，使用Adam优化器对网络训练10~15次。整个网络在配置有GTX TITAN X GPU的服务器上实现，在测试阶段，检测一个视频帧大约需要0.025 s。3.2模型对比结果为了评估所提模型的性能，选择了6个典型的显著性模型进行比较，分别是2个2D图像显著性模型：Itti(Itti等，1998)和SUN(top-down saliency using natural statistics)(Zhang等，2008)；1个2D视频显著性模型：GBVS(graph-based visual saliency)(Harel等，2006)；1个RGB-D图像显著性模型：Fang3DI(Fang等，2014)；2个RGB-D视频显著性模型：Zhang(Zhang等，2010)和Fang3DV(Fang等，2017)。在IRCCyN数据集和DML-iTrack-3D数据集上的对比结果分别列在表 1和表 2中。可以看出，在IRCCyN数据集上两个RGB-D图像显著性模型的性能均比两个RGB图像显著性模型的性能好，说明深度线索在立体视觉显著性检测中具有优势。RGB视频显著性模型GBVS性能较为突出，说明视频数据集中运动线索是不可忽略的。DML-iTrack-3D数据集的背景更加复杂，对显著性模型的挑战更高，Zhang模型的性能差于Itti模型，说明除了显著性线索外模型方法非常重要，合适的方法才能充分利用多模态线索的优势。所提模型在两个数据集上的AUC、sAUC、SIM、PCC和NSS指标均为最高，说明所提出的模型充分地利用了多模态线索的优势，利用条件随机场模型避免了相互竞争带来的噪声，还利用CNN网络学习了多模态线索在融合模型中的权重，有效地提高了显著性检测的性能。为了定性地观察所提模型的优点，提供了一些不同模型的显著图样本，以热图形式展示，如图 3所示。Itti和GBVS作为2D显著性模型，倾向于突出色彩、纹理和边缘等对比度高的区域，与真值图差距较大。相比之下，具有多种显著性特征的Fang3DI和Fang3DV能更准确地检测注视点的位置，但仍存在一定的背景噪声。所提模型不仅有效地融合了多模态显著性线索的优势，而且通过邻域约束减少了背景噪声的影响，检测的注视点位置与真值图更加一致。表1 IRCCyN数据集上各模型对比结果算法指标 AUC sAUC SIM PCC NSS Itti 0.724 3 0.768 8 0.335 5 0.301 0 1.322 8 SUN 0.667 6 0.723 9 0.304 5 0.239 5 1.039 9 GBVS 0.797 3 0.819 1 0.373 4 0.366 2 1.485 8 Fang3DI 0.783 2 0.815 4 0.356 4 0.379 7 1.586 3 Zhang 0.584 0 0.628 4 0.248 7 0.139 8 0.730 0 Fang3DV 0.797 3 0.830 7 0.350 2 0.403 6 1.625 5 本文 0.815 5 0.849 7 0.443 9 0.490 6 2.538 4 Comparison results of different methods on IRCCyN datasetTable 1 加粗字体为每列最优值。表2 DML-iTrack-3D数据集上各模型对比结果算法指标 AUC sAUC SIM PCC NSS Itti 0.724 5 0.734 7 0.174 7 0.203 2 1.009 0 SUN 0.607 4 0.613 8 0.140 8 0.092 7 0.413 6 GBVS 0.786 0 0.776 0 0.199 2 0.259 4 1.179 0 Fang3DI 0.767 5 0.750 2 0.192 4 0.242 3 1.065 3 Zhang 0.569 9 0.575 4 0.152 8 0.056 3 0.211 1 Fang3DV 0.760 0 0.742 3 0.188 1 0.235 5 1.042 1 本文 0.801 9 0.786 8 0.257 1 0.286 8 1.453 2 Comparison results of different methods on DML-iTrack-3D datasetTable 2 加粗字体为每列最优值。图3 不同显著性线索和融合结果的定性对比 Qualitative comparison of different saliency cues and fusion resultsFig 3((a)RGB images; (b)GT; (c)ours; (d) Itti; (e)SUN; (f)GBVS; (g)Fang3DI; (h)Zhang; (i)Fang3DV) 3.3不同显著性线索和融合方法的对比结果为了客观评价所提显著图融合算法的贡献，进行了一系列实验来比较不同的显著性线索和几种典型的融合方法：分别是取最大值(MAX)、求和(SUM)、相乘(MUL)。另外，为了验证基于CNN的权重学习网络的贡献，将能量函数中多模态显著图的权重固定为相等权重，得到对比模型：w/o-CNN。对比结果列于表 3中，在单个线索的显著图中，平面显著图的表现不如其他显著图，这意味着传统的2D显著性模型不适用于RGB-D视觉显著性，深度线索和运动线索是非常重要的。因此，对RGB-D视觉显著性进行多模态显著性线索提取是十分必要的。从表 3可以看出，并不是所有的融合方法都优于单独的显著性线索。例如，MAX融合方法的部分指标低于单个显著图，这说明不恰当的融合方法会受到性能较差的显著性线索的影响，导致融合结果不理想。相比之下，所提出的基于条件随机场的融合方法，既考虑了多模态显著性线索的贡献，又引入了相邻超像素间的内部约束避免噪声，使显著图更加平滑。此外，去掉权重学习网络之后，仅在PCC指标上略高于所提模型，其他指标均有降低，说明利用CNN网络学习多模态显著性线索在模型中的权重，使它们在不同场景中充分发挥各自的优势，有助于提高显著性模型的性能。表3 IRCCyN数据集不同显著性线索和融合方法的对比结果 Cues/Fusion 指标 AUC sAUC SIM PCC NSS 平面显著图 0.733 4 0.772 8 0.350 2 0.330 0 1.544 3 深度显著图 0.790 1 0.822 0 0.364 4 0.399 2 1.617 8 运动显著图 0.784 3 0.826 4 0.382 8 0.408 5 2.025 6 MAX 0.784 4 0.824 3 0.349 2 0.398 3 1.699 9 SUM 0.809 6 0.848 4 0.372 1 0.465 8 2.061 9 MUL 0.787 2 0.833 9 0.431 8 0.453 3 2.512 1 w/o-CNN 0.813 2 0.849 3 0.432 6 0.492 1 2.434 1 本文 0.815 5 0.849 7 0.443 9 0.490 6 2.538 4 Comparison results among different saliency cues and fusion methods on IRCCyN datasetTable 3 加粗字体为每列最优值。此外，还提供了一些显著图的可视化样本，如图 4所示。显然，不同模态的显著性线索检测了不同的注视位置，平面显著图聚焦于颜色、亮度和文本对比度高的区域；深度显著图检测了在深度维度上区别与邻近区域的部分；运动显著图检测了相对运动明显的区域。提出的基于条件随机场的融合方法有效地结合了来自不同模态显著图的有用信息，并通过相邻区域间的内部约束削弱了相互竞争带来的噪声，获得了更准确的检测结果。图4 不同显著性线索和融合结果的定性对比 Qualitative comparison of different saliency cues and fusion resultsFig 4((a)RGB images; (b) depth map; (c) GT; (d)ours; (e)2D saliency; (f)depth saliency; (g)motion saliency) 4结论不同模态的多视觉线索融合是RGB-D视频显著性检测的一个关键问题。针对该问题，本文设计了一种基于超像素下条件随机场的RGB-D显著性检测模型。所提出的方案包括两个阶段：第1阶段，提取3维场景不同模态的视觉线索，包括平面、深度和运动等多模态线索；第2阶段，提出了一个基于条件随机场的显著图融合模型，设计全局能量函数，联合多模态线索的影响和邻域显著值平滑约束，将显著图融合建模为全局优化问题。另外，还利用CNN网络来学习多模态线索在能量函数中的权重，使得不同线索在不同场景中可以自适应地发挥优势。因此，所提模型充分利用了多模态线索的优势，并避免了多模态线索之间的竞争带来的噪声，获得了更好的融合结果。实验结果表明，在两个RGB-D视频显著性数据集上，本文模型的5个评价指标结果均优于其他先进的模型。在此基础上，本文模型可以利用多模态视觉线索之间的相关性来检测3维动态场景的视觉显著性，相信该方案能在未来基于视觉的多种应用领域中发挥关键作用。所提出的算法结合了传统方法和深度学习方法，目前仅利用深度学习模型解决了多模态视觉信息的融合机制。下一步将研究如何更有效地结合传统方法和深度学习方法，使两者取长补短，让深度学习在更多的环节发挥作用。