Print

发布时间: 2020-06-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190395
2020 | Volume 25 | Number 6




    图像分析和识别    




  <<上一篇 




  下一篇>> 





多尺度卷积神经网络显著物体检测
expand article info 张晴, 左保川, 石艳娇, 戴蒙
上海应用技术大学计算机科学与信息工程学院, 上海 201418

摘要

目的 传统显著性检测模型大多利用手工选择的中低层特征和先验信息进行物体检测,其准确率和召回率较低,随着深度卷积神经网络的兴起,显著性检测得以快速发展。然而,现有显著性方法仍存在共性缺点,难以在复杂图像中均匀地突显整个物体的明确边界和内部区域,主要原因是缺乏足够且丰富的特征用于检测。方法 在VGG(visual geometry group)模型的基础上进行改进,去掉最后的全连接层,采用跳层连接的方式用于像素级别的显著性预测,可以有效结合来自卷积神经网络不同卷积层的多尺度信息。此外,它能够在数据驱动的框架中结合高级语义信息和低层细节信息。为了有效地保留物体边界和内部区域的统一,采用全连接的条件随机场(conditional random field,CRF)模型对得到的显著性特征图进行调整。结果 本文在6个广泛使用的公开数据集DUT-OMRON(Dalian University of Technology and OMRON Corporation)、ECSSD(extended complex scene saliency dataset)、SED2(segmentation evalution database 2)、HKU、PASCAL-S和SOD(salient objects dataset)上进行了测试,并就准确率—召回率(precision-recall,PR)曲线、F测度值(F-measure)、最大F测度值、加权F测度值和均方误差(mean absolute error,MAE)等性能评估指标与14种最先进且具有代表性的方法进行比较。结果显示,本文方法在6个数据集上的F测度值分别为0.696、0.876、0.797、0.868、0.772和0.785;最大F测度值分别为0.747、0.899、0.859、0.889、0.814和0.833;加权F测度值分别为0.656、0.854、0.772、0.844、0.732和0.762;MAE值分别为0.074、0.061、0.093、0.049、0.099和0.124。无论是前景和背景颜色相似的图像集,还是多物体的复杂图像集,本文方法的各项性能均接近最新研究成果,且优于大多数具有代表性的方法。结论 本文方法对各种场景的图像显著性检测都具有较强的鲁棒性,同时可以使显著性物体的边界和内部区域更均匀,检测结果更准确。

关键词

显著性物体检测; 显著性; 卷积神经网络; 多尺度特征; 数据驱动

A multi-scale convolutional neural network for salient object detection
expand article info Zhang Qing, Zuo Baochuan, Shi Yanjiao, Dai Meng
School of Computer Science and Information Engineering, Shanghai Institute of Technology, Shanghai 201418, China
Supported by: National Natural Science Foundation of China (61806126)

Abstract

Objective Salient object detection aims to localize and segment the most conspicuous and eye-attracting objects or regions in an image. Its results are usually expressed by saliency maps, in which the intensity of each pixel presents the strength of the probability that the pixel belongs to a salient region. Visual saliency detection has been used as a pre-processing step to facilitate a wide range of vision applications, including image and video compression, image retargeting, visual tracking, and robot navigation. Traditional saliency detection models focus on handcrafted features and prior information for detection, such as background prior, center prior, and contrast prior. However, these models are less applicable to a wide range of problems in practice. For example, salient objects are difficult to recognize when the background and salient objects share similar visual attributes. Moreover, failure may occur when multiple salient objects overlap partly or entirely with one another. With the rise of deep convolutional neural networks (CNNs), visual saliency detection has achieved rapid progress in the recent years. It has been successful in overcoming the disadvantages of handcrafted-feature-based approaches and greatly enhancing the performance of saliency detection. These CNNs-based models have shown their superiority on feature extraction. They also efficiently capture high-level information on the objects and their cluttered surroundings, thus achieving better performance compared with the traditional methods, especially the emergence of fully convolutional networks (FCN). Most mainstream saliency detection algorithms are now based on FCN. The FCN model unifies the two stages of feature extraction and saliency calculation and optimizes it through supervised learning. As a result, the features extracted by FCN network have stronger advantages in expression and robustness than do handcrafted features. However, existing saliency approaches share common drawbacks, such as difficulties in uniformly highlighting the entire salient objects with explicit boundaries and heterogeneous regions in complex images. This drawback is largely due to the lack of sufficient and rich features for detecting salient objects. Method In this study, we propose a simple but efficient CNN for pixel-wise saliency prediction to capture various features simultaneously. It also utilizes ulti-scale information from different convolutional layers of a CNN. To design a FCN-like network that is capable of carrying out the task of pixel-level saliency inference, we develop a multi-scale deep CNN for discovering more information in saliency computation. The multi-scale feature extraction network generates feature maps with different resolution from different side outputs of convolutional layer groups of a base network. The shallow convolutional layers contain rich detailed structure information at the expense of global representation. By contrast, the deep convolutional layers contain rich semantic information but lack spatial context. It is also capable of incorporating high-level semantic cues and low-level detailed information in a data-driven framework. Finally, to efficiently preserve object boundaries and uniform interior region, we adopt a fully connected conditional random field (CRF) model to refine the estimated saliency map. Result Extensive experiments are conducted on the six most widely used and challenging benchmark datasets, namely, DUT-OMRON(Dalian University of Technology and OMRON Corporation), ECSSD(extended complex scene saliency dataset), SED2(segmentation evalution database 2), HKU, PASCAL-S, and SOD (salient objects dataset). The F-measure scores of our proposed scheme on these six benchmark datasets are 0.696, 0.876, 0.797, 0.868, 0.772, and 0.785, respectively. The max F-measure scores are 0.747, 0.899, 0.859, 0.889, 0.814, and 0.833, respectively. The weighted F-measure scores are 0.656, 0.854, 0.772, 0.844, 0.732, and 0.762, respectively. The mean absolute error (MAE) scores are 0.074, 0.061, 0.093, 0.049, 0.099, and 0.124, respectively. We compare our proposed method with 14 state-of-the-art methods as well. Results demonstrate the efficiency and robustness of the proposed approach against the 14 state-of-the-art methods in terms of popular evaluation metrics. Conclusion We propose an efficient FCN-like salient object detection model that can generate rich and efficient features. The algorithm used in this study is robust to image saliency detection in various scenarios. Simultaneously, the boundary and inner area of the salient object are uniform, and the detection result is accurate.

Key words

salient object detection(SOD); saliency; convolutional neural network(CNN); multi-scale features; data-driven

0 引言

显著性物体检测(salient object detection,SOD)是检测和分割图像中最引人注目的物体或区域,结果通常由灰度图表示,图中每个像素的灰度值表示该像素属于显著性物体的概率。显著性物体检测已经成为许多计算机视觉应用的重要预处理步骤,包括图像和视频压缩(Guo和Zhang,2010)、图像重定位(Goferman等,2012)、视频跟踪(Hong等,2015)和机器人导航(Craye等,2016)等。

尽管显著性物体检测方法的各项检测性能已得到明显提升,但它在计算机视觉任务中仍然有一些瓶颈需要突破。传统的显著性物体检测方法专注于手工选择的图像中低层特征,并使用各种先验知识计算显著性,例如对比度先验(Yang等,2013)、中心先验(Yan等,2013Tong等,2014)、背景先验(Li等,2015aZhu等,2014Qin等,2015)和物体性先验(Zhang等,2018aLi等,2015b)等。然而,在实际问题中这些模型的检测效果不尽如人意,例如,当背景和前景物体共享一些相似的视觉特征时,很难检测出前景物体(见图 1(c)(d)的第1行)。此外,当多个显著物体部分或完全重叠时,可能会导致检测失败(见图 1(c)(d)的第2行)。

图 1 不同方法结果的视觉比较
Fig. 1 Comparisons of results of different kinds of methods((a) input images; (b) ground truth; (c) 1st non-deep learning method; (d) 2nd non-deep learning method; (e) deep learning method; (f) ours)

基于卷积神经网络(convolutional neural network,CNN)的方法在众多计算机视觉任务中成功地突破了传统手工选择特征方法的性能瓶颈,如图像分类(Krizhevsky等,2012)、语义分割(Long等,2015)等。同样,基于CNN的显著性物体检测方法(Li等,2016Lee等,2016Li和Yu,2015)成功地克服了传统的基于手工选择特征方法的缺点,大大提高了检测性能。这些基于CNN的模型已经展示了它们在特征提取方面的优势,可以更好地捕获杂乱背景下物体的高级语义信息,从而实现比传统方法更好的性能,见图 1(e)(f)

通常,每个对象物体可以由3个不同级别的特征表示,即低级、中级和高级。低级特征主要对应于深度卷积网络的浅层特征,例如纹理、颜色和边缘。中级特征涉及物体形状和轮廓信息,而高级特征与对象的语义信息相关。虽然仅使用高级语义信息可以带来检测性能的提升,但其他级别的特征对于检测显著性物体也很重要。因此,在CNN模型中提取并融合各个级别的有效特征信息是一个关键且具有挑战性的问题。标准的卷积神经网络通常由重复卷积层的级联组成,较深的卷积层以牺牲空间分辨率为代价对语义信息进行编码,较浅的卷积层包含更多物体结构的细节信息但缺乏全局属性。

本文提出了一种简单但有效的深度卷积神经网络模型,用于像素到像素预测的显著性检测任务,可以有效地结合多层次特征,在复杂图像上同时捕获独特的高级语义信息和浅层的细节信息。该深度网络包含一个特征提取模块和一个特征融合模块。特征提取模块不仅可以在不同尺度上生成有效的高级语义特征,还可以捕获低级和中级特征图之间微妙的视觉对比特性,以进行精确的显著性检测。本文工作的主要贡献有:

1) 提出了一种新的基于全卷积网络(fully convolutional networks,FCN)的深度卷积网络用于显著物体检测,进行像素级预测,可以从杂乱背景图像中有效学习丰富的多尺度多层次特征。该模型能学习图像的全局和局部特征,避免不相关的背景信息的干扰。

2) 引入多尺度多特征的特征融合机制。模型结合深度卷积网络的浅层特征图和深层特征图,明显提高了检测性能,且无需使用人为手工选择的特征作为补充。

3) 根据5种常用的评价指标,对本文方法在DUT-OMRON(Dalian University of Technology and OMRON Corporation)、ECSSD(extended complex scene saliency dataset)、SED2(segmentation evalution database 2)、HKU、PASCAL-S和SOD(salient objects dataset)基准数据集上进行定量和定性分析,从而证明方法的有效性。

1 相关工作

通常,显著性检测方法可大致分为两类:人的眼动预测和显著物体检测。前者主要用于模拟人类视觉注意机制,而后者旨在从周围环境中检测和分割每一个完整的显著性物体(Liu等,2011)。

1.1 人工选择特征

传统的显著性物体检测方法通常使用人为手动选择的像素或超像素级别的特征(Itti等,1998Li等,2015aWang等,2017)。其中大多数算法通过基于局部或全局(Perazzi等,2012)特征进行对比计算,例如颜色、方位和纹理等。基于局部的方法使用每个像素或区域的稀有度、对比度或独特性来获得其周围环境中具有代表性的像素或区域。基于全局的方法通过使用整体对比度和特征统计来估计每个像素或区域的显著性。虽然它们易于实施,但缺乏几何结构线索和语义信息,因此基于对比度的算法不能均匀检测出完整的显著性物体,同时也不能有效抑制复杂图像中的杂乱背景。

一些研究者提出建立基于超像素的图模型来计算像素间对比度。主要通过背景先验、中心先验和紧凑性先验来计算显著性。Yang等人(2013)把显著性检测模型作为一种流形排序问题,并根据背景先验设计两步方案进行显著性检测。Zhu等人(2014)定义了鲁棒性更强的边界连接先验。基于图模型的方法是对图像的基础几何结构信息和对比度信息进行编码,因此可以更好地处理具有复杂内容的图像。然而,由于该方法也采用人为手动选择的特征和启发式先验方式来衡量显著性,在面对具有挑战性的复杂场景时,检测结果仍然差强人意。

1.2 深度卷积网络提取特征

传统显著物体检测方法主要依赖于人为手动选择的图像中低层特征,无法描述深层的语义特征信息。因此,无法在复杂图像中准确检测出显著性物体。目前,深度神经网络技术在计算机视觉任务中得到广泛应用,大幅度提高了算法性能。对显著物体检测任务而言,在监督学习的模式下,数据驱动模型旨在从一组具有像素级标签的训练数据中直接获取显著性物体的语义信息。基于CNN的显著性检测方法可分为两类,基于超像素分割的模型(Wang等,2016)和基于FCN的显著性检测模型(Li等,2016Liu和Han,2016)。前者以超像素为基本单元来训练深度神经网络以预测显著性,位于同一超像素中的所有像素在最终预测图中享有相同的显著性值。Wang等人(2015)使用CNN计算局部上下文中每个像素的显著性得分,然后在全局视图中微调每个物体区域的显著性得分。Li和Yu(2015)通过在多上下文CNN中同时结合局部上下文和全局上下文来预测每个超像素的显著性得分。Zhao等人(2015)利用全局上下文和局部上下文信息,并将其集成到基于深度卷积网络的主干网络中进行显著性检测。然而,这些基于超像素的方法往往是单独处理局部区域,不能有效地捕获显著性物体的全局信息。此外,它们依赖于图像的过分割方法,所以网络必须运行多次才能计算图像中所有超像素的显著性值,导致算法非常耗时。最后,它们忽略了重要的空间上下文信息,因为它们仅仅是为每个超像素分配显著性值,而在实际情况中,图像的上下文信息对于显著性检测是非常有用的。

为了克服这些缺点,研究人员倾向于采用FCN模型以像素到像素的方式检测显著目标。Li等人(2016)利用端到端卷积神经网络计算图像内部的视觉对比度信息。Liu和Han(2016)设计了一个两步走的深度网络,通过自主学习全局性显著线索获得粗略的全局预测,然后采用另一个网络通过整合局部上下文信息来进一步微调预测图的细节。在此基础上,Li等人(2016)提出了通过共享特征进行分割和显著性检测网络,并提出了一个图拉普拉斯正则化非线性回归模型用于显著性调整。

虽然这些基于深度学习的方法已经取得了明显进步,但是基于CNN的模型仍然有很大的改进空间,使其可以在杂乱背景的复杂图像中均匀地突出整个显著性物体并保留精确的边界信息。

2 本文方法

2.1 算法整体结构

本文提出的显著性物体检测算法主要包括两个步骤:1)多尺度全卷积网络;2)显著性更新方法。步骤1)提取并组合来自每组卷积层的丰富特征。步骤2)通过全连接的条件随机场(conditional random field,CRF)模型更新来自深度神经网络的预测结果,从而产生更精细的显著性检测结果。

2.2 多尺度全卷积网络

为了设计出能够学习像素到像素的显著性检测任务的FCN网络,提出了一种多尺度深度卷积神经网络,用于挖掘更多有利于显著性检测的多尺度多层次特征信息。提出的神经网络模型如图 2所示,由两部分组成:多尺度特征提取模块和特征融合模块。

图 2 本文多尺度卷积神经网络结构
Fig. 2 The pipeline of proposed multi-scale convolutional neural network

2.2.1 特征提取模块

多尺度特征提取模块是从主干网络的不同卷积组的侧边输出具有不同分辨率的特征图。所提模型采用已在ImageNet数据集进行图像分类预训练的VGGNet-16(visual geometry group)(Simonyan和Zisserman,2015)作为主干网络,并对其进行修改以满足要求。保留其13个卷积层,移除第5个池化层以及后面的全连接层,修改后的VGGNet由5组卷积层构成。为求简洁,将第5组卷积层中的第3个子层表示为Conv5_3。VGGNet中的其他卷积层也用这个方法表示。对于输入图像(256×256像素),修改后的VGGNet-16产生5个特征图$ \boldsymbol{f} ^{a}_{1}, \boldsymbol{f} ^{a}_{2}, …, \boldsymbol{f} ^{a}_{5}$,其空间分辨率按步幅2递减,这些特征图分别由(Conv1_2,Conv2_2,…,Conv5_3)产生。来自Convl_2的特征图具有最大的空间分辨率,而来自Conv5_3的特征图$\boldsymbol{f} ^{a}_{5}$具有最小的空间分辨率。

2.2.2 特征融合模块

不同的卷积层通常产生不同的特征表示,从低级结构特征到高级语义特征。浅层卷积层包含丰富的细节信息,深层卷积层包含丰富的语义信息但缺乏空间上下文信息。特征融合模块涉及多尺度卷积特征的融合。

对于每个特征图$\boldsymbol{f} ^{a}_{i}(i∈\{1, 2, …, 5\})$,通过一个3×3卷积层和一个5×5卷积层来获得特征图$\boldsymbol{f} ^{b}_{i}$。将其通道数设置为VGGNet-16的第$i$个侧边输出的通道数。然后,通过采用一个单通道的1×1卷积层进行降维,得到5个特征图$\boldsymbol{f} ^{c}_{i}(i∈\{1, 2, …, 5\})$,大小分别为256×256像素,128×128像素,64×64像素,32×32像素和16×16像素。为了使这些特征图$\boldsymbol{f} ^{c}_{i}$具有与输入图像相同的尺寸,采用去卷积操作的方法并使用双线性插值对特征图进行上采样。这5个侧边输出层中的去卷积层的步幅分别设置为1、2、4、8和16。然后将这些具有相同分辨率的特征图$\boldsymbol{f} ^{d}_{i}$拼接在一起,最后通过一个$1×1$的卷积层生成显著性预测图$\boldsymbol{S}$。在训练阶段,使用随机梯度下降(stochastic gradient descent,SGD)方法来最小化所有训练样本。

为了模拟整个图像的空间相关性并减少计算量,使用基于全卷积的网络结构。全卷积操作具有通过整个图像共享卷积特征的能力,从而减少特征冗余,使得全卷积网络模型简单而有效。

2.3 空间连续性的优化

本文提出的使用多层次特征进行显著性检测的算法可以精确定位显著性对象并有效地抑制杂乱背景,但是提出的多尺度全卷积网络的显著性预测图较为粗糙,显著性物体的轮廓信息得不到很好保留。为了提高检测结果的空间连续性,在测试阶段,所提算法额外采用基于全连接的CRF(Krähenbühl和Koltun,2011)方法对网络得到的显著性图进行逐像素显著性更新。该方法解决了二值像素标签分配问题,并采用以下能量函数进行计算,即

$ E(L)=-\sum\limits_{ i} {\rm log}P(l_{i})+\sum\limits_{ i, j}θ_{ij}(l_{i}, l_{j}) $ (1)

式中,$i$$j$分别表示像素在图像中的横纵坐标位置,$L$代表所有像素的二值标签,$P(l_{i})$是具有标签$l_{i}$像素$x_{i}$的概率,它表示像素$x_{i}$属于显著性物体的可能性。最初$P(1)=S_{i}$$P(0)=1-S_{i}$,其中$S_{i}$是来自融合的显著图$\boldsymbol{S}$的像素$x_{i}$处的显著性得分,即二元势函数$θ_{ij}(l_{i}, l_{j})$是成对的,并定义为

$ \begin{array}{c} θ_{ij}=μ(l_{i}, l_{j})[ω_{1}{\rm exp} (- \frac{{{\left\| {p_{i}-p_{j}} \right\| }^{2}}}{{2σ^{2}_{α}}})-\frac{{{\left\| {I_{i}-I_{j}} \right\|}^{2}}}{{2σ^{2}_{β}}}+ \\ ω_{2}{\rm exp}(- \frac{{{\left\| {p_{i}-p_{j}} \right\|}^{2}}}{{2σ^{2}_{γ}}})] \end{array} $ (2)

式中,$p_{i}$$I_{i}$分别代表像素$x_{i}$的位置和像素值,$ω_{1}, ω_{2}, σ_{α}, σ_{β}, σ_{γ}$是权值。如果$l_{i}≠l_{j}$,则$μ(l_{i}, l_{j})=1$,其余则为0。$θ_{ij}$包含两个卷积核,第1个卷积核依赖于像素的位置$p$和像素强度$I$,该卷积核使得具有相似颜色的邻近像素具有相似的显著性分数。第2个卷积核用于删除小的孤立区域。

图 3所示,不带CRF的多尺度全卷积网络的融合显著图比较粗糙,并且不能均匀显示显著性物体的内部区域,而经CRF更新的显著图很好地保留了显著性对象轮廓并且均匀地突出了整个显著性对象。

图 3 有无CRF方法的显著性检测结果对比
Fig. 3 Comparison of saliency detection results with and without CRF ((a) input; (b) ground truth; (c) final saliency map without CRF; (d) final saliency map with CRF)

3 实验结果与分析

3.1 基准数据集

为评估算法性能,本文在6个基准数据集上进行了一系列定性和定量实验,这些数据集有像素级的标签,包括DUT-OMRON,ECSSD(extended complex scene saliency dataset),SED2(Alpert等,2012),HKU,PASCAL-S(Li等,2014)和SOD(salient objects dataset)(Movahedi和Elder,2010)。HKU是一个具有超过4 000幅挑战性图像的大型数据集,其中大多数图像具有低对比度并且有多个显著性物体。DUT-OMRON包括5 168幅具有一个或多个显著性物体和背景相对复杂的图像。ECSSD包含1 000幅语义上有意义但复杂的图像。PASCAL-S包含从具有20个对象类别的PASCAL-VOC (Everingham等,2010)分割数据集中选择的850幅真实世界的图像。SED2是一个多物体数据集,通常每幅图像中包含两个显著性对象物体。SOD由850幅图像组成,包含一个或多个对象并具有杂乱背景。相比之下,HKU、PASCAL-S和SOD数据集因其图像中存在多个显著对象且背景杂乱而更具挑战性。

3.2 评估指标

使用5个普遍认可的评估指标来衡量算法性能,包括准确率—召回率(precision-recall,PR)曲线,F测度(F-measure),最大F测度(max F-measure,maxF),加权F测度(weighted F-measure,$ω$F)和平均绝对误差(mean absolute error,MAE)。

PR曲线:准确率指的是在所有预测为正例的数据中,正例所占的比例。召回率是指预测为真正例的数据占所有正例数据的比例。显著性特征图用固定阈值进行分段,阈值从0~255。在每个阈值上,计算一对准确率—召回率分数,用于形成准确率—召回率曲线,以描述不同情况下算法的性能。

F测度和最大F测度:F-measure是准确率和召回率的综合定量指标,计算为

$ F_{β}= \frac{{(1+β^{2})·P·R}}{{β^{2}·P+R}} $ (3)

式中,$β$是平衡参数,$P$为准确率,$R$为召回率。在本文中,$β^{2}$设置为0.3以提高重要的准确率比重,如Yang等人(2013)所建议的,使用自适应阈值来获得显著图的二值掩模,用于计算其准确率和召回率分数。阈值设置为整个图像的平均显著值的两倍。最大F测度定义为利用PR曲线中的准确率—召回率对计算得到最大的F测度值。

加权F测度:该指标(Margolin等,2014)是F测度的加权版本,它修正了F测度的插值、依赖性和同等重要性缺陷。与F测度类似,加权F测度是用加权准确率$P^{ω}$和加权召回率$R^{ω}$的加权调和平均值计算得到,即

$ F^{ω}= \frac{{(1+β^{2})·P^{ω}·R^{ω}}}{{β^{2}·P^{ω}+R^{ω}}} $ (4)

均方误差(mean absolute error, MAE)用来衡量平均误差,它定义为真值图和预测显著图之间的平均像素的绝对误差

$ M= \frac{{1}}{{h·w}}\sum\limits^ h_{i=1}\sum\limits^ w_{j=1}\left| {S_{ij}-G_{ij}} \right| $ (5)

式中,$\boldsymbol{S}$表示显著图,$\boldsymbol{G}$表示真值图,$h$$w$表示图像的高度和宽度。

3.3 实施细节

本文模型的训练和测试是在具有Intel i7-7700k CPU(4.2 GHz)和32 GB RAM的台式计算机上,使用MATLAB 2016b实现。

本文网络基于公开的Caffe(Jia等,2014)库,这是一个用于CNN训练和测试的开源框架。更具体地说,在特征提取模块中使用预先训练的VGGNet-16网络模型并对其进行修改,在特征融合模块中随机初始化卷积层的参数。在MSRA-B数据集上对整个网络进行微调,以实现像素到像素的显著性检测任务。MSRA-B是公开的数据集,包含5 000幅测试图像。将所有测试图像和真值图的分辨率调整为256×256像素进行训练,每次只加载1幅图像。学习率设置为10-9,权重衰减为0.000 5,动量为0.9,每个侧边输出的损失权重为1。此外,融合层权重在训练阶段均初始化为0.2。使用NVIDIA 1080TI GPU设备,采用随机梯度下降学习,40 000次迭代花费大约1天的时间。

通过在验证数据集ECSSD上采用交叉验证方法,确定本文算法采用的CRF的各个参数,在实验中,$ω_{1}, ω_{2}, σ_{α}, σ_{β}, σ_{γ}$的参数分别设置为3.0,1.0,8.0,60.0和5.0。

3.4 算法性能对比

将本文算法与其他14种具有代表性的显著物体检测方法进行比较,包括RFCN(recurrent fully convolutional network)(Wang等,2019),PAGR(progressive attention guided recurrent network)(Zhang等,2018b)、UCF(uncertain convolutional features)(Zhang等,2017b),SF(supervision by fusion)(Zhang等,2017a),DCL(deep contrast learning)(Li和Yu,2016a),MC(multi-context deep learning)(Zhao等,2015),MTDS(multi-task deep neural network)(Li等,2016),ELD(encoded low level distance map and high level features)(Lee等,2016),LEGS(local estimation and global search)(Wang等,2015),MDF(multi-scale deep CNN features)(Li和Yu,2016b),KSR(kernelized subspace ranking)(Wang等,2016),DRFI(discriminative regional feature integration)(Wang等,2017),SMD(structured matrix decomposition)(Peng等,2017)和RR(regularized random walks ranking)(Li等,2015a)。

为了比较的公平性,使用作者提供的模型进行显著图计算或使用作者提供的显著性图进行比较。其中RFCN、UCF、MTDS、ELD、DCL、SF、MC、LEGS、MDF和KSR是采用深度学习的方法。

3.4.1 定性比较

图 4显示了6个数据集上不同算法生成的显著图的视觉比较。实验结果表明,本文方法可以更好地处理各种复杂图像,不仅可以均匀地显示出整个显著性对象,而且可以在各种场景下很好地保留显著性对象的轮廓。该方法在各种复杂图像中表现良好,例如前景物体和背景对比度低(图 4第2行、第4行和第12行),触及图像边界的显著性对象(第8行和第9行),多个显著性对象(第6行和第8行),具有复杂纹理和结构的显著性对象(第1行、第3行、第8行和第11行)以及杂乱背景(第5行、第6行、第7行和第10行)等。

图 4 不同模型的视觉比较结果
Fig. 4 Visual comparison results based on different models on ECSSD dataset ((a)input image; (b) ground truth; (c) MDF; (d) MC; (e) DCL; (f) ELD; (g) MTDS; (h) SF; (i) UCF; (j) RFCN; (k) ours)

3.4.2 定量比较

对于定量评估,图 5显示了在6个基准数据集上本文方法和具有代表性的14种算法相应的PR曲线。可以看到:1)基于FCN的显著物体检测方法基本上优于其他方法;2)本文方法在ECSSD、DUT-OMRON、HKU、PASCAL-S和SOD数据集上具有竞争力,比MTDS、DCL、UCF和PAGR算法稍微逊色。

图 5 不同方法在6个数据集上显著性特征图的PR曲线比较
Fig. 5 PR curves of saliency maps produced by different approaches on six datasets ((a) DUT-OMRON; (b) ECSSD; (c) SED2; (d) HKU; (e) PASCAL-S; (f) SOD)

此外,将本文模型与现有方法在6个基准数据集上的F测度和加权F测度得分进行比较。结果如图 6图 7所示。用MAE和最大F测度分数进行评估的比较结果显示在表 1中。

图 6 不同方法在6个数据集上显著性特征图的F测度值比较
Fig. 6 F-measure scores of saliency maps produced by different approaches on six datasets ((a) DUT-OMRON; (b) ECSSD; (c) SED2; (d) HKU; (e) PASCAL-S; (f) SOD)
图 7 不同方法在6个数据集上显著性特征图的加权F测度值比较
Fig. 7 Weighted F-measure scores of saliency maps produced by different approaches on six datasets ((a) DUT-OMRON; (b) ECSSD; (c) SED2;(d) HKU; (e) PASCAL-S; (f) SOD)

表 1 不同方法在6个数据集上显著性特征图的MAE和最大F测度值对比
Table 1 MAE and maxF scores of saliency maps produced by different approaches on six datasets

下载CSV
方法 数据集
DUT-OMRON ECSSD HKU SED2 PASCAL-S SOD
MAE maxF MAE maxF MAE maxF MAE maxF MAE maxF MAE maxF
RR 0.184 0.617 0.183 0.744 0.172 0.712 0.173 0.784 0.226 0.652 0.259 0.646
SMD 0.166 0.624 0.173 0.759 0.155 0.742 0.158 0.820 0.206 0.690 0.234 0.679
DRFI 0.149 0.663 0.170 0.782 0.144 0.777 0.144 0.835 0.207 0.693 0.224 0.703
LEGS - - 0.118 0.827 0.130 0.747 0.141 0.752 0.159 0.745 0.195 0.736
MDF 0.091 0.694 0.105 0.831 0.112 0.860 0.123 0.659 0.142 0.758 0.224 0.702
MC - - 0.100 0.836 0.091 0.807 0.115 0.807 0.142 0.743 0.261 0.659
DCL 0.079 0.756 0.067 0.900 0.063 0.890 0.104 0.876 0.114 0.811 - -
ELD 0.090 0.705 0.078 0.868 - - - - 0.120 0.778 - -
MTDS 0.120 0.745 0.121 0.882 - - 0.134 0.873 0.175 0.762 0.189 0.784
KSR 0.130 0.678 0.132 0.829 0.120 0.792 0.152 0.781 0.154 0.767 0.197 0.744
SF 0.107 0.684 0.087 0.852 - - - - 0.130 0.759 0.156 0.769
UCF 0.120 0.729 0.069 0.903 0.062 0.887 0.074 0.887 0.115 0.816 0.147 0.806
PAGR 0.071 0.771 0.061 0.927 0.048 0.918 - - 0.090 0.849 - -
RFCN 0.077 0.733 0.066 0.782 0.054 0.883 0.108 0.865 0.130 0.816 0.144 0.808
本文 0.074 0.747 0.060 0.898 0.049 0.889 0.090 0.859 0.099 0.814 0.124 0.833
注:加粗、下划线和斜体数字分别表示排名前3的模型,“-”表示该算法没有提供显著图。

可知本文方法在SED2上比UCF表现差,可能是由于SED2中的大多数图像包含两个分离的小尺寸物体,而本文方法没有引入相应模块来处理这种情况。本文方法在6个数据集上综合各评价指标,比PAGR算法略差,分析可能原因有:1)PAGR算法使用了精度更高的VGG-19模型作为主干网络;2)PAGR算法引入了循环网络模块,能更好地由粗至细进行显著性检测。综合分析实验结果,本文方法在处理复杂场景图像方面具有一定优势,性能接近近期发表的具有代表性的研究成果。

3.5 算法分析

3.5.1 特征图分析

在提出的多尺度检测网络中,本文方法从修改后的VGGNet-16中提取了5个特征图$ \boldsymbol{f} ^{d}_{i}$,并在连接层中进行融合。在ECSSD基准数据集上,就每个特征图$ \boldsymbol{f} ^{d}_{i}$和融合后的特征图进行比较,结果如表 2所示。由表 2可得:1)来自最深卷积层边的特征图$\boldsymbol{f} ^{d}_{5}$性能更接近融合后的特征图;2)结合多层特征得到的显著性特征图比单个特征图好。

表 2 来自不同侧边输出的特征图性能比较
Table 2 Comparison of feature maps from different side output

下载CSV
特征图 maxF F $ω$F MAE
$\boldsymbol{f} ^{d}_{1}$ 0.334 0.086 0.212 0.480
$\boldsymbol{f} ^{d}_{2}$ 0.306 0.163 0.161 0.308
$\boldsymbol{f} ^{d}_{3}$ 0.490 0.458 0.287 0.307
$\boldsymbol{f} ^{d}_{4}$ 0.416 0.291 0.224 0.232
$\boldsymbol{f} ^{d}_{5}$ 0.860 0.824 0.713 0.094
融合图 0.876 0.833 0.778 0.076
注:加粗字体表示最优结果。

3.5.2 特征图融合分析

为了验证所提出的组合方案的有效性,将这些特征以不同方式进行组合,分别表示为:$\boldsymbol{S}_{1}= \boldsymbol{f} ^{d}_{5}$$\boldsymbol{S}_{2}=\sum\limits^ 5_{i=4}\boldsymbol{f} ^{d}_{i}$$\boldsymbol{S}_{3}=\sum\limits^ 5_{i=3}\boldsymbol{f} ^{d}_{i}$$\boldsymbol{S}_{4}=\sum \limits^5_{i=2}\boldsymbol{f} ^{d}_{i}$。训练集和使用的超参数与本文模型一致。其在ECSSD数据集上的性能指标评价结果如表 3所示。可以看到本文方法得到了更好的性能提升。

表 3 不同整合模式的各模型性能评价比较
Table 3 Comparison of different approaches using different integration patterns

下载CSV
方法 maxF F $ω$F MAE
$\boldsymbol{S}$1 0.875 0.813 0.757 0.080
$\boldsymbol{S}$2 0.861 0.796 0.742 0.087
$\boldsymbol{S}$3 0.854 0.794 0.723 0.092
$\boldsymbol{S}$4 0.879 0.811 0.757 0.079
本文 0.876 0.833 0.778 0.076
注:加粗字体表示最优结果。

3.5.3 显著性更新方法分析

作为后处理步骤的CRF方法对网络得到的显著性图进行了更新,进一步突出了显著性对象内部区域的一致性,并保留了显著物体的精确轮廓信息。为了验证其有效性,使用maxF,F,$ω$F和MAE得分,评价其在6种基准数据集中有无CRF方案的显著性方法的性能,结果如表 4所示。由表 4可知,在测试阶段使用CRF方法可以进一步提高所提模型的准确性。通过将ResNet-101(He等,2016)替换VGGNet-16拓展本文工作。使用ResNet-101的conv1,res2c,res3b3,res4b22和res5c作为侧边输出,保持其他设置不变,使用各评价指标的性能评价结果如表 4所示。在表 4中,本文方法使用VGG网络作为主干网络标记为Ours,使用ResNet-101作为主干网络标记为Ours*。由表 4可知,使用相同的训练集,ResNet-101生成的显著性图在没有CRF作为后处理步骤的情况下,平均每个数据集提高了2%的性能,这说明,选用性能更优的主干网络能获得算法整体性能的进一步提升。

表 4 本文方法在maxF,F,$ω$F和MAE方面的性能评价比较
Table 4 Comparisons of our approaches in terms of maxF, F, $ω$F and MAE

下载CSV
数据集 方法 maxF F $ω$F MAE
DUT-OMPON Ours with CRF 0.747 0.696 0.656 0.074
Ours w/o CRF 0.717 0.634 0.562 0.089
Ours*with CRF 0.786 0.739 0.711 0.061
Ours*w/o CRF 0.758 0.671 0.601 0.076
ECSSD Ours with CRF 0.899 0.876 0.854 0.061
Ours w/o CRF 0.876 0.834 0.778 0.076
Ours*with CRF 0.895 0.848 0.786 0.070
Ours*w/o CRF 0.915 0.895 0.878 0.053
SED2 Ours with CRF 0.859 0.797 0.772 0.093
Ours w/o CRF 0.826 0.779 0.716 0.102
Ours*with CRF 0.857 0.802 0.781 0.093
Ours*w/o CRF 0.820 0.773 0.699 0.104
HKU Ours with CRF 0.889 0.868 0.844 0.049
Ours w/o CRF 0.861 0.811 0.749 0.065
Ours*with CRF 0.901 0.882 0.863 0.046
Ours*w/o CRF 0.872 0.818 0.748 0.065
PASCAL-S Ours with CRF 0.814 0.772 0.732 0.099
Ours w/o CRF 0.798 0.736 0.659 0.113
Ours*with CRF 0.824 0.784 0.748 0.095
Ours*w/o CRF 0.808 0.746 0.656 0.111
SOD Ours with CRF 0.833 0.785 0.762 0.124
Ours w/o CRF 0.815 0.759 0.695 0.815
Ours*with CRF 0.838 0.787 0.773 0.121
Ours*w/o CRF 0.819 0.785 0.682 0.135
注:with CRF表示使用CRF方法,w/o CRF表示不使用CRF方法。

4 结论

针对现有显著物体检测难以在复杂图像中凸显整个物体的明确边界和均匀高亮整个内部区域的问题,提出了一种简单且有效的模型,基于全卷积网络设计逐像素预测的显著物体检测。从主干网络中的不同卷积层组提取多尺度多层次特征。浅层卷积层产生细节信息,深层卷积层产生全局信息。然后,采用连接层组合这些丰富的图像显著性特征以生成显著性图。在测试阶段,为了进一步获得具有精确轮廓和均匀一致内部区域的显著性检测结果,算法引入了基于全连接的CRF进行显著性更新。实验结果表明,在6个公开的常用基准数据集上,依据5种性能评价指标,本文所提方法较14个具有代表性的方法具有更好的性能。在主观视觉上,本文方法获得的显著图能更好地处理各种复杂图像,不仅可以均匀显示出整个显著性对象,而且可以在各种场景下很好保留显著性对象的轮廓。

在今后的研究中,将考虑利用循环网络模块及边界检测模块改善模型检测方法在小物体图像上的检测性能。

参考文献

  • Alpert S, Galun M, Brandt A, Basri R. 2012. Image segmentation by probabilistic bottom-up aggregation and cue integration. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(2): 315-327 [DOI:10.1109/TPAMI.2011.130]
  • Craye C, Filliat D and Goudou J F. 2016. Environment exploration for object-based visual saliency learning//Proceedings of 2016 IEEE International Conference on Robotics and Automation. Stockholm, Sweden: IEEE: 2303-2309[DOI: 10.1109/ICRA.2016.7487379]
  • Everingham M, Van Gool L, Williams C K I, Zisserman A. 2010. The PASCAL visual object classes (VOC) challenge. International Journal of Computer Vision, 88(2): 303-338 [DOI:10.1007/s11263-009-0275-4]
  • Goferman S, Zelnik-Manor L, Tal A. 2012. Context-aware saliency detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(10): 1915-1926 [DOI:10.1109/TPAMI.2011.272]
  • Guo C L, Zhang L M. 2010. A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression. IEEE Transactions on Image Processing, 19(1): 185-198 [DOI:10.1109/TIP.2009.2030969]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]
  • Hong S, You T, Kwak S and Han B. 2015. Online tracking by learning discriminative saliency map with convolutional neural network//Proceedings of the 32nd International Conference on International Conference on Machine Learning. Lille, France: JMLR: 597-606 https://www.researchgate.net/publication/272845640_Online_Tracking_by_Learning_Discriminative_Saliency_Map_with_Convolutional_Neural_Network
  • Itti L, Koch C, Niebur E. 1998. A model of saliency-based visual attention for rapid scene analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11): 1254-1259 [DOI:10.1109/34.730558]
  • Jia Y Q, Shelhamer E, Donahue J, Karayev S, Long J, Girshick R, Guadarrama S and Darrell T. 2014. Caffe: convolutional architecture for fast feature embedding//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando, Florida, USA: ACM: 675-678[DOI: 10.1145/2647868.2654889]
  • Krähenbühl P and Koltun V. 2011. Efficient inference in fully connected CRFs with Gaussian edge potentials//Proceedings of 2011 Neural Information Processing Systems. Granada, Spain: [s.n.]: 109-117
  • Krizhevsky A, Sutskever I and Hinton G E. 2012. ImageNet classification with deep convolutional neural networks//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc: 1097-1105
  • Lee G, Tai Y W and Kim J. 2016. Deep saliency with encoded low level distance map and high level features//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE: 660-668[DOI: 10.1109/CVPR.2016.78]
  • Li C Y, Yuan Y C, Cai W D, Xia Y and Feng D D. 2015a. Robust saliency detection via regularized random walks ranking//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE: 2710-2717[DOI: 10.1109/CVPR.2015.7298887]
  • Li G B and Yu Y Z. 2015. Visual saliency based on multiscale deep features//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE: 5455-5463[DOI: 10.1109/CVPR.2015.7299184]
  • Li G B and Yu Y Z. 2016a. Deep contrast learning for salient object detection//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE: 478-487[DOI: 10.1109/CVPR.2016.58]
  • Li G B, Yu Y Z. 2016b. Visual saliency detection based on multiscale deep CNN features. IEEE Transactions on Image Processing, 25(11): 5012-5024 [DOI:10.1109/TIP.2016.2602079]
  • Li H Y, Lu H C, Lin Z, Shen X H, Price B. 2015b. Inner and inter label propagation:salient object detection in the wild. IEEE Transactions on Image Processing, 24(10): 3176-3186 [DOI:10.1109/TIP.2015.2440174]
  • Li X, Zhao L M, Wei L N, Yang M H, Zhuang Y T, Ling H B, Wang J D. 2016. DeepSaliency:multi-task deep neural network model for salient object detection. IEEE Transactions on Image Processing, 25(8): 3919-3930 [DOI:10.1109/TIP.2016.2579306]
  • Li Y, Hou X D, Koch C, Rehg J M and Yuille A L. 2014. The secrets of salient object segmentation//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE: 280-287[DOI: 10.1109/CVPR.2014.43]
  • Liu N and Han J W. 2016. DHSNet: deep hierarchical saliency network for salient object detection//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE: 678-686[DOI: 10.1109/CVPR.2016.80]
  • Liu T, Yuan Z J, Sun J, Wang J D, Zheng N N, Tang X O, Shum H Y. 2011. Learning to detect a salient object. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(2): 353-367 [DOI:10.1109/TPAMI.2010.70]
  • Long J, Shelhamer E and Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE: 3431-3440[DOI: 10.1109/CVPR.2015.7298965]
  • Margolin R, Zelnik-Manor L and Tal A. 2014. How to evaluate foreground maps//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE: 248-255[DOI: 10.1109/CVPR.2014.39]
  • Movahedi V and Elder J H. 2010. Design and perceptual validation of performance measures for salient object segmentation//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA: IEEE: 49-56[DOI: 10.1109/CVPRW.2010.5543739]
  • Peng H W, Li B, Ling H B, Hu W M, Xiong W H, Maybank S J. 2017. Salient object detection via structured matrix decomposition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(4): 818-832 [DOI:10.1109/TPAMI.2016.2562626]
  • Perazzi F, Krähenbuhl P, Pritch Y and Hornung A. 2012. Saliency filters: contrast based filtering for salient region detection//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE: 733-740[DOI: 10.1109/CVPR.2012.6247743]
  • Qin Y, Lu H C, Xu Y Q and Wang H. 2015. Saliency detection via cellular automata//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE: 110-119[DOI: 10.1109/CVPR.2015.7298606]
  • Simonyan K and Zisserman A. 2015. Very deep convolutional networks for large-scale image recognition//Proceedings of the 3rd International Conference on Learning Representations. San Diego, CA, USA: [s.n.] https://www.researchgate.net/publication/265385906_Very_Deep_Convolutional_Networks_for_Large-Scale_Image_Recognition
  • Tong N, Lu H C, Zhang L H, Ruan X. 2014. Saliency detection with multi-scale superpixels. IEEE Signal Processing Letters, 21(9): 1035-1039 [DOI:10.1109/LSP.2014.2323407]
  • Wang J D, Jiang H Z, Yuan Z J, Cheng M M, Hu X W, Zheng N N. 2017. Salient object detection:a discriminative regional feature integration approach. International Journal of Computer Vision, 123(2): 251-268 [DOI:10.1007/s11263-016-0977-3]
  • Wang L J, Lu H C, Ruan X and Yang M H. 2015. Deep networks for saliency detection via local estimation and global search//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE: 3183-3192[DOI: 10.1109/CVPR.2015.7298938]
  • Wang L Z, Wang L J, Lu H C, Zhang P P, Ruan X. 2019. Salient object detection with recurrent fully convolutional networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(7): 1734-1746 [DOI:10.1109/TPAMI.2018.2846598]
  • Wang T T, Zhang L H, Lu H C, Sun C and Qi J Q. 2016. Kernelized subspace ranking for saliency detection//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer: 450-466[DOI: 10.1007/978-3-319-46484-8_27]
  • Yan Q, Xu L, Shi J P and Jia J Y. 2013. Hierarchical saliency detection//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE: 1155-1162[DOI: 10.1109/CVPR.2013.153]
  • Yang C, Zhang L H, Lu H C, Ruan X and Yang M H. 2013. Saliency detection via graph-based manifold ranking//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE: 3166-3173[DOI: 10.1109/CVPR.2013.407]
  • Zhang D W, Han J W and Zhang Y. 2017a. Supervision by fusion: towards unsupervised learning of deep salient object detector//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 4068-4076[DOI: 10.1109/ICCV.2017.436]
  • Zhang P P, Wang D, Lu H C, Wang H Y and Yin B C. 2017b. Learning uncertain convolutional features for accurate saliency detection//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 212-221[DOI: 10.1109/ICCV.2017.32]
  • Zhang Q, Lin J J, Li W J, Shi Y J, Cao G G. 2018a. Salient object detection via compactness and objectness cues. The Visual Computer, 34(4): 473-489 [DOI:10.1007/s00371-017-1354-0]
  • Zhang X N, Wang T T, Qi J Q, Lu H C and Wang G. 2018b. Progressive attention guided recurrent network for salient object detection//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE: 714-722[DOI: 10.1109/CVPR.2018.00081]
  • Zhao R, Ouyang W L, Li H S and Wang X G. 2015. Saliency detection by multi-context deep learning//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE: 1265-1274[DOI: 10.1109/CVPR.2015.7298731]
  • Zhu W J, Liang S, Wei Y C and Sun J. 2014. Saliency optimization from robust background detection//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE: 2814-2821[DOI: 10.1109/CVPR.2014.360]