发布时间: 2017-10-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170114
2017 | Volume 22 | Number 10

图像分析和识别

结合背景和前景先验的显著性检测

姚钊健, 谭台哲

广东工业大学计算机学院, 广州 510006

收稿日期: 2017-03-20; 修回日期: 2017-06-21

第一作者简介: 姚钊健(1992-), 男, 广东工业大学计算机科学与技术专业硕士研究生, 主要研究方向为图像处理, 计算机视觉。E-mail:ckinyiu@foxmail.com.

中图法分类号: TP391.4

文献标识码: A

文章编号: 1006-8961(2017)10-1381-11

摘要

目的显著性检测已成为图像处理过程中的一个重要步骤，已被应用到许多计算机视觉任务中。虽然显著性检测已被研究多年并取得了较大的进展，但仍存在一些不足，例如在复杂场景中的检测不准确或检测结果夹带着背景噪声等。因此，针对已有图像显著性检测方法存在的不能有效抑制背景区域，或不能清晰突显出完整的目标区域的缺点，提出一种结合背景先验和前景先验信息的图像显著性检测算法。方法首先选取图像的边界超像素作为背景区域，从而根据每个区域与背景区域的差异度来建立背景先验显著图；然后通过计算特征点来构建一个能够粗略包围目标区域的凸包，并结合背景先验显著图来选取前景目标区域，从而根据每个区域与前景目标区域的相似度来生成前景先验显著图；最后融合这两个显著图并对其结果进一步优化得到更加平滑和准确的显著图。结果利用本文算法对MSRA10K数据库内图像进行显著性检测，并与主流的算法进行对比。本文算法的检测效果更接近人工标注，而且精确率和效率都优于所对比的算法，其中平均精确率为87.9%，平均召回率为79.17%，F值为0.852 6，平均绝对误差（MAE）值为0.113，以及平均运行时间为0.723 s。结论本文提出了一种结合两类先验信息的显著性检测算法，检测结果既能够有效地抑制背景区域，又能清晰地突显目标区域，从而提高了检测的准确性。

关键词

显著性检测; 背景先验; 凸包; 前景先验; 显著图

Saliency detection combining background and foreground prior

Yao Zhaojian, Tan Taizhe

School of Computer Science and Technology, Guangdong University of Technology, Guangzhou 510006, China

Abstract

Objective Saliency detection aims to automatically identify and localize the important or attractive regions from an image.In the recent years, many researchers have given particular attention to saliency detection and took it as an important step in image processing.Saliency detection has been applied to many computer vision tasks and applications, such as image retrieval, object detection and recognition.Although saliency detection has been studied for many years, there are still certain shortcomings.For example, the detection in complex scenes is inaccurate or the results of the detection contain background noises.Considering that several existing methods of image saliency detection cannot suppress the background regions effectively, or cannot highlight the complete object regions clearly, a novel saliency detection method combining background priori and foreground priori information was proposed to further improve accuracy.The background prior is an assumption that the regions along the image boundaries are background regions, and the foreground prior is to calculate a convex hull to locate the foreground object regions. Method The region saliency of an image is defined as its similarity to the foreground in addition to being defined as its contrast to the background.Therefore, background and foreground can be extracted with prior, and all the regions of an image can be compared with these background and foreground to generate a saliency map.First, we selected the superpixels from image boundaries as the background regions to compute a background-based saliency map based on the dissimilarity between each region and the background regions.Second, we applied the convex hull from interest points to approximately locate the foreground object.Convex hull of original image and filtered image were calculated because there were not only salient regions inside the convex hull, but also the background regions, and the intersection regions of the two convex hull regions were obtained to remove background regions to some extent.Then, the intersection regions were combined with the background-based saliency map to select the foreground object regions, so foreground-based saliency map could be generated based on the similarity between each region and the foreground object regions.Finally, we integrated the two saliency maps utilize their respective advantages because the background-based saliency map could highlighted the object more uniformly and the foreground-based saliency map could better suppress the background noises.Then, the unified saliency maps was further refined to obtain a smoother and accurate saliency map. Result To test the performance of the proposed algorithm, experiments were conducted on the MSRA10K datasets, which contained 10 000 images and was one of the largest publicly available datasets.The results demonstrated that the saliency map of the proposed algorithm are closer to the ground truth and the proposed method performed favorably against the state-of-the-art methods in terms of accuracy and efficiency.The average precision, average recall, F-measure, MAE, and average running time of the proposed method are 87.9%, 79.17%, 0.852 6, 0.113, and 0.723 s, respectively. Conclusion Saliency detection is a promising preprocessing operation in the field of image processing and analysis.We proposed a new method to detect saliency based on a combination of two kinds of prior information.The detection results of the proposed algorithm could not only effectively suppress the background noises, but also clearly highlight the object regions, thus improving the accuracy of the detection.

Key words

saliency detection; background prior; convex hull; foreground prior; saliency map

0 引言

对于人类来说，能够准确地确定场景中最显眼的对象，称之为显著对象，是非常容易和快速的。然而，使用计算机来模拟人类这一视觉机制是一个较大的挑战。近年来，显著性检测获得了广泛的研究，许多计算模型被相继提出来用于检测图像的显著区域。图像显著性检测是计算机视觉中一个重要的预处理步骤，由于通过关注显著区域能够减少计算复杂度，其已被许多应用广泛使用，例如目标检测^[1]与识别^[2]、图像分割^[3]与压缩^[4]、图像检索^[5]等。显著性检测主要是估计一个区域作为前景目标出现的可能，即生成一个显著图，其中每个值代表了图像中像素或区域的突出程度，显著值越大，突出程度越高。从信息处理的角度来看，显著性检测方法可以分为两类：自上向下方法^[6-7]和自下向上方法^[8-9]。自上向下属于任务驱动类型，其需要提取特定对象的视觉信息并通过训练和学习的方式来形成显著图。不同于自上向下方法，自下向上属于数据驱动类型，主要提取底层的数据，如颜色、亮度、纹理或位置等信息来进行显著性检测。利用这些底层的特征，可通过结合先验知识来提高检测精度，例如中心先验^[10]、边界先验^[11]和颜色先验^[12]等。因此，本文采用自下而上的方法，通过利用先验知识提取背景和前景区域，从而计算区域间的对比度来生成显著图。

边界背景先验知识已被许多方法采用来进行显著性检测^[13-15]，即假设位于图像边界的区域是不显著的，从而可将其认为是背景区域，这些方法都能得到较好的检测结果。然而，这些方法的不足是，存在真实的背景区域与边界的区域差异较大的情况，因此会被错误地检测为显著区域，从而形成噪声，影响检测效果。

因此，本文提出一种利用背景区域先验与前景目标区域先验信息相结合的显著性检测算法。图像的一个区域若是显著的，那么它应该与背景区域差异较大，或者与前景目标区域比较相似，所以本文利用先验知识来提取背景区域和前景区域，并通过计算这个区域与背景区域的差异度以及其与前景区域的相似度相来表示其显著度。本文的算法流程如图 1所示。首先，本文提取图像边缘的超像素作为背景区域集，这是因为将其作为背景先验知识能够在显著性检测中获得良好的视觉效果^[14]，然后使用颜色特征和空间关系计算每个超像素与背景超像素的差异度来得到背景先验显著图。接着，分别计算原始图像和经过平滑处理图像的特征点来形成一个能粗略包围显著目标的凸包，这能够初步定位显著区域的大概位置，将两个凸包的交集作为显著目标所在的先验位置，这能排除更多的分散背景区域并且更集中在显著对象的位置，然后结合背景先验显著图来确定前景区域集，从而通过计算每个超像素与前景超像素的相似度来得到前景先验显著图。最后融合这两个显著图并经过进一步优化融合后的显著图来生成最终的显著图。实验结果表明，与其他算法相比，本文算法不但检测准确率进一步提高，与人工标准更吻合，有效地解决了背景干扰，显著区域不突出的问题，而且执行效率较高。

图 1 算法流程图

Fig. 1 Workflow of the algorithm

1 相关工作

近些年来，在显著性检测方面的研究取得了巨大的进展。为了模拟生物学的视觉注意机制，Itti等人^[16]通过结合多尺度的颜色，强度和方向显著图来获得最终的显著图。该算法只关注显著区域的局部信息，而忽略了整体性，使得检测效果不佳。随后，利用计算对比度的算法，包括局部对比或全局对比，已被广泛应用到显著性检测当中。Achanta等人^[17]将每个像素的显著度用其颜色特征与整体图像平均颜色特征的差异来表示，这算法虽然简单高效，但检测结果包含大量背景噪声。Ma等人^[18]提出一种区域局部对比的算法，然而只在一个尺度上进行检测。Cheng等人^[19]使用区域的颜色特征和空间关系进行全局对比。Goferman等人^[20]提出一种基于上下文感知的检测算法。Perazziet等人^[21]利用区域的独特性和空间分布来计算显著图。根据区域的性质寻找合适的特征表达，能够提高检测精度。Margolin等人^[22]采用主成分分析法提取每个区域的特征并用其表示显著度。Kim等人^[23]在高维色彩变换空间中寻找颜色系数的线性组合，使得显著区域的颜色和背景的颜色可以被明显区别开来。根据日常生活经验，也可以结合一些高层先验信息进行显著性检测。Shen和Wu^[24]把图像分解成低秩矩阵(背景信息)和稀疏矩阵(显著区域)，同时结合高层先验特征和底层特征进行显著性检测。随着深度学习的研究越趋流行，其已被应用到许多计算机视觉领域中，因此也可用来进行显著性检测^[25-26]，通过适当的训练策略取得了较好的效果，但计算复杂度较高，而且操作时间长。虽然这些已有方法能够在显著性检测中取得一定的效果，但仍然存在检测到的目标区域不明显或不完整，甚至伴随着纹理，背景噪声影响的问题，导致显著区域与背景区域难以区分出来。

最近，一些学者将图像边缘区域作为背景区域的先验知识用于显著性检测中，这是因为相对于背景区域来说，显著目标区域很少位于图像边界处。Wei等人^[14]提出一种测地线距离，通过计算每个超像素到背景区域的最短路径代表该超像素的显著值。Jiang等人^[27]将图像构造成一个具有吸收壁的马尔可夫链，令背景区域作为吸收节点，通过计算其它节点到吸收节点的转移次数作为其显著值。Yang等人^[15]提出一种基于图的流形排序显著性检测方法，其中使用背景区域作为查询节点。Li等人^[28]训练背景区域节点得到高斯背景模型，并计算其他节点属于背景的概率，从而根据这个概率得到显著值。Li等人^[29]通过利用背景区域作为模版，对每个区域重构，计算对应的稠密构造误差和稀疏构造误差来表示显著度。Wang等人^[30]首先根据背景先验区域计算得到背景先验显著图，然后通过动态阈值分割背景先验显著图提取前景区域来计算前景先验显著图，最后融合两个显著图，但其采用中心先验来进行优化，认为显著区域都位于图像中心，这使得当显著目标偏离图像中心时检测误差较大。

另外，预测显著目标的位置，将其作为前景先验知识也逐渐受到关注。例如，通过检测Harris特征点^[31]构建的凸包已被用来粗略估计前景目标的所在位置。Xie等人^[32]提取凸包内的区域作为显著区域，并结合贝叶斯模型来进行显著性检测。Liu等人^[33]将凸包内的区域作为候选前景区域，而把凸包外的作为背景区域。Yang等人^[34]为了更好地抑制背景噪声，把凸包中心视为前景目标区域的中心来代替中心先验。

然而，边界背景先验知识只是简单地把位于边界的区域当作背景区域，这会导致检测结果包含着较多的背景噪声；而使用凸包方法估计到的前景区域则包含有较多的背景区域，没有准确地提取到前景区域。因此，为了解决这些不足，本文提出一种结合这两种先验知识进行显著性检测的算法。

文献[30]虽然结合了背景和前景先验知识，并取得较好的效果，但其只是简单地通过阈值分割背景先验显著图来得到前景先验区域，这做法会包含较多的背景区域，并不能准确地提取到真正的前景区域，导致检测复杂图像时效果不佳。与其不同的是，本文通过结合背景先验显著图和凸包的方法来提取前景先验区域。实验结果表明，凸包方法能够初步确定显著目标的位置。为了更精确获得显著目标的位置，本文通过结合原图和平滑图像的凸包来确定显著目标的位置，这是由于计算平滑图像的凸包能够减少背景纹理的影响。对这两个凸包求交集后，根据公共区域内每个超像素在背景先验显著图的显著值作进一步筛选，从而提取出最终的前景先验区域。通过实验可以发现，本文的前景提取方法，能够选出大部分真正的前景区域，同时剔除了较多的背景区域。根据本文算法，背景先验显著图能够突出显著区域，但包含着一些背景噪声，而前景先验显著图能够有效地抑制这些噪声，通过融合这两个显著图，可得到既能清晰明亮地突出显著区域，又能抑制背景噪声的显著图。与文献[30]相比，本文算法的检测效果更佳，检测精度得到明显提高。

2 本文算法

在本节中，将分别详细介绍背景先验显著图和前景先验显著图的计算过程，以及获得最终显著图的方法。由于本文采用区域间对比的方式来计算一个区域的显著度，所以对图像使用文献[35]提出的简单线性迭代聚类分割(SLIC)方法进行预处理，将图像分割为N个区域(超像素)，本文取N=265。

2.1 背景先验显著图

一些研究认为物体越接近图像的中心越能够吸引人们的注意，即显著性区域越容易出现在图像的中心，因此有的文献利用这种先验知识进行显著性检测。但当显著目标远离中心位置时，这种检测方法不能够准确地检测到显著区域，因为这种先验知识只能突显出图像中心附近的区域，并不是显著区域本身。然而文献[14]指出，由于显著目标很少出现在图像的边缘，而背景区域通常位于图像的边缘，所以可将图像的边缘认为是背景区域。基于这种先验知识，本文选取位于图像边缘的超像素作为背景先验区域，这样通过与背景先验区域的对比可以计算一个区域的显著度。

本文使用CIELab颜色通道表示图像的颜色特征，并将第$i$个超像素中所有像素的平均颜色向量记为$ {c_i} $，作为该超像素的颜色特征，将超像素的中心位置记为$ {p_i} $。

容易知道，若一个超像素与背景超像素差异越大，则越可能是显著区域，相反，若差异很小，则很可能亦是背景区域。另外，靠近背景的超像素比远离背景的超像素在与背景作对比时更易获得视觉的注意，即对比度更高，这时显著区域能够更加突出，可以认为，背景超像素对离其近的超像素的贡献度更大。因此，使用空间加权的颜色对比来计算背景先验显著图。将背景区域集记为$ {\mathit{\boldsymbol{G}}^{\rm{b}}} $，然后第$i$个超像素的显著度定义为

$ S_i^{\rm{b}} = \sum\limits_{j \in {\mathit{\boldsymbol{G}}^{\rm{b}}}} {\left\| {{c_i} - {c_j}} \right\|} {{\rm{e}}^{ - \alpha \left\| {{p_i} - {p_j}} \right\|}} $

(1)

式中，$ \left\| {\; \cdot \;} \right\| $为欧氏距离，参数$ \alpha $控制空间权值强度，根据实验，本文取$ \alpha $=0.001。

由于存在显著物体位于图像边缘的情况，所以除了与背景区域集中的每一个超像素作对比，还应考虑与整体背景的对比，通过计算平均背景可以反映背景集的整体特征，即大多数背景区域的特征，而被误判为背景的显著区域对整体特征的贡献就会变小，使得整体背景特征更能代表真实的背景区域，从而可以减少显著区域误判为背景区域的影响。所以结合式(1)，将背景先验显著图定义为

$ \bar S_i^{\rm{b}} = S_i^{\rm{b}} \cdot \left\| {{c_i} - {m^{\rm{b}}}} \right\| $

(2)

式中，$ {m^{\rm{b}}} = \frac{1}{{\left| {{\mathit{\boldsymbol{G}}^{\rm{b}}}} \right|}}\sum\limits_{j = 1, j \in {\mathit{\boldsymbol{G}}^{\rm{b}}}}^{\left| {{\mathit{\boldsymbol{G}}^{\rm{b}}}} \right|} {{c_j}} $，$ \left| {{\mathit{\boldsymbol{G}}^{\rm{b}}}} \right| $为背景集中超像素的个数。

2.2 前景先验显著图

通过与先验背景区域的对比，背景先验显著图能够明亮地突出显著区域，然而可能存在一些属于真正的背景区域由于与先验背景区域有一定的差异，导致会被显示为显著区域，形成背景噪声，如图 2(b)所示。所以本文通过提取前景显著目标区域来计算前景先验显著图，从而抑制这些噪声。

图 2 前景先验显著图的主要步骤

Fig. 2 The main steps of foreground-based saliency map((a) original image; (b) background-based saliency map; (c)the convex hull of the original image; (d) the convex hull of the filtered image; (e) intersection of the two convex hull regions(red polygon); (f) priori region of foreground; (g) foreground-based saliency map)

与文献[30]提取前景目标的方式不同，其通过对背景先验显著图进行动态阈值分割，将显著值大于阈值的对应超像素作为前景先验区域，而本文利用求图像凸包的方式来确定显著目标的位置，然后结合背景显著图来确定前景目标区域。若背景先验显著图包含着一些与前景相近的显著值的背景区域噪声，在使用阈值分割时难免会把这些噪声也归类为前景先验区域，这可能会影响后续的检测结果，因此本文采用凸包的方法来确定显著目标的位置。

本文采用文献[32]提出的方法来获得前景目标的大概位置，即首先检测图像的Harris特征点，然后通过连接这些特征点来形成一个能够粗略包围显著目标的凸包，如图 2(c)所示，其中绿色线条就是生成的凸包。然而从图 2(c)中可以看到，这些凸包虽然包含了大部分的前景目标区域，但仍包含着较多的背景区域，因此可以利用文献[36]提出的方法来进一步减少背景区域，即对原始图像进行均值滤波平滑处理，其中滤波模板大小为35，并计算平滑后图像的凸包(如图 2(d)中蓝线所示)，然后求原始图像凸包和平滑后图像凸包的公共区域$ \mathit{\boldsymbol{I}} $，将这个公共区域作为最终定位显著目标所在的区域，如图 2(e)中红线所示，从中可以看到凸包交集更能准确地定位于显著目标的位置。由于凸包中仍包含着一些背景区域，为了更准确地提取前景先验区域，本文结合背景先验显著图来确定最后的前景先验区域集$ {\mathit{\boldsymbol{G}}^{\rm{f}}} $，即

$ \left\{ \begin{array}{l} {\mathit{\boldsymbol{I}}_j} \in \mathit{\boldsymbol{G}}_i^{\rm{f}}\;\;\bar S_{{I_j}}^{\rm{b}} > t\\ {\mathit{\boldsymbol{I}}_j} \notin \mathit{\boldsymbol{G}}_i^{\rm{f}}\;\;{\rm{其他}} \end{array} \right. $

(3)

式中，$ t = \frac{1}{{\left| \mathit{\boldsymbol{I}} \right|}}\sum\limits_{j = 1, j \in \mathit{\boldsymbol{I}}}^{\left| \mathit{\boldsymbol{I}} \right|} {\bar S_{{\mathit{\boldsymbol{I}}_j}}^{\rm{b}}} $，为公共区域$ \mathit{\boldsymbol{I}} $内所包含所有超像素在背景先验显著图中显著值的平均值，$ {\left| \mathit{\boldsymbol{I}} \right|} $为$ \mathit{\boldsymbol{I}} $内所有超像素的个数。

通过式(3) 的选择，即把$ \mathit{\boldsymbol{I}} $中超像素显著值大于平均显著值的当做前景，这样能够把显著目标大部分的区域提取出来，如图 2(f)所示。由于一个超像素若是显著的，那么其应该与前景超像素是相似的，所以确定了前景目标区域之后，可以通过与前景区域对比来计算一个超像素的显著值。同样利用超像素的颜色特征和空间关系，定义一个超像素与一个前景超像素的相似度为

$ s\left( {i, j} \right) = \left\{ \begin{array}{l} \frac{1}{{\left\| {{c_i} - {c_j}} \right\| + \lambda \left\| {{p_i} - {p_j}} \right\|}}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;i \ne j, j \in {\mathit{\boldsymbol{G}}^{\rm{f}}}\\ \frac{1}{{\left| {{\mathit{\boldsymbol{G}}^{\rm{f}}}} \right| - 1}}\sum\limits_{j \ne k, k \in {\mathit{\boldsymbol{G}}^{\rm{f}}}}^{\left| {{\mathit{\boldsymbol{G}}^{\rm{f}}}} \right|} {\frac{1}{{\left\| {{c_i} - {c_j}} \right\| + \lambda \left\| {{p_i} - {p_j}} \right\|}}\;\;i = j, j \in {\mathit{\boldsymbol{G}}^{\rm{f}}}} \end{array} \right. $

(4)

式中，$ \lambda $为权重参数，用来平衡颜色和空间信息，$ \left| {{\mathit{\boldsymbol{G}}^{\rm{f}}}} \right| $为前景先验区域集中超像素的个数，根据实验，令$ \lambda $=0.001。式(4) 表明，当一个超像素与一个前景超像素比较时分两种情况：1) 超像素$i$不是前景超像素，来与前景超像素$j$比较，或者$i$亦是前景超像素，来与其他前景超像素$j$比较；2) 前景超像素$i$与自身比较。当属于第1种情况，使用式(4) 中的上式计算，否则，用式(4) 中的下式计算。这是因为当前景超像素$i$与自身比较时，若使用式(4) 中的第1式计算，则会出现分母为0的情况，所以采用其与剩下所有前景超像素的相似度的平均值来代替与自身比较时的相似度。

因此，将第$i$个超像素的显著度定义为

$ S_i^{\rm{f}} = \sum\limits_{j \in {\mathit{\boldsymbol{G}}^{\rm{f}}}} {s\left( {i, j} \right)} $

(5)

与计算背景先验显著图类似，每个超像素除了与前景超像素比较计算相似度，还应与平均前景超像素比较，所以结合式(5)，将前景先验显著图定义为

$ \bar S_i^{\rm{f}} = S_{\rm{i}}^{\rm{f}} \cdot {{\rm{e}}^{ - \varphi \left\| {{c_i} - {m^{\rm{f}}}} \right\|}} $

(6)

式中，$ {m^{\rm{f}}} = \frac{1}{{\left| {{\mathit{\boldsymbol{G}}^{\rm{f}}}} \right|}}\sum\limits_{j = 1, j \in {\mathit{\boldsymbol{G}}^{\rm{f}}}}^{\left| {{\mathit{\boldsymbol{G}}^{\rm{f}}}} \right|} {{c_j}} $，$ \varphi $控制与平均前景区域比较的权值，根据实验，本文取$ \varphi $=0.05。

图 2(g)展示了前景先验显著图，可以看出，由于与前景超像素的差异较大，位于背景先验显著图的背景噪声在前景先验显著图中被有效抑制。图 3为文献[30]前景先验以及本文的前景先验的显著性检测结果对比。通过实验对比可知，本文的前景区域提取方法更能有效地抑制背景区域。若直接利用背景先验显著图进行前景分割，一些真实的背景区域可能会被背景先验显著图误判为显著区域，则导致分割时亦会把这些区域当作前景区域，影响检测结果，不能有效地抑制背景噪声，而通过本文方法的多次选择，则能提取出更可信的前景先验区域。

图 3 前景先验显著图对比

Fig. 3 The comparison of foreground-based saliency map((a) original image; (b) priori region of foregroundgenerated by reference[30]; (c) foreground-based saliency map generated by reference[30]; (d) priori region of foreground generated by the proposed method; (e) foreground-based saliency map generated by the proposed method)

然而，虽然前景先验显著图能够抑制背景区域，但显著区域不能清晰明亮地显示，而背景先验显著图则能清晰地突出显著区域。因此，通过融合背景先验显著图和前景先验显著图，可以利用各自的优点生成效果更佳的显著图。

2.3 显著图融合并优化

通过分别利用背景先验和前景先验知识，能够获得背景先验显著图和前景先验显著图，其中背景先验显著图能够完整高亮地突出显著区域，但同时亦会存在一些背景噪声，而前景先验显著图则能够有效地抑制这些噪声，所以这两个显著图能够相互补充。本文先将两个显著图分别归一化在[0, 1]范围内，然后采用文献[30]提出的方法来融合背景先验显著图和前景先验显著图，即

$ {S_i} = \bar S_i^{\rm{b}} \cdot \left( {1 - \exp \left( { - \theta \cdot \bar S_i^{\rm{f}}} \right)} \right) $

(7)

式中，$ \theta $用来平衡两个显著图，根据实验，令$ \theta $=5。

通过融合背景先验显著图和前景先验显著图，如图 4(d)所示，可以看出，融合后的显著图不但能够较清晰地突出显著目标区域，而且能够有效地抑制背景噪声。为了获得更好的检测结果，使得显著图更平滑，本文采用文献[11]提出的优化函数对融合后的显著图进行优化来获得最终的显著图，优化函数为

$ \sum\limits_{i = 1}^N {{B_i}v_i^2} + \sum\limits_{i = 1}^N {{S_i}{{\left( {1 - {v_i}} \right)}^2}} + {\sum\limits_{i, j} {{\omega _{ij}}\left( {{v_i} - {v_j}} \right)} ^2} $

(8)

图 4 每个阶段的显著图

Fig. 4 Saliency maps of each step((a) input image; (b) background-based saliency map; (c) foregroundbased saliency map; (d) unified saliency map; (e) refined saliency map; (f) manual annotation)

式中，$ {{v_i}} $为每个超像素的显著值，$ {B_i} = 1 - \bar S_i^{\rm{b}} $，$ {\omega _{ij}} = \exp \left( { - \frac{{{{\left\| {{c_i} - {c_j}} \right\|}^2}}}{{2{\sigma ^2}}}} \right) + \mu $，并将$ \sigma $设置为10，$ \mu $设置为0.1。从图 4(e)中可以看出，经过优化后的显著图能够更好地清晰均匀地突出显著区域，而且背景区域噪声也能够得到抑制，使得检测效果更佳。

3 实验结果分析

为验证本文方法的有效性，在文献[19]提供的带有人工精确标注的MSRA10K数据集上进行实验，其中数据集包含10 000幅图像，图像分辨率主要为300×400像素和400×300像素两种，然后与目前主流的方法：RC算法^[19]，LR算法^[24]，PCA算法^[22]，HDCT算法方法^[23]以及BFS算法^[30]等进行实验比较。实验的平台环境是Windows 10系统和Matlab 2014a，计算机内存4 GB，处理器为Intel(R) Core(TM) i3-3220，主频为2.1 GHz。

为了评价本文算法的性能，通过使用精确率－召回率曲线，F-measure和平均绝对误差$ {MAE} $值来比较本文方法和其他算法。首先，对于一幅显著图，使用从0到255逐渐递增的阈值来分割从而得到一幅二值图，然后分别将由不同阈值分割得到的二值图与人工标注图比较，从而生成精确率－召回率曲线。图 5展示了对本文算法各个阶段显著图的精确率－召回率曲线评价，分别包括背景先验显著图，前景先验显著图，融合显著图以及优化显著图。可以看出，当召回率低于0.8时，即使用较大的阈值进行分割，背景先验显著图比前景先验显著图达到更高的精确率，意味着背景先验显著图比前景先验显著图更能突出显著物体；而当召回率高于0.8时，即使用较小的阈值进行分割，前景先验显著图的精确率则高于背景先验显著图，意味着前景先验显著图比背景先验显著图更能抑制背景噪声。通过观察融合后显著图的精确率－召回率曲线，可以证明背景先验显著图和前景先验显著图能够优势互补，进一步提高精确率。融合后的显著图通过优化，可以更均匀地突出显著区域并更好地抑制背景噪声。因此，显著图优化能够增强图像前景和背景之间的对比度，有利于提高显著图的准确性。

图 5 各阶段显著图的评价结果

Fig. 5 The evaluation results of saliency maps at each step

每个算法对应的精确率－召回率曲线如图 6(a)所示，可以看到，本文算法在精度和召回率方面优于其他算法。特别地，当处于低召回率时，即对应高阈值分割，本文算法的优越性在于能够更好地突出显著物体。而当处于高召回率时，即对应低阈值分割，本文算法的精确率仍然高于其他算法，说明本文算法能够有效地抑制背景。

图 6 不同方法的性能对比

Fig. 6 Performance comparison of different methods((a) P-R curve; (b) histogram of precision, recall, F-measure and $ {\rm{MAE}} $)

为了计算F-measure，将使用动态阈值T=2×mean(S)来分割显著图，即显著图的平均显著值的2倍，F-measure代表精确率和召回率的总体性能，其定义为

$ {F_\beta } = \frac{{\left( {1 + {\beta ^2}} \right) \cdot P \cdot R}}{{{\beta ^2} \cdot P + R}} $

(9)

式中，$P$为精确率，$R$为召回率，根据文献[17]，令$ {{\beta ^2}} $=0.3。

平均绝对误差$ {MAE} $亦被作为显著性检测结果评价的一种方式，其不需对显著图二值化分割，用人工标注图$ {GT} $直接对显著图进行评价计算，定义为

$ MAE = \frac{1}{{W \cdot H}}\sum\limits_{y = 1}^H {\sum\limits_{x = 1}^W {\left| {S\left( {x, y} \right) - GT\left( {x, y} \right)} \right|} } $

(10)

式中，$W$和$H$分别为图像的宽和高，$ {MAE} $值越小，表示检测结果越接近人工标注图。图 6(b)展示了每个算法对应的平均精确率/平均召回率/F-measure和$ {MAE} $值，能够看出，总体上与其他算法相比，本文算法获得了较好的结果，尤其在F-measure和平均绝对误差方面。

图 7列举了一些使用本文算法和其他算法检测得到的显著图示例，作为视觉直观上的比较。图中结果显示，本文算法能够将显著目标区域较准确地从背景中分离出来。当图像有着较复杂的背景时，本文算法仍然能够检测到良好的效果，比如第1幅和第5幅图像，其他算法的检测结果都包含了一些背景区域噪声，而本文算法能够较好地抑制这些噪声。还有当背景区域与显著目标有着相近的颜色外观特征时，本文算法亦能准确检测出显著区域，例如第2幅图像。总地来说，本文算法能够清晰明亮地显示出显著目标区域，同时又能有效地抑制了背景区域噪声。

图 7 不同算法的视觉对比

Fig. 7 Visual comparisons of different methods((a)original; (b)RC; (c) LR; (d) PCA; (e)HDCT; (f)BFS; (g)ours; (h)${\rm{GT}}$)

另外，通过计算各算法的平均运行时间来进行效率方面的比较，即计算所用图像数据库的平均每幅图像的检测时间，各算法对应的平均运行时间如表 1所示，其中所比较的算法都是使用相应作者公开提供的源代码。从表 1可以看得到，本文算法具有较低的时间复杂度，效率较高，其中时间主要消耗在超像素分割和凸包计算过程，整体上除了稍慢于RC和BFS算法，比其他3种算法快得多。

表 1 平均运行时间对比
Table 1 Comparison of average running time

下载CSV

算法	时间/s	实现代码
PCA	9.086	Matlab
RC	0.657	C++
LR	27.358	Matlab
HDCT	11.586	Matlab
BFS	0.418	Matlab
本文	0.723	Matlab

4 结论

本文提出了一种结合背景先验信息和前景先验信息的显著性检测方法。首先，利用背景先验假设，提取图像边缘的超像素作为背景先验区域，通过计算其他超像素与这些背景先验区域的差异度来得到背景先验显著图；然后采用凸包先验的方法来获得显著目标的位置，接着结合背景先验显著图进行判断得到前景先验显著区域，从而可计算其他超像素与这些前景区域的相似度来产生前景先验显著图。由于这两个显著图有着相互补充的关系，所以将它们结合并进一步优化来生成最后的显著图。实验表明，本文的检测效果不仅能够有效地抑制背景和突显出显著区域，而且在精确率和召回率等方面都优于其他算法，同时效率较高。由于利用凸包提取到的前景目标位置有时可能会偏离真实位置较大，所以在未来的工作中，将改进本文算法，使检测结果更加准确。

参考文献

[1] Torralba A, Sinha P.Statistical context priming for object detection[C]//Proceedings of the 8th IEEE International Conference on Computer Vision.Vancouver, BC, Canada:IEEE, 2001, 1:763-770.[DOI:10.1109/ICCV.2001.937604]

[2] Rutishauser U, Walther D, Koch C, et al.Is bottom-up attention useful for object recognition?[C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington DC, USA:IEEE, 2004, 2:Ⅱ-37-Ⅱ-44.[DOI:10.1109/CVPR.2004.1315142]

[3] Lempitsky V, Kohli P, Rother C, et al.Image segmentation with a bounding box prior[C]//Proceedings of 2009 IEEE the 12th International Conference on Computer Vision.Kyoto, Japan:IEEE, 2009:277-284.[DOI:10.1109/ICCV.2009.5459262]

[4] Guo C L, Zhang L M. A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression[J]. IEEE Transactions on Image Processing, 2010, 19(1): 185–198. [DOI:10.1109/TIP.2009.2030969]

[5] Cheng M M, Mitra N J, Huang X L, et al. SalientShape:group saliency in image collections[J]. The Visual Computer, 2014, 30(4): 443–453. [DOI:10.1007/s00371-013-0867-4]

[6] Yang J M, Yang M H.Top-down visual saliency via joint CRF and dictionary learning[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Providence, RI, USA:IEEE, 2012:2296-2303.[DOI:10.1109/CVPR.2012.6247940]

[7] Liu T, Yuan Z J, Sun J, et al. Learning to detect a salient object[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(2): 353–367. [DOI:10.1109/TPAMI.2010.70]

[8] Tong N, Lu H C, Ruan X, et al.Salient object detection via bootstrap learning[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA:IEEE, 2015:1884-1892.[DOI:10.1109/CVPR.2015.7298798]

[9] Jiang X X, Li Z M, Kuang Z Z, et al. Image saliency detection based on two-layer information fusion[J]. Journal of Image and Graphics, 2015, 20(3): 340–348. [姜霞霞, 李宗民, 匡振中, 等. 融合双层信息的显著性检测[J]. 中国图象图形学报, 2015, 20(3): 340–348. ] [DOI:10.11834/jig.20150305]

[10] Yeh H H, Chen C S.From rareness to compactness:contrast-aware image saliency detection[C]//Proceedings of the 19th IEEE International Conference on Image Processing.Orlando, FL:IEEE, 2012:1077-1080.[DOI:10.1109/ICIP.2012.6467050]

[11] Zhu W J, Liang S, Wei Y C, et al.Saliency optimization from robust background detection[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus, OH:IEEE, 2014:2814-2821.[DOI:10.1109/CVPR.2014.360]

[12] Zhang L, Gu Z Y, Li H Y.SDSP:A novel saliency detection method by combining simple priors[C]//Proceedings of 2013 the 20th IEEE International Conference on Image Processing.Melbourne, VIC, Australia:IEEE, 2013:171-175.[DOI:10.1109/ICIP.2013.6738036]

[13] Jiang H Z, Wang J D, Yuan Z J, et al.Salient object detection:a discriminative regional feature integration approach[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland, OR:IEEE, 2013:2083-2090.[DOI:10.1109/CVPR.2013.271]

[14] Wei Y C, Wen F, Zhu W J, et al.Geodesic saliency using background priors[C]//Proceedings of the 12th European Conference on Computer Vision.Florence, Italy:Springer, 2012, 7574:29-42.[DOI:10.1007/978-3-642-33712-3_3]

[15] Yang C, Zhang L H, Lu H C, et al.Saliency detection via graph-based manifold ranking[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland, OR:IEEE, 2013:3166-3173.[DOI:10.1109/CVPR.2013.407]

[16] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254–1259. [DOI:10.1109/34.730558]

[17] Achanta R, Hemami S, Estrada F, et al.Frequency-tuned salient region detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Miami, FL:IEEE, 2009:1597-1604.[DOI:10.1109/CVPR.2009.5206596]

[18] Ma Y F, Zhang H J.Contrast-based image attention analysis by using fuzzy growing[C]//Proceedings of the 11th ACM International Conference on Multimedia.Berkeley, CA, USA:ACM, 2003:374-381.[DOI:10.1145/957013.957094]

[19] Cheng M M, Mitra N J, Huang X L, et al. Global contrast based salient region detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 569–582. [DOI:10.1109/TPAMI.2014.2345401]

[20] Goferman S, Zelnik-Manor L, Tal A.Context-aware saliency detection[C]//Proceedings of 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco, CA:IEEE, 2010:2376-2383.[DOI:10.1109/CVPR.2010.5539929]

[21] Perazzi F, Krähenbühl P, Pritch Y, et al.Saliency filters:Contrast based filtering for salient region detection[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence:IEEE, 2012:733-740.[DOI:10.1109/CVPR.2012.6247743]

[22] Margolin R, Tal A, Zelnik-Manor L.What makes a patch distinct?[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland, OR:IEEE, 2013:1139-1146.[DOI:10.1109/CVPR.2013.151]

[23] Kim J, Han D, Tai Y W, et al.Salient region detection via high-dimensional color transform[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus, OH:IEEE, 2014:883-890.[DOI:10.1109/CVPR.2014.118]

[24] Shen X H, Wu Y.A unified approach to salient object detection via low rank matrix recovery[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence, RI, USA:IEEE, 2012:853-860.[DOI:10.1109/CVPR.2012.6247758]

[25] Wang L J, Lu H C, Ruan X, et al.Deep networks for saliency detection via local estimation and global search[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA:IEEE, 2015:3183-3192.[DOI:10.1109/CVPR.2015.7298938]

[26] Zhao R, Ouyang W L, Li H S, et al.Saliency detection by multi-context deep learning[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA:IEEE, 2015:1265-1274.[DOI:10.1109/CVPR.2015.7298731]

[27] Jiang B W, Zhang L H, Lu H C, et al.Saliency detection via absorbing Markov chain[C]//Proceedings of 2013 IEEE International Conference on Computer Vision.Sydney, NSW, Australia:IEEE, 2013:1665-1672.[DOI:10.1109/ICCV.2013.209]

[28] Li J L, Meng F, Zhang Y C.Saliency detection using a background probability model[C]//Proceedings of 2015 IEEE International Conference on Image Processing.Quebec City, Canada:IEEE, 2015:2189-2193.[DOI:10.1109/ICIP.2015.7351189]

[29] Li X H, Lu H C, Zhang L H, et al.Saliency detection via dense and sparse reconstruction[C]//Proceedings of 2013 IEEE International Conference on Computer Vision.Sydney, NSW, Australia:IEEE, 2013:2976-2983.[DOI:10.1109/ICCV.2013.370]

[30] Wang J P, Lu H C, Li X H, et al. Saliency detection via background and foreground seed selection[J]. Neurocomputing, 2015, 152: 359–368. [DOI:10.1016/j.neucom.2014.10.056]

[31] Van de Weijer J, Gevers T, Bagdanov A D. Boosting color saliency in image feature detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(1): 150–156. [DOI:10.1109/TPAMI.2006.3]

[32] Xie Y L, Lu H C.Visual saliency detection based on Bayesian model[C]//Proceedings of 2011 the 18th IEEE International Conference on Image Processing.Brussels, Belgium:IEEE, 2011:645-648.[DOI:10.1109/ICIP.2011.6116634]

[33] Liu R S, Cao J J, Lin Z C, et al.Adaptive partial differential equation learning for visual saliency detection[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus, OH:IEEE, 2014:3866-3873.[DOI:10.1109/CVPR.2014.494]

[34] Yang C, Zhang L H, Lu H C. Graph-regularized saliency detection with convex-hull-based center prior[J]. IEEE Signal Processing Letters, 2013, 20(7): 637–640. [DOI:10.1109/LSP.2013.2260737]

[35] Achanta R, Shaji A, Smith K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274–2282. [DOI:10.1109/TPAMI.2012.120]

[36] Zhu H L, Sheng B, Lin X, et al.Foreground object sensing for saliency detection[C]//Proceedings of the 2016 ACM on International Conference on Multimedia Retrieval.New York, USA:ACM, 2016:111-118.[DOI:10.1145/2911996.2912008]