Print

发布时间: 2020-09-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190587
2020 | Volume 25 | Number 9




    图像分析和识别    




  <<上一篇 




  下一篇>> 





不规则像素簇显著性检测算法
expand article info 李明旭1, 翟东海1,2
1. 西南交通大学信息科学与技术学院, 成都 611756;
2. 西藏大学工学院, 拉萨 850000

摘要

目的 显著性检测领域的研究重点和难点是检测具有复杂结构信息的显著物体。传统的基于图像块的检测算法,主要根据相对规则的图像块进行检测,计算过程中不能充分利用图像不规则的结构和纹理的信息,对算法精度产生影响。针对上述问题,本文提出一种基于不规则像素簇的显著性检测算法。方法 根据像素点的颜色信息量化颜色空间,同时寻找图像的颜色中心,将每个像素的颜色替代为最近的颜色中心的颜色。然后根据相同颜色标签的连通域形成不规则像素簇,并以连通域的中心为该簇的位置中心,以该连通域对应颜色中心的颜色为该簇整体的颜色。通过像素簇的全局对比度得到对比度先验图,利用目标粗定位法估计显著目标的中心,计算图像的中心先验图。然后将对比度先验图与中心先验图结合得到初始显著图。为了使显著图更加均匀地突出显著目标,利用图模型及形态学变化改善初始显著图效果。结果 将本文算法与5种公认表现最好的算法进行对比,并通过5组图像进行验证,采用客观评价指标精确率—召回率(precision-recall,PR)曲线以及精确率和召回率的调和平均数F-measure进行评价,结果表明本文算法在PR曲线上较其他算法表现良好,在F-measure方面相比其他5种算法均有00.3的提升,且有更佳的视觉效果。结论 本文通过更合理地对像素簇进行划分,并对目标物体进行粗定位,更好地考虑了图像的结构和纹理特征,在显著性检测中有较好的检测效果,普适性强。

关键词

显著性检测; 不规则块; 颜色空间量化; 全局对比度; 中心先验

Significance detection method with irregular pixel clusters
expand article info Li Mingxu1, Zhai Donghai1,2
1. School of Information Science and Technology, Southwest Jiaotong University, Chengdu 611756, China;
2. School of Engineering, Tibet University, Lhasa 850000, China
Supported by: National Natural Science Foundation of China(61961038)

Abstract

Objective Saliency detection is a technique that uses algorithms to simulate human visual characteristics. It aims to identify the most conspicuous objects or regions in an image and is used as a first step in image analysis and synthesis, allowing priority to be given to the allocation of computational resources in subsequent processing. The technique has been widely used in several visual applications, such as image segmentation of regions of interest, object recognition, image adaptive compression, and image retrieval. In most traditional methods, the basic unit of saliency detection is formed by image oversegmentation on the basis of regular regions, which are usually improved on n×n square blocks. Final saliency maps consist of these regions with their saliency scores, which result in the boundary block effect of the final saliency map. The performance of these models relies on whether the segmentation results fit the boundary of the salient object and the accuracy of feature extraction. By using this method, an improved effect can be obtained on the salient target with relatively regular structure and texture. However, in the real world, significant objects and backgrounds are often characterized by complex textures and irregular structure. These approaches cannot produce satisfactory results when images have complex textures, which yield low accuracy. To deal with the limitations of the past algorithms, we propose an algorithm for salient object detection based on irregular superpixels. This algorithm can consider the information of the structure and color features of the object and is closer to the object boundary to a certain extent, thus increasing the precision and recall rate. Method In the algorithm, the images to be inputted are first preprocessed by bilateral filtering and mean-shift in to reduce the scattered dots in the picture. Then in the RGB(red-green-blue) color space, the K-means algorithm is used to quantize the color of the image, and the color values of the cluster center and the cluster center are obtained and saved, in order to speed up the subsequent calculations. Then, according to the connected domain of the same color label, irregular pixel clusters are formed, in the meantime, set the center of the connected domain to the center of the location of the cluster, set the color corresponding to the color label of the connected domain to the color of the cluster. Next, for the contrast prior, the saliency scores of the image pixel cluster is determined by the color statistic information of the input image. In particular, the saliency scores of a pixel cluster is defined by its color contrast with all other pixel clusters in the image, the size of the pixel cluster and the probability of the corresponding color appearing in the picture. For the central prior graph, the center of the significant target is first estimated by the target coarse positioning method. Then, on the basis of the distance between clusters and the center, the saliency scores of each pixel cluster can be calculated; thus, the central prior graph can be formed. The contrast prior graph is then combined with the central prior graph to obtain an initial saliency map. Lastly, to make the salient map highlight the significant target prominently, a graph model and morphological changes are introduced in saliency detection due to their outstanding performance in image segmentation tasks. In this manner, the final saliency map is obtained. Result To test the recognition effect of the proposed algorithm, we compare our model with five excellent saliency models on two public datasets, namely, DUT-OMRON(Dalian University of Technology and OMRON Corporation) and Microsoft Research Asia(MSRA) salient object database. The quantitative evaluation metrics contain F-measure and precision-recall(PR) curves. We provide several saliency maps of each method for comparison. Experiment results show that the algorithm proposed in this study has a greater performance improvement compared with the previous algorithms; it also has a better visual effect in the MSRA and DUT-OMRON datasets. The saliency maps show that our model can produce refined results. Compared with the detection results in frequency-tuned salient region detection(FT), luminance contrast(LC), histogram based contrast(HC), region based contrast(RC), and minimum barrier salient object detection(MB) in MSRA, the F-measure (higher is better) increases by 47.37%, 61.29%, 31.05%, 2.73%, and 5.54%, respectively. Compared with DUT-OMRON, the F-measure increases by 75.40%, 92.10%, 63.50%, 8.83%, and 16.34%, respectively. Comparative experiments demonstrate that the fusion algorithm improves saliency detection. In addition, a series of comparative experiments in MSRA are conducted to show the preponderance of our algorithm. Conclusion In this study, a saliency recognition algorithm based on irregular pixel blocks is proposed. The algorithm is divided into three parts: irregular pixel blocks, which are constructed by using the color information of images; initial saliency graph, which is obtained by fusing contrast prior and center prior; The final saliency map is obtained by improving the initial saliency map using a graph model. Experimental results show that our model improves recognition performance and outperforms several best performing saliency approaches.

Key words

significance detection; irregular block; color space quantization; global contrast; center prior

0 引言

显著目标检测,是一种通过算法模拟人的视觉特点,从图中得到显著物体区域的技术。作为图像分析与合成的先行步骤,它允许在随后的处理中优先分配计算资源,该技术在很多领域,如对感兴趣区域的图像分割(Itti等,1998Harel等,2006)、对象识别(Zhang等,2008)、图像的自适应压缩(Judd等,2010)和图像检索(Cheng等,2011)中得到了广泛的应用。目前的显著性检测算法大致可以分为两类:眼动点预测模型和显著目标检测模型。

Itti等人(1998)提出了一种可行的眼动点预测方法,通过构建图像的颜色、亮度和方向的高斯金字塔,计算图像亮度、颜色和方向的特征图,然后通过高斯金字塔得到多个特征显著图。最后,将各个显著图经过归一化和相加,得到最终的显著图。眼动预测模型实质上是为了预测出图像中引起人眼注意的区域,典型的方法还有GBVS(graph-based visual saliency)显著性检测算法(Harel等,2006)、利用自然统计的显著性贝叶斯检测框架SUN (Bayesian framework for saliency using natural statistics) (Zhang等,2008)以及Judd等人(2010)提出的方法。

另一类显著性检测方法是目标检测模型,其原理类似图像分割,主要思想是根据颜色、纹理等特征,提取出图像中显著的区域。Cheng等人(2011)通过全局对比度方法计算图像过分割后颜色、距离空间的加权,最后得到每个区域的显著性。Zhang等人(2015)使用FastMBD(fast minimum barrier distance)算法测量像素和图像边界的连通性, 规避了区域抽象方法,大幅提高了最终显著性图的计算速度。Goferman等人(2012)同时结合了图像的高层理解信息、图像组织结构,以及全局稀有度、局部对比度线索,来对图像的显著度进行建模。Yang等人(2013)利用简单线性迭代聚类(simple linear iterative clustering, SLIC)算法对图像进行过分割,再对处理后的图像计算中心先验图和对比度先验图,最后通过先验融合,得到最终的显著图。

目前很多显著性识别技术都采用规则图像块对图像进行显著性计算,这样并不能充分反映图像块结构信息与颜色信息的不规则性,从而影响显著性检测的结果。针对上述问题,本文提出了一种不规则图像块的显著性检测算法,如图 1所示,利用像素点颜色信息对像素进行聚类,划分区域块,然后利用不规则的像素簇,分别计算每个簇的空间显著性和对比度显著性,得到中心先验图和对比度先验图,最后通过先验融合得到最终的显著图。为了评估本文方法,在2个公开的数据集进行了测试,与5种公认表现最好的算法进行对比,本文方法性能均有所提升。

图 1 算法示意图
Fig. 1 Algorithm diagram

1 划分不规则像素簇

对图像进行过分割是指根据图像的一定特征,将其分割为能够代表其周围像素的图像块,并以此作为后续图像处理的单元(Liu等,2019Wang等,2016)。过分割后得到的图像块,比像素具有更少的数量,大大降低了后续操作的时间,因此在计算机视觉任务中得到广泛的应用, 如图 2所示, 本文算法也将像素簇作为基本处理单元。

图 2 不规则像素簇划分示意图
Fig. 2 Sketch map of irregular pixel cluster partition

传统的基于块的显著目标检测方法中,分割所得到的簇都是相对规则的,通常是在$n×n$的正方形块上进行改良,使得最终的显著图存在明显的方块化,利用这种形状,在有相对规则结构和纹理的显著目标上,能够取得较好的效果。但在现实世界中,显著目标和背景往往存在纹理复杂以及形态不规则的特点,当图像形态较为复杂时,超像素分割得到的图像块往往不满足检测的需要,从而影响显著性检测的准确度。造成此结果的原因在于,超像素分割算法对目标物的边界信息利用不充分,如图 3(b)所示,图中SLIC算法(Achanta等,2012)错误地将树的顶部和云划为同一物体。针对上述问题,本文通过不规则像素簇来进行显著性检测,实验表明,该算法能够更好地考虑目标在纹理和颜色特征上的信息,并在一定程度上更加贴近目标的边界。

图 3 不同方法得到的分割
((a) original image; (b) SLIC algorithm; (c) ours)
Fig. 3 Segmentation by different methods

1.1 颜色空间量化

若对图像中每一个像素的颜色全局对比度进行计算,算法的时间复杂度将会非常高,而显著性识别作为大量图像处理算法的预处理部分,应具有快速的特点,本文采用减少图像中颜色数目的方法来降低算法时间复杂度。在真实世界中,彩色空间包含2563种可能的颜色,这通常大于图像像素的数量。Zhai和Shah(2006)通过只使用亮度来减少颜色的数量$k$,使颜色数目下降到$k^{2}=256^{2}$。然而,该方法存在忽视颜色信息显著性的缺点。本文使用全彩色空间而不仅是亮度,对颜色空间进行量化,将图像的颜色数目固定为$K$,并计算像素点在颜色空间上的距离,而距离则是2个像素点相似度的重要依据。本文定义两个像素点的距离为

$ D = \sqrt {{{({r_k} - {r_i})}^2} + {{({g_k} - {g_i})}^2} + {{({b_k} - {b_i})}^2}} $ (1)

式中, $r,g, b$代表像素点在RGB空间的颜色特征值。通过2个像素点的距离公式进行聚类,得到颜色量化后的颜色中心的RGB值,每个像素点的颜色值被重新分配为离该像素点最近的颜色中心的颜色。换句话说,通过聚类算法,选择出最能代表图像的$k$种颜色,并将图像中的每一个颜色划分到距它最近的颜色中心中,聚类算法步骤为:

输入:图像${\mathit{\boldsymbol{M}}}$,聚类颜色中心数$k$

1) 随机在RGB颜色空间中选取$k$个点作为初始中心;

2) 按照每个像素点到中心的距离,划分像素簇;

3) 重新计算颜色中心;

4) 若达到对应精度,或达到迭代次数,则停止,否则返回步骤1)。

由于K-means初始颜色中心的选择具有随机性,因此无法保证收敛达到全局最优,并且聚类的结果对初始聚类中心敏感,因此本文根据K-means++算法的思想选取初始值,运行多次,以误差平方和(sum of the squared error, SSE)作为聚类误差的判断准则,选取其中误差最小的结果作为最终结果,公式为

$ E = \sum\limits_{i = 1}^k {\sum\limits_{x \in {c_i}} D } {({c_i},x)^2} $ (2)

式中,$E$表示误差平方和,$k$表示$k$个聚类中心,$c_{i}$表示第$i$个中心,$x$为原始图像中点的颜色信息,$D$为式(1)中的距离。

1.2 构造不规则簇

在经过颜色空间量化后,原图像被量化为$k$种颜色,图像中的其他颜色被与其最近的颜色中心的颜色值所代替,而现实中,颜色相近的像素点并非离散分布于图像中,而是成块出现,因此在量化后的图像中,相同颜色中心的像素点聚集在一起,形成多个不规则的像素区域。而对于每种颜色中心来说,当前颜色中心对应的像素点与图像中的其他像素点区别开来,形成多个连通域,这些连通域包含了该区域图像的颜色信息与形态信息,以连通域对应的颜色中心的颜色为像素簇的颜色,以连通域的重心为像素簇的位置中心,生成不规则像素簇,算法流程如下所示。

输入:颜色中心$c$,图像标签信息$p$

1) 遍历每一个$c$,将图像中对应该颜色中心的像素值设为255,其余像素的像素值设为0。

2) 找到二值图像中的连通域,并求得该连通域的重心作为连通域的中心。

3) 遍历当前颜色中心的所有连通域,并初始化该簇的位置、颜色信息及像素点集合。

4) 返回像素簇的队列。

2 计算不规则像素簇的显著值

2.1 对比度先验

目前的显著性检测算法,大多都直接或者间接采用了对比度计算方法,本文利用输入图像的颜色统计信息来确定图像像素的显著性值,图 4(b)为对比度先验示例。对于对比度先验, 像素簇的显著性是使用其与图像中所有其他像素簇的颜色对比度来定义的,给定像素簇$i$,则其显著性为

图 4 算法输出中间结果
Fig. 4 Intermediate output of algorithm((a) input; (b) contrast prior map; (c) center priori map;
(d) initial prior map; (e) final significance map; (f) ground truth)

$ {\mathit{\boldsymbol{S}}_{{\rm{co}}}}(i) = \sum\limits_{j \ne i} {{\rm{ }}dist{\rm{ }}} ({I_i},{I_j}) \times {P_{j,k}} \times {N_j} $ (3)

式中,$I_{i}$表示像素簇$i$在CIELab (international commission on illumination, lightness, redness, yellowness)颜色空间上的颜色均值,是一个3维向量,$P_{j, k}$表示颜色$c_{k}$在图像中出现的概率,$N_{j}$表示簇$i$的像素个数在图像所有像素中所占比例,$dist$表示两个像素簇在CIELab颜色空间上的色差,对于每个在CIELab颜色空间的颜色值,色差值由CIEDE2000公式确定,具体为

$ \begin{align} & \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \Delta {{E}_{00}}= \\ & \sqrt{\begin{matrix} {{\left( \frac{\Delta {{L}^{\prime }}}{{{K}_{L}}\times {{S}_{L}}} \right)}^{2}}+{{\left( \frac{\Delta C_{ab}^{\prime }}{{{K}_{C}}\times {{S}_{C}}} \right)}^{2}}+{{\left( \frac{\Delta H_{ab}^{\prime }}{{{K}_{H}}\times {{S}_{H}}} \right)}^{2}}+ \\ \ \ \ \ \ \ \ {{R}_{T}}\times \left( \frac{\Delta C_{ab}^{\prime }}{{{K}_{C}}\times {{S}_{C}}} \right)\times \frac{\Delta H_{ab}^{\prime }}{{{K}_{H}}\times {{S}_{H}}} \\ \end{matrix}} \\ \end{align} $ (4)

式中,$K_{L}$$K_{C}$$K_{H}$为常量,在文中取1。像素点在CIELAB颜色空间中被表示为$[L, a, b],L′=L$$a′=(1+G)×a$$b′=b$$h′_{ab}=$arcsin$(b_{1}′/a_{1}′)$,其中$G$表示CIELAB颜色空间的轴的调整因子,$G{\rm{ = }}0.5 \times \left({1 - \sqrt {\frac{{{{\overline {C_{ab}^*} }^7}}}{{{{\overline {C_{ab}^*} }^7} + {{25}^7}}}} } \right), \; \Delta {L^\prime } = L_1^\prime - L_2^\prime, C_{ab}^\prime $代表饱和度,由$C_{ab}^\prime = \sqrt {{a^{\prime 2}} + {b^{\prime 2}}} $表示,$\Delta C_{ab}^\prime = C_{ab, 1}^\prime - C_{ab, 2}^\prime {S_L} = 1 + \frac{{0.015{{\left({{{\bar L}^\prime } - 50} \right)}^2}}}{{\sqrt {20 + {{\left({{{\bar L}^\prime } - 50} \right)}^2}} }}, {S_C} = 1 + 0.045$ $\bar C_{ab}^\prime ,{S_H} = 1 + 0.015\bar C_{ab}^\prime \left( {1 - 0.017\cos \left( {\bar h_{ab}^{\prime } - {{30}^\circ }} \right) + } \right.$ $0.24\cos \left({\bar h_{ab}'} \right) + 0.32\cos \left({3\bar h_{ab}' + {6^\circ }} \right) - 0.2\cos \left({4\bar h_{ab}' - {{63}^\circ }} \right)\left. {} \right)。ΔH′_{ab}$为色调差,其值表示为

$ \Delta H_{ab}^\prime = 2 \times \sqrt {C_{ab,1}^* \times C_{ab,2}^*} \times {\rm{sin}}\left( {\frac{{\Delta h_{ab}^\prime }}{2}} \right) $ (5)

式中,$C_{ab}^* = \sqrt {{a^2} + {b^2}}, {R_T} = - \sin (2\Delta \theta){R_C}$,其中,${\Delta \theta = 30\exp \left\{ { - {{\left[{\left({\bar h_{ab}^\prime - {{275}^\circ }} \right)/25} \right]}^2}} \right\}, {R_C} = 2\sqrt {\frac{{\bar C{{_{ab}^\prime }^7}}}{{\bar C{{_{ab}^\prime }^7} + {{25}^7}}}} }$

2.2 中心先验

在现实图像中存在背景区域有高对比度的像素块问题,而基于对比度的计算方法会将这些像素块识别为显著物体,参照图 4(c)。此外,对于带有纹理的显著物体在聚类时,纹理无法和显著物体归为一类。因此,本文引入中心先验,不仅有助于减弱背景区域高对比度的像素块的显著性值,也有助于提升显著物体内,由物体纹理引起的低对比度像素块的显著性值。

目前中心先验往往采用2种方式,一种是传统的中心先验(Goferman等,2012Jiang等,2011Zhang等,2016),但在现实世界中,目标物并不仅仅集中于图像中心位置,如摄影中的1/3法则就是将目标物放在图像1/3的位置;另一种是计算图像角点,以所有角点的中心来估计目标物中心,但这样做也存在问题,即图像复杂,角点过多时,往往估计中心会偏移目标物的中心。针对上述问题,本文提出新的中心先验图方法。

考虑到显著目标并非固定存在于图像中的某一区域,本文假设不规则像素簇中存在一种组合,使该组合中的像素恰好组成显著物体,即该组合的中心恰好为显著物体的中心。本文提出一种粗定位方法,首先计算每一个不规则像素簇的边界点,并通过计算所有边界点的质心来估计显著物体的大致位置,即通过计算不规则像素簇的边界点质心,得到新的中心$(x_{0}, y_{0})$。在计算显著值的时候,本文的计算对象都是像素簇而非单个像素,以像素簇的质心作为其位置坐标。中心先验的显著值计算为

$ {\mathit{\boldsymbol{S}}_{{\rm{cc}}}}(i) = {\rm{exp}}\left( { - \frac{{{{({x_i} - {x_0})}^2}}}{{2\sigma _x^2}} - \frac{{{{({y_i} - {y_0})}^2}}}{{2\sigma _y^2}}} \right) $ (6)

式中,$x_{i}$$y_{i}$是该像素簇的坐标,$σ_{x}$$σ_{y}$分别是水平和垂直方向上的方差,本文将中心先验表示成均值为以粗定位法得到的中心的高斯模型,故$σ_{x}$$σ_{y}$取值相同。此外,在计算过程中,本文将中心点的坐标$(x_{0}, y_{0})$以及像素坐标归一化到[0, 1]范围内进行计算。

2.3 先验融合

与特征融合理论框架(袁巧等,2018Zhang等,2016李波等,2016)相似,本文将中心先验与对比度先验所得结果融合,以得到初始先验图,方法为

$ {\mathit{\boldsymbol{S}}_{{\rm{ in }}}}(i) = {\mathit{\boldsymbol{S}}_{{\rm{ cc }}}}(i) \circ {\mathit{\boldsymbol{S}}_{{\rm{ co }}}}(i) $ (7)

式中,符号“$ \circ $”表示哈达码积。

图 4(d)可以看出,中心先验与对比度先验融合,可以抑制对比度先验中由于背景区域的高对比度而导致的错误突出的部分;另外,由于在计算过程中,中心先验图被标识为各向同性的高斯模型,因此先验图对显著物体的形态较为敏感,进而导致显著物体的各区域显著性值差距较大。为了更加均匀地突出显著物体,本文引入图模型和形态学变化来改善初始先验图。

2.4 改善初始显著图

在得到初始显著图后,进行了一系列有效操作,以提高显著图${\mathit{\boldsymbol{S}}}$的质量,这些操作在增加有限复杂度情况下,可以有效地提高显著目标检测的性能。

为了在保持重要边界细节的同时平滑${\mathit{\boldsymbol{S}}}$,本文在${\mathit{\boldsymbol{S}}}$上应用了一个形态学平滑步骤,该步骤由膨胀操作和侵蚀操作组成。膨胀(侵蚀)的标记图是通过具有宽度为$δ$核对源图像进行膨胀(侵蚀)获得的。为了使平滑级别与显著区域的大小成比例,$δ$表示为

$ \delta = \alpha \sqrt s $ (8)

式中, $α$是预先确定的常数,$s$是初始显著图上的平均像素值。

为了更好地区分前景与背景,使得检测结果更加均匀地突出显著物体,类似于Yang等人(2013)的方法,本文将图模型引入到显著性检测中。先将像素簇表示为一个系数图${\mathit{\boldsymbol{G}}}(V, E)$$V$代表图中的结点,$E$表示无向边,当且仅当两个像素簇$i$$j$具有相邻边的时候,图中两个相邻像素簇$i$, $j$边的权重定义为

$ {w_{i,j}} = {\rm{exp}}( - \left\| {{\mathit{\boldsymbol{c}}_i} - {\mathit{\boldsymbol{c}}_j}} \right\|/2 \times \sigma _w^2) $ (9)

式中,${\mathit{\boldsymbol{c}}}_{i}$-${\mathit{\boldsymbol{c}}}_{j}$表示像素簇的颜色,是一个3维向量,${\mathit{\boldsymbol{x}}}$表示向量${\mathit{\boldsymbol{x}}}$的2-范数。$σ_{w}$控制权重强度。图${\mathit{\boldsymbol{G}}}$的最优解(Yang等,2013)为

$ {\mathit{\boldsymbol{S}}^*} = {\mathit{\boldsymbol{S}}_{{\rm{ in }}}}{(\mathit{\boldsymbol{I}} + 2\lambda \mathit{\boldsymbol{L}})^{ - 1}} $ (10)

式中,${\mathit{\boldsymbol{L}}}$是拉普拉斯矩阵,由${\mathit{\boldsymbol{L}}}={\mathit{\boldsymbol{D}}}-{\mathit{\boldsymbol{W}}}$得到,${\mathit{\boldsymbol{D}}}$是图的度矩阵,为一个对角矩阵,矩阵${\mathit{\boldsymbol{D}}}$中的对角线上元素表示为$d_{ii}$, 其中${d_{ii}} = \sum\limits_j {{w_{ij}}}, \mathit{\boldsymbol{I}}$${\mathit{\boldsymbol{I}}}$是单位矩阵,$λ$是正则化参数,用来平衡方程中的拟合项和平滑项。

通过以上步骤处理初始显著图有以下优点:首先,形态学变化可以在一定程度上填补由图像中的噪点或者显著物体中由纹理带来的空洞;其次,基于图模型的光滑约束,在保持物体边界的同时,能够降低显著物体中不同像素簇带来的显著值差异,使初始显著图足够光滑;最后,上述步骤可以带来显著的效果提升,而其时间消耗可以忽略不计,其效果如图 4(e)所示。图 5展示了不同的$α$对最终显著图的作用,结果显示,$α$过大,会导致最终显著图边界模糊; $α$过小会导致最终显著图中孔洞较多,因此应当选择合适的$α$值。

图 5 $α$取值对检测结果的影响
Fig. 5 Influence of different $α$ value((a) input; (b) ground-truth; (c) $α$=0.25; (d) $α$=0.5; (e) $α$=0.1; (f) $α$=5)

3 显著性检测流程

根据上文所述,不规则像素簇的显著性识别算法流程如图 6所示,首先将待输入的图像进行预处理,包括双边滤波、均值迁移的去噪处理等,不仅有助于加快算法运行速度,也有助于减弱目标物中的纹理,以及小面积遮挡物对显著物体检测造成的影响。然后在RGB颜色空间内,量化图像颜色,得到图像每一个像素对应的簇心及簇心的颜色值,并在CIELab颜色空间内,计算每个簇心之间的色差,以提高后续计算速度。针对簇的显著性计算,分为中心先验与对比度先验。对于对比度先验。每一个像素簇的显著性值用其颜色的全局对比度来定义,对于中心先验,物体的中心由不规则像素簇的所有边界点的质心确定,而每个像素簇的显著性值由簇的质心与物体中心的距离确定。再将中心先验与对比度先验所得的先验图融合,得到初始先验图。最后通过图模型及形态学变化改善初始显著图,得到最终的显著图。

图 6 本文算法流程
Fig. 6 Algorithm flow of this paper

4 实验结果与分析

本文的实验设置如下:

1) 算法实现。在实验中,本文设置聚类的颜色数目为43,式(6)中$σ_{y}=σ_{x}=0.5$,式(8)中$α$=1,式(9)中$σ_{w}$=0.1,式(10)中$λ$=25,这些参数在接下来的实验中固定不变。

2) 数据集。本文采用MSRA(Microsoft Researth Asia)-B和DUT-OMRON(Dalian University of Technology and OMRON Corporation)数据集进行实验验证。MSRA-B由Liu等人(2007)提出,是在MSRA数据库中随机选择了具有一致边界框标签的5 000幅图像。这些图像具有来自MSRA数据集的10 000幅图像的像素级显著性标记。DUT-OMRON数据库由Yang等人(2013)提出,由5 168幅高质量的图像组成,这些图像是从140 000多幅图像中手工挑选而出。该数据集的图像有一个或多个突出对象和相对复杂的背景。与MSRA以及其他数据集相比,对该数据集的图像进行显著性检测更加困难,具有更大的挑战性。

3) 对比方法。为了检验算法的识别效果,将本文方法与5种公认表现最好算法进行对比,包括RC(region based contrast) (Cheng等,2011)、FT(frequency-tuned salient region detection) (Achanta等,2009)、HC(histogram based contrast) (Cheng等,2011)、LC(luminance contrast) (Zhai和Shah,2006)和MB(minimum barrier salient object detection) (Zhang等,2015)。RC通过稀疏直方图比较来计算区域对比度,FT算法利用颜色特征的中央—周边算子得到显著图,将显著值表示为当前像素的颜色与图像均值之间的距离,HC提出了一种基于直方图的加速方法,通过计算与其他像素的颜色差异来得到像素的显著性值,LC通过计算像素在整个图像上的全局对比度,并将像素与其他所有像素在颜色差之和作为该像素的显著值,MB算法以路径代价函数作为像素点的显著性值。图 7显示了本文算法与对比算法样本显著性图。实验结果表明,本文算法在基于图像块的显著性检测中具有良好的表现。

图 7 对比方法的样本显著性图
Fig. 7 Sample saliency maps of the compared methods
((a) input; (b) LC; (c) FT; (d) HC; (e) RC; (f) MB; (g) ours; (h) ground truth)

4.1 利用PR曲线进行评价

类似于Cheng等人(2011)以及Jiang等人(2013)的方法,本文使用精确率—召回率(precision-recall, PR)对识别结果进行对比分析。通过在[0, 255]范围内设定固定阈值的方法生成一组二值图像,并计算每个二值图像的精确率和召回率。在数据集上,通过计算每个阈值下不同图像的精确率和召回率的平均值来计算平均PR曲线。

1) 精确率(precision):正确检测到的显著像素个数除以所有检测到的显著像素个数。

2) 召回率(recall):本文方法在图像中正确检测到的显著像素个数,除以真值图中显著像素个数。

图 8展示了本文方法与其他算法的PR曲线对比。可以看出,本文方法在MSRA和DUT-OMRON上,检测效果优于对比方法。在MSRA数据集中,相比LC、FT和HC算法,本文方法优势明显,相比RC和MB,在召回率较高的区域,RC和MB对应的曲线高于本文算法对应的曲线,这是因为RC和MB算法更好地抑制了背景,但在召回率较小的区域,本文算法与MB算法相比优势明显,因为在抑制背景的同时,MB与RC算法也抑制了显著物体区域。在DUT-OMRON数据集上,本文方法较FT、LC、HC和RC都有显著优势。在召回率较高的区域,MB算法对应的曲线高于本文算法,但在召回率较低区域,本文算法具有较大优势。

图 8 对比算法的PR曲线
Fig. 8 Precision-recall curves of the compared methods((a) MSRA dataset; (b) DUT-OMRON dataset)

4.2 利用F-measure进行评价

由于曲线插值和像素之间独立性的不当假设以及对所有误差的同等重要性分配,这些度量可能无法可靠地评估显著性图的质量。因此,采用加权F-measure度量,通过系数制衡召回率与精确率的比例,从而能够较好地比较显著性检测算法的效果计算为

$ {F_\beta } = \frac{{(1 + {\beta ^2})p \times r}}{{{\beta ^2} \times p + r}} $ (11)

式中,$F_{β}$为F-measure,设定$β^{2}=0.3$来调和召回率与精确率。$p$是精确率,$r$是召回率。图 9展示了5种算法在2个数据集上与本文方法的F-measure度量(Margolin等,2014)。在MSRA数据集上,本文算法与FT、LC、HC、RC和MB的检测结果相比,F-measure值分别提高了47.37%、61.29%、31.05%、2.73%和5.54%。在DUT-OMRON数据集上,F-measure值分别提高了75.40%、92.10%、63.50%、8.83%和16.34%。

图 9 对比方法的F-measure度量
Fig. 9 F-measure scores of compared methods((a) MSRA dataset; (b) DUT-OMRON dataset)

4.3 新的中心先验有效性

为了验证提出的新的中心先验的有效性,本文在MSRA数据库上,对比了3种情况下的PR曲线,3种情况分别是对比度先验、对比度先验与传统中心先验融合以及对比度先验与新的中心先验融合,结果如图 10所示。从图中可知,在召回率较高(阈值较低)和召回率较低(阈值较高)的区域,新的中心先验与传统中心先验对比都有显著优势,这是因为,新的中心先验能更灵活地对目标位置进行粗定位,并达到更好的增强前景、抑制背景的效果。

图 10 新的中心先验的有效性
Fig. 10 Invalidation of new center prior

5 结论

传统的基于图像块分割的显著性识别算法主要采用规则的图像过分割得到超像素进行显著性识别,不能充分利用图像的结构与纹理信息,针对上述问题,本文提出了基于不规则像素块的显著性识别算法。算法分为3部分:1)利用图像颜色信息构建不规则像素块;2)通过对比度先验与中心先验,并经过先验融合得到初始显著图;3)通过图模型改善初始显著图,得到最终显著图。在两个公开数据集上与5种算法进行对比,结果显示,本文算法对比清晰,表现良好;在客观指标上,本文算法的PR曲线、F-measure值均有显著优势。同时,本文算法也表现出一定不足,通过图模型改善初始显著图,需要计算不规则像素簇的相邻簇,这会增加计算时间。在后续的研究中将尝试融合图像更多的特征,包括物体形态、障碍物结构以及边界特征等,以进一步提升检测结果。

参考文献

  • Achanta R, Hemami S, Estrada F and Susstrunk S. 2009. Frequency-tuned salient region detection//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE: 1597-1604[DOI:10.1109/CVPR.2009.5206596]
  • Achanta R, Shaji A, Smith K, Lucchi A, Fua P, Süsstrunk S. 2012. SLIC superpixels compared to state-of-the-art superpixel methods. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(11): 2274-2282 [DOI:10.1109/TPAMI.2012.120]
  • Cheng M M, Zhang G X, Mitra N J, Huang X L and Hu S M. 2011. Global contrast based salient region detection//Proceedings of 2011 Computer Vision and Pattern Recognition (CVPR). Providence: IEEE: 409-416[DOI:10.1109/CVPR.2011.5995344]
  • Goferman S, Zelnik-Manor L, Tal A. 2012. Context-aware saliency detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(10): 1915-1926 [DOI:10.1109/TPAMI.2011.272]
  • Harel J, Koch C and Perona P. 2006. Graph-based visual saliency//Advances in Neural Information Processing Systems 19: Proceedings of the 2006 Conference. Cambridge: MIT Press: 545-552[DOI:10.7551/mitpress/7503.003.0073]
  • Itti L, Koch C, Niebur E. 1998. A model of saliency-based visual attention for rapid scene analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11): 1254-1259 [DOI:10.1109/34.730558]
  • Jiang H, Wang J, Yuan Z, Liu T, Zheng N and Li S. 2011. Automatic salient object segmentation based on context and shape prior//Proceedings of the 22nd British Machine Vision Conference. Dundee: BMVC: 110.1-110.12[DOI:10.5244/C.25.110]
  • Jiang H, Wang J, Yuan Z, Wu Y, Zheng N and Li S. 2013. Salient object detection: a discriminative regional feature integration approach//Proceedings of 2013 IEEE Conference on Computer Vision And Pattern Recognition (CVPR). Portland: IEEE: 2083-2090
  • Judd T, Ehinger K, Durand F and Torralba A. 2010. Learning to predict where humans look//Proceedings of the 12th IEEE International Conference on Computer Vision. Kyoto: IEEE: 2106-2113[DOI:10.1109/ICCV.2009.5459462]
  • Li B, Lu C Y, Jin L B, Leng C C. 2016. Saliency detection based on lazy random walk. Journal of Image and Graphics, 21(9): 1191-1201
  • 李波, 卢春园, 金连宝, 冷成财. 2016. 惰性随机游走视觉显著性检测算法. 中国图象图形学报, 21(9): 1191-1201 [DOI:10.11834/jig.20160908]
  • Liu T, Zheng N N, Tang X and Shum H Y. 2007. Learning to detect a salient object//Proceedings of 2007 IEEE Conference on Computer Vision and Pattern Recognition(VPR). Minneapolis: IEEE: 1-8[DOI:10.1109/CVPR.2007.383047]
  • Liu Y, Han J G, Zhang Q, Wang L. 2019. Salient object detection via two-stage graphs. IEEE Transactions on Circuits and Systems for Video Technology, 29(4): 1023-1037 [DOI:10.1109/TCSVT.2018.2823769]
  • Margolin R, Zelnik-Manor L and Tal A. 2014. How to evaluate foreground maps//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE: 248-255[DOI:10.1109/CVPR.2014.39]
  • Wang Q S, Zheng W and Piramuthu R. 2016. GraB: visual Saliency via novel graph model and background priors//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE: 535-543[DOI:10.1109/CVPR.2016.64]
  • Yang C, Zhang L H, Lu H C, Ruan X and Yang M H. 2013. Saliency detection via graph-based manifold ranking//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE: 3166-3173[DOI:10.1109/CVPR.2013.407]
  • Yuan Q, Cheng Y F, Chen X Q. 2018. Saliency detection based on multiple priorities and comprehensive contrast. Journal of Image and Graphics, 23(2): 239-248
  • 袁巧, 程艳芬, 陈先桥. 2018. 多先验特征与综合对比度的图像显著性检测. 中国图象图形学报, 23(2): 239-248 [DOI:10.11834/jig.170381]
  • Zhai Y and Shah M. 2006. Visual attention detection in video sequences using spatiotemporal cues//Proceedings of the 14th ACM International Conference on Multimedia. Santa Barbara: ACM: 815-824[DOI:10.1145/1180639.1180824]
  • Zhang J M, Sclaroff S, Lin Z, Shen X H, Price B and Mech R. 2015. Minimum barrier salient object detection at 80 FPS//Proceedings of 2015 IEEE International Conference on Computer Vision (ICCV). Santiago: IEEE: 1404-1412[DOI:10.1109/ICCV.2015.165]
  • Zhang L Y, Tong M H, Marks T K, Shan H H, Cottrell G W. 2008. SUN:a Bayesian framework for saliency using natural statistics. Journal of Vision, 8(7): 32-32 [DOI:10.1167/8.7.32]
  • Zhang Q, Lin J J and Xie Z G. 2016. Structure extraction and region contrast based salient object detection//Proceedings of the 8th International Conference on Digital Image Processing. Chengdu: SPIE, 10033: #100330K[DOI:10.1117/12.2244930]