Print

发布时间: 2018-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170381
2018 | Volume 23 | Number 2




    2017中国多媒体大会会议专栏    




  <<上一篇 




  下一篇>> 





多先验特征与综合对比度的图像显著性检测
expand article info 袁巧, 程艳芬, 陈先桥
武汉理工大学计算机科学与技术学院, 武汉 430063

摘要

目的 图像的显著性检测在计算机视觉中应用非常广泛,现有的方法通常在复杂背景区域下表现不佳,由于显著性检测的低层特征并不可靠,同时单一的特征也很难得到高质量的显著图。提出了一种通过增加特征的多样性来实现显著性检测的方法。方法 在高层先验知识的基础上,对背景先验特征和中心先验特征重新进行了定义,并考虑人眼视觉一般会对暖色调更为关注,从而加入颜色先验。另外在图像低层特征上使用目前较为流行的全局对比度和局部对比度特征,在特征融合时针对不同情况分别采取线性和非线性的一种新的融合策略,得到高质量的显著图。结果 在MSRA-1000和DUT-OMRON两个公开数据库进行对比验证,实验结果表明,基于多先验特征与综合对比度的图像显著性检测算法具有较高的查准率、召回率和F-measure值,相较于RBD算法均提高了1.5%以上,综合性能均优于目前的10种主流算法。结论 相较于基于低层特征和单一先验特征的算法,本文算法充分利用了图像信息,能在突出全局对比度的同时也保留较多的局部信息,达到均匀突出显著性区域的效果,有效地抑制复杂的背景区域,得到更加符合视觉感知的显著图。

关键词

复杂背景区域; 低层特征; 高层先验; 背景先验; 中心先验; 人眼视觉

Saliency detection based on multiple priorities and comprehensive contrast
expand article info Yuan Qiao, Cheng Yanfen, Chen Xianqiao
Computer Science and Technology, Wuhan University of Technology, Wuhan 430063, China
Supported by: National Natural Science Foundation of China(51179146)

Abstract

Objective Saliency detection is widely used in computer vision. When dealing with simple images, the bottom-up low-level features can achieve good detection results. As for images with complex background, the existing methods do not perform well and many regions of background could also be detected, and since the low-level features of saliency detection are not so reliable. At the same time, a single feature is also difficult to get high-quality saliency map. Hence, more salient factors are need to be integrated to solve it. This paper proposes a method to achieve saliency detection by increasing the diversity of features. Method A new consistency method base on the standard structure of the cognitive vision model. On the basis of high-level prior knowledge, the background prior characteristics and the center prior characteristics are redefined. By combining the theory of boundary prior and merging the spatial and color information get background prior saliency map. Then, according to the mechanism of human visual attention, taking the center of the background prior map as the central position of the salient region, and then apply the center prior, get the center prior saliency map. And consider the human eye vision to pay more attention to the warm color, while the warm tone has an effect on the image saliency, thus adding color prior. The local contrast method is better for the detailed texture of the image, but the integrity is not enough, the saliency map is generally dark. The contrast between the salient region and the background region is not enough, and it does not highlight the overall sense of the saliency objects. Global contrast can better show a large saliency target, but the details of the edge of the image is not good enough, at the same time there are still many unrelated interference pixels in the background region. Therefore, the more popular global contrast and local contrast characteristics are used in the low-level feature of the image, considering the overall degree of difference and the edge and contour information of the object, the global contrast saliency map and the local contrast saliency map are obtained. Finally, a new fusion strategy with linear and nonlinear are adopted to different situations in the feature fusion, to obtain high quality saliency map. Result The method of saliency detection based on multiple priorities and comprehensive contrast are conducted on MSRA-1000 and DUT-OMRON benchmark datasets. Experimental results show that compared with 10 state-of-the-art methods, the proposed method reaches higher precision, recall, and F-measure, which compared with RBD algorithm are improved by more than 1.5% and the comprehensive performance is better than any of the compared methods. Conclusion In contrast to the method based on the low-level features and a single prior, the proposed method based on Multiple Priorities and Comprehensive Contrast can extract more minute features of the input image.The saliency maps not only show global contrast but also have highly detailed information.The proposed method can uniformly highlight the salient region and effectively suppress the complex background area. The result is more in line with visual perception.

Key words

complex background region; low-level features; high-level prior; background prior; center prior; human eye vision

0 引言

人们在进行高级视觉处理前通常会选择出图像的子集来进行深度处理,以减少场景的复杂度,这个预选择的区域即为比较吸引人眼视觉的区域——显著性区域。显著性区域检测技术减少了场景的复杂程度,能够准确捕捉到图像中的核心信息,感知其主要内容,在图像处理领域中具有较大的影响,广泛用于图像分割[1]、图像融合[2]、图像检索[3]、目标检测与识别[4]等领域。

显著性检测包括自底向上和自顶向下两种机制。自底向上的模型计算内容是由图像本身的底层视觉刺激所提供的,不涉及高层图像信息,这种方式的特征获取便捷,计算速度相对较快,但是一般情况下,生成的显著性检测区域并不精确。现有的自底向上的模型基于对比度的显著性检测方法可细分为两类:基于局部对比度的方法和基于全局对比度的方法。基于局部对比度的算法是根据计算待检测区域与其局部邻域的低级特征对比度来统计图像中每一个区域的显著值。这类算法得到的显著图较为清晰,但物体的边缘细节特征比较突出,忽略了图像的全局结构特征,无法比较一致的高亮整个显著性区域。Itti[5]在1998年最早提出经典显著性检测算法(IT算法),该算法通过提取图像的颜色、边缘、方向等低层信息,采用中心——周围(center-surround)差异方式计算图像显著性区域。Ma和Zhang[6]提出了局部对比度的显著性检测方法(MZ算法),该方法将图像中的每一个像素看成一个感知单元,通过对比度原理计算每个感知单元与邻域内其他感知单元的颜色高斯距离之和来表示该像素的显著值。Harel等人[7]提出了基于图论的方法(GB算法),该方法通过马尔可夫链计算图像的显著值,在其基础上进行不同特征显著图的融合,组合成最后的显著图。

基于全局对比度的算法则考虑统计图像的整体特征来给出最终的显著图。Achanta等人[8]通过计算每个像素与整个图像的平均颜色差来计算该像素的显著值,随后又提出最大环绕算法[9]降低背景显著性。Cheng等人[10]提出了基于图像颜色直方图对比度的显著性检测方法,将图像分割算法运用到显著性检测中,将区域之间的空间距离作为权值,根据颜色直方图计算每个区域与其他区域之间的加权色差和,取得了良好的效果。

处理简单的图像时,使用自底向上的低层特征可以得到很好的检测结果。但是在处理含有各种复杂背景的图像时,检测结果并不理想,很多背景区域也会被检测出来,具有高对比度的小区域可能存在无意义的噪声。对于背景较混乱的图像,如果图像模型较简单,背景处于低维特征空间中,那么检测出来的结果也可能会表现不佳。因此,需要融合更多的显著性因素来解决这个问题。

自顶向下的方法利用高级先验知识(如背景先验[11]、边界先验[12]、中心先验[13]、颜色先验[14]和形状先验[15]等)和高层信息来协助进行显著性检测。近年来,很多研究表明高层知识在显著性检测方面同样起着重要的作用,相比较自底向上的模型,生成的显著性区域相对精确,但是获取数据的代价可能较高。Yang等人[16]通过学习字典学习区域的特征,然后通过条件随机场构建空间一致性生成显著图。Wei等人[11]提出了一种基于背景先验的显著性检测方法,通过观察发现背景区域要比显著性区域距离边界更加接近,因此他们将显著性计算问题转化为图像中某一区域与图像边界的最短路径问题。Liu等人[13]使用中心先验时将其作为权重系数,并与其他显著性因素相结合得到最终显著图。Jiang等人[15]提出形状先验,即将显著性物体具有一个封闭的边界这一信息有效地融入到一种迭代的能量最小化框中,可以很好地完成显著性区域的提取。

结合图像的低层特征和高层先验,本文提出了一种新的组合方法,该方法是基于认知视觉注意模型的标准结构[17],采用两种低层特征(全局对比度和局部对比度),以及3种高层先验(背景先验、中心先验和颜色先验),以生成高质量的显著性图像。其中显著性计算流程如图 1所示。

图 1 图像显著性检测流程图
Fig. 1 Flow chart of image saliency detection

图 1中首先采用SLIC[18](simple linear iterative clustering)超像素分割方法对图像进行预处理,结合边界先验理论,融合空间和颜色信息得到背景先验显著图。然后根据人眼视觉注意机制,将背景先验显著图的质心作为显著性区域的中心位置,再应用中心先验,得到中心先验显著图。由于颜色差异较大的部分信息易吸引人的视觉,同时暖色调对图像显著性存在影响,故采用颜色先验得到其显著图,再基于全局对比度和局部对比度的思想,考虑整体的差异程度和物体的边缘、轮廓信息,得到全局对比度显著图和局部对比度显著图。最后,通过线性和非线性组合方式将生成的五幅显著图融合成单个显著图,进一步抑制背景,突出显著性区域。

实验结果表明,所提出的方法能较均匀高亮整个显著性区域,对无关背景信息有一定的抑制作用,得到更精确的显著图。为评价算法的有效性,本文使用国际公开数据集进行评估,并与目前多个经典的显著性检测方法进行比较,所提出的方法都取得了较好效果并优于其他方法。

1 图像显著性计算

1.1 背景先验

首先采用SLIC算法,将一幅图分割成$ N$个超像素。由于背景区域与图像边界区域的连通性更加紧密,而显著性区域与图像边界的连通性则较差,针对这一特点,应用边界先验理论,融合空间和颜色信息,大致区分背景和显著目标,得到粗略的背景先验显著图。该算法分为以下3个步骤:

1) 候选背景集的定义。将位于一定宽度的图像边界中的超像素看作候选背景集。定义从左到右,自上而下扫描整幅图像,取图像周边一圈的10个像素作为边界区域的候选背景集区域$ {\mathit{\boldsymbol{B}}_{\rm{0}}}$。候选背景集区域横纵坐标的范围为

$ \mathit{\boldsymbol{U}} = \left\{ \begin{array}{l} x \in \left\{ {x\left| {0 \le x \le 10 \cup W - 10 \le x \le W} \right.} \right\}\\ y \in \left\{ {y\left| {0 \le y \le 10 \cup H - 10 \le y \le H} \right.} \right\} \end{array} \right. $ (1)

式中,$ W$$ H$分别为图像的宽和高。将这些边界定义为候选背景集$ {\mathit{\boldsymbol{B}}_{\rm{0}}} = \left\{ {{\mathit{P}_\mathit{i}}|{\mathit{P}_\mathit{i}} \in \mathit{\boldsymbol{U}}} \right\}$

2) 背景集的筛选。考虑到显著目标可能延伸至边界部分,所以对候选背景作进一步的筛选。通过有效地利用背景的颜色和空间信息,基于背景得到的显著图会更加的准确[19]。计算候选背景集中各超像素$ P_i$$ S_\rm{Boundary}$显著值,即

$ {S_{{\rm{Boundar}}{{\rm{y}}_i}}} = \left( {1 - \frac{1}{{{n_{\rm{b}}}}}\sum\limits_{j = 1}^{{n_{\rm{b}}}} {{{\rm{e}}^{ - \frac{{{d_{{\rm{color}}}}\left( {{P_i},{P_j}} \right)}}{{\sigma _1^2}}}}} } \right) \cdot {\omega _{{\rm{b}},i}} $ (2)

$ {\omega _{{\rm{b}},i}} = \frac{1}{{{n_{\rm{b}}}}}\sum\limits_{j = 1}^{{n_{\rm{b}}}} {{{\rm{e}}^{ - \frac{{d_{{\rm{dis}}}^2\left( {{P_i},{P_j}} \right)}}{{\sigma _2^2}}}}} $ (3)

式中,$ P_i$, $ {\mathit{P}_\mathit{j}} \in {\mathit{\boldsymbol{B}}_{\rm{0}}}$$ n_\rm{b}$表示候选背景集的超像素的总数,$ \mathit{\delta }_1^2$ =0.2, $ \mathit{\delta }_2^2$=1.8,$ {\mathit{d}_{{\rm{color}}}}\left( {{\mathit{P}_\mathit{i}}, {\mathit{P}_\mathit{j}}} \right) = \left\| {{\mathit{c}_\mathit{i}} - {\mathit{c}_\mathit{j}}} \right\|$表示超像素$ P_i$$ P_j$的颜色特征间的欧氏距离,$ {\mathit{d}_{{\rm{dis}}}}\left( {{\mathit{P}_\mathit{i}}, {\mathit{P}_\mathit{j}}} \right) = \left\| {{\mathit{p}_\mathit{i}} - {\mathit{p}_\mathit{j}}} \right\|$表示超像素$ P_i$$ P_j$的质心距离。$ {\mathit{\omega }_{\mathit{b}{\rm{, i}}}}$表示候选背景集中超像素$ P_i$与候选背景集中所有超像素点之间的平均空间差异。若候选背景集中超像素的显著度值的方差较小,则认为这些背景超像素较相似;否则认为具有较大显著值的超像素为显著区域的一部分,将具有较大显著值的超像素从候选背景集$ {\mathit{\boldsymbol{B}}_{\rm{0}}}$剔除,得到最终的背景超像素集$ \mathit{\boldsymbol{B}}$

3) 显著值计算。对图像中的每个超像素$ P_i$,在背景集$ \mathit{\boldsymbol{B}}$下,计算其显著值

$ {S_{\rm{b}}}\left( i \right) = \left( {1 - \frac{1}{{{{n'}_{\rm{b}}}}}\sum\limits_{j = 1}^{{{n'}_{\rm{b}}}} {{{\rm{e}}^{ - \frac{{{d_{{\rm{color}}}}\left( {{P_i},{P_j}} \right)}}{{\sigma _1^2}}}}} } \right) \cdot {\omega _{\rm{b}}}\left( i \right) $ (4)

$ {\omega _{\rm{b}}}\left( i \right) = \frac{1}{{{{n'}_{\rm{b}}}}}\sum\limits_{j = 1}^{{{n'}_{\rm{b}}}} {{{\rm{e}}^{ - \frac{{d_{{\rm{dis}}}^2\left( {{P_i},{P_j}} \right)}}{{\sigma _2^2}}}}} $ (5)

式中,$ {\mathit{P}_\mathit{j}} \in \mathit{\boldsymbol{B}}$$ {{\mathit{n'}}_\mathit{b}}$表示最终背景集中超像素的总数,$ {\mathit{\omega }_{\rm{b}}}\left( \mathit{i} \right)$表示图像中超像素$ P_i$与背景集中所有超像素之间的平均空间差异。

图 2是背景集筛选计算和背景先验显著值计算。由图 2(c)看出,显著目标延伸至边界的部分,由于与其他边界对比度存在较大的差异,其显著值较大。

图 2 背景先验
Fig. 2 Background prior((a)original picture; (b)ground truth; (c)candidate background; (d) background; (e) background prior)

1.2 中心先验

拍摄者通常把感兴趣的目标放置在图像中心。同样,人们对一个场景的注意力往往先集中在图像的中心位置,并以此为中心进行视觉信息获取和处理。但是当图像中的目标偏离中心位置时,直接把图像的中心点作为显著目标的中心会导致显著检测的结果发生偏差,背景区域不能得到良好的抑制,部分显著性区域像素点的显著值偏低,而部分非显著性区域像素点的显著值偏高。图 3是传统的中心先验和本文重新定义的中心先验方法对比。

图 3 两种中心先验方法对比
Fig. 3 Comparison of two kinds of methods for center prior
((a)original picture; (b)ground truth; (c)traditional center prior; (d) background prior)

本文提出了一种新的中心先验方法,克服了传统的中心检测适用性不高的缺点,将前文得到的背景先验显著图的质心作为显著目标的中心位置,越靠近显著目标中心位置的超像素被赋予较高的显著值。通过在超像素与目标中心位置之间的距离上使用高斯分布来实现中心先验,定义超像素$ P_i$的中心先验显著值为

$ \begin{array}{*{20}{c}} {{S_{{\rm{center}}}}\left( i \right) = {{\rm{e}}^{\left( { - \frac{{{{\left( {{x_i} - {c_x}} \right)}^2}}}{{\sigma _x^2}} - \frac{{{{\left( {{y_i} - {c_y}} \right)}^2}}}{{\sigma _y^2}}} \right)}} + }\\ {\frac{{\sum\limits_{j = 1,j \ne i}^n {{{\rm{e}}^{\left( { - \frac{{{{\left( {{x_j} - {c_x}} \right)}^2}}}{{\sigma _x^2}} - \frac{{{{\left( {{y_j} - {c_y}} \right)}^2}}}{{\sigma _y^2}}} \right)}} \cdot w\left( {i,j} \right)} }}{{\sum\limits_{j = 1,j \ne i}^n {w\left( {i,j} \right)} }}} \end{array} $ (6)

$ w\left( {i,j} \right) = \frac{1}{{{d_{{\rm{dis}}\left( {{P_i},{P_j}} \right)}} + \alpha }} $ (7)

式中,$ n$表示图像划分为超像素的个数,$ x_i$$ y_i$为超像素$ P_i$的平均坐标值。$ {\rm{(}}{c_x},{c_y})$为背景先验显著图的质心,$ {\mathit{\sigma }_\mathit{x}}$$ {\mathit{\sigma }_\mathit{y}}$分别是水平和垂直方向的高斯尺寸,$ {\mathit{\sigma }_\mathit{x}}=W/2 $$ {\mathit{\sigma }_\mathit{y}}=H/2$$ \mathit{w}\left( {\mathit{i}, \mathit{j}} \right)$用于控制空间加权的强度,$ \mathit{\alpha }$表示常数,取值为0.01。式(6)第1项表示离显著性区域质心位置越近的超像素赋予越高的显著值,式(6)第2项表示每个超像素与图像所有超像素的差异。

1.3 颜色先验

人们容易注意到与周围存在较大颜色差异的物体,颜色差异又叫做颜色的唯一性,可以理解为某个区域的颜色信息在它所处周围大环境中出现的频率较低。在实际生活中,不仅差异较大的颜色信息易吸引人的眼球,心理学家发现,暖色调相比图像中的其他颜色也更具有显著的特性,如红色和黄色的暖色区域比较明显[20],所以在本颜色先验的算法中,考虑了暖色调对图像显著值的影响,将图像的RGB颜色空间归一化到在$ R′-G′$颜色空间。定义超像素$ P_i$的颜色先验显著值为

$ {S_{{\rm{color}}}}\left( i \right) = \frac{1}{{n\left( i \right)}}\sum\limits_{j = 1}^{n\left( i \right)} {\max \left( {{{R'}_j} - {{G'}_j},0} \right)} $ (8)

式中,$ \mathit{n}\left( \mathit{i} \right)$为超像素$ P_i$中的像素个数,$ {{\mathit{R'}}_\mathit{j}}$$ {{\mathit{G'}}_\mathit{j}}$分别是超像素$ P_i$中第$ j$个像素点$ R$$ G$的归一化颜色元素,定义为

$ {{R'}_j} = \frac{{{R_j}}}{{{R_j} + {G_j} + {B_j}}},{{G'}_j} = \frac{{{G_j}}}{{{R_j} + {G_j} + {B_j}}} $

这里,$ R_j$$ G_j$$ B_j$分别是在RGB颜色空间上超像素$ P_i$中第$ j$个像素点的$ R$$ G$$ B$元素。

1.4 局部先验

文献[21]在基于图像元素间的颜色和位置的差异上提出了一种局部显著性检测的方法。基于局部显著性度量,图像分割成$ N$个超像素,超像素$ P_i$的局部对比度显著值为

$ {S_{{\rm{local}}}}\left( i \right) = \frac{1}{N}\sum\limits_{j = 1}^N {\frac{{n\left( i \right) \cdot {d_{{\rm{color}}}}\left( {i,j} \right)}}{{1 + c \cdot {d_{{\rm{dis}}}}\left( {i,j} \right)}}} $ (9)

式中,$ c$为每对超像素质心间欧氏距离的中值。局部对比度与视觉外观的差异成正比,与超像素间的位置距离成反比。因此,当其与周围的超像素相似度较低时,超像素$ P_i$则被认为是视觉上显著的。

1.5 全局先验

全局对比度算法将显著值定义为像素块相对于图像整体的差异程度。全局对比度更突出显著目标整体,相邻区域的高对比度比距离较远区域的高对比度更能引起注意。

对于超像素$ P_i$,若与超像素$ P_j$之间的空间距离越小,则$ P_i$$ P_j$全局对比度计算的影响越大,通过计算其与图像其他超像素的颜色对比度来计算它的显著值,因此将超像素$ P_i$的全局对比度定义为

$ {S_{{\rm{global}}}}\left( i \right) = \sum\limits_{j = 1}^N {{d_{{\rm{color}}}}\left( {i,j} \right) \cdot \omega \left( {i,j} \right)} $ (10)

式中,$ \mathit{\omega }\left( {\mathit{i}, \mathit{j}} \right) = {{\rm{e}}^{{\rm{ - }}\mathit{d}_{{\rm{dis}}}^2\left( {{\mathit{p}_\mathit{i}}, {\mathit{p}_\mathit{j}}} \right)/{\mathit{\sigma }^{\rm{2}}}}}$$ {\mathit{\sigma }^{\rm{2}}} = 0.5, \;\mathit{\omega }\left( {\mathit{i}, \mathit{j}} \right)$表示超像素$ P_i$与超像素$ P_j$的空间差异。

2 显著图融合

本文提出一种新的融合策略,该策略采用线性和非线性的组合方式,分别对显著值进行计算,旨在突显显著性物体的同时,能更有效地抑制背景。

首先将$ S_\rm{center}$$ S_\rm{global}$$ S_\rm{local}$$ S_\rm{b}$$ S_\rm{color}$这5幅显著图均归一化到[0, 1]之间,定义$ M$是显著图的数量($ M$=5),利用OSTU算法[22]对各显著图全图所有显著值求得一个阈值$ {{\mathit{\hat S}}_\mathit{m}}$,该阈值将图像显著值集合分为两类,且这两类的类间差异最大。融合策略的思想:如果像素$ \left( {\mathit{x}, \mathit{y}} \right)$在五幅显著图中的显著值均大于$ {{\mathit{\hat S}}_\mathit{m}}$,则认为它属于显著性区域,采用线性融合的策略;如果在任意一幅中不满足这个条件,则认为它是非显著性区域,采用非线性的相乘策略。由于各特征对显著值的贡献不同,采取不同的系数,得到像素$ \left( {\mathit{x}, \mathit{y}} \right)$的显著值

$ S\left( {x,y} \right) = \left\{ \begin{array}{l} \sum\limits_{m = 1}^M {\frac{{{S_m}\left( {x,y} \right)}}{{{\beta _m}}}} \;\;\;\;\forall m\;\;\;{S_m}\left( {x,y} \right) > {{\hat S}_m}\\ \prod\limits_{m = 1}^M {{S_m}\left( {x,y} \right)} \;\;\;\;其他 \end{array} \right. $ (11)

式中,$S_m \left( {\mathit{x}, \mathit{y}} \right)$是第 $ m$个显著图中像素$ \left( {\mathit{x}, \mathit{y}} \right)$显著强度,$ {\mathit{\beta }_\mathit{m}}$是第$ m$个显著图中水平和垂直方向的加权标准差的总和,定义为

$ {\beta _m} = \sqrt {\frac{{\sum\limits_{i = 1}^N {\left( {{{\left( {{X_m} - x} \right)}^2} + {{\left( {{Y_m} - y} \right)}^2}} \right) \cdot {S_m}\left( {x,y} \right)} }}{{\sum\limits_{i = 1}^N {{S_m}\left( {x,y} \right)} }}} $ (12)

式中,$ X_m$$ Y_m$分别是第$ m$个显著图的水平和垂直方向的加权平均值,被定义为

$ {X_m} = \frac{{\sum\limits_{\left( {x,y} \right)} {x \cdot {S_m}\left( {x,y} \right)} }}{{\sum\limits_{\left( {x,y} \right)} {{S_m}\left( {x,y} \right)} }},{Y_m} = \frac{{\sum\limits_{\left( {x,y} \right)} {y \cdot {S_m}\left( {x,y} \right)} }}{{\sum\limits_{\left( {x,y} \right)} {{S_m}\left( {x,y} \right)} }} $

3 实验结果及分析

算法的运行环境为Matlab(R2014b),系统环境为Win10,计算机配置为Intel Core i5-7200 CPU(2.5 GHz),8 GB内存,并在国际公开的数据MSRA-1000[8]和DUT-OMRON[12]上对本文提出的显著性检测算法进行测试。本算法将输入图像分割为300个超像素,调节超像素紧凑程度的参数$ m$=40。

实验发现,局部对比度方法对图像的细节纹理处的显示较好,但是整体性不够,得到的显著图普遍偏暗,显著性区域与背景区域的像素灰度值对比度不够,没有突出全局意义上的显著体。而全局对比度方法,能较好地表现大的显著目标,但是对图片边缘细节处理不够好,同时背景区域也还存在较多无关的干扰像素。图 4中展示了全局对比度和局部对比度显著性区域检测时中存在的问题。图像(玩具)中的显著性区域整体上不同于背景区域,全局对比度能检测图像(玩具)中的显著性区域,而局部对比度无法完整准确的检测到其中的显著性区域。图像(标识)中的显著性区域的部分与背景的一部分(蓝天和云)相似,仅使用全局对比度突出显著性区域不能排除背景的干扰,而局部对比度能准确的得到图像(标识)的显著性区域,因此全局对比度和局部全局对比度在这些图像中是互补的。

图 4 全局对比度与局部对比度的比较
Fig. 4 Comparison of global contrast and local contrast
((a)original picture; (b)ground truth; (c)global contrast; (d)local contrast)

同时,背景先验和颜色先验在一些图片中存在互补的关系,如图 5所示。图像(菜篮)中的显著性区域(红色草莓),而且还有其周围区域(粉红色盆),很难仅通过背景先验突出显著性区域,尽管颜色无法准确地检测到图像(菜篮)中的显著性区域,但颜色先验能较容易地显示图像(菜篮)中的显著性区域。图像(鸽子)中的背景区域是暖色的成分更多(地面被阳光照亮),通过颜色先验很难突出显著性区域,而背景先验得到的显著性效果较好。

图 5 背景先验与颜色先验比较
Fig. 5 Comparison of background prior and color prior
((a)original picture; (b)ground truth; (c)background prior; (d)color prior)

当显著性区域与背景的相似度较大时,背景先验、颜色先验、全局和局部对比度得到的显著性区域常常存在背景节点。从图 6可以看出,尽管背景先验、全局和局部对比度特征得到的显著性区域都存在较严重的不足,本文算法最终依然能够很好地突出显著性区域。显著性区域通常在空间上都是紧凑的,而且比较均匀,其内部节点之间的关联程度远大于其背景节点和背景内部节点之间的关联度,运用本文中心先验算法可以很好地抑制背景区域。

图 6 不同特征的对比图
Fig. 6 Comparison of different features
((a)original picture; (b)ground truth; (c) background prior; (d)global contrast; (e) local contrast; (f) final saliency map)

为了评价本文提出的显著性区域检测方法,本文选择了10种主流的方法进行比较:IT[5],CA[21],FT[8],LC[23],HC[10],SF[24],GS[11],MR[12], RBD[25]和DL[26]视觉比较结果如图 7所示。

图 7 11种显著性检测算法比较结果
Fig. 7 Comparison of eleven kinds of methods for Saliency Detection((a) original picture; (b) ground truth; (c) IT; (d) CA; (e) FT; (f) LC; (g) HC; (h) SF; (i) GS; (j) MR; (k) RBD; (l)DL; (m) ours)

图 7可以看出,IT算法基于生物学检测得到的结构,显著图分辨率比较低,无法很好地检测出图像中的主要物体。CA算法是在对比度比较大的显著对象的边缘产生较高的显著值,物体边缘部分的显著性被过分强调,在背景纹理比较复杂的情况下,会产生错误的检测结果。FT算法检测出来图片纹理比较清晰,但是背景抑制效果不是很好。HC和LC算法在本质上没有区别,LC只用了像素的灰度信息,而HC考虑了彩色信息,没有考虑空间信息,不太能较好地突出显著性区域。SF算法在图像边界存在对比度比较大的区域时,容易把这些区域检测为显著性区域。GS算法是近年来突出显著性区域效果较好的算法,但是对复杂背景的抑制效果不够好。MR算法应用流形排序的方法,能够突出整个显著性区域,是目前最为优秀的方法之一,但当背景与目标颜色相近时,易将显著性区域误检测为背景。RBD算法虽然能够较好地突出显著性区域,但是会将背景中较亮的区域误检测为显著区域。DL算法为文献[26]提出的深度卷积神经网络显著性检测算法,该算法能较好和迅速地实现显著性与非显著性判别,完成显著性检测,但是边缘信息还是较为模糊。尽管深度学习在图像处理上有很大的潜力,借助海量训练数据,很大程度上缓解了训练过拟合的问题,但是深度学习网络需要大量已标注的数据作为训练基础,且网络性能依赖于训练样本,网络模型的调整、参数调整较困难,网络训练时间较长。如果想提高检测精度,除了加深网络层数,修改网络结构和调整参数几乎没有其他办法,同时对计算机硬件设备要求较高,在线实时训练有困难。本文提出的方法能均匀突出显著性区域,有效地抑制复杂的背景区域,得到更加符合视觉感知的显著图。

采用文献[21]定义的查准率$ P$、召回率$ R$和F-measure值$ F$这3个标准来评估不同算法的性能。其中,查准率定义为正确检测的显著像素个数与算法检测到的所有显著像素个数的比值,表示的是算法检测到的区域中显著性区域所占的比例。而召回率则定义为正确检测的显著像素个数与真值图中的显著像素个数的比值,表示的是算法检测到的显著性区域与真值图中的显著性区域相匹配的程度。F-measure是个综合指标,是正确率和查准率的调和平均数,评价算法在正确率和召回率方面的综合性能。

$ P = \frac{{\sum\limits_x {{g_x} \times {s_x}} }}{{\sum\limits_x {{s_x}} }} $ (13)

$ R = \frac{{\sum\limits_x {{g_x} \times {s_x}} }}{{\sum\limits_x {{g_x}} }} $ (14)

$ F = \frac{{\left( {1 + {\eta ^2}} \right)P \times R}}{{{\eta ^2} \times P + R}} $ (15)

式中,$ s_x$是算法检测得到的显著性区域,$ g_x$是真值,按照文献[10],平衡因子$ {\mathit{\eta }^{\rm{2}}}$取0.3,将其他10种方法和本文提出的方法得出的显著图通过文献[27]提出的自适应阈值法进行二值化,提取显著性区域,并与真值图进行比较,计算得到的查准率、查全率和F-measure值3个指标如图 8图 9所示,其中图 8是基于MSRA-1000数据集计算得到,图 9是基于DUT-OMRON数据集计算得到。

图 8 11种显著性检测算法在MSRA-1000数据集上查全率、召回率和F-measure值比较结果
Fig. 8 Eleven saliency detection algorithm precision, recall and F-measure comparison results on the MSRA-1000 dataset
图 9 11种显著性检测算法在DUT-OMRON数据集上查全率、召回率和F-measure值比较结果
Fig. 9 Eleven saliency detection algorithms precision, recall and F-measure comparison results on the DUT-OMRON dataset

图 8可以看出,在MSRA-1000数据集上本文算法的这3个指标整体上优于其他10种算法。图 9表明,DUT-OMRON数据集具有一定的挑战性,尽管本文的算法较优于其他算法,但所有的计算方法都表现不够理想,因此本文方法在未来仍有较大的研究和改进空间。

本文将背景先验、颜色先验、中心先验、全局对比度和局部对比度以及融合后的方法进行比较,其精度和召回率曲线如图 10所示。通过多融合的方式,显著性区域的检测情况明显提高了。

图 10 5种特征与融合后的算法在MSRA-1000数据集上的查全率、召回率比较结果
Fig. 10 Average precision-recall curves of the five features and the fusion algorithm on MSRA-1000 dataset

由于采用多特征融合进行显著性检测,使得本文方法的计算开销较大,11种算法的平均运行时间如表 1所示,其中C+M表示采用C++和Matlab混合编程对算法进行实现。显著性检测作为图像的基本处理操作来对图像进行预处理,因此时间效率也是尤为关键的,针对时间开销较大这一缺点,可以通过并行计算策略来克服,可采用以下实施方法:

表 1 平均运行时间
Table 1 Average runtime

下载CSV
方法 时间/s 语言
IT 0.611 Matlab
CA 53.1 Matlab
FT 0.21 Matlab
LC 0.270 C++
HC 0.381 C++
本文 4.24 Matlab
SF 4.349 C++
GS 0.388 Matlab
MR 0.346 Matlab
RBD 0.296 Matlab
DL 0.102 M+C

首先可以计算得到背景先验显著图,将背景先验显著图的质心作为显著性区域的中心位置,求得中心先验显著图;然后采用并行处理策略,分别并发计算颜色先验、全局对比度和局部对比度显著图,最后将所有计算结果线性和非线性融合得到最终显著图。这样处理,将本文方法拆解为串行处理和并行处理模块并同时进行,提高方法的整体执行效率。

4 结论

本文提出了一种多特征融合的图像显著性检测方法,采用超像素作为后续显著性检测的单元,增强特征的多样性,包括由早期人类视觉注意机制的两种类型的低层特征(局部对比先验和全局对比先验)以及3种类型的高级先验(背景先验、中心先验和颜色先验)。在特征融合时采用线性加非线性的融合策略,最终生成高质量的显著图。本文算法使得显著性区域的检测结果得到明显改善,与人类视觉感知更加一致,不仅能够均匀地突出显著性区域,还可以有效地抑制复杂的背景区域。实验结果表明,与传统方法比较,查准率、召回率和F-measure值都有所提高。但是,由于人类主体性的不确定性,可能导致目标检测不一致,有必要定义更高级别的显著性特征提取。

参考文献

  • [1] Liu Z W, Zhou D A, Lin J Y. Image segmentation based on saliency detection[J]. Computer Engineering & Science, 2016, 38(1): 144–147. [刘志伟, 周东傲, 林嘉宇. 基于图像显著性检测的图像分割[J]. 计算机工程与科学, 2016, 38(1): 144–147. ] [DOI:10.3969/j.issn.1007-130X.2016.01.024]
  • [2] Fei C. Research of image fusion based on intelligence optimization and visual saliency[D]. Chengdu: University of Electronic Science and Technology of China, 2015. [费春. 基于智能优化和视觉显著性的图像融合研究[D]. 成都: 电子科技大学, 2015.] http://cdmd.cnki.com.cn/Article/CDMD-10614-1015712138.htm
  • [3] Cao H J. The research of image retrieval technology based on salient region and feature fusion[D]. Changchun: Jilin University, 2015. [曹洪瑾. 基于显著区域和特征融合的图像检索技术研究[D]. 长春: 吉林大学, 2015.] http://cdmd.cnki.com.cn/Article/CDMD-10183-1015588285.htm
  • [4] Shehnaz M, Naveen N. An object recognition algorithm with structure-guided saliency detection and SVM classifier[C]//Proceedings of 2015 International Conference on Power, Instrumentation, Control and Computing. Thrissur, India: IEEE, 2015: 1-4. [DOI:10.1109/PICC.2015.7455804]
  • [5] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254–1259. [DOI:10.1109/34.730558]
  • [6] Ma Y F, Zhang H J. Contrast-based image attention analysis by using fuzzy growing[C]//Proceedings of the Eleventh ACM International Conference on Multimedia. Berkeley, CA, USA: ACM, 2003: 374-381. [DOI:10.1145/957013.957094]
  • [7] Schölkopf B, Platt J, Hofmann T. Graph-based visual saliency[C]//Schölkopf B, Platt J, Hofmann T. Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2007, 19: 545-552.
  • [8] Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009: 1597-1604. [DOI:10.1109/CVPR.2009.5206596]
  • [9] Achanta R, Süsstrunk S. Saliency detection using maximum symmetric surround[C]//Proceedings of the 17th IEEE International Conference on Image Processing. Hong Kong, China: IEEE, 2010: 2653-2656. [DOI:10.1109/ICIP.2010.5652636]
  • [10] Cheng M M, Zhang G X, Mitra N J, et al. Global contrast based salient region detection[C]//Proceedings of 2011 IEEE Conference onComputer Vision and Pattern Recognition. Colorado Springs, CO, USA: IEEE, 2011: 409-416. [DOI:10.1109/CVPR.2011.5995344]
  • [11] Wei Y C, Wen F, Zhu W J, et al. Geodesic saliency using background priors[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer, 2012: 29-42. [DOI:10.1007/978-3-642-33712-3_3]
  • [12] Yang C, Zhang L H, Lu H C, et al. Saliency detection via graph-based manifold ranking[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013: 3166-3173. [DOI:10.1109/CVPR.2013.407]
  • [13] Jiang H Z, Wang J D, Yuan Z J, et al. Salient object detection: a discriminative regional feature integration approach[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013: 2083-2090. [DOI:10.1109/CVPR.2013.271]
  • [14] Shen X H, Wu Y. A unified approach to salient object detection via low rank matrix recovery[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012: 853-860. [DOI:10.1109/CVPR.2012.6247758]
  • [15] Jiang H Z, Wang J D, Yuan Z J, et al. Automatic salient object segmentation based on context and shape prior[C]//Proceedings of British Machine Vision Conference. Dundee, Scotland: BMVA Press, 2011. [DOI:10.5244/C.25.110]
  • [16] Yang J M, Yang M H. Top-down visual saliency via joint CRF and dictionary learning[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012: 2296-2303.
  • [17] Treisman A M, Gelade G. A feature-integration theory of attention[J]. Cognitive Psychology, 1980, 12(1): 97–136. [DOI:10.1016/0010-0285(80)90005-5]
  • [18] Achanta R, Shaji A, Smith K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(11): 2274–2282. [DOI:10.1109/TPAMI.2012.120]
  • [19] Wang J P, Lu H C, Li X H, et al. Saliency detection via background and foreground seed selection[J]. Neurocomputing, 2015, 152: 359–368. [DOI:10.1016/j.neucom.2014.10.056]
  • [20] Zhang J, Wang M, Zhang S P, et al. Spatiochromatic context modeling for color saliency analysis[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(6): 1177–1189. [DOI:10.1109/TNNLS.2015.2464316]
  • [21] Goferman S, Zelnik-Manor L, Tal A. Context-aware saliency detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(10): 1915–1926. [DOI:10.1109/TPAMI.2011.272]
  • [22] Otsu N. A threshold selection method from gray-level histograms[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1979, 9(1): 62–66. [DOI:10.1109/TSMC.1979.4310076]
  • [23] Zhai Y, Shah M. Visual attention detection in video sequences using spatio temporal cues[C]//Proceedings of the 14th ACM International Conference on Multimedia. Santa Barbara, CA, USA: ACM, 2006: 815-824. [DOI:10.1145/1180639.1180824]
  • [24] PerazziF, KrähenbühlP, Pritch Y, et al. Saliency filters: contrast based filtering for salient region detection[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012: 733-740. [DOI:10.1109/CVPR.2012.6247743]
  • [25] Zhu W J, Liang S, Wei Y C, et al. Saliency optimization from robust background detection[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 2814-2821. [DOI:10.1109/CVPR.2014.360]
  • [26] Li Y Y, Xu Y L, Ma S P, et al. Saliency detection based on deep convolutional neural network[J]. Journal of Image and Graphics, 2016, 21(1): 53–59. [李岳云, 许悦雷, 马时平, 等. 深度卷积神经网络的显著性检测[J]. 中国图象图形学报, 2016, 21(1): 53–59. ] [DOI:10.11834/jig.20160107]
  • [27] Burrows M, Wheeler D J. A block-sorting lossless data compression algorithm[R]. Palo Alto, California: Systems Research Center, 1994.