Print

发布时间: 2018-06-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170488
2018 | Volume 23 | Number 6




    图像分析和识别    




  <<上一篇 




  下一篇>> 





复合域的显著性目标检测方法
expand article info 崔丽群, 赵越, 胡志毅, 赵雨康
辽宁工程技术大学软件学院, 葫芦岛 125105

摘要

目的 针对显著性目标检测方法生成显著图时存在背景杂乱、检测区域不准确的问题,提出基于复合域的显著性目标检测方法。方法 首先,在空间域用多尺度视网膜增强算法对原图像进行初步处理;然后,在初步处理过的图像上建立无向图并提取节点特征,重构超复数傅里叶变换到频域上得到平滑振幅谱、相位谱和欧拉谱,通过多尺度高斯核的平滑,得到背景抑制图;同时,利用小波变换在小波域上的具有多层级特性对图像提取多特征,并计算出多特征的显著性图;最后,利用提出的自适应阈值选择法将背景抑制图与多特征的显著性图进行融合,选择得到最终的显著图。结果 对标准测试数据集MSRA10K和THUR15K中的图像进行显著性目标检测实验,同目前较流行的6种显著性目标检测方法对比,结果表明上述问题通过本文方法得到了很好地解决,即使在背景复杂的情况下,本文算法的准确率、召回率均高于对比算法,在MSRA10K数据集中,平均绝对误差(MAE)值为0.106,在THUR15K数据集中,平均绝对误差(MAE)值降低至0.068,平均结构性指标S-measure值为0.844 9。结论 基于复合域的显著性目标检测方法,融合多个域的优势,在抑制杂乱的背景的同时提高了准确率,适用于自然景物、生物、建筑以及交通工具等显著性目标图像的检测。

关键词

显著性目标检测; 多尺度视网膜增强算法; 超复数傅里叶变换; 小波变换; 自适应阈值选择法

Saliency object detection method based on complex domains
expand article info Cui Liqun, Zhao Yue, Hu Zhiyi, Zhao Yukang
School of Software, Liaoning Technical University, Huludao 125105, China
Supported by: National Natural Science Foundation of China(61172144)

Abstract

Objective Saliency object detection with development of human visual attention mechanism has been widely studied by computer vision researchers. Visual significance is an important mechanism of human visual system. It simulates the human visual attention mechanism, extracts the most interesting areas of the scene quickly and accurately, and ignores redundant information. Saliency object detection has been widely used in image compression, segmentation, redirection, video coding, target detection, recognition, and many other tasks. Although numerous significant target detection methods are available, problems remain. For example, the detection results look well when the background is simple, but when the background is complex, the results may have some uncertainty as regards the environment, cluttered background in the area around the target, or influence of selection on the significant target detection method. The problem of cluttered background and inaccurate detection area often occurs when the salient object detection method generates significant graphs. To solve these problems, saliency object detection method is proposed based on complex domain. The complex domain combines frequency, spatial, and wavelet domains; takes advantage of the complex domain to combine the advantages on three domains; and suppresses the background to obtain an accurate and clear salient target area. Method Environmental conditions are one of the key factors that influence saliency object detection; for example, weak light or foggy days can cause unclear images and lead to poor results of significant target detection. Multi-scale retinex is an image enhancement algorithm based on color theory. By introducing multi-scale retinex algorithm, the image restoration is realized by linear weighting in the process of dynamically scaling a picture. First, multi-scale retinex enhancement algorithm is used to preliminarily process the original image in spatial domain and exclude environmental impacts. After image processing, the brightness becomes more appropriate to the real scene brightness, and the foreground and background contrast is also significantly improved. In addition to the environmental impact, the background areas of the non-significant target often occupy most of the image space in the saliency object detection images. These background areas increase the error detection problem and reduce the accuracy rate. Experiments found that most background areas are the sky, trees, grasslands, and buildings, which are beyond the scope of this study. The characteristics of the background areas with repeatability can be suppressed by hyper-complex Fourier transform. Then, undirected graph is established and node features on the images are extracted preliminarily. The hyper-complex Fourier transform in the frequency domain is reconstructed to acquire the smoothing amplitude spectrum, phase spectrum, and Euler spectrum. Then, background suppression graphs are obtained through the smoothness of multi-scale Gaussian kernel. At the same time, the multi-level feature of wavelet transform in the wavelet domain is utilized to extract multiple features in terms of images, and the saliency graph of multiple features is calculated. The saliency graph effectively preserves the details of the image because of the unique localization characteristics of the wavelet domain. Finally, the proposed adaptive threshold selection method is used to fuse the background suppression diagram with the saliency graph of multiple features and the final saliency graph is selected and obtained. The final saliency figure suppresses the background while preserving the details of the image. Result To make the experimental effect persuasive, saliency object detection experiments in the standard test dataset images MSRA10K and THUR15k are conducted. MSRA10K datasets consist of 10 000 images of hand-annotated and accurate to pixel-level salient target annotations, including images of natural scenery, biology, architecture, and transportation. THUR15K datasets consist of 15 000 web images with five keywords, namely, butterflies, airplanes, giraffes, cups, and dogs, representing significant targets with pixel precision as the former datasets. The two datasets are public standard image databases and are widely used in salient target detection and image segmentation. A total of 300 background-complex pictures are selected from each dataset, under the same experimental conditions, and compared with six popular significant target detection methods. Results show that the problems presented by our method had a good solution. Even in a complex environment, the accuracy and recall rate of the algorithm are higher than those of state-of-the-art contrast algorithms. In MSRA10k datasets, the mean absolute error (MAE) value is 0.106; in THUR15K datasets, the mean absolute error value was reduced to 0.068, and the average structure (s) measure value was 0.844 9. The result of the MAE evaluation reflects the advantage of a saliency object detection method based on complex domain in terms of overall performance, and the s-measure indicates that the detected target is highly similar to the structure of the target of the ground truth graph. Conclusion Saliency object detection is a promising preprocessing operation in image processing and analysis. In this study, a new saliency object detection method based on complex domain is proposed. Multi-scale retinex algorithm in spatial domain can be used for pretreatment of images; it enhances contrast and prevents images from being affected by environmental factors. Hyper-complex Fourier transform in the frequency domain can suppress complex repetitive background regions, and the significant target detection method in the wavelet domain can completely describe the details of the target. Moreover, the proposed algorithm integrates the advantages of multiple domains and improves the accuracy while suppressing background clutter. Thus, the proposed algorithm is suitable for detecting significant target images, such as natural scenery, biology, architecture, and transportation. To improve the algorithm speed, our next research project aims to reduce the complexity of the algorithm by using the influence of wavelet transform function on time complexity.

Key words

salient objects detection; multi-scale Retinex enhancement algorithm; hyper complex Fourier transformation; wavelet transform; adaptive threshold selection method

0 引言

大数据时代的到来使我们每天都会接触到海量的数据资源,其中,图片资源的比重空前增长。正所谓“一图胜千言”,图像的作用不容小觑,同时,信息冗余成为图像处理中的关键难题。幸运的是,这个问题可以通过计算机模拟视觉显著性[1]来解决,视觉显著性是人类视觉系统(HVS)的重要机制,它能够快速准确地提取场景中最感兴趣的区域,忽略冗余的信息。显著性目标检测被广泛的应用于图像压缩、分割、重定向、视频编码,目标检测与识别[2-3]等多种场合。

显著性目标检测分为自顶向下和自底向上[4]两种方式,自顶向下是有监督分类学习的目标驱动的一种方式,由人意志控制下的对目标注意,学习目标的高层语义特征,通过判别得到指定目标的显著性图[5-7]。近两年深度学习在自顶向下的显著性目标检测中取得了较好的效果,但是其模型训练需要高配置设备,训练时间长、成本高,计算复杂度较高[8]。与自顶向下显著性目标检测不同的是,自底向上是图像本身颜色、纹理、亮度等特征对人的吸引,是数据驱动的前注意(pre-attentive)机制,利用场景中的低层特征或较高层特征,计算与周围具有较强对比度或明显不同的区域,判断目标区域和周围区域的差异,进而计算目标区域的显著性。本文以研究自底向上的显著性目标检测为主。

最经典的自底向上显著性目标检测方法是Itti等人[9]提出的一种模拟生物体视觉注意的选择性注意模型,利用多特征多尺度下的中央周围差异方法能够检测出对比度明显的显著性区域;Harel等人[10]提出的基于图模型的显著性目标检测(GBVS)方法,利用底层特征节点之间的相互作用关系,模拟人类的视觉注意机制实现显著性目标的检测;Hou等人[11]提出了利用频谱差余突出显著性目标的频谱残差(SR)方法;Achanta等人[12]利用颜色特征的中心周围算子计算Lab空间下每个像素点与均值的欧氏距离作为显著值,继而得到显著性目标区域;程明明等人[13]提出直方图对比度(HC)和局部对比度(RC)求显著值的方法,前者基于像素间的色彩差异,后者在HC的基础上又引入了空间信息;Li等人[14]提出多尺度空间分析的超复数傅里叶变换(HFT)方法,利用振幅谱上被忽略的图像信息,采用多特征融合的超复数傅里叶变换方法,通过对非显著区域的抑制得到显著性区域。Imamoglu等人[15]利用小波在小波域上良好的表征能力,对图像中的底层特征进行分解得到多特征图,再利用小波重构得到多特征的显著图。文献[16]中提出结构化矩阵分解(SMD)模型,将前景背景的分离问题转化为低秩矩阵和结构化稀疏矩阵的分解问题,结合底层特征和高层先验特征进行显著性目标的检测。姚等人[8]提出背景先验和前景先验(BFP)的显著性检测方法,利用背景先验假设和凸包先验得到背景、前景先验显著图,融合生成最后的显著图。

以上方法在进行显著性目标检测的时候,因环境的不确定因素、目标周围区域中的杂乱背景以及显著性目标检测方法选择的影响,导致生成显著图时,检测的显著性目标区域不准确、背景误检测的问题时常发生。本文提出一种复合域的显著性目标检测方法,复合域即同时结合频域、空间域及小波域,这样,充分发挥了复合域的优势,使显著性目标检测方法在3个域上进行信息互补,抑制背景的同时获得更准确、清晰的显著性目标区域。

1 复合域显著性目标检测模型

空间域上对输入的原始图像进行多尺度视网膜算法(MSR)[17]增强处理,频域上对初步处理过的图像建立无向图并提取节点特征,重构超复数傅里叶变换得到背景抑制图,同时,小波域上进行小波分解和重构获得初级显著图。最后,提出自适应阈值选择法修正背景,去除非显著成分,得到最终的显著图。复合域显著性目标检测方法的框架图如图 1所示。

图 1 模型框架
Fig. 1 Model framework

1.1 空域MSR增强目标表示

由于环境的影响,或光照不均匀,或雾天,导致获取的图片受到影响,表现为过暗或不清晰。在对图片作显著性目标检测的时候也会影响检测的结果。因此,排除环境的影响至关重要。在此,选择MSR算法对图片进行预处理。

MSR是一种图像增强算法,在Retinex的基础上提出的。Retinex是一种基于色彩理论的图像增强算法,人眼看到的图像是由自然界中的光照射在物体上,再由物体反射到人眼中所形成的景象。数学表达为

$ \mathit{\boldsymbol{I}} = \mathit{\boldsymbol{L}} * \mathit{\boldsymbol{R}} $ (1)

$ \mathit{\boldsymbol{I}} $表示人眼观察到的图像,$ \mathit{\boldsymbol{L}} $表示环境中光的照射分量,$ \mathit{\boldsymbol{R}} $表示场景中物体的反射分量。

MSR算法在Retinex的基础上,引入多尺度概念,在动态缩放图片的过程中进行线性加权实现图像的恢复。由于光照的影响,场景中显著性目标与背景的边界模糊,对比度减弱。为了克服光照的影响,增强暗区域的图像细节,采用MSR算法实现图像色彩的恢复。物体的反射分量是其在不受环境影响的物体自然的状态,其数学表达式为

$ \begin{array}{*{20}{c}} {{{\log }_2}\left[ {R\left( {x,y} \right)} \right] = {{\log }_2}\left[ {R\left( {x,y} \right)} \right] + }\\ {w\left( i \right) \times \left( {{{\log }_2}\left[ {{I_i}\left( {x,y} \right)} \right] - {{\log }_2}\left[ {{L_i}\left( {x,y} \right)} \right]} \right)} \end{array} $ (2)

$ w\left( i \right) $代表各个尺度下的权重值,权重值一般取等权重,权重和为1。

MSR算法对图像去雾、老照片、非均匀光照下的图片都有明显的效果。图 2为非均匀光照下MSR算法对图片的处理效果。由图 2可知,经过处理后的图像,亮度会更加贴切真实场景的亮度,前景与背景的对比度也会有明显的提高。

图 2 经过MSR初步处理后的图片
Fig. 2 Image of initial treatment by MSR
((a)original; (b)contrast enhancement)

1.2 频域HFT抑制背景

在显著性目标检测图像中,非显著性目标的背景区域往往占据图像大部分空间,这些背景区域会增加误检问题的发生,并降低准确率。通过观察,不难发现背景区域具有重复性的特点,如图 3(a)(b)所示,图中背景多为天空、树木、草地以及建筑。HFT可以使图像从空间域转换至频域上处理,在空间域上的图像变换到频域上变成了谱信号,重复区域的振幅谱的峰值最尖锐,通过滤波函数可以被有效地抑制。

图 3 背景的重复性
Fig. 3 Background repetition((a)giraffe; (b)person)

使用2维超复数表示可以融合多特征图,这样显著性目标区域的判断能力也会加强,超复数形式的矩阵定义为

$ \begin{array}{*{20}{c}} {\mathit{\boldsymbol{f}}\left( {n,m} \right) = {\varepsilon _1}{\mathit{\boldsymbol{F}}_1} + {\varepsilon _2}{\mathit{\boldsymbol{F}}_2}a + }\\ {{\varepsilon _3}{\mathit{\boldsymbol{F}}_3}b + {\varepsilon _4}{\mathit{\boldsymbol{F}}_4}c} \end{array} $ (3)

式中,$ a $$ b $$c $满足$ {a^2} = {b^2} = {c^2} = - 1 $$ {\mathit{\boldsymbol{F}}_1} $, $ {\mathit{\boldsymbol{F}}_2} $, $ {\mathit{\boldsymbol{F}}_3} $, $ {\mathit{\boldsymbol{F}}_4} $分别代表不同的特征图,$ {\varepsilon _1} $, $ {\varepsilon _{2.}} $, $ {\varepsilon _3} $, ${\varepsilon _4} $分别为特征图的权重系数,权重系数为$ {\varepsilon _1} = 0 $$ {\varepsilon _2} = 0.5 $$ {\varepsilon _3} = {\varepsilon _4} = 0.25 $ [14]

静态图像作为研究对象,$ {\mathit{\boldsymbol{F}}_1} $通常表示的是运动特征,静态图像无运行特征,故设$ {\mathit{\boldsymbol{F}}_1} = 0 $。使用$ {\mathit{\boldsymbol{F}}_2} $$ {\mathit{\boldsymbol{F}}_3} $$ {\mathit{\boldsymbol{F}}_4} $来描述静态图像的情况,$ {\mathit{\boldsymbol{F}}_2} $$ {\mathit{\boldsymbol{F}}_3} $$ {\mathit{\boldsymbol{F}}_4} $这3个特征表示组成输入图像的对立色彩空间,即

$ \left\{ \begin{array}{l} {\mathit{\boldsymbol{F}}_2} = \left( {\mathit{\boldsymbol{r}} + \mathit{\boldsymbol{g}} + \mathit{\boldsymbol{b}}} \right)/3\\ {\mathit{\boldsymbol{F}}_3} = \mathit{\boldsymbol{R}} - \mathit{\boldsymbol{G}}\\ {\mathit{\boldsymbol{F}}_4} = \mathit{\boldsymbol{B}} - \mathit{\boldsymbol{Y}} \end{array} \right. $ (4)

式中,$ \mathit{\boldsymbol{r}} $, $ \mathit{\boldsymbol{g}} $, $\mathit{\boldsymbol{b}} $分别代表输入图像红、绿、蓝三个颜色通道,$ \mathit{\boldsymbol{R}} = \mathit{\boldsymbol{r}} - \left( {\mathit{\boldsymbol{g}} + \mathit{\boldsymbol{b}}} \right)/2 $$ \mathit{\boldsymbol{G}} = \mathit{\boldsymbol{g}} - \left( {\mathit{\boldsymbol{r}} + \mathit{\boldsymbol{b}}} \right)/2 $$ \mathit{\boldsymbol{B}} = \mathit{\boldsymbol{b}} - \left( {\mathit{\boldsymbol{r}} + \mathit{\boldsymbol{g}}} \right)/2 $$ \mathit{\boldsymbol{Y}} = \frac{{\left( {\mathit{\boldsymbol{r}} + \mathit{\boldsymbol{g}}} \right)}}{2} - \frac{{\left| {\mathit{\boldsymbol{r}} - \mathit{\boldsymbol{g}}} \right|}}{2} - \mathit{\boldsymbol{b}} $

对式(3)进行傅里叶变换,即

$ {\mathit{\boldsymbol{F}}_H}\left[ {u,v} \right] = \frac{1}{{\sqrt {MN} }}\sum\limits_{m = 0}^{M - 1} {\sum\limits_{n = 0}^{N - 1} {{{\rm{e}}^{ - \mu 2{\rm{ \mathsf{ π} }}\left( {\left( {\frac{{mv}}{M}} \right) + \left( {\frac{{mu}}{N}} \right)} \right)}}\mathit{\boldsymbol{f}}\left( {n,m} \right)} } $ (5)

式(5)所表示的也是一个超复数矩阵,$ \mu $为一个纯四元数,且$ {\mu ^2} = 1$

将式(5)在极坐标形式重写为

$ {\mathit{\boldsymbol{F}}_H}\left[ {u,v} \right] = \left\| {{\mathit{\boldsymbol{F}}_H}\left[ {u,v} \right]} \right\|{{\rm{e}}^{\mu \varphi \left( {u,v} \right)}} $ (6)

式(6)为频域下图像的表示方式,振幅谱$\mathit{\boldsymbol{A}}\left( {u, v} \right) $、相位谱$\mathit{\boldsymbol{P}}\left( {u, v} \right) $、欧拉谱$ \mathit{\boldsymbol{X}}\left( {u, v} \right)$定义为

$ \left\{ \begin{array}{l} \mathit{\boldsymbol{A}}\left( {u,v} \right) = \left\| {{\mathit{\boldsymbol{F}}_H}\left( {u,v} \right)} \right\|\\ \mathit{\boldsymbol{P}}\left( {u,v} \right) = \varphi \left( {u,v} \right) = {\tan ^{ - 1}}\frac{{\left\| {V\left( {{\mathit{\boldsymbol{F}}_H}\left( {u,v} \right)} \right)} \right\|}}{{S\left( {\mathit{\boldsymbol{F}}\left( {u,v} \right)} \right)}}\\ \mathit{\boldsymbol{X}}\left( {u,v} \right) = \mu \left( {u,v} \right) = \frac{{V\left( {{\mathit{\boldsymbol{F}}_H}\left( {u,v} \right)} \right)}}{{\left\| {V\left( {{\mathit{\boldsymbol{F}}_H}\left( {u,v} \right)} \right)} \right\|}} \end{array} \right. $ (7)

振幅谱$ \mathit{\boldsymbol{A}}\left( {u, v} \right) $经过一系列不同尺度的高斯核$ g\left( {u, v, k} \right) $平滑过程,消除频谱中的尖峰部分,即抑制了重复性的背景,得到多个多尺度平滑后的振幅谱$ \mathit{\boldsymbol{A}} = \{ {\mathit{\boldsymbol{A}}_k}\} $,记为$ {\mathit{\boldsymbol{A}}_k}\left( {u, v} \right) $。变量$ k $为高斯核$g\left( {u, v, k} \right) $中的尺度,且$ k = 1, \ldots , K $$ K = [{\rm{lo}}{{\rm{g}}_2}\;{\rm{min}}\left\{ {H, W} \right\}] + 1 $$ H $$W $分别为输入图像的高和宽,在多个背景抑制图中选取效果最好的作为最终的背景抑制显著性图,即

$ {\mathit{\boldsymbol{L}}_k} = {F^{ - 1}}\left\{ {{\mathit{\boldsymbol{A}}_k}\left( {u,v} \right){{\rm{e}}^{XP\left( {u,v} \right)}}} \right\} $ (8)

式中,${F^{ - 1}}\left\{ \cdot \right\} $为傅里叶反变换。以图 4为例说明HFT的背景抑制作用,重复出现的天空、草地和部分树木被很好地抑制了。

图 4 HFT的背景抑制实例
Fig. 4 Background suppression instance of HFT
((a)original; (b)background suppression)

1.3 小波变换提取显著目标

小波变换由MORLET于1980年在进行地震数据分析时提出,它是一种强有力的信号分析处理工具,是在克服傅里叶变换缺点的基础上发展而来的[18]。小波变换的一个很重要的性质是它独有的小波域的局部化特征,能够提供目标信号各个频率子段的频率信息,这种信号对于图像处理非常有用。小波变换能够有效地去除图像冗余信息,通过对图像进行多种特征的小波分析可以得到一幅图像的敏感部分,即显著性目标区域。本文采取2维离散小波多贝西小波(DWT)进行显著性目标检测。

首先,对增强目标表示后的图像进行颜色空间转换,由RGB空间转换成LAB空间,LAB空间色彩更加适合于人类视觉感知,L、A、B分别代表亮度、红—绿彩色通道和蓝—黄彩色通道。为了排除噪声的干扰,采用2维高斯低通滤波器进行去噪,其数学表达式为

$ \mathit{\boldsymbol{I}} = {\mathit{\boldsymbol{I}}_n} * {\mathit{\boldsymbol{g}}_{m \times n}} $ (9)

式中,$ {\mathit{\boldsymbol{I}}_n} $表示带有噪声的图像,$ {\mathit{\boldsymbol{g}}_{m \times n}} $表示2维高斯低通滤波器($ m $$ n $取3),$ \mathit{\boldsymbol{I}} $表示去除噪声的图像。随即,将每个通道都归一化为0255。对输入图像的亮度、颜色、方向和纹理特征用DWT进行分解,得到多特征图

$ \mathit{\boldsymbol{H}}_i^c\left( x \right) = \mathit{\boldsymbol{W}}\left( {\mathit{\boldsymbol{I}}_i^c\left( x \right)} \right) $ (10)

$ i $表示特征数目,$ c $表示LAB 3个通道,$ W $表示贝多西小波函数,$ \mathit{\boldsymbol{H}}\left( x \right) $表示小波分解得到的多个特征。

其次,用小波反变换对多特征进行重构,得到多特征显著图$ {\mathit{\boldsymbol{f}}_i} $,数学表达式为

$ {\mathit{\boldsymbol{f}}_i} = {\mathit{\boldsymbol{g}}_{m \times n}} * {\mathit{\boldsymbol{W}}^{ - 1}}\left[ {\mathit{\boldsymbol{H}}_i^c\left( x \right)} \right] $ (11)

最后,将多特征显著图进行整合,得到小波域的显著性目标检测图像$ {\mathit{\boldsymbol{f}}_\text{w}} $,即初级显著图

$ {\mathit{\boldsymbol{f}}_{\rm{w}}} = \sum\limits_{i = 1}^n {{\omega _i} \times {\mathit{\boldsymbol{f}}_i} - \tau } $ (12)

$ {\omega _i} $表示特征对应的权重值,$ \tau $表示调节系数,一般取值为0.20.5[19]

1.4 自适应阈值修正

经过上述相关工作的准备,获得初级显著图。小波变换提取的初级显著图对于物体的细节刻画较好,但是,背景中的部分冗余信息同样也会被细致的刻画出来。这些背景被当做目标提取出来,对显著性目标的提取产生干扰,为了排除冗余信息对显著性目标准确性的影响,将频域得到的背景抑制图作用在小波域得到的初级显著图上,进行一个背景修正的作用。在此提出自适应阈值选择法,即根据不同图像背景抑制图上显著性目标的灰度值,自适应设定阈值,初级显著图和背景抑制图进行融合的时候取大于阈值范围的图像,小于阈值或等于阈值范围的图像设定背景区域,最终的显著图为

$ {\mathit{\boldsymbol{f}}_{{\rm{fin}}}} = {\mathit{\boldsymbol{f}}_{\rm{w}}} * T\left( t \right) $ (13)

式中,$ T\left( t \right) $表示自适应阈值选择函数,$ {\mathit{\boldsymbol{f}}_{{\rm{fin}}}} $即为复合域的显著性检测方法检测出的显著性目标图。

2 实验结果及分析

2.1 实验平台与数据集

实验环境的硬件平台为Windows7 64bit操作系统,处理器为Inter(R) 2.26 GHz,内存为6 GB,软件版本为Matlab 2016a。

为了使实验效果具有说服力,采用MSRA10K数据集和THUR15K数据集,这两个数据集是公开的标准的图像数据库,被广泛应用于显著性目标检测和图像分割中。MSRA10K包括10 000幅图片和10 000幅手工标注的准确到像素级别的显著性目标标注图,随即选择300幅背景较复杂的图像作为实验数据集,涵盖于自然景物、生物、建筑以及交通工具等图像。THUR15K是由蝴蝶、飞机、长颈鹿、杯子和狗5组关键词组成的15 000幅网络图片,以像素精度标注显著性目标,同样方式选择300幅图像作为实验数据集。

2.2 评价体系

为了证实本文所建立的模型的准确率和有效性,采用主观评价和客观评价两种评价体系。主观评价通过人类的视觉感知能力判断实验效果的优劣。客观评价通过准确率、召回率、平均绝对误差等数据模型来验证主观的评价,给出说明性的结论。主观评价与客观评价相互协作,缺一不可。

客观评价采用两种方式进行评价,第1种是常用的二进制显著图评估,使用准确率$ P $、召回率$R $、平均绝对误差MAE评价指标进行评估;第2种方法是非二进制显著图评估,采用结构性相似度量指标S-measure[20]进行评价。

为了进行二进制显著图评估,需要在显著性目标检测区域中计算出4个状态值,如表 1所示。

表 1 状态值
Table 1 Status values

下载CSV
检测结果 目标区域 背景区域
显著性区域 TP FP
非显著性区域 FN TN

表 1中的4个状态值分别是:检测出目标区域是显著性目标的区域的数量$ TP $,检测出背景的区域是非显著性目标的区域的数量$ TN $,检测出背景区域是显著性目标区域的数目$ FP $和检测出目标区域是非显著性目标区域的数目$ FN $,由这4个值进一步计算得到准确率$ P $、召回率$ R $、平均绝对误差MAE, 即

$ \begin{array}{l} P = \frac{{TP}}{{TP + FP}}\\ R = \frac{{TP}}{{TP + FN}}\\ MAE = \frac{{FP + FN}}{M} \end{array} $ (14)

准确率$ P $表示为检测出的显著性区域中真实目标区域与检测出的显著性区域面积的比值;召回率$ R $表示为检测出的显著性区域中所包含的目标区域与真实目标区域面积的比值;$ M $表示图像像素总数。

2.3 参数分析

实验参数包括MSR算法中代表各个尺度下的权重值$ w\left( i \right) $,HFT矩阵特征图的权重系数$ {\varepsilon _1} $${\varepsilon _2} $$ {\varepsilon _3} $$ {\varepsilon _4} $,DWT提取特征的权重值$ {\omega _i} $、调节系数$ \tau $以及自适应阈值。MSR的尺度权重值$ w\left( i \right) $一般取等权重,权重和为1。HFT矩阵特征权重系数$ {\varepsilon _1} = 0 $$ {\varepsilon _2} = 0.5 $$ {\varepsilon _3} = {\varepsilon _4} = 0.25 $[14],权重${\varepsilon _1} $对应的特征$ {F _1} $为运动特征,实验对象为静态图片,无运动特征,所以$ {\varepsilon _1} $取值为0,文献[14]中通过多次实验证明,当$ {\varepsilon _2} = 0.5$$ {\varepsilon _3} = {\varepsilon _4} = 0.25 $时获取的显著图最优。小波域特征对应的权重值$ {\omega _i} $为等权重值;调节系数$ τ $根据经验取值为0.3[19],保证检测到较好显著图的前提下去除部分冗余信息。在修正初级显著图时,每一幅图像都对应一个自适应阈值,通过自适应阈值函数求得。

2.4 实验结果比较与分析

2.4.1 主观比较与分析

本文基于空域、频域和小波域提出了复合域的显著性目标检测方法,该方法整合了各域的优点。选择了数据集中背景较复杂的图片作为实验图片,本文方法和比较流行的GBVS[10]、FT[12]、HFT[14]、DWT[15]、SMD[16]和BFP[8]显著性目标检测方法进行比较,部分代表实验效果图如图 5所示。

图 5 实验对比图
Fig. 5 Experimental comparison diagram
((a) original; (b) GT; (c) GBVS; (d) FT; (e) HFT; (f) DWT; (g) SMD; (h)BFP; (i)ours)

图 5可以看出,GBVS方法虽然能够检测出显著性目标,但是检测出的区域过大,没有明确的区分背景、前景,目标定位不准确;FT方法几乎对所有的图片背景与目标的细节都描述的很清晰;与前两种方法比较,HFT能够抑制大部分背景区域,但是检测出来的显著性目标区域同样没有很好的突出目标;DWT对于显著性目标的细节表现得很好,同时,背景图像中的部分区域也被当作目标表现出来;SMD方法对于大多数图像中前景显著性目标检测的效果很好,但是背景抑制不彻底;BFP方法与SMD方法相似,同样是背景抑制的不彻底。较这些方法,无论目标大小、远近、色彩如何,本法提出的方法不仅对背景图像抑制的很彻底,显著性目标的细节保存的很完整,且检测出来的显著性目标区域与标注图的相似度较高。

在实验的过程中发现,空域上的MSR算法对图片的预处理过程并不是必须的。如果图片受到环境的不确定因素(如非均匀光照、雾气)影响,用MSR增强的图片最终的显著性目标区域的检测结果好于未受MSR作用的图片,如图 6(a)(b)所示。如果环境对图片的影响比较小,或者是没有影响,那么使用MSR算法与否,最终的显著性目标检测区域的结果相似,如图 6(c)所示。

图 6 MSR适用的情况
Fig. 6 Applicable conditions of MSR
((a)non-uniform illumination images; (b)fog images; (c)normal images)

由以上实验结果可知,在不同数据集中,被检测图片在受到弱光照、雾气、前景目标与背景相似以及背景杂乱的环境等干扰下,本文算法依然能得到较好的显著性目标检测图。综合比较,本文方法除了具有一定的抗噪声能力,也具有良好的稳定性和鲁棒性。

2.4.2 客观比较与分析

通过主观上显著图的对比,本文方法与人工标注图最为相似。为了加强主观视觉分析的说服力,本小节通过计算不同数据集中各个算法的准确率、召回率、平均绝对误差和结构相似度量等指标进行客观评价。MSRA10K、THUR15K数据集的准确率、召回率$ P - R $的折线图如图 7(a)(b)(所示,平均绝对误差MAE的柱状图如图 8(a)(b)所示。

图 7 $ P-R $曲线
Fig. 7 Precision-recall curves with all method
((a)MSRA10K dataset; (b)THUR15K dataset)
图 8 算法MAE值对比
Fig. 8 Comparison of the algorithm MAE values
((a)MSRA10K dataset; (b)THUR15K dataset)

图 7(a)(b)表明相比GBVS、FT、HFT、DWT、SMD和BFP等方法,本文方法的PR曲线在提高准确率的同时兼顾了召回率。图 8(a)(b)表明本文方法的平均绝对误差MAE值为最优,具有很好的适用性。

二进制显著图评估方式基于图像的像素点,往往忽略目标的结构相似性,为了使评价结果更全面,使用S-measure度量检测出的显著性目标区域。S-measure的数学表达式为[20]

$ \begin{array}{l} S = \sigma \times {S_o} + \left( {1 - \sigma } \right) \times {S_r}\\ {S_r} = \sum\limits_{k = 1}^K {{w_k} \times s\left( k \right)} \\ {S_o} = \partial \times {O_{{\rm{FG}}}} + \left( {1 - \partial } \right) \times {O_{{\rm{BG}}}} \end{array} $ (15)

$ {S_r} $表示物体部分的相似性,${w_k} $表示每个块的权重值,$ s\left( k \right) $表示结构相似性;$ {S_o} $表示面向物体的结构度量,$ {O_{{\rm{FG}}}} $表示显著图与标注图之间物体级别的相似性,$ {O_{{\rm{BG}}}} $表示背景的相似性,$ \partial $表示标注图中前景区域与图像区域(宽×高)比值;$ S $为结构相似性指标,$ \sigma $属于0到1,本实验中取0.5。对每个数据集中选择的300幅图片计算所有方法的S-measure平均值,作S-measure的折线图如图 9(a)(b)所示。

图 9 算法S-measure值对比
Fig. 9 Comparison of the algorithm S-measure values
((a)MSRA10K dataset; (b)THUR15K dataset)

图 9(a)中可以看出, 本文方法做显著性目标检测,结构性指标S-measure值高于GBVS、FT、HFT和DWT方法,略低于SMD和BFP方法,图 9(b)中本文方法的结构性指标S-measure值高于其他对比算法,说明检测出的目标与标注图的目标的结构是十分相似的。

2.4.3 复杂度比较与分析

本文方法的复杂度主要是MSR方法对图像的预处理、小波变换提取显著图和自适应阈值修正背景这3个部分决定。MSR方法和自适应阈值方法的时间复杂度为O(1),小波变换的时间复杂度为$ {\rm{O}}\left( {N{\rm{lg}}\left( N \right)} \right) $,因此,小波变换是时间复杂度的主要影响因素。

相同实验条件下,本文方法与对比实验方法对MSRA10K和THUR15K数据集中相同图片作显著性目标检测的时间消耗如图 10所示。

图 10 消耗时间对比图
Fig. 10 Comparison diagram of elapsed time
((a)MSRA10K dataset; (b)THUR15K dataset)

图 10表明本文时间消耗高于GBVS、FT、HFT、SMD和BFP方法,与DWT的时间消耗基本一致,说明本文方法提高显著性目标检测准确率的基础上,时间损失较小。

3 结论

本文基于空间域、频域以及小波域提出了一种复合域的显著性目标检测方法,充分利用复合域的优势,空间域上的多尺度视网膜算法作为对图片的预处理,可以不受环境对图片的影响,并增强对比度。频域上的超复数傅里叶变换可以抑制复杂重复的背景区域。小波域上的显著性目标检测方法可以将目标的细节描述的十分完整。最后采用自适应阈值选择法对小波域上检测的显著图上进行选择,得到最终的显著图。实验结果表明,无论主观的视觉感知评价还是客观的数学模型评价,本文方法在提高准确率、召回率的基础上,检测出的显著性目标的结构性与标注图十分相似,说明本文的方法具有很好的鲁棒性和推广性。此外,为了提高算法速度,下一步的研究方案是利用小波变换函数对时间复杂度的影响,来降低算法的复杂度。

参考文献

  • [1] Du H. Visual saliency detection research based on multiple domains and features[D]. Changchun: Changchun Institute of Optics, Fine Mechanics and Physics, Chinese Academy of Sciences, 2016. [杜慧. 基于视觉显著性的空频域多特征的目标检测方法研究[D]. 长春: 中国科学院长春光学精密机械与物理研究所, 2016.] http://cdmd.cnki.com.cn/Article/CDMD-80139-1017013963.htm
  • [2] Qian K, Li F, Wen L M, et al. Color and space distance based salient region detection using fixed threshold segmentation[J]. Computer Science, 2016, 43(1): 103–106, 144. [钱堃, 李芳, 文益民, 等. 基于颜色和空间距离的显著性区域固定阈值分割算法[J]. 计算机科学, 2016, 43(1): 103–106, 144. ] [DOI:10.11896/j.issn.1002-137x.2016.01.024]
  • [3] Xu W, Tang Z M. Exploiting hierarchical prior estimation for salient object detection[J]. Acta Automatica Sinica, 2015, 41(4): 799–812. [徐威, 唐振民. 利用层次先验估计的显著性目标检测[J]. 自动化学报, 2015, 41(4): 799–812. ] [DOI:10.16383/j.aas.2015.c140281]
  • [4] Liang Y, Yu J, Lang C Y, et al. Research on salient region extraction technology[J]. Computer Science, 2016, 43(3): 27–32. [梁晔, 于剑, 郎丛妍, 等. 显著区域检测技术研究[J]. 计算机科学, 2016, 43(3): 27–32. ] [DOI:10.11896/j.issn.1002-137X.2016.03.005]
  • [5] Lee G, Tai Y W, Kim J. ELD-Net:An efficient deep learning architecture for accurate saliency detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017. [DOI:10.1109/TPAMI.2017.2737631]
  • [6] Li Y Y, Xu Y L, Ma S P, et al. Saliency detection based on deep convolutional neural network[J]. Journal of Image and Graphics, 2016, 21(1): 53–59. [李岳云, 许悦雷, 马时平, 等. 深度卷积神经网络的显著性检测[J]. 中国图象图形学报, 2016, 21(1): 53–59. ] [DOI:10.11834/jig.20160107]
  • [7] Du Y L, Li J Z, Zhang Y, et al. Saliency detection based on deep cross CNN and non-interaction GrabCut[J]. Computer Engineering and Applications, 2017, 53(3): 32–40. [杜玉龙, 李建增, 张岩, 等. 基于深度交叉CNN和免交互GrabCut的显著性检测[J]. 计算机工程与应用, 2017, 53(3): 32–40. ] [DOI:10.3778/j.issn.1002-8331.1607-0134]
  • [8] Yao Z J, Tan T Z. Saliency detection combining background and foreground prior[J]. Journal of Image and Graphics, 2017, 22(10): 1381–1391. [姚钊健, 谭台哲. 结合背景和前景先验的显著性检测[J]. 中国图象图形学报, 2017, 22(10): 1381–1391. ] [DOI:10.11834/jig.170114]
  • [9] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254–1259. [DOI:10.1109/34.730558]
  • [10] Harel J, Koch C, Perona P. Graph-based visual saliency[C]//Proceedings of 19th International Conference on Neural Information Processing Systems. Cambridge, USA: MIT Press, 2006: 545-552.
  • [11] Hou X D, Zhang L Q. Saliency detection: a spectral residual approach[C]//Proceedings of 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, USA: IEEE, 2007: 1-8. [DOI:10.1109/CVPR.2007.383267]
  • [12] Achanta R, Hemami S, Estrada F, et al. Frequency-tuned salient region detection[C]//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE, 2009: 1597-1604. [DOI:10.1109/CVPR.2009.5206596]
  • [13] Cheng M M, Zhang G X, Mitra N J, et al. Global contrast based salient region detection[C]//Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Colorado Springs, USA: IEEE, 2011: 409-416. [DOI:10.1109/CVPR.2011.5995344]
  • [14] LI J, Levine M D, AN X J, et al. Visual saliency based on scale-space analysis in the frequency domain[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(4): 996–1010. [DOI:10.1109/TPAMI.2012.147]
  • [15] Imamoglu N, Lin W, Fang Y. A saliency detection model using low-level features based on wavelet transform[J]. IEEE Transactions on Multimedia, 2013, 15(1): 96–105. [DOI:10.1109/TMM.2012.2225034]
  • [16] Peng H W, Li B, Ling H B, et al. Salient object detection via structured matrix decomposition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 818–832. [DOI:10.1109/TPAMI.2016.2562626]
  • [17] Petro A B, Sbert C, Morel J M. Multiscale retinex[J]. Image Processing on Line, 2014, 4: 71–88. [DOI:10.5201/ipol.2014.107]
  • [18] Guo Y C, Feng Y H, Yan G, et al. Image saliency detection in wavelet domain based on the contrast sensitivity function[J]. Journal on Communications, 2015, 36(10): 47–55. [郭迎春, 冯艳红, 阎刚, 等. 基于对比敏感度的小波域图像显著性检测[J]. 通信学报, 2015, 36(10): 47–55. ] [DOI:10.11959/j.issn.1000-436x.2015262]
  • [19] Chen Z X, He C, Liu C Y. Image saliency target detection based on global features and local features[J]. Control and Decision, 2016, 31(10): 1899–1902. [陈振学, 贺超, 刘成云. 基于局部特征与全局特征的图像显著性目标检测[J]. 控制与决策, 2016, 31(10): 1899–1902. ] [DOI:10.13195/j.kzyjc.2015.1017]
  • [20] Fan D P, Cheng M M, Liu Y, et al. Structure-measure: A new way to evaluate foreground maps[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 4558-4567. [DOI:10.1109/ICCV.2017.487]