Print

发布时间: 2020-06-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190317
2020 | Volume 25 | Number 6




    图像分析和识别    




  <<上一篇 




  下一篇>> 





融合背景块再选取过程的显著性检测
expand article info 陈星宇1, 叶锋1,2, 黄添强1,2, 翁彬1,2, 林文忠3
1. 福建师范大学数学与信息学院, 福州 350117;
2. 数字福建大数据安全技术研究所, 福州 350117;
3. 福建省信息处理与智能控制重点实验室(闽江学院), 福州 350108

摘要

目的 显著性检测算法大多使用背景先验提高算法性能,但传统模型只是简单地将图像四周的边缘区域作为背景区域,导致结果在显著性物体触及到图像边界的情况下产生误检测。为更准确地应用背景先验,提出一种融合背景块再选取过程的显著性检测方法。方法 利用背景先验、中心先验和颜色分布特征获得种子向量并构建扩散矩阵,经扩散方法得到初步显著图,并以此为输入再经扩散方法得到二层显著图。依据Fisher准则的思想以二层显著图为基础创建背景块再选取过程,将选取的背景块组成背景向量并构建扩散矩阵,经扩散方法得到背景显著图。将背景显著图与二层显著图进行非线性融合获得最终显著图。结果 在5个通用数据集上将本文算法与6种算法进行实验对比。本文算法在MSRA10K(Microsoft Research Asia 10K)数据集上,平均绝对误差(mean absolute error,MAE)取得了最小值,与基于多特征扩散方法的显著性物体检测算法(salient object detection via multi-feature diffusion-based method,LMH)相比,F值提升了0.84%,MAE降低了1.9%;在数据集ECSSD(extended complex scene saliency dataset)上,MAE取得了次优值,F值取得了最优值,与LMH算法相比,F值提升了1.33%;在SED2(segmentation evaluation database 2)数据集上,MAE与F值均取得了次优值,与LMH算法相比,F值提升了0.7%,MAE降低了0.93%。本文算法检测结果在主观对比中均优于LMH算法,表现为检测所得的显著性物体更加完整,置信度更高,在客观对比中,查全率均优于LMH算法。结论 提出的显著性检测模型能更好地应用背景先验,使主客观检测结果有更好提升。

关键词

显著性检测; 背景先验; 背景块再选取; Fisher准则; 扩散方法

Saliency detection based on the background block reselection method
expand article info Chen Xingyu1, Ye Feng1,2, Huang Tianqiang1,2, Weng Bin1,2, Lin Wenzhong3
1. College of Mathematics and Informatics, Fujian Normal University, Fuzhou 350117, China;
2. Digital Fujian Institute of Big Data Security Technology, Fuzhou 350117, China;
3. Fujian Provincial Key Laboratory of Information Processing and Intelligent Control(Minjiang University), Fuzhou 350108, China
Supported by: National Natural Science Foundation of China (61671077);Natural Science Foundation of Fujian Province, China(2017J01739, 2018J01779)

Abstract

Objective Many saliency detection algorithms use background priors to improve algorithm performance. In the past, however, most traditional models simply used the edge region around an image as the background region, resulting in false detection in cases wherein a salient object touches the edge of the image. To accurately apply background priors, we propose a saliency detection method that integrates the background block reselection process. Method First, the original image is segmented using a superpixel segmentation algorithm, namely, simple linear iterative clustering (SLIC), to generate a superpixel image. Then, a background prior, a central prior, and a color distribution feature are used to select a partial superpixel block from the superpixel image to form a seed vector, which constructs a diffusion matrix. Second, the seed vector is diffused by the diffusion matrix to obtain a preliminary saliency map. Then, the preliminary saliency map is used as an input and then diffused by the diffusion matrix to obtain a second saliency map to obtain high-level features. Third, we develop a background block reselection process in accordance with the idea of Fisher's criterion. The two-layer saliency map is first fed into the background block reselection algorithm to extract background blocks. Then, we use the selected background blocks to form the background vector, which can be utilized to construct a new diffusion matrix. Lastly, the seed vector is diffused by the new diffusion matrix to obtain a background saliency map. Fourth, the background and two-layer saliency maps are nonlinearly fused to obtain the final saliency map. Result The experiments are performed on five general datasets: Microsoft Research Asia 10K (MSRA10K), extended complex scene saliency dataset (ECSSD), Dalian University of Technology and OMRON Corporation (DUT-OMRON), salient object dataset (SOD), and segmentation evaluation database 2 (SED2). Our method is compared with six recent algorithms, namely, generic promotion of diffusion-based salient object detection (GP), inner and inter label propagation: salient object detection in the wild (LPS), saliency detection via cellular automata (BSCA), salient object detection via structured matrix decomposition (SMD), salient region detection using a diffusion process on a two-layer sparse graph (TSG), and salient object detection via a multifeature diffusion-based method LMH (salient object detection via multi-feature diffusion-based method), by using three evaluation indicators: PR(precision-recall) curve, F index, and mean absolute error (MAE). On the MSRA10K dataset, MAE achieved the minimum value in all the comparison algorithms. Compared with the preimproved algorithm LMH, the F value increased by 0.84% and MAE decreased by 1.9%. On the ECSSD dataset, MAE was the second and the F value reached the maximum value in all the methods. Compared with the algorithm LMH, the F value increased by 1.33%. On the SED2 dataset, MAE and F values were both second in all the methods. Compared with the algorithm LMH, the F value increased by 0.7% and MAE decreased by 0.93%. Simultaneously, we separately extract the generated background saliency map and the final saliency map from our method and compare them with the corresponding high-level saliency map and final saliency map generated using the algorithm LMH. The experiment shows that our method also performs better at the subjective level. The salient objects in the saliency map are more complete and exhibit higher confidence, which is consistent with the phenomenon that recall rate in the objective comparison is better than that of the algorithm LMH. In addition, we experimentally verify the process of dynamically selecting thresholds in the proposed background block reselection process. The F-indexes obtained on three datasets (MSRA10K, SOD, and SED2) are better than those in the corresponding static processes. On ECSSD, the performance on the dataset is basically the same as that in the static process. However, the performance on the DUT-OMRON dataset is not as good as that in the static process. Consequently, we conduct theoretical analysis and verify the experiment by increasing the selection interval of the background block. Conclusion The proposed saliency detection method can better apply the background prior, such that the final detection effect is better at the subjective and objective indicator levels. Simultaneously, the proposed method performs better when dealing with the type of image in which the salient region touches the edge of the image. In addition, the comparative experiment on the dynamic selection process of thresholds shows that the process of dynamically selecting thresholds is effective and reliable.

Key words

saliency detection; background priori; re-selection of background block; Fisher criterion; diffusion method

0 引言

面对一幅图像,人类可以快速地将目光聚焦到图中最吸引人注意的区域,而将其他不太重要的区域排除在外。在计算机视觉领域,将通过模拟人类视觉系统提取能够吸引人们注意的图像区域的方法称为显著性检测方法。Itti等人(1998)最早提出了基于Koch框架的显著性检测算法,随后,显著性检测作为能够加快计算机处理速度的强有力方式越来越受到学者的关注,并更多地应用到图像检索(Bai等,2018Wan等,2017冯松鹤等,2011)、图像分类(Tang等,2016刘尚旺等,2015)、图像分割(Bi等,2018张俊杰等,2017)、图像压缩(Zhu等,2018)和目标检测与识别(Shehnaz和Naveen,2015Wei等,2016)等任务中。

显著性检测方法按设计方式分为自底向上和自顶向下两大类,自底向上的方法主要通过图像的纹理、颜色、位置、物体轮廓等底层特征,设计相应的检测模型对图像中的每个位置区域进行显著值计算,这种方法由数据驱动。自顶向下的方法则是依据具体的计算任务设计,一般需要结合具体目标进行有监督训练,这种方法由任务驱动。在应用上,显著性检测方法又可分为焦点预测和显著性区域检测两种,焦点预测的任务是预测人类视觉的关注点,显著性区域检测则是将图像中的显著区域完整显示出来,并对背景区域进行有效覆盖。本文方法属于自底向上的显著性区域检测方法。

1 相关工作

许多显著性检测方法利用图像中的颜色对比度信息进行显著性检测。若图像中的某个区域颜色鲜艳或与周围区域有比较大的颜色差异,则该区域更容易引起人们的关注,即为要检测的显著性区域。考虑到底层的颜色特征维数太低,不足以很好地区分显著区域与背景区域,Kim等人(2016)提出了通过利用高维颜色空间与位置信息相结合得到的高维特征进行显著性检测的方法。这里的高维颜色空间由每个像素的RGB的3个分量、Lab的3个分量、对比度和颜色分布等多个维度构成。Liu和Yang(2019)将Lab颜色空间下的L、a、b这3个颜色分量进行乘积,提出在颜色体积空间下利用乘积后所得特征产生前景显著图,同时基于背景先验和中心先验产生对应的显著图,最后将3种显著图融合得到最终结果。

单纯基于颜色信息的显著性检测方法有时不能够完整地将显著性区域内部检测出,为此学者提出了不同方法。Yang等人(2013)提出基于图的流行排序方法检测显著性目标。在选出的前景或背景种子向量作为查询的情况下,将图中每一个区域与种子向量相似性大小的排序值作为区域的显著值,进而产生显著图。Jiang等人(2015)提出让基于流行扩散过程的显著性检测方法性能提高的改进方法,通过对扩散过程与谱聚类方法内在联系的深入分析,重新构建扩散矩阵,使得种子向量携带的显著性信息能够经扩散矩阵更好地传递出去。Li等人(2015)提出一种用于显著性物体检测的标签传播算法,将图像以超像素为单位转化成图结构,依据特定原则选取前景标签和背景标签并进行传播以获得对应的显著图,根据设计的算法进行融合得到最终结果。Qin等人(2015)提出一种基于元胞自动机的新型传播机制,所有元胞的显著值依据提出的更新原则同步更新,无论现有算法的检测结果如何,该机制均会有一个优化效果。Zhou等人(2017)提出通过构建二层稀疏图重新建立扩散矩阵的方法,进而通过流行扩散过程进行显著性检测。Peng等人(2017)提出一种新颖的构造矩阵分解的方法进行显著性检测,将输入的图像进行超像素分割,提取每块超像素的特征构成一个特征矩阵,通过提出的方法将特征矩阵分解为低秩矩阵和稀疏矩阵,分别代表背景区域和显著性区域,通过恢复稀疏矩阵完成显著性检测。叶锋等人(2018)Jiang等人(2015)工作的基础上,提出利用图像的多层次特征进行显著性检测的方法。

显著性检测还会借助一些高层先验提高算法性能,许多显著性检测方法使用背景先验这一高层先验,并对如何更好地利用背景先验提出了很多新的思路。Li等人(2018)提出从前景与背景两个角度出发进行显著性检测,首先利用显著性区域在空间分布上的紧凑性和中心先验产生前景显著图,然后以前景显著图为基础产生背景显著图,最后将前景显著图与背景显著图进行融合得到最终结果。本文通过在得到的二层显著图上进行背景块再选取过程来更好地应用背景先验,进而产生背景显著图,将背景显著图与二层显著图进行非线性融合后得到最终结果。

2 本文方法

2.1 方法过程

Perazzi等人(2012)的研究表明,通过将图像中相似像素点聚集为超像素,以超像素为单位进行显著性检测能很好地提升检测效果。因此,许多显著性检测方法利用简单线性迭代聚类(simple linear iterative clustering,SLIC)算法(Achanta等,2012)对原始图像进行超像素分割,而后展开工作。本文提出的融合背景块再选取过程的显著性检测算法流程如下:1)将原始图像通过SLIC算法进行超像素分割生成超像素图像;2)利用颜色对比度等底层特征构建扩散矩阵及获得种子向量,将种子向量经扩散矩阵扩散后得到初步显著图;3)将初步显著图作为新特征构建扩散矩阵,种子向量经新矩阵扩散后得到二层显著图,随后以二层显著图为基础,利用本文提出的基于Fisher准则的背景块再选取方法进行背景块再选取;4)将得到的所有背景块构成背景向量,利用背景向量构建新的扩散矩阵,种子向量经新扩散矩阵扩散后得到背景显著图;5)将背景显著图与二层显著图进行非线性融合获得最终结果。本文算法的流程图如图 1所示。

图 1 本文方法流程图
Fig. 1 Flow chart of our method

2.2 流行扩散方法

本文采用流行扩散方法进行显著性物体检测,将已获得的显著性信息扩散后,能够获得显著性物体内部和边界都较为一致的显著图。常见的流行扩散方法主要由扩散矩阵和种子向量两部分构成(Yang等,2013Jiang等,2015)。

1) 扩散矩阵。首先,输入的原始图像经过超像素分割算法SLIC分割后,得到包含$N$个超像素块的超像素图像。然后,将每个超像素块当作一个图节点$v_{i}\{i∈ {\bf Z}, 1≤i≤N\}$,节点$v_{i}$$v_{j}${$j$$\bf Z$, 1≤$j$$N$$i $$j$}的连接线作为图的边$e_{ij}$,节点$v_{i}$$v_{j}$间的特征差异作为边的权重$w_{ij}$。从而将一幅图像转化为一个带权图$ \boldsymbol{G}=${$ \boldsymbol{V}$, $ \boldsymbol{E}$, $ \boldsymbol{W}$},其中$ \boldsymbol{V}$, $ \boldsymbol{E}$$ \boldsymbol{W}$分别代表图$ \boldsymbol{G}$中的顶点集合、边集合和权重集合。最后,以得到的图$ \boldsymbol{G}$为基础构建扩散矩阵$ \boldsymbol{A}^{-1}$

2) 种子向量。种子向量$ \boldsymbol{s}$的获取方法多种多样,可以是任何一种显著性检测方法获得的初步显著图,也可以是依据背景先验等高层先验选取的种子向量。

获得了上述两个关键组成部分后,种子向量$ \boldsymbol{s}$经扩散矩阵$ \boldsymbol{A}^{-1}$扩散后得到显著性向量$\boldsymbol{y}$的过程可以表示为

$ \boldsymbol{y}= \boldsymbol{A}^{-1}× \boldsymbol{s} $ (1)

将式(1)中得到的显著性向量$ \boldsymbol{y}$中每个元素的值赋予对应的超像素块后即可得到显著图。

2.3 生成背景显著图

叶锋等人(2018)提出的基于多特征扩散方法的显著性物体检测方法,利用图像的底层、中层和高层特征得到对应的显著图,本文称其为LMH(salient object detection via multi-feature diffusion-based method)算法。LMH算法得到的底层、中层以及高层显著图都以超像素块为单位,均分别以一个行向量$ \boldsymbol{y}$的形式进行存储。$ \boldsymbol{y}$的列数代表超像素的个数,而每一个元素的值代表某一块超像素的显著值。元素的值越大表示对应超像素块的显著性越大,在显著图上表现为超像素块所在区域越明亮。LMH算法利用将背景先验、中心先验和颜色分布分析法三者相结合的方式得到底层显著图,然而在计算高层显著图的过程中,仍然采用与计算底层显著图类似的方法。因此,本文舍弃LMH算法中的高层显著图,转而以中层显著图为输入(即本文算法的二层显著图),利用提出的基于Fisher准则的背景块再选取方法,进行背景块再选取过程。将选取的背景块组成背景向量并以此构建扩散矩阵,最终经扩散方法产生背景显著图。

2.3.1 基于Fisher准则的背景块再选取算法

Fisher准则指的是通过让不同类样本间的差异尽可能大,而同类样本间的差异尽可能小,即让类间差异与类内差异的比值尽可能大的方式将两个不同类的样本集区分开。同样,本文要解决的关键问题是如何将二层显著性向量$ \boldsymbol{y}$尽可能准确地分为背景和前景两个向量(不失一般性分别用$ \boldsymbol{m}$$ \boldsymbol{n}$表示)。因此本文利用Fisher准则思想设计背景块再选取算法,算法最终返回背景块个数$B$与背景向量$ \boldsymbol{b}$,具体步骤如下:

1) 定义背景块搜索区间为[$l$, $ r$],$l$$r$的值为

$ \left\{ \begin{array}{l} l=1 \\ r= \frac{{s_{p}}}{{δ}}\end{array} \right. $ (2)

式中,$l$为图像中背景块个数能取得的最小取值,由经验知绝大多数图像中不可能都是前景,假定经过超像素分割后图像中至少存在一个背景块,因此初始值为1。$r$为图像中背景块个数能取得的最大值(向下取整),$s_{p}$代表一幅图像经SLIC算法分割后生成的超像素的总数(远大于12),$δ$是控制背景块可取值个数的参数。由式(2)易知,$δ$值越大,$r$值越小,背景块可选取的范围越小。由于每幅图像中存在的背景块数目不定,故本文在5个通用数据集上对$δ$的不同取值进行了大量实验,结果表明当$δ$= 12时算法效果最佳,因此本文$δ$值取12,进而确定右边界$r$的值。

2) 将位置指示变量$p$、类间差异比值变量$f$、存储$f$最大值的变量$f_{\max}$和存储向量元素的变量$v$均初始为0,背景块个数变量$B$初始化为$l$-1。

3) 对输入的二层显著性向量$ \boldsymbol{y}$进行升序排序,所得结果存储为向量$ \boldsymbol{y}$′。

4)$B$的值自增1。若$B$$r$,则转步骤8)。

5) 将向量$ \boldsymbol{y}$′的第$B$个元素赋给变量$v$,向量$\boldsymbol{y}$′中小于等于$v$的元素构成向量$ \boldsymbol{m}$,大于$v$的元素构成向量$ \boldsymbol{n}$

6) 基于Fisher准则思想,给出$f$值定义为

$ f=\left| {\frac{{a_{g}(\boldsymbol{m})-a_{g}(\boldsymbol{n})}}{{v_{a}(\boldsymbol{m})+v_{a}(\boldsymbol{n})}}} \right| $ (3)

式中,$a_{g}$(·)为求类内样本的平均值,$v_{a}$(·)为求类内样本的方差。因此,分子代表了类间差异,分母代表了类内差异,以最终的比值$f$为依据对显著性行向量$\boldsymbol{y}$′进行二分类。由式(3)易知,$f$值越大,选出的背景块数目越准确,从而能够将背景与前景较好地分离开来。变量$f$的值根据式(3)计算。

7) 如果$f$的值大于$f_{\max}$,那么更新$f_{\max}$的值为$f$,更新$p$的值为$B$,转步骤4);否则直接转步骤4)。

8) 将$p$的值赋给$B$,向量$\boldsymbol{y}$′的前$B$个元素构成背景向量$\boldsymbol{b}$,同时返回变量$B$和向量$\boldsymbol{b}$

2.3.2 背景显著图的产生以及最终的非线性融合

种子向量$\boldsymbol{s}$与通过背景向量$\boldsymbol{b}$构建的扩散矩阵$\boldsymbol{A}^{-1}$按式(1)进行扩散后得到背景显著性向量$\boldsymbol{y}_{\rm b}$,将向量$ \boldsymbol{y}_{\rm b}$中每个元素的值赋予对应的超像素块后即可产生背景显著图。

将背景显著性向量$\boldsymbol{y}_{\rm b}$与二层显著性向量$\boldsymbol{y}_{\rm sc}$进行非线性融合,具体为

$ \boldsymbol{y}_{\rm fn}=(0.5 \boldsymbol{y}_{\rm b}+0.5 \boldsymbol{y} _{\rm sc})×{\rm e}^{-5y_{\rm sc}} $ (4)

式中,0.5$ \boldsymbol{y}_{\rm b}$+ 0.5$ \boldsymbol{y}_{\rm sc}$综合考虑了背景显著图与二层显著图,${\rm e}^{-5 \boldsymbol{y}_{\rm sc}}$作为引入的非线性因素对背景显著图与二层显著图的融合结果进行调整,固定参数-5由实验确定。将得到的显著性向量$\boldsymbol{y}_{\rm fn}$中每个元素的值赋予对应的超像素块后即可获得最终显著图。

3 实验

实验在MATLAB 2017b环境下进行,将本文算法与GP(generic promotion of diffusion-based salient object detection)(Jiang等,2015)、LPS(inner and inter label propagation: salient object detection in the wild)(Li等,2015)、BSCA(saliency detection via cellular automata)(Qin等,2015)、SMD(salient object detection via structured matrix decomposition)(Peng等,2017)、TSG(salient region detection using diffusion process on a two-layer sparse graph)(Zhou等,2017)和LMH(叶锋等,2018)算法进行主、客观对比及有效性分析。

3.1 数据集及评估指标

3.1.1 数据集

MSRA10K(Microsoft Research Asia 10K)数据集包含10 000幅图像,每幅图像一般都只含有一个显著性物体且背景较为单一,目前大多数的算法在该数据集上都有不错表现,在显著性检测中属于难度一般的数据集。

ECSSD(extended complex scene salliency dataset)数据集由CSSD(complex scene saliency dataset)数据库扩展得到,包含1 000幅图像。该数据集来源于网络,大多数是结构复杂的自然图像,每幅图像中所含的显著性物体一般都不止一个,有的图像前后背景之间的差异不明显且复杂多变。ECSSD数据集在显著性检测中难度大,目前大多数算法检测效果都不佳。

DUT-OMRON(Dalian University of Techonology and OMRON Corporation)数据集包含5 168幅图像,每幅图像含有一个或多个显著性物体,背景较为复杂,属于比较有挑战性的数据集。

SOD(salient object dataset)数据集基于分割数据库构建,包含300幅图像,每幅图像包含一个或多个显著性目标,图像中的内容复杂多变,是目前公认的非常具有挑战性的一个数据集。

SED2(segmentation evaluation dataset 2)数据集最初用来评估分割算法的性能,后来逐渐用于显著性检测,包含100幅分辨率不等的图像,每幅图像包含两个显著性物体,且前景与背景的特征都复杂多变,在显著性检测中属于难度较大的数据集。

3.1.2 评估指标

1) PR曲线(Martin等,2004)。$P$指查准率(precision),$R$指查全率(recall)。在显著性检测中,算法检测出的显著性区域$\boldsymbol{S}$与人工标定的显著性区域$\boldsymbol{G}$的重合部分为区域$\boldsymbol{O}$,则查准率与查全率分别定义为

$ \left\{ \begin{array}{l} P= \frac{{|\boldsymbol{O}|}}{{|\boldsymbol{S}|}} \\ R= \frac{{|\boldsymbol{O}|}}{{| \boldsymbol{G}|}} \end{array} \right. $ (5)

2) F指标(van Rijsbergen,1986)。当算法的PR曲线有交叉时,一般不好判断孰优孰劣。在不同任务中,对查准率与查全率的侧重点也不同,PR曲线不能表征这些侧重点。因此用F指标对算法进行综合评估,具体定义为

$ F_{β}= \frac{{(1+β^{2})×P×R}}{{β^{2}×P+R}} $ (6)

式中,$β^{2}$为固定参数。当$β^{2}$ < 1时,查准率有更大影响;而当$β^{2}$> 1时,查全率有更大影响;当$β^{2}$= 1时,退化为一般的F1指标。与大多数显著性检测方法一样,本文将$β^{2}$取值为0.3。F指标的值越大越好。

3) 平均绝对误差(mean absolute error,MAE)(Borji等,2015)。显著性检测算法生成的显著图与人工标定的真值图之间的相似性无法通过PR曲线或F指标体现,而MAE可以很好地度量这种相似性,具体定义为

$ MAE= \frac{{1}}{{W×H}}\sum\limits^ W_{x=1}\sum \limits^H_{y=1}| \boldsymbol{S}(x, y)- \boldsymbol{G}(x, y)| $ (7)

式中,$W$$H$分别代表图像的宽和高,($x$, $ y$)代表像素的坐标,$\boldsymbol{S}$代表算法生成的显著图,$\boldsymbol{G}$代表人工标定的真值图。显然,MAE值越小越好。

3.2 参数分析

在本文提出的基于Fisher准则的背景块再选取方法中,$δ$参数的取值非常关键。一方面,若$δ$的取值过小,则背景块数目的可搜索区间[$l$, $ r$]将变大。如前所述,背景块再选取方法是建立在二层显著性向量$\boldsymbol{y}_{\rm sc}$上的,在得到初步显著性向量及二层显著性向量的过程中,它们中每一个元素的值只是对每一块超像素显著性的估计值,这些估计值与真实值之间存在误差,本文称为误差$ε$。因此,搜索区间的扩大不但增加了算法计算过程中的时间消耗,而且误差$ε$影响了算法的背景块再选择过程。导致某些$B$值下的$f$值比实际背景块个数下的$f$值更大,从而获得不恰当的$B$值。另一方面,若$δ$值过大,则与前述情况相反。此时,过小的背景块搜索区间可能使算法不能将一幅图像中的背景块尽可能多地提取出来。例如一幅图像中的背景块实际有50块,而搜索区间是[1, 40],这样导致的结果就是通过背景向量构建的扩散矩阵不够好,从而降低算法性能。实验表明,取$δ$= 12较为适宜。

3.3 实验结果分析

3.3.1 算法有效性分析

为验证基于Fisher准则的背景块再选取方法的有效性,本文在5个数据集上进行实验,实验所得的F值结果如表 1所示。表 1中,$B$固定值指背景块的个数依据每幅图像提前给定,为了使这种情况下获得的背景块尽可能全面,将$B$取为搜索区间[$l$, $ r$]的最大值,即$B$= $r$$B$动态值指按照本文算法为每幅图像确定$B$值。

表 1 $B$固定值与$B$动态值在各数据集上的F值
Table 1 F-values of $B$ fixed values and $B$ dynamic values on data sets

下载CSV
数据集 $B$固定值 $B$动态值
MSRA10K 0.721 7 0.721 9
DUT-OMRON 0.529 0 0.524 4
ECSSD 0.638 6 0.638 4
SOD 0.529 6 0.532 3
SED2 0.675 3 0.677 7
注:加粗字体为每行最优值。

表 1可以看出,在$B$取动态值时,相比于$B$取固定值的情况,算法在MSRA10K、SOD和SED2数据集上的F值均有提升。但在ECSSD数据集上,F值出现了轻微下降的情况,原因由误差$ε$导致。而在DUT-OMRON数据集上,F值出现下降的原因除了误差$ε$外,还存在该数据集的图像背景块数目普遍偏大的原因。在$B$取固定值时,算法对每幅图像总是取搜索区间内允许的最大背景块个数,相比于$B$取动态值的情况,每幅图像都能获得更多的背景块。而在$B$取动态值的情况下,由于本文设定的搜索区间在DUT-OMRON数据集上显得太小,再加上误差$ε$的影响,算法最终获得的背景块数未必都能达到搜索区间内的最大值。因此,F值出现下降。扩大背景块搜索区间将提高本文算法在DUT-OMRON数据集上的表现。综上所述,基于Fisher准则的背景块再选取方法相比于本文提出的静态选取过程更有效。

3.3.2 主观对比分析

本文算法获得的背景显著图与LMH算法中高层显著图的对比如图 2所示。由于进行了背景块再选取过程使得提取的背景块更加可靠,因此,相比原算法中的高层显著图,本文算法得到的背景显著图的显著性区域更加完整且更加明亮。但在面对第9、11、14幅图像时,本文算法在效果提升的同时也出现了将背景误检测为前景的错误,这是由于原图像中的背景区域与前景区域在颜色上比较接近,导致在得到的二层显著性向量中它们的显著值也非常接近,因此本文的背景块再选取算法不能很好地将这些背景块全部选出,从而产生误检测现象。另一方面,在面对第10、12、15幅图像代表的显著性物体触及图像边界的这一类情况,本文算法的表现也优于LMH算法。

图 2 本文算法的背景显著图与算法LMH的高层显著图对比
Fig. 2 Comparing the background saliency map of our algorithm with the high-level saliency map of LMH algorithm

本文算法与GP、LPS、BSCA、SMD、TSG和LHM算法的最终结果对比如图 3所示。从图 3可以看出,相比于LMH算法,本文算法得到的最终显著图前景更加完整且更加明亮,背景也得到了更有效的抑制。本文的最终结果是由二层显著图与背景显著图进行非线性融合后得到的,一方面使得背景显著图中存在的问题得到了较好改善,另一方面保留了背景显著图在面对前景触及图像边界这一类情况时具有的优势。

图 3 本文算法与其他算法最终结果对比
Fig. 3 Comparing the final results of our algorithm with those of other algorithms

3.3.3 客观对比分析

在MSRA10K数据集上的实验结果如图 4表 2所示。由图 4可知,本文算法的PR曲线略好于LMH算法,从曲线包围的左下方一侧的面积上看不如一些算法,但本文曲线没有延伸至左上角区域,该区域对应着高准确率和低查全率的极端情况。这类极端情况表明,算法生成的显著图(灰度图像)在高置信度取值下转化为二值图像后与真值图像(二值图像)进行对比时的效果并不好,即查全率过低而准确率又没提升多少,因此在这一点上本文算法要好于其他算法。由表 2可知,本文算法的F值与MAE分别为0.721 9与0.092 8,相比于LMH算法分别取得的0.715 9和0.094 6,其中F值提升了约0.84%,MAE值降低了约1.9%。在与其他算法的对比中,本文算法的MAE取得了最小值。单独分析查准率与查全率可以发现,本文算法的查准率相比LMH算法有所降低,但查全率的提升幅度更大,这也与主观对比分析中的结果一致,即本文算法所得结果的前景更加完整。

图 4 MSRA10K数据集下的PR曲线对比
Fig. 4 Comparison of PR curves on MSRA10K dataset

表 2 MSRA10K数据集下的查准率、查全率、F值和MAE值
Table 2 Precision, recall, F and MAE values on MSRA10K dataset

下载CSV
算法 F值 查准率$P$ 查全率$R$ MAE
GP 0.686 9 0.781 0 0.659 9 0.123 1
LPS 0.618 8 0.816 3 0.522 0 0.123 8
BSCA 0.662 6 0.780 6 0.645 3 0.125 2
SMD 0.761 5 0.876 0 0.715 9 0.104 6
TSG 0.722 9 0.886 1 0.654 9 0.114 2
LMH 0.715 9 0.826 0 0.626 5 0.094 6
本文 0.721 9 0.813 5 0.658 6 0.092 8
注:加粗字体表示每列最优值。

在ECSSD数据集上的实验结果如图 5表 3所示。由图 5可知,本文算法的PR曲线优于LMH和LPS算法,从曲线包围的左下方一侧的面积上看不如其余算法,但与MSRA10K数据集的情况一样,本文曲线没有延伸至左上角区域,因此在这一点上曲线要好于其他算法。由表 3可知,本文算法的F值为0.638 4,相比于LMH算法的0.630 0提升了约1.33%,并且在所有的对比算法中取得了最大值。具体分析查准率与查全率可以发现其规律与在MSRA10K数据集中的情况类似。同时,本文算法的MAE值为0.163 5,略高于LMH算法的0.162 2,但均优于其余算法。

图 5 ECSSD数据集下的PR曲线对比
Fig. 5 Comparison of PR curves on ECSSD dataset

表 3 ECSSD数据集下的查准率、查全率、F值和MAE值
Table 3 Precision, recall, F and MAE values on ECSSD dataset

下载CSV
算法 F值 查准率$P$ 查全率$R$ MAE
GP 0.619 8 0.711 8 0.660 6 0.191 0
LPS 0.520 7 0.768 3 0.430 5 0.186 0
BSCA 0.602 8 0.737 9 0.618 3 0.182 4
SMD 0.621 3 0.751 7 0.635 8 0.173 4
TSG 0.580 8 0.765 2 0.557 3 0.180 4
LMH 0.630 0 0.772 5 0.539 8 0.162 2
本文 0.638 4 0.751 3 0.590 3 0.163 5
注:加粗字体表示每列最优值。

在DUT-OMRON数据集上的实验对比结果如图 6表 4所示。由图 6可知,本文算法的PR曲线好于算法GP,与部分算法的曲线交叉,从曲线包围的左下方一侧的面积上看本文方法不占优势,但与MSRA10K数据集的情况一致,曲线没有延伸至左上角区域,因此在这一点上要好于其他算法。由表 4可知,本文算法的F值与MAE分别为0.524 4和0.153 7,不如LMH算法取得的0.541 4和0.136 2,但F值均优于其余算法,MAE取得第3。通过实验分析发现,该数据集中每幅图像的背景块数目普遍偏多。由于本文设定的背景块搜索区间太小,导致可选取的背景块数目不够,算法性能因此受到影响。当将背景块搜索区间范围扩大时,效果会有明显改善。实验结果表明,当$δ$= 2时,本文算法的F值提高为0.535 4,MAE降低为0.140 0。若将搜索区间缩小到[$s_{p}$/6, $s_{p}$/2],排除前$s_{p}$/6个背景块存在的误差$ε$的干扰,本文算法的F值可提升为0.540 8,MAE降为0.136 3,查准率提升为0.606 8优于LMH算法的0.605 0。

图 6 DUT-OMRON数据集下的PR曲线对比
Fig. 6 Comparison of PR curves on DUT-OMRON dataset

表 4 DUT-OMRON数据集下的查准率、查全率、F值和MAE值
Table 4 Precision, recall, F value and MAE value on DUT-OMRON dataset

下载CSV
算法 F值 查准率$P$ 查全率$R$ MAE
GP 0.471 5 0.509 3 0.667 0 0.208 5
LPS 0.477 2 0.622 0 0.470 3 0.144 9
BSCA 0.479 4 0.549 8 0.628 4 0.190 7
SMD 0.511 5 0.588 7 0.635 5 0.166 1
TSG 0.505 1 0.604 3 0.595 3 0.176 9
LMH 0.541 4 0.605 0 0.592 9 0.136 2
本文 0.524 4 0.571 4 0.633 3 0.153 7
注:加粗字体表示每列最优值。

在SOD数据集上的实验结果如图 7表 5所示。由图 7可知,从曲线包围的左下方一侧的面积上看不占优势,有的甚至完全处于其他曲线下方,但与前3个数据集的表现一样,本文曲线没有延伸至左上角区域,因此在这一点上曲线要好于其他算法。由表 5可知,本文算法的F值为0.532 3,相比于LMH算法的0.525 2,提升了约1.35%,与SMD算法的0.532 8接近且优于其他算法。同时,本文算法的MAE为0.236 3略高于LMH和SMD算法的0.232 4和0.232 8,但优于其他算法。

图 7 SOD数据集下的PR曲线对比
Fig. 7 Comparison of PR curves on SOD dataset

表 5 SOD数据集下的查准率、查全率、F值和MAE值
Table 5 Precision, recall, F value and MAE value on SOD dataset

下载CSV
算法 F值 查准率$P$ 查全率$R$ MAE
GP 0.526 8 0.641 9 0.554 0 0.260 5
LPS 0.404 3 0.695 2 0.310 4 0.256 0
BSCA 0.509 6 0.679 1 0.506 4 0.252 5
SMD 0.532 8 0.710 2 0.503 2 0.232 8
TSG 0.483 1 0.692 2 0.452 1 0.254 7
LMH 0.525 2 0.717 4 0.414 2 0.232 4
本文 0.532 3 0.685 8 0.456 6 0.236 3
注:加粗字体表示每列最优值。

在SED2数据集上的实验结果如图 8表 6所示。由图 8可知,本文算法的PR曲线表现与前4个数据集的表现基本一致。由表 6可知,本文算法的F值和MAE分别为0.677 7和0.149 8,相比于LMH算法取得的0.673 0和0.151 2,其中F值提升了约0.7%而MAE值降低了约0.93%。同时,本文算法的F值和MAE两个指标在所有对比算法中均取得次优的成绩。

图 8 SED2数据集下的PR曲线对比
Fig. 8 Comparison of PR curves on SED2 dataset

表 6 SED2数据集下的查准率、查全率、F值和MAE值
Table 6 Precision, recall, F value and MAE value on SED2 dataset

下载CSV
算法 F值 查准率$P$ 查全率$R$ MAE
GP 0.650 6 0.776 0 0.589 4 0.175 9
LPS 0.626 4 0.855 7 0.454 2 0.154 9
BSCA 0.635 1 0.794 0 0.552 7 0.170 7
SMD 0.694 2 0.866 0 0.566 8 0.141 7
TSG 0.656 4 0.836 0 0.540 1 0.166 6
LMH 0.673 0 0.886 6 0.468 7 0.151 2
本文 0.677 7 0.860 1 0.506 1 0.149 8
注:加粗字体表示每列最优值。

4 结论

本文提出了一种基于Fisher准则的背景块再选取方法,本文算法不仅在面对显著性区域触及图像边界的情况时表现突出,而且更好地应用了背景先验,使得最终检测结果无论在主观感受层面还是客观指标层面都有所提升。与其他方法相比,本文算法取得的F值与MAE均排名前列,PR曲线也更少出现高准确率与低查全率的极端情况。但是,本文方法仍然存在不足。例如,在DUT-OMRON数据集上,算法需要通过调整背景块搜索区间的范围才能达到较好的检测效果,主要原因是本文算法的背景块选取区间在该数据集下显得过小及存在误差$ε$。因此,后续的工作将集中在如何解决上述问题以及进一步提高算法的准确率上。另一方面,传统方法提升效果总体不太明显,似乎已经到达了一个瓶颈。而基于深度神经网络的方法虽然存在着诸如检测出的显著性物体边缘模糊等问题,但在各个评估指标上都取得了巨大提升,但本文并未开展关于深度神经网络在显著性检测方向的工作。因此,在未来的工作中,将开展将基于深度学习的方法与传统方法进行有效结合的相关工作,以便发挥各自的优势,进一步提升显著性检测算法的性能。

参考文献

  • Achanta R, Shaji A, Smith K, Lucchi A, Fua P, Süsstrunk S. 2012. SLIC superpixels compared to state-of-the-art superpixel methods. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(11): 2274-2282 [DOI:10.1109/TPAMI.2012.120]
  • Bai C, Chen J N, Huang L, Kpalma K, Chen S Y. 2018. Saliency-based multi-feature modeling for semantic image retrieval. Journal of Visual Communication and Image Representation, 50: 199-204 [DOI:10.1016/j.jvcir.2017.11.021]
  • Bi H, Tang H, Yang G Y, Shu H Z, Dillenseger J L. 2018. Accurate image segmentation using Gaussian mixture model with saliency map. Pattern Analysis and Applications, 21(3): 869-878 [DOI:10.1007/s10044-017-0672-1]
  • Borji A, Cheng M M, Jiang H Z, Li J. 2015. Salient object detection:a benchmark. IEEE Transactions on Image Processing, 24(12): 5706-5722 [DOI:10.1109/TIP.2015.2487833]
  • Feng S H, Lang C Y, Xu D. 2011. Combining graph learning and region saliency analysis for content-based image retrieval. Acta Electronica Sinica, 39(10): 2288-2294 (冯松鹤, 郎丛妍, 须德. 2011. 一种融合图学习与区域显著性分析的图像检索算法. 电子学报, 39(10): 2288-2294)
  • Itti L, Koch C, Niebur E. 1998. A model of saliency-based visual attention for rapid scene analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11): 1254-1259 [DOI:10.1109/34.730558]
  • Jiang P, Vasconcelos N and Peng J L. 2015. Generic promotion of diffusion-based salient object detection//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 217-225[DOI: 10.1109/ICCV.2015.33]
  • Kim J, Han D, Tai Y W, Kim J. 2016. Salient region detection via high-dimensional color transform and local spatial support. IEEE Transactions on Image Processing, 25(1): 9-23 [DOI:10.1109/TIP.2015.2495122]
  • Li H Y, Lu H C, Lin Z, Shen X H, Price B. 2015. Inner and inter label propagation:salient object detection in the wild. IEEE Transactions on Image Processing, 24(10): 3176-3186 [DOI:10.1109/tip.2015.2440174]
  • Li L, Zhou F G, Zheng Y, Bai X Z. 2018. Saliency detection based on foreground appearance and background-prior. Neurocomputing, 301: 46-61 [DOI:10.1016/j.neucom.2018.03.049]
  • Liu G H, Yang J Y. 2019. Exploiting color volume and color difference for salient region detection. IEEE Transactions on Image Processing, 28(1): 6-16 [DOI:10.1109/TIP.2018.2847422]
  • Liu S W, Li M, Hu J L, Cui Y M. 2015. Image classification method based on visual saliency detection. Journal of Computer Applications, 35(9): 2629-2635 (刘尚旺, 李名, 胡剑兰, 崔艳萌. 2015. 基于视觉显著性检测的图像分类方法. 计算机应用, 35(9): 2629-2635) [DOI:10.11772/j.issn.1001-9081.2015.09.2629]
  • Martin D R, Fowlkes C C, Malik J. 2004. Learning to detect natural image boundaries using local brightness, color, and texture cues. IEEE Transactions on Pattern Analysis and Machine Intelligence, 26(5): 530-549 [DOI:10.1109/tpami.2004.1273918]
  • Peng H W, Li B, Ling H B, Hu W M, Xiong W H, Maybank SJ. 2017. Salient object detection via structured matrix decomposition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(4): 818-832 [DOI:10.1109/TPAMI.2016.2562626]
  • Perazzi F, Krähenbühl P, Pritch Y and Hornung A. 2012. Saliency filters: contrast based filtering for salient region detection//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE: 733-740[DOI: 10.1109/CVPR.2012.6247743]
  • Qin Y, Lu H C, Xu Y Q and Wang H. 2015. Saliency detection via cellular automata//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 110-119[DOI: 10.1109/CVPR.2015.7298606]
  • Shehnaz M and Naveen N. 2015. An object recognition algorithm with structure-guided saliency detection and SVM classifier//Proceedings of 2015 International Conference on Power, Instrumentation, Control and Computing. Thrissur, India: IEEE: 1-4[DOI: 10.1109/PICC.2015.7455804]
  • Tang J J, Ge Y and Liu Y Z. 2016. Application of visual saliency and feature extraction algorithm applied in large-scale image classification//Proceedings of 2016 International Conference on Communication and Electronics Systems. Coimbatore, India: IEEE: 1-6[DOI: 10.1109/CESYS.2016.7889903]
  • van Rijsbergen C J. 1986. A new theoretical framework for information retrieval. ACM SIGIR Forum, 21(1/2): 23-29 [DOI:10.1145/24634.24635]
  • Wan S H, Jin P Q, Yue L H and Yan L. 2017. Image retrieval based on multi-instance saliency model//Proceedings of SPIE 10420, 9th International Conference on Digital Image Processing. Hong Kong, China: SPIE: #104201X[DOI: 10.1117/12.2281919]
  • Wei W, Liu X H, Zhou B B, Zhao Y J, Dong L Q, Liu M, Kong L Q and Chu X H. 2016. Sea surface target detection and recognition algorithm based on local and global salient region detection//Proceedings of SPIE: 9971, Applications of Digital Image Processing XXXIX. San Diego, USA: SPIE: #99712U[DOI: 10.1117/12.2237103]
  • Yang C, Zhang L H, Lu H C, Ruan X and Yang M H. 2013. Saliency detection via graph-based manifold ranking//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE: 3166-3173[DOI: 10.1109/CVPR.2013.407]
  • Ye F, Hong S T, Chen J Z, Zheng Z H, Liu G H. 2018. Salient object detection via multi-feature diffusion-based method. Journal of Electronics and Information Technology, 40(5): 1210-1218 (叶锋, 洪斯婷, 陈家祯, 郑子华, 刘广海. 2018. 基于多特征扩散方法的显著性物体检测. 电子与信息学报, 40(5): 1210-1218) [DOI:10.11999/JEIT170827]
  • Zhang J J, Ding S Y, Li L B, Zhao C X. 2017. Saliency based image detection and segmentation method for unmanned vehicle. Computer Engineering and Applications, 53(22): 176-179, 242 (张俊杰, 丁淑艳, 李伦波, 赵春霞. 2017. 基于视觉显著性的无人车图像检测及分割方法. 计算机工程与应用, 53(22): 176-179, 242) [DOI:10.3778/j.issn.1002-8331.1607-0302]
  • Zhou L, Yang Z H, Zhou Z T, Hu D W. 2017. Salient region detection using diffusion process on a two-layer sparse graph. IEEE Transactions on Image Processing, 26(12): 5882-5894 [DOI:10.1109/tip.2017.2738839]
  • Zhu C B, Huang K and Li G. 2018. An innovative saliency guided ROI selection model for panoramic images compression//Proceedings of 2018 Data Compression Conference. Snowbird, USA: IEEE: #436[DOI: 10.1109/DCC.2018.00089]