Print

发布时间: 2017-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170232
2017 | Volume 22 | Number 12




    图像分析和识别    




  <<上一篇 




  下一篇>> 





融合视觉感知特性的场景分类算法
expand article info 史静, 朱虹, 王栋, 杜森
西安理工大学自动化与信息工程学院, 西安 710048

摘要

目的 目前对于场景分类问题,由于其内部结构的多样性和复杂性,以及光照和拍摄角度的影响,现有算法大多通过单纯提取特征进行建模,并没有考虑场景图像中事物之间的相互关联,因此,仍然不能达到一个理想的分类效果。本文针对场景分类中存在的重点和难点问题,充分考虑人眼的视觉感知特性,利用显著性检测,并结合传统的视觉词袋模型,提出了一种融合视觉感知特性的场景分类算法。方法 首先,对图像进行多尺度分解,并提取各尺度下的图像特征,接着,检测各尺度下图像的视觉显著区域,最后,将显著区域信息与多尺度特征进行有机融合,构成多尺度融合窗选加权SIFT特征(WSSIFT),对场景进行分类。结果 为了验证本文算法的有效性,该算法在3个标准数据集SE、LS以及IS上进行测试,并与不同方法进行比较,分类准确率提高了约3%~17%。结论 本文提出的融合视觉感知特性的场景分类算法,有效地改善了单纯特征描述的局限性,并提高了图像的整体表达。实验结果表明,该算法对于多个数据集都具有较好的分类效果,适用于场景分析、理解、分类等机器视觉领域。

关键词

视觉感知; 场景分类; 多尺度; 特征融合; WSSIFT特征

Scene classification algorithm of fusing visual perception
expand article info Shi Jing, Zhu Hong, Wang Dong, Du Sen
School of Automation and Information Engineering, Xi'an University of Technology, Xi'an 710048, China
Supported by: National Natural Science Foundation of China(61502385, 61673318)

Abstract

Objective Scene classification is an important part of machine vision. The content of scene is identified by analyzing the objects in the scene and its relative position. In recent years, the amount of image surged has introduced great challenges in image recognition, retrieval, and classification. Accurately obtaining the information needed by users for processing vast data is becoming increasingly urgent in this field. Early image recognition technology has focused mainly on describing the low-level information of images. The bag-of-words model is applied in document processing. This model transforms the document to a combination of keywords first and then conducts matching on the basis of the frequency of keywords. In recent years, this method has been applied to image processing successfully by researchers in computer vision. The image is represented to the document in the bag-of-words model. The visual words of image can be generated by image feature extraction, and the bag-of-words of image can be completed on the basis of the frequency of visual words. At present, an ideal classification effect cannot be achieved easily because of the diversity and complexity of the internal structure of scene classification. Physiological and psychological research has shown that the human visual system pays more attention to significant regions than significant points, and these regions are referred to as saliency regions. Visual attention model is a new major topic in research. Saliency analysis finds the region with most interests and most content of the image by use of a certain calculation method and represents with a saliency figure. In this study, a scene classification algorithm based on visual perception is proposed to address the key and difficult problems in scene classification. Specifically, the visual perception characteristics of the human eyes are considered and significance detection combined with traditional bag-of-visual-words model is employed. Method On the basis of visual significance and phonetic model, this study fully considers the visual attention area of the human eye and avoids the shortcoming of simple low-level features of failing to capture the interrelationships among targets. On this basis, a multi-scale fusion WSSIFT feature is established using the prominence of the region of interest and the underlying characteristics of screening and weighting to avoid the neglect of important details and remove some of the redundant features. First, the image is decomposed in multi-scale and the image features at each scale are extracted. Second, the visual area of image is detected at each scale. Finally, significant region information and multi-scale feature are integrated to constitute the multi-scale fusion WSSIFT feature and classify scenes. Result The proposed algorithm is tested on three standard datasets, namely, SE, LS and IS, to verify its effectiveness, and the results are compared with those of different methods. The classification accuracy of the proposed method is improved by approximately 3%~17%. Conclusion The proposed scene classification algorithm can effectively improve the limitation of simple feature description and the overall expression of image. This method is based on the simple use of image features in scene classification with insufficient feature extraction and neglected interrelation of each object in the scene. This method fully considers human visual perception. On the basis of preserving the advantages of the local subordinate characteristic model, the fusion detection algorithm is used to study the overall sensitivity of image in consideration of the interrelationship between the entire scene and the enhancement in the local information. Accordingly, the multi-scale fusion WSSIFT feature is constructed. Experimental results show that the proposed algorithm exerts good classification effect on multiple datasets. The results of the proposed method on three standard datasets are superior to those of other algorithms. The novel algorithm can be applied to other machine vision fields, such as analysis, understanding, and classification of scenes.

Key words

visual perception; scene classification; multi-scale; feature fusion; WSSIFT feature

0 引言

随着海量图像数据的出现,给机器视觉领域带来了巨大的挑战。场景图像分类作为计算机视觉和图像理解领域的基本问题。近些年来,受到了广泛的重视和研究[1-6],成为具有挑战性的课题,其应用领域涉及基于内容的图像检索[3]、目标检测[5]、视频摘要[1]等。

早期的图像识别技术,主要集中在对于图像低层信息的描述上,提取出图像全局或者局部的低层特征[2, 5]来反映图像的视觉感知属性,通过映射低层特征到高层语义进行分类;之后,利用“视觉词袋”来表示图像的语义信息[7-8],将图像表示成多种视觉词汇的组合,构成字典。通过计算分析图像中“视觉词汇”出现的频度,来对图像进行分类。但这些方法都没有考虑到人眼对于图像的观察特性,只是简单地从图像纹理本身的信息进行挖掘,因而常常事倍功半。图 1为场景分类部分图像。

图 1 场景分类部分图像
Fig. 1 The partial images of scene classification

根据生理学和心理学的研究显示,人们利用视觉系统观察周围事物并不是对所有细节进行仔细分辨,而总是首先更加关注显著区域,而往往只通过显著事物或者区域就可以得到场景的类别。目前视觉关注模型已经成为该领域的研究热点,显著性分析发现,最感兴趣的区域恰恰有着更多的图像信息,可以更好地表征图像的整体内容。

在视觉显著性和词袋模型的基础上,提出了一种新的基于视觉感知特性的场景分类算法,该算法充分考虑到了人眼的视觉关注区域,避免了简单的低层特征不能捕获目标之间相互联系的缺点。在此基础上,利用关注区域的显著度,对底层特征进行筛选并加权,构成多尺度融合WSSIFT特征,一方面避免了对重要细节的忽视,另一方面去除了一些冗余特征,取得了较好的分类效果。

1 算法描述

首先将图像进行三次小波分解,得到各尺度下图像的细节分量信息,并提取各分量图像的局部特征,接着,对各尺度下对应的各分量图像进行显著性区域检测,利用检测结果对局部特征进行筛选,并加权,然后,将不同尺度下的同分量信息进行融合,得到多尺度融合窗选加权SIFT特征(WSSIFT),送入到SVM中进行训练。由于各数据集中的图像尺寸不同,且只利用图像的细节纹理信息,因此,在进行本文算法之前,需要将图片缩放到相同尺寸,并转为灰度图像。

1.1 频域变换

根据人类视觉特性,对场景图像内容的判别,只需要通过概貌就可以获得,而不需要对其细节进行详细地描绘,这样能够使图像识别和计算简化。例如,利用小波变换可以得到多个尺度和方向下图像的低频概貌信息。如图 2所示,对图像进行三次小波变换后的低频部分,从图 2中可以看出,经过多次的小波变换,低频部分仍然能够判断出场景图像大致的内容信息。

图 2 三次小波变换的低频部分结果图
Fig. 2 Low-frequency partial results of triple wavelet transform ((a) original image; (b) first transformation; (c) second transformation; (d) third transformation)

基于以上原理,利用Antonimi的双正交小波基对图像做三次金字塔式分解,构成小波分解树,其基本思想是通过小波变换将图像分解为不同的频域子图,计算频域的能量等参数作为纹理描述子。由于其同时在多尺度下具有良好的局域特性,以及对信号的突变比较敏感,所以频域仍然具有原图的某些视觉特性,应用小波变换既可以进行模糊预处理图像,又可以对图像进行降维,通过伸缩平移运算对信号逐步进行多尺度细化,最终达到高频处时间细分,低频处频率细分,能自动适应时频信号分析的要求,从而可聚焦到信号的任意细节,效果比较好。

在本次小波分解中,对于每次的分解只针对低频分量,而对于高频分量不再参与分解。这样金字塔的顶部为图像的低频成分,底部为其高频成分。

图 3所示,为对图像进行多尺度小波分解示意图。其中图(b)为图(a)小波分解后的结果,共包括4个区域,左上区域为分解后的低频分量(cA),右上区域为水平分量(cH),左下区域为垂直分量(cV),右下区域为对角分量(cD),图 3(c)为对图(b)的低频分量再进行一次小波分解的结果。该图充分体现了小波分解的多尺度和多方向性。

图 3 小波分解示意图
Fig. 3 Wavelet decomposition diagram((a) original image; (b) first decomposition; (c) second decomposition)

1.2 视觉感知特性

根据人类的视觉感知特性,当观察周围场景的时候,往往只关注那些场景中与周围事物具有明显差异的区域和目标,而忽略那些没有明显颜色或纹理变化的内容,这也就是显著性检测的基本原理,那些吸引人们视觉关注且感兴趣的区域就是显著性区域,提取该区域的过程就是显著性检测。例如,当看到室外场景中高速公路上的汽车,室内场景厨房里的橱柜等,这些目标物不但能够吸引人们的注意,而且也充分代表了该场景的内容。

早期的显著性检测算法主要提取显著性目标的轮廓信息,没有对显著性区域和目标区域进行描述,或者只考虑了对于目标区域的精确分割问题,这些检测算法一方面忽视了视觉感知特性的关注区域性,人们观察的是事物本身,而不是其轮廓,另一方面忽视了关注目标区域之间或目标区域与背景之间的相关性,往往希望将显著性区域精确地分割出来,无形中增加了算法的复杂度,而且目标和背景之间的关系也是密不可分的,不同的目标物放在不同的背景下,有着不同的功能,而场景分类本身是对整体内容的判别,因此,不适合在场景分类算法中进行应用。

鉴于以上原因,利用Goferman等人[9]提出的基于上下文显著性检测算法,该算法的主要思想是所提取的显著性区域的特征,不但与周围特征具有明显差异,而且与全局特征也具有明显的差异,充分考虑了图像中上下文之间的语义关系。

基于上下文显著性检测算法具体步骤如下:

以图像块作为比较元素,将图像分成若干块,将其中一块在Lab颜色空间中与其他块进行对比,如果与某一块差距大,就为显著性特征。根据背景区域分布集中性不确定,而显著性区域分布相对较为集中的规律,两个图像块的差异度表示为

$d({{p}_{i}},{{p}_{j}})=\frac{{{d}_{c}}({{p}_{i}},{{p}_{j}})}{1+c\cdot {{d}_{p}}({{p}_{i}},{{p}_{j}})}$ (1)

式中,$i$$p$$i$的中心像素点,$p$$i$$p$$j$分别表示一幅图像的两个图像块,$d$$c$($p$$i$, $p$$j$)表示两个块之间的颜色距离,$d$$p$($p$$i$, $p$$j$)表示两个块之间的空间距离。通常情况下,图像块之间的颜色差异越大,距离越近,则认为差异性越大,即越显著。

对于单尺度下的差异度值,通常,只需要计算前$M$个块与某一块的差异度值,像素点$i$在尺度$r$下的显著度值为

$S_i^r = 1 - {\rm{exp}}\left\{ { - \frac{1}{M}\sum\limits_{m = 1}^M {d(p_i^r,{\rm{ }}p_m^r)} } \right\}$ (2)

式中,$M$为所取的与$p$$i$最相似的前$M$块,{$p$$m$}$m$=1$M$$r$表示尺度。

对于多尺度下的计算,只需要计算多个单尺度值后再去其平均值即可,即

${\bar S_i} = \frac{1}{K}\sum\limits_{r \in R} {S_i^r} $ (3)

式中,$K$表示尺度的个数,$R$表示尺度空间。

由于要结合上下文,通过增强显著性目标周围的显著性值,以及降低背景区域的显著性值来实现。其中显著性值由像素之间的欧氏距离确定,即

${\hat S_i} = \frac{1}{K}\sum\limits_{r \in R} {S_i^r} (1 - d_f^r(i))$ (4)

式中,$d$$f$$r$($i$)表示在尺度$r$下像素点$i$与显著区域最近的像素点之间的欧氏距离。通过式(4)的计算,显著目标邻域中感兴趣背景的显著度得到增强。

图 4所示,对图像利用两种方法进行显著区域检测后的结果。通过显著性图可以看出,Zhang等人[10]算法提取出了场景图像中所有的目标物,没有对目标物的主次进行区分,如图 4(c)的第3幅图中墙面的装饰物,并不是判断场景类别的因素,但却作为了显著区域被提取了出来,对于图 4(c)的第2幅图只有帆船的轮廓信息,没有对区域进行很好地描述。对于图 4(b)的第4幅图Goferman算法[9]能够很好地消除重复的纹理结构,因为我们认为这对于分类场景意义不大,其次,图 4(b)中的检测结果能够很好地保留显著性目标与周围相邻区域的相互关系,对于次要区域或重复背景简要描述或忽略,实现了对场景中的物体以及物体所属的周围环境详略得当的描述。接下来,在得到显著性区域图的基础上对图像特征进行提取,并继续后续处理。

图 4 部分图像及进行敏感信息检测后的结果
Fig. 4 The test results of partial images of sensitive information detection((a) original images; (b) result of Goferman[9]; (c) result of Zhang[10])

1.3 特征提取

图像特征对于图像的描述起着至关重要的作用,特征提取的准确和全面与否影响着图像后期的处理效果。早期场景分类的方法主要集中在对全局空间特征的表达,尽管全局特征具有易实现及代价低的特点,但其鲁棒性和泛化能力较差,缺乏对局部空间细节信息的描述,特别是对于待分类的场景,其类间变化较小,而类内差异较大时,局部的细节纹理特征往往非常重要,因此,在之前视觉感知特性中充分考虑图像整体视觉显著区域的基础上,利用局部特征的优势,对其描述进行优化和增强,一方面,利用显著信息很好地保留了图像的整体信息,以及周围事物之间的主次关系,另一方面,利用局部信息来对区域细节进行详细描述,这样将全局和局部信息统一考虑,以此来提高图像的分类准确度。

对于图像的局部特征,利用Lowe[11]提出的一种用来描述图像局部信息的SIFT特征提取方法,即尺度不变特征变换(SIFT),该方法能够很好地克服亮度、尺度缩放、旋转、遮挡及视角等变化,具有很好的鲁棒性。图 5为原始图像及提取SIFT特征的结果。

图 5 原始图像及对其提取SIFT特征的结果
Fig. 5 The original image and the SIFT feature extracted result ((a) original image; (b) SIFT feature extracted image)

为了有效地提升SIFT特征对图像的表示,以及提高后期特征融合的效率,在已得到的图像SIFT特征的基础上,利用窗选法对已提取的SIFT特征做进一步地筛选,滤除窗选区域中不显著位置的SIFT特征,只利用显著位置的特征作为窗选SIFT特征,在保证重要位置特征不损失的前提下,提升了算法的效率。

窗选特征方法具体描述如下:首先,对整幅图像提取SIFT特征,之后,将已提取SIFT特征的图像划分为若干个密集网格,以这些网格为区域块,对SIFT特征进行筛选,如图 6所示,为分别将图像分割为2×2、3×3、4×4的网格后筛选保留的WSSIFT特征。

图 6 图像分块及对应的SIFT特征筛选结果
Fig. 6 Images segmentation and corresponding SIFT feature selected results((a) 2×2 block; (b) 3×3 block; (c) 4×4 block)

图 6中可以看出,在3种窗格情况下,随着窗格的增多,虽然得到的SIFT特征数量上发生了变化,但筛选的特征之间不具有相互包含关系,因而,它们都可以作为描述图像的特征信息。为了权衡窗选SIFT特征的数量和对图像描述的细致程度,选择3×3窗格对特征进行筛选。接着,将每个窗格区域内所对应的显著度均值作为阈值,以此判断是否保留该位置的SIFT特征,若该位置的显著度大于该阈值则保留,反之则滤除,将保留的SIFT特征利用该位置的显著度进行加权,最终得到窗选加权SIFT特征(WSSIFT),即

${T_{{\rm{sen}}}} = \frac{1}{N}\sum\limits_{i,j \in area\left( k \right)} {S\left( {i,{\rm{ }}j} \right)} $ (5)

$W\left( {i,{\rm{ }}j} \right) = \left\{ {\begin{array}{*{20}{c}} 1&{S\left( {i,{\rm{ }}j} \right)}&{ \ge {T_{{\rm{sen}}}}}\\ 0&{S\left( {i,{\rm{ }}j} \right)}&{{\rm{ < }}{T_{{\rm{sen}}}}} \end{array}} \right.$ (6)

$\begin{array}{l} \quad \quad WSSIFT\left( {i,{\rm{ }}j} \right) = \\ {F_{{\rm{sift}}}}\left( {i,{\rm{ }}j} \right) \cdot W\left( {i,{\rm{ }}j} \right) \cdot S\left( {i,{\rm{ }}j} \right) \end{array}$ (7)

式中, $S$($i$, $j$)为图像中某一点的显著度,$area$($k$)为筛选窗的区域,$N$为筛选窗的像素点总数,$T$sen为筛选阈值,$W$($i$, $j$)为筛选标志位,1为保留,0为滤除,$F$sift($i$, $j$)为原始SIFT特征的幅值信息,$WSSIFT$($i$, $j$)为筛选后用显著度加权的SIFT特征,即窗选加权SIFT特征。

1.4 构造多尺度融合WSSIFT特征

所谓多尺度融合$WSSIFT$是指将小波变换下不同尺度的$WSSIFT$特征进行融合。

本文算法具体步骤如下:

1) 对图像进行三次小波变换,共有3组不同尺度的分量信息cA、cH、cV和cD;

2) 分别提取3次小波变换,即3个尺度下4个分量的SIFT特征,每幅图像共12组,再利用3×3窗格筛选加权,得到12组筛选加权后的$WSSIFT$特征;

3) 将训练图像的每组$WSSIFT$特征进行k-means聚类,在这里按照文献[7]中的设置,生成200个聚类中心,即200个字典原子,每个字典原子为128维,即得到了12组字典原子,即$D$_$WSSIFT$$cA$1$D$_$WSSIFT$$cA$2$D$_$WSSIFT$$cA$3$D$_$WSSIFT$$cH$1$D$_$WSSIFT$$cH$2$D$_$WSSIFT$$cH$3$D$_$WSSIFT$$cV$1$D$_$WSSIFT$$cV$2$D$_$WSSIFT$$cV$3$D$_$WSSIFT$$cD$1$D$_$WSSIFT$$cD$2$D$_$WSSIFT$$cD$3,其中,$D$_$WSSIFT$$cA$1$D$_$WSSIFT$$cA$2$D$_$WSSIFT$$cA$3分别为$cA$分量3个尺度的字典;

4) 将所有训练图像通过上述步骤1)2)得到不同尺度不同分量下的12组$WSSIFT$特征,分别与对应分量尺度的字典,以欧氏距离最小为依据,进行累加,得到在各分量各尺度下的累计直方图,将同一分量不同尺度的累计直方图进行加权串联,得到4组训练特征,每组为600维,公式为

$\left\{ {\begin{array}{*{20}{l}} {WSSIF{T_{cA}} = [{k_1}\cdot WSSIFT_{cA}^1,{\rm{ }}{k_2}\cdot WSSIFT_{cA}^2,{\rm{ }}{k_3}\cdot WSSIFT_{cA}^3]\,}\\ {WSSIF{T_{cH}} = [{k_1}\cdot WSSIFT_{cH}^1,{\rm{ }}{k_2}\cdot WSSIFT_{cH}^2,{\rm{ }}{k_3}\cdot WSSIFT_{cH}^3]}\\ {WSSIF{T_{cV}} = [{k_1}\cdot WSSIFT_{cV}^1,{\rm{ }}{k_2}\cdot WSSIFT_{cV}^2,{\rm{ }}{k_3}\cdot WSSIFT_{cV}^3]}\\ {WSSIF{T_{cD}} = [{k_1}\cdot WSSIFT_{cD}^1,{\rm{ }}{k_2}\cdot WSSIFT_{cD}^2,{\rm{ }}{k_3}\cdot WSSIFT_{cD}^3]} \end{array}} \right.$ (8)

式中,$k$$i$为融合权值,由于每次小波变换都包含之前变换的低频信息,因此本文分别取$k_1$=0.5,$k_2$=0.3,$k_3$=0.2。

2 分类器设计

将所有训练图像的4组多尺度融合特征$WSSIFT$$cA$$WSSIFT$$cH$$WSSIFT$$cV$$WSSIFT$$cD$分别放入到4个SVM分类器中训练,得到$SVM$$cA$$SVM$$cH$$SVM$$cV$$SVM$$cD$

3 实验结果分析

为了验证本文算法的有效性,在3个常用标准数据集上进行测试,包括8类运动场景数据集[12],15类自然场景数据集[8, 13-14]以及67类室内场景数据集[15]

为了与其他文献的结果进行比对,本文按照同类文献中常用的训练与测试数据的划分比例来进行训练和测试,以此来验证本算法的有效性,最终的结果为五次测试结果的平均值。

在测试过程中,对于每幅训练图像用上述方法得到4组特征,分别送入4个已经训练好的SVM分类器中测试,得到4个分类结果,投票占优类别为最终的判别结果,若其中两两结果相同,则以cA特征判别结果为准,因为低频特征有着相对较多的细节信息。

1) 8类运动场景数据集(SE)。该数据集共有8类运动事件,1 579幅彩色图像。其中包括羽毛球、攀岩、马球、地掷球、赛艇、门球、滑板滑雪以及帆船,如图 7所示。每类使用70幅进行训练,60幅作为测试图像。

图 7 8类运动场景数据集部分图像
Fig. 7 Partial images of 8-class sports event dataset

2) 15类场景数据集(LS)。该数据集包括15类场景图像,共4 485幅,如郊区、森林、厨房、办公室等,如图 8所示。每类使用100幅进行训练,剩余图像作为测试图像。

图 8 15类场景数据集部分图像
Fig. 8 Partial images of 15-category scenes dataset

3) 67类室内场景数据集(IS)。该数据集包括67类共15 620幅图像,其中包括图书馆、教堂、会议室、机场等,如图 9所示,每类使用80幅进行训练,20幅作为测试图像。

图 9 67类室内场景数据集部分图像
Fig. 9 Partial images of 67-class indoor scenes dataset

为了验证本文算法中小波变换次数对分类结果的影响,将不同次数下的小波变换的分类结果进行对比。如图 10所示,从图 10中可以看出,随着变换次数的增多,分类效果越好,说明可以提取到更多的细节信息,但随着变换次数的增多,分类效率会急剧降低,因此,综合考虑,本文选择进行三次小波变换。

图 10 小波变换次数对分类正确率的影响
Fig. 10 The influence of classification accuracy on wavelet transform times
图 11 4个分类器分类结果与最终分类结果比较
Fig. 11 Comparison of four classifier classification results and final classification results

为了验证本文算法的有效性,将4个分类器的分类结果与最终分类结果进行对比,如图 11所示,从图 11中可以看出最终的分类率高于各分量所训练分类器的分类效果,且各分类器中,cA的分类效果高,cH和cV相差不大,cD的分类效果最差,但对于最终的分类,4个分类器之间有着相互补充和修正的作用。

最后,将本文算法在上述的3个数据集8类运动场景数据集(SE)、15类自然场景数据集(LS)以及67类室内场景数据集(IS)上与分别于先前分类算法的分类结果进行比较,如表 1所示。

表 1 场景分类实验结果比较
Table 1 The comparison of scene classification experiment results

下载CSV
/%
方法 数据集
SE LS IS
RBoW[2] - 78.6 37.9
Object Bank[16] 76.3 80.9 37.6
MM-Scene[17] 71.7 - 28.3
OTC[18] - 84.4 -
MS-CLBP+KML[4] 73.2 70.1 -
CENTRIST[5] 78.5 83.1 36.9
SR-LSR[19] 83.9 85.7 -
LDC[20] - 80.3 43.5
本文 86.8 87.6 40.2
注:加粗字体为最优结果。

表 1可以看出本文算法较以上绝大部分算法[16-20]整体略优,Object Bank[16]需要对图像建立高层语义表达,以此来训练分类器,不但建模困难,且计算复杂度较大,泛化能力有限,而本文则不需要构建复杂的分类模型,通过显著性检测提高识别率。CENTRIST[5]提出了一种识别拓扑空间的全局视觉描述子Census Transform Histogram(CENTRIST),其对图像整体结构进行编码,并没有考虑到图像的局部特征,因此,识别能力有限。然而,本文算法在IS数据集上的识别率略低于Linear Distance Coding(LDC)[20],LDC的核心在于将图像的局部特征变换为更有区别的距离向量,其中采用鲁棒的图像到类的距离。然后,这些距离矢量被进一步编码为稀疏码,该算法良好地捕获图像的显著特征,对于室内场景特别适用,但是对于室外及其他场景分类能力则有限。

4 结论

针对场景分类中存在的单纯利用图像特征进行建模,特征提取不够充分以及忽视场景中各事物之间相互关联等问题,提出了一种有效的场景分类方法,该方法充分考虑人类视觉感知特性,在保留局部底层特征模式优势的基础上,融合显著性检测算法,对图像整体敏感性信息加以利用,既考虑了整体场景事物之间的相互关系,又对局部信息加以增强描述,即根据显著度信息对多尺度局部特征进行筛选、加权并融合,构建了多尺度融合WSSIFT特征,最后,利用融合特征信息作为分类器的输入进行分类判别,增强了单尺度特征的区分度。在3个标准数据集上进行比较测试,相比其他算法都具有明显的优势。

除此以外,本文算法还可应用于场景分析、理解,目标检测、图像检索以及视频摘要等机器视觉相关领域。但由于本文算法中测试数据集有限,对于其他数据的适用程度还有待进一步研究。另外,虽然本文利用视觉感知特性对场景特征进行增强,但还不能够充分反映人类的视觉感知能力,因此,还需要进一步地研究和探索。

参考文献

  • [1] Jeong D J, Yoo H J, Cho N I. Consumer video summarization based on image quality and representativeness measure[C]//Proceedings of 2015 IEEE Global Conference on Signal and Information Processing (GlobalSIP). Orlando, FL, USA:IEEE, 2015:572-576.[DOI:10.1109/GlobalSIP.2015.7418260]
  • [2] Parizi S N, Oberlin J G, Felzenszwalb P F. Reconfigurable models for scene recognition[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA:IEEE, 2012:2775-2782.[DOI:10.1109/CVPR.2012.6248001]
  • [3] Xue Z Y, Rahman M M, Antani S, et al. Modality classification for searching figures in biomedical literature[C]//2016 IEEE 29th International Symposium on Computer-Based Medical Systems (CBMS). Dublin, Ireland:IEEE, 2016:152-157.[DOI:10.1109/CBMS.2016.29]
  • [4] Chen C, Zhang B C, Su H J, et al. Land-use scene classification using multi-scale completed local binary patterns[J]. Signal, Image and Video Processing, 2016, 10(4): 745–752. [DOI:10.1007/s11760-015-0804-2]
  • [5] Wu J X, Rehg J M. CENTRIST:a visual descriptor for scene categorization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1489–1501. [DOI:10.1109/TPAMI.2010.224]
  • [6] Ji Z, Nie L H. Texture image classification with noise-tolerant local binary pattern[J]. Journal of Computer Research and Development, 2016, 53(5): 1128–1135. [冀中, 聂林红. 基于抗噪声局部二值模式的纹理图像分类[J]. 计算机研究与发展, 2016, 53(5): 1128–1135. ] [DOI:10.7544/issn1000-1239.2016.20148320]
  • [7] Zhou L, Zhou Z T, Hu D W. Scene classification using a multi-resolution bag-of-features model[J]. Pattern Recognition, 2013, 46(1): 424–433. [DOI:10.1016/j.patcog.2012.07.017]
  • [8] Lazebnik S, Schmid C, Ponce J. Beyond bags of features:spatial pyramid matching for recognizing natural scene categories[C]//Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, USA:IEEE, 2006:2169-2178.[DOI:10.1109/CVPR.2006.68]
  • [9] Goferman S, Zelnik-Manor L, Tal A. Context-aware saliency detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(10): 1915–1926. [DOI:10.1109/TPAMI.2011.272]
  • [10] Zhang L Y, Tong M H, Marks T K, et al. SUN:a Bayesian framework for saliency using natural statistics[J]. Journal of Vision, 2008, 8(7): 32. [DOI:10.1167/8.7.32]
  • [11] Lowe D G. Distinctive image features from scale-invariant key points[J]. International Journal of Computer Vision, 2004, 60(2): 91–110. [DOI:10.1023/B:VISI.0000029664.99615.94]
  • [12] Li L J, Li F F. What, where and who? Classifying events by scene and object recognition[C]//Proceedings of the 2007 IEEE 11th International Conference on Computer Vision. Rio de Janeiro, Brazil:IEEE, 2007:1-8.[DOI:10.1109/ICCV.2007.4408872]
  • [13] Oliva A, Torralba A. Modeling the shape of the scene:a holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001, 42(3): 145–175. [DOI:10.1023/A:1011139631724]
  • [14] Li F F, Perona P. A Bayesian hierarchical model for learning natural scene categories[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA:IEEE, 2005, 2:524-531.[DOI:10.1109/CVPR.2005.16]
  • [15] Quattoni A, Torralba A. Recognizing indoor scenes[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA:IEEE, 2009:413-420.[DOI:10.1109/CVPR.2009.5206537]
  • [16] Li L J, Su H, Xing E P, et al. Object bank:a high-level image representation for scene classification & semantic feature sparsification[C]//Proceedings of the 24th Annual Conference on Neural Information Processing Systems 2010. Vancouver, Canada:MIT Press, 2010:1378-1386.
  • [17] Zhu J, Li L J, Li F F, et al. Large margin learning of upstream scene understanding models[C]//Proceedings of the 23rd International Conference on Advances in Neural Information Processing Systems. Vancouver, Canada:MIT Press, 2010:2586-2594.
  • [18] Margolin R, Zelnik-Manor L, Tal A. OTC:a novel local descriptor for scene classification[C]//Proceedings of European Conference on Computer Vision. Zurich, Switzerland:Springer, 2014:377-391.[DOI:10.1007/978-3-319-10584-0_25]
  • [19] Li X, Guo Y H. Latent semantic representation learning for scene classification[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing, China:Springer, 2014:Ⅱ-532-Ⅱ-540.
  • [20] Wang Z L, Feng J S, Yan S C, et al. Linear distance coding for image classification[J]. IEEE Transactions on Image Processing, 2013, 22(2): 537–548. [DOI:10.1109/TIP.2012.2218826]