|
发布时间: 2019-03-16 |
遥感图像处理 |
|
|
收稿日期: 2018-06-14; 修回日期: 2018-09-05
基金项目: 国家自然科学基金项目(61702241);辽宁省教育厅高等学校基本科研项目(LJ2017FBL004);辽宁省博士科研启动基金项目(201601365)
第一作者简介:
彭晏飞, 1975年生, 男, 博士, 副教授, 主要研究方向为图像分析与理解、计算机视觉。E-mail:pengyf75@126.com;
武宏, 女, 硕士研究生, 主要研究方向为图像处理。E-mail:1028502590@qq.com; 訾玲玲, 女, 博士, 讲师, 主要研究方向为视觉与信息获取。E-mail:lingling19812004@126.com.
中图法分类号: TP753
文献标识码: A
文章编号: 1006-8961(2019)03-0420-15
|
摘要
目的 针对基于内容的图像检索存在低层视觉特征与用户对图像理解的高层语义不一致、图像检索的精度较低以及传统的分类方法准确度低等问题,提出一种基于卷积神经网络和相关反馈支持向量机的遥感图像检索方法。方法 通过对比度受限直方图均衡化算法对遥感图像进行预处理,限制遥感图像噪声的放大,采用自学习能力良好的卷积神经网络对遥感图像进行多层神经网络的监督学习提取丰富的图像特征,并将支持向量机作为基分类器,根据测试样本数据到分类超平面的距离进行排序得到检索结果,最后采用相关反馈策略对检索结果进行重新调整。结果 在UC Merced Land-Use遥感图像数据集上进行图像检索实验,在mAP(mean average precision)精度指标上,当检索返回图像数为100时,本文方法比LSH(locality sensitive Hashing)方法提高了29.4%,比DSH(density sensitive Hashing)方法提高了37.2%,比EMR(efficient manifold ranking)方法提高了68.8%,比未添加反馈和训练集筛选的SVM(support vector machine)方法提高了3.5%,对于平均检索速度,本文方法比对比方法中mAP精度最高的方法提高了4倍,针对复杂的遥感图像数据,本文方法的检索效果较其他方法表现出色。结论 本文提出了一种以距离评价标准为核心的反馈策略,以提高检索精度,并采用多距离结合的Top-k排序方法合理筛选训练集,以提高检索速度,本文方法可以广泛应用于人脸识别和目标跟踪等领域,对提升检索性能具有重要意义。
关键词
遥感图像检索; 卷积神经网络; 反馈; 支持向量机; 对比度受限直方图均衡化; Top-k排序
Abstract
Objective The traditional content-based image retrieval method can only retrieve and analyze the features of low layers, such as color, texture, and shape, which exist in an image. Therefore, a low level of visual features exist in such method, which is inconsistent with the high-level semantic meaning of the user's understanding of the image. This inconsistency results in the "semantic gap" phenomenon, which leads to the low accuracy of image retrieval. Moreover, the traditional method cannot meet the user's demand for high-accuracy retrieval, while remote sensing images have rich information, complex content, and high dimensionality. Analyzing only the low-level features greatly reduces the accuracy of image retrieval. Therefore, selecting an appropriate image feature extraction is the key step to achieving high-accuracy retrieval. At the same time, the traditional classification method is insignificantly accurate in image classification. Determining how to select a high-accuracy image classification method is also essential. A remote sensing image retrieval method based on convolutional neural network and relevance feedback support vector machine (SVM) is proposed in this research. Method The proposed method can preprocess remote sensing images by contrasting the limited histogram equalization algorithm, limiting the noise magnification of the remote sensing images, and avoiding the influence of noise interference on the retrieval precision. On the basis of the GoogLeNet convolutional neural network model with good self-learning capability, a multilayer neural network of remote sensing images is supervised and studied, the rich features of the remote sensing images are extracted, and the problem of "semantic gap" in the content-based image retrieval method is solved. The original dataset is divided into training and test sets, and selecting the training set reasonably is the basis for the best classification. If too many samples exist in other categories in the training set, then determining the hyperplane classification will be greatly affected. A multi-distance combined top-k sorting method is proposed to rationally screen the original training set. The image closest to the query one will be used as the training set. On the one hand, the method saves considerable time for subsequent determination of the optimal hyperplane. On the other hand, most dissimilar images are filtered out to avoid the influences of more dissimilar images on the classification results. The SVM is used as the basic classifier, and the optimal hyperplane is trained according to the training set samples. The retrieval results are sorted according to the distance between the test sample data and the classified hyperplane. A feedback of the distance evaluation standard is proposed to update the retrieval results with the distance evaluation standard. The strategy readjusts the experimental results. The method uses a small-sample marking method to mark the counterexample images to avoid too many markers and lose the meaning of the retrieval. In addition, the optimal hyperplane of the SVM does not need to be retrained to avoid unnecessary time waste. Only multiple iterations are used to update the retrieval results, and one feedback can achieve the desired results. Result The image retrieval experiments are performed on the remote sensing image dataset of UC Merced Land-use dataset. Experimental results show that the mean average precision (mAP) of the proposed method is increased by 29.4% compared with that of the locality-sensitive Hashing method, is 37.2% higher than that of the density-sensitive Hashing method, which is 68.8% higher than the efficient manifold ranking, and is 3.5% higher than that of the SVM method without feedback and training set screening. The number of retrieved images is 100. For the average retrieval speed, this method is four times higher than the method with the highest mAP accuracy in the comparison method. For the average recall rate and the average precision rate, this method is also higher than the comparison method, which shows that this method can improve not only the retrieval accuracy but also the retrieval speed. For complex remote sensing image data, the retrieval effect of this method is better than those of other methods. Conclusion A new feedback strategy is proposed in this study to improve the retrieval accuracy. Small-sample markers are used for the poor retrieval results and the distance evaluation standard as the core to perform many iterations. One time feedback can achieve good retrieval results. In terms of speed increase, this study proposes a multi-distance combined Top-k sorting method, which reduces the time of SVMs to train the optimal hyperplane by rationally selecting the training sample set and then improving the retrieval speed. This method can be widely applied to face recognition, target tracking, and other fields, and it is significant to improving retrieval performance.
Key words
remote sensing image retrieval; convolution neural network; feedback; support vector machine; contrast limited adaptive histogram equalization; Top-
0 引言
随着卫星遥感技术的迅速发展,如何快速且高精度地对海量遥感图像数据进行高效的组织、管理和检索,进而满足用户对感兴趣图像的快速浏览和查询需求,已成为国内外研究人员关注的重点。基于内容的图像检索(CBIR)[1]为解决图像检索中信息提取和共享的难题提供了新的契机,作为一种主流方法被广泛研究与应用。
传统的CBIR系统主要通过提取低层次的图像特征(颜色、纹理、形状)进行检索[2-3],然而图像语义特性并不能完全由低层特征来表示,由于没有获取图像的高层语义特征,故存在着低层视觉特征与用户对图像理解的高层语义不一致,从而导致“语义鸿沟”问题的产生。随着深度学习技术的发展,卷积神经网络(CNN)作为深度学习系统的框架之一,以其局部权值共享的特殊结构以及良好的容错能力、并行处理能力和自学习能力,广泛应用于图像分类、对象检测、语义分割、图像检索等诸多领域。在图像检索过程中,CNN通过多层次的网络学习,针对提取到的丰富特征进行检索,使得检索精度大大提升。文献[4]提出了一种基于稀疏自动编码的方法在遥感图像上进行特征学习得到特征字典, 采用CNN得到每幅图像的特征图,并对待检索图像分类, 在同一类别中计算特征间的距离, 进而实现遥感图像的检索。文献[5]提出了一种基于CNN和流型排序的图像检索方法,利用CNN对图像的监督学习,提取网络中全连接层的图像特征,并对图像特征进行归一化处理,然后用高效流型排序(EMR)算法对查询图像返回的结果进行排序。文献[6]提出了一种将CNN与哈希相结合的图像检索,利用CNN进行图像特征提取,并对特征向量进行哈希编码,最后在汉明距离下进行排序得到检索结果。
在遥感图像检索过程中,由于遥感图像采集时极易受到多种外界因素的影响而产生噪声,为了避免噪声的参与造成检索精度的降低,需要对图像进行预处理。对比度受限直方图均衡化(CLAHE)方法通过限制图像直方图的高度来限制噪声的放大,降低噪声的影响,提高了图像检索精度。通过CNN对遥感图像进行多层网络的学习能够获取更加丰富的特征,克服了传统特征提取算法中出现的语义鸿沟问题,避免了传统识别算法中复杂的特征提取和数据重建过程。支持向量机(SVM)作为一个强大的二分类模型,在解决小样本、非线性和高维模式识别中表现出许多特有的优势,所以将CNN提取的丰富特征通过SVM进行分类,能够获得更佳的分类结果。同时,对初次检索结果中出现的错误情况,采取相关反馈策略进行二次调整,使得检索结果更加满足用户的需求。为此,本文提出了一种基于CNN和相关反馈的SVM的遥感图像检索方法。
1 本文方法
本文提出的遥感检索框架如图 1所示。
1.1 遥感图像预处理
图像预处理的主要作用是降低图像噪声的干扰,增强图像中感兴趣的区域和边缘信息等,提高后续特征提取和特征分类的准确度,进而达到提高图像检索精度的目的。由于遥感图像采集时极易受到噪声的影响,所以需要对遥感图像进行预处理。在图像处理技术中,图像增强占有重要的地位,通过图像增强处理,增强图像中的有用信息,加强图像判读和识别效果,达到满足某些特殊分析的需要。
图像增强策略可分为频域和空域两种,主要处理方法包括小波变换[7]、基于Retinex理论的方法[8]和直方图均衡化[9]等。本文采用CLAHE[10]对遥感图像进行预处理,通过限制局部直方图的高度来限制局部对比度的增强幅度,从而限制遥感图像噪声的放大和局部对比度的增强,进而提高对遥感图像的识别能力,使得在图像特征提取阶段能够学习到更丰富的图像特征,提高遥感图像的检索效率。图 2为原图像与经过CLAHE算法预处理的图像对比图。从图 2可以看出,预处理后的图像视觉效果明显优于原图像,而且图像具有更高的图像细节和层次感,同时减少了图像的失真。
1.2 CNN提取图像特征
CNN是深度学习中的一种前馈神经网络,它以其强大的自学习能力和无监督的学习模式,被广泛应用于计算机视觉领域。CNN模型不同于传统的神经网络,它的网络层数更深,提取的特征更加丰富,网络模型模拟细胞视觉信息的处理过程更接近人脑神经元的结构。本文采用GoogLeNet[11]卷积神经网络模型提取遥感图像特征,相比于LeNet、VGG16、AlexNet等卷积神经网络模型,GoogLeNet的网络层数更深,工具包配置更加简单、方便,对计算机的配置要求更低,性能更加优越,并为研究人员提供了一个友好和高效的使用环境。
GoogLeNet采用模块化结构,共有22层结构块,方便增添和修改,网络架构如图 3所示。包括卷积层、池化层、激励层和全连接层。在卷积层中,主要是通过若干个可训练的卷积核和输入数据进行卷积操作。卷积是求取卷积核与输入数据的内积,GoogLeNet网络的卷积核主要有1×1、3×3、5×5以及直接进行最大池化的核。为了避免梯度回传消失,巧妙地在不同深度处增加了2个辅助的归一化处理。在池化层主要采用最大池化与平均池化两种方法,池化层的输入一般来自上一个卷积层,用于防止过拟合现象的产生,并在池化层添加了一个额外的并行池化路径用于提高效率,而且最大池化主要运用于卷积层,平均池化用于全连接层;激励层中主要包含了一些激活函数,通过激活函数引入非线性因素,并且把当前特征空间通过一定的线性映射转换到另一个空间,让数据能够更好地被分类,为了避免简单的组合进行特征映射造成厚度过大的现象产生,该网络采用一种Inception结构。
Inception结构如图 4所示。每个Inception模块的所有卷积中都运用了修正线性单元(ReLU);全连接层用Softmax损失函数作为网络目标函数来指导学习过程。采用GoogLeNet模型提取图像特征,将遥感图像各点像素值矩阵作为网络输入,通过卷积、池化等操作能够学习到更加丰富的图像特征数据。
1.3 SVM分类处理
支持向量机是一种二分类模型,由线性可分情况下的最佳超平面发展而来,其基本模型定义为特征空间上的间隔最大的线性分类器,具有小样本学习和泛化能力强等优点,是最稳定有效的基分类器之一[12-13],被广泛应用于大量集成学习方法中。在CBIR系统中,图像样本集实际上分为相似图像与不相似图像两类,而SVM是优越的二分类模型,所以SVM用于CBIR[14-15]是可行的。本文的目标是为了学习各图像样本相似性与每个特征维度之间的线性关系,因此只考虑线性SVM。
线性SVM的基本思想为:对于一组带有类别标记的训练样本集(
线性SVM的目标函数为
$ \begin{array}{c} \min \frac{1}{2}{\left\| \mathit{\boldsymbol{w}} \right\|^2}\\ {\rm{s}}{\rm{.t}}.\; \; \; {y_i}({\mathit{\boldsymbol{w}}^{\rm{T}}}{\mathit{\boldsymbol{x}}_{iq}} + b) \ge 1, i = 1, \cdots, n \end{array} $ | (1) |
式中,
针对上述目标函数采用拉格朗日对偶性变换求取最优解,拉格朗日函数定义为
$ L\left( {\mathit{\boldsymbol{w}}, b, \mathit{\boldsymbol{\alpha }}} \right) = \frac{1}{2}{\left\| \mathit{\boldsymbol{w}} \right\|^2} - \sum\limits_{i = 1}^n {{\alpha _i}} ({y_i}({\mathit{\boldsymbol{w}}^{\rm{T}}}{\mathit{\boldsymbol{x}}_{iq}} + b) - 1) $ | (2) |
式中,
分别对
$ y = {\mathop{\rm sgn}} ({\mathit{\boldsymbol{w}}^{\rm{T}}}\mathit{\boldsymbol{x}}{\mathit{\boldsymbol{'}}_{iq}} + b) $ | (3) |
式中,
1.4 相关反馈
对于检索结果不佳的情况采取相关反馈调整。传统的反馈策略是对初次返回的检索结果进行正反例标记[16],这样二次检索的结果势必会受到用户主观意识的影响,由于遥感图像中个别类别遥感图像相似度较高,用户对正反例样本图像同时标记出现错误的情况较多,一旦标记错误,二次检索精度将会降低,而且过多地对检索结果进行标记,检索将失去意义。样本图像标记后,需要将检索结果中标记的图像作为训练样本,由用户标记出的正例样本和原正例样本集构成新的正例样本集,同理,反例样本与原反例样本集构成新的反例样本集,并将新的正反例样本集进行SVM学习,得到一个代表用户检索目标的SVM分类器[17]。这种方式虽然会进一步提高二次检索的检索精度,但是由于将原正反例样本再次进行了训练,相当于进行了两次获取超平面的过程,如果二次检索精度没有达到预期效果,就需要进行多次反馈,这意味着需要反复更新最优超平面,如此反复地反馈下去将消耗大量时间,而二次训练得到的最优超平面只是在原超平面上进行微调,不需要重新求取最优超平面。
为此,本文提出一种根据距离评价标准进行相关反馈的方法,只对原返回结果中最不相似的图像进行反例标记,正例样本图像不进行标记,对满足距离评价标准的图像进行调整。对于原测试样本集
1) 对初次返回结果中最先出现错误排序且错误比较密集、明显的
2) 获取初次返回结果查全率达到100%时的返回图像数
3) 设置迭代次数
4) 采取距离度量标准进行重新排序,为了降低计算复杂度只采取欧氏距离度量。计算
$ \left\{ \begin{array}{l} {D_{{\rm{Nsim}}}}\left( {i, j} \right) \ge \frac{{{D_{{\rm{MaxNsim}}}}\left( i \right) + {D_{{\rm{MinNsim}}}}\left( i \right)}}{2}\\ {D_{{\rm{Asim}}}}\left( {x, j} \right) \le \frac{{{D_{{\rm{MaxAsim}}}}\left( x \right) + {D_{{\rm{MinAsim}}}}\left( x \right)}}{2} \end{array} \right. $ | (4) |
式中,
5) 根据迭代次数更新返回图像数
采用此方法进行相关反馈,一方面减少了用户的标记次数,另一方面避免了多次反馈重新训练最优超平面耗时的现象,通过迭代策略减少了反馈次数。
1.5 训练样本集筛选
在对SVM进行构造前,训练集样本的选取至关重要,如果训练样本中其他类别的样本过多,将会影响分类超平面的构建,使得后续对SVM模型的测试得出错误的分类结果,所以如何选取具有代表性的训练样本是一个亟待解决的问题。传统的选取方法是采用距离分类面最近的样本作为训练样本[18],但是单一的距离并不具有代表性。文献[19]采用
针对上述问题,本文采用多距离结合的Top-
多距离结合的Top-
1) 根据CNN特征提取结果,求取待查询遥感图像与遥感图像库中的其他图像的4种距离(欧氏距离、曼哈顿距离、切比雪夫距离和余弦距离),并组成相似度距离矩阵;
2) 对4类距离向量采用快速排序算法进行升序排序,获取每个距离中的前
3) 求出小数据集中所有元素词频的和,即权值加和,词频是根据4类距离排序得到的前
4) 求取前
特征向量的相似度矩阵是由待查询图像和数据库中其他图像特征向量的4种距离(归一化)组成的。假设对于
1) 欧氏距离
$ {d_1}\left( {\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{Y}}} \right) = \sqrt {\sum\limits_i^n {{{({x_i} - {y_i})}^2}} } $ | (5) |
2) 曼哈顿距离
$ {d_2}\left( {\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{Y}}} \right) = \sum\limits_{i = 1}^n {\left| {{x_i} - {y_i}} \right|} $ | (6) |
3) 切比雪夫距离
$ {d_3}\left( {\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{Y}}} \right) = \mathop {\lim }\limits_{k \to \infty } {\left( {\sum\limits_{i = 1}^n {{{\left| {{x_i} - {y_i}} \right|}^k}} } \right)^{1/k}} $ | (7) |
4) 余弦距离
$ {d_4}\left( {\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{Y}}} \right) = \frac{{\sum\limits_{k = 1}^n {{x_i}{y_i}} }}{{\sqrt {\sum\limits_{k = 1}^n {x_i^2} } \sqrt {\sum\limits_{k = 1}^n {y_i^2} } }} $ | (8) |
采用上述方法对SVM训练集进行筛选,一方面可以减少训练集样本的个数,降低SVM获取分类超平面的时间,另一方面可以将大多数与查询图像不相似的图像筛选出去,避免了不相似图像对分类结果造成的较多影响。
2 实验与结果分析
2.1 实验设置
实验采用的计算机配置是Intel(R) Core(TM) i7-4702处理器,4 GB内存,选用MATLAB 2014b为开发环境。本文在UC Merced Land-Use [21]遥感图像数据集上进行检索实验,包含农田、飞机、棒球场、停车场等21类场景遥感图像,每个类别包括100幅图像,每幅图像为256×256像素,分辨率为1英尺,这些遥感图像是从美国地质调查局国家城区地图的大型图像集中手动提取的,部分样本实例如图 5所示。实验中选取卷积神经网络第21层的图像特征向量,随机从图像数据集中选取1 000幅图像作为训练集,使用Top-
$ \left\{ \begin{array}{l} P = \frac{m}{N} \times 100\% \\ R = \frac{m}{M} \times 100\% \end{array} \right. $ | (9) |
式中,
2.2 实验结果分析
为了提高检索精度,对初次检索结果中不佳的结果进行一次反馈,本文采取的反馈策略是以距离评价标准进行多次迭代,删除初次检索结果中不相关的图像,使得反馈后的检索结果精度更高。图 6为本文方法反馈前后的对比结果图。图 6(a)(c)分别为反馈前飞机类和立交桥类遥感图像的检索实例,右侧是返回的前50幅检索结果,左下侧为查全率曲线。从图中可以看出,反馈前的查全率收敛性不佳,在检索图像数为400多幅时才达到100%。图 6(b)(d)分别为反馈后飞机类和立交桥类遥感图像的检索实例,同样是返回的前50幅检索结果和查全率曲线,从图中可以看出,反馈结果中的查全率在检索图像数不到200幅时就已经达到100%,收敛性得到了极大改善。而且返回的前50幅图像中原来标记的反例样本的位置也出现了正例图像,图中的查全率和查准率的数值也得到了提高,总体来看,精度得到了有效提高。
UC Merced Land-Use遥感图像数据集中图像类别众多,个别图像样本特征间的相似度较高,导致检索精度降低。为了排除偶然性,在实验中选取多个类别的检索结果进行对比。对比方法中的LSH与DSH哈希方法随着编码位数的增加,编码更加准确,从而检索精度也会更高。为了验证本文方法的优越性,选取编码位数为128位的哈希方法作为对比方法。本文方法的检索精度采用一次反馈得到的结果。图 7为不同对比方法在遥感图像数据集中对多个类别遥感图像的检索实例。
图 7(a)(b)中左侧为查询图像以及增强后的图像,右侧为不同方法返回的检索结果,每1行对应1种检索方法返回的10个检索结果,红色方框代表与查询图像不相似的图像。由检索结果可知,本文方法10个不同位置的检索结果全部为与查询图像相似的图像,而其他方法的检索结果中出现了不相似的图像,说明了本文方法的优越性。
为了更加直观地展示实验结果,实验对农田、飞机、棒球场、海滩、丛林、立交桥6个类别的遥感图像分别进行10次检索。图 8是检索图像数为50时,不同检索方法在6个类别遥感图像上的平均查准率和查全率。从图 8(a)可以看出,本文方法和CNN+SVM方法对以上6类遥感图像检索时的平均查准率都比较稳定,但是CNN+SVM[15]方法的平均查准率显然没有本文方法高;其他对比方法对各类图像检索时的平均查准率很不稳定,而且相对较低。从图 8(b)可以看出,各个类别遥感图像的平均查全率大小不一,这是因为随机选取的测试样本中,各类别遥感图像数不一定相同,从而得到的各类别的平均查全率可能相差较大,但是本文方法的平均查全率相比于其他对比方法都比较高。
上述6类遥感图像10次检索结果总体的平均查全率、平均查准率和平均检索精度(mAP)如表 1所示,当检索图像数依次为20、50和100时,表 1的数据表明,在UC Merced Land-Use数据集中,本文方法能够实现对农田、飞机、棒球场、海滩、丛林、立交桥6个类别遥感图像的有效检索。
表 1
不同方法实验结果总体的平均精度对比
Table 1
Comparison of overall average accuracy of different methods
检索精度 | 检索图像数/幅 | 本文方法 | CNN+LSH | CNN+DSH | CNN+EMR | CNN+SVM |
平均查全率 | 20 | 0.389 4 | 0.355 4 | 0.342 0 | 0.302 7 | 0.381 3 |
50 | 0.910 8 | 0.717 5 | 0.698 0 | 0.580 1 | 0.889 8 | |
100 | 0.986 0 | 0.899 7 | 0.857 7 | 0.787 5 | 0.949 9 | |
平均查准率 | 20 | 0.977 8 | 0.869 4 | 0.838 9 | 0.738 9 | 0.969 4 |
50 | 0.917 8 | 0.701 1 | 0.683 3 | 0.565 6 | 0.905 6 | |
100 | 0.502 2 | 0.441 1 | 0.419 4 | 0.382 8 | 0.482 6 | |
平均检索精度(mAP) | 20 | 0.365 3 | 0.300 7 | 0.278 4 | 0.245 1 | 0.354 7 |
50 | 0.871 6 | 0.590 8 | 0.558 9 | 0.427 9 | 0.846 2 | |
100 | 0.917 6 | 0.709 2 | 0.668 4 | 0.543 6 | 0.886 6 | |
注:加粗字体表示当前检索图像数下的最优结果。 |
除了5类遥感图像的检索效果不理想外,其他类别遥感图像的检索效果都较为优越。例如高速公路和飞机跑道类的检索精度与农田类的相近、港口和停车场类的与飞机类的相近、高尔夫球场和储油罐类的与棒球场类的相近、河流类的与海滩类的相近、森林类的与丛林类的相近、十字路口类的与立交桥类的相近,且都比其他方法高。而对于检索效果不理想的建筑物、住宅、中密度住宅区、稀疏住宅区和网球场等5类遥感图像,本文方法与其他方法得到的检索精度相差甚微,并且精度都比较低。导致检索精度低的主要原因是这5类遥感图像各类别之间图像特征相似度非常高,以人的视觉理解很难分开,同时,每类检索得到的结果中都存在大量其他类的图像。
2.2.1 查全率对比结果分析
2.2.2 查准率对比结果分析
2.2.3 PVR和mAP曲线结果分析
2.2.4 检索速度
本文运用Top-
若文献[15]方法同样选取400幅图像进行实验,由于图像是从图像库中随机选取的,虽然能够保证较快的检索速度,但是由于训练集没有代表性,检索精度将大幅度降低。表 2是文献[15]方法在400幅和1 000幅样本时对实验中的6类遥感图像的检索精度,表中展示的是检索图像数为50时的检索结果。从表 2可以看出,当训练集为400幅时,与1 000幅时的检索结果相比,各类别遥感图像检索的平均查全率和平均查准率都有所降低,说明训练集的选取对检索精度的影响非常大。而且对于图像检索,主要的评价指标是检索精度,其次才是检索速度。如果检索精度很低,那么检索速度再高也毫无意义。从表 1可知,本文方法的检索精度比训练集为1 000幅时的文献[15]方法高,说明了本文方法对训练集筛选的有效性,达到了通过选取较小的训练集实现较高检索的目的。
表 2
不同个数训练集的检索精度对比
Table 2
Comparison of retrieval accuracy of different training sets
/% | |||||
图像类别 | 平均查全率 | 平均查准率 | |||
400幅训练样本 | 1 000幅训练样本 | 400幅训练样本 | 1 000幅训练样本 | ||
农田 | 81.75 | 88.24 | 88.2 | 95.2 | |
飞机 | 80.47 | 92.27 | 76.4 | 87.6 | |
棒球场 | 77.16 | 84.62 | 82.8 | 90.8 | |
海滩 | 89.61 | 93.93 | 87.2 | 91.4 | |
丛林 | 90.51 | 96.43 | 85.6 | 91.2 | |
立交桥 | 70.47 | 78.39 | 78.4 | 87.2 |
本文选择与精度较高的训练集为1 000幅时的文献[15]方法进行速度对比,求取实验中农田、飞机、棒球场、海滩、丛林、立交桥6类遥感图像各个类别的10次检索结果时间的平均值和总体的平均检索时间,并进行对比,结果如表 3所示。从表 3可以看出,本文方法的平均检索速度不仅在各个类别上比文献[15]方法的平均检索速度快很多,而且总体的平均检索速度也比文献[15]方法快了将近4倍。
3 结论
为了解决传统的基于内容的检索方法面临的语义鸿沟问题,并且实现对遥感图像的有效检索,本文提出采用一种卷积神经网络进行遥感图像特征提取,并通过带有相关反馈的支持向量机进行特征分类的遥感图像检索方法。该方法充分考虑了遥感图像自身的特性,运用CLAHE方法对遥感图像进行预处理,限制局部对比度的增强幅度,进而限制了噪声的放大幅度;在特征提取阶段,采用自学习能力良好的卷积网络进行遥感图像特征提取,提取图像更深层且丰富的特征;同时运用泛化能力强的支持向量机作为基分类器进行特征分类; 为了提高检索速度和检索精度,将带有距离度量标准的相关反馈以及Top-
参考文献
-
[1] Hang Y, Yang Y B, Chen Z Q. A survey of content-based image retrieval[J]. Application Research of Computers, 2002(9): 9–13, 29. [杭燕, 杨育彬, 陈兆乾. 基于内容的图像检索综述[J]. 计算机应用研究, 2002(9): 9–13, 29. ] [DOI:10.3969/j.issn.1001-3695.2002.09.003]
-
[2] Liu L, Kuang G Y. Overview of image textural feature extraction methods[J]. Journal of Image and Graphics, 2009, 14(4): 622–635. [刘丽, 匡纲要. 图像纹理特征提取方法综述[J]. 中国图象图形学报, 2009, 14(4): 622–635. ] [DOI:10.11834/jig.20090409]
-
[3] Tanase M, Veltkamp R C. Part-based shape retrieval with relevance feedback[C]//Proceedings of 2005 IEEE International Conference on Multimedia and Expo. Amsterdam, Netherlands: IEEE, 2005: 936-939.[DOI: 10.1109/ICME.2005.1521578]
-
[4] Zhang H Q, Liu X Y, Yang S, et al. Retrieval ofremote sensing images based on semisupervised deep learning[J]. Journal of Remote Sensing, 2017, 21(3): 406–414. [张洪群, 刘雪莹, 杨森, 等. 深度学习的半监督遥感图像检索[J]. 遥感学报, 2017, 21(3): 406–414. ] [DOI:10.11834/jrs.20176105]
-
[5] Liu B, Zhang H. Image retrieval algorithm based on convolutional neural network and manifold ranking[J]. Journal of Computer Applications, 2016, 36(2): 531–534. [刘兵, 张鸿. 基于卷积神经网络和流形排序的图像检索算法[J]. 计算机应用, 2016, 36(2): 531–534. ] [DOI:10.11772/j.issn.1001-9081.2016.02.0531]
-
[6] Gong Z T, Chen G X, Ren X L, et al. An image retrieval method based on a convolutional neural network and hash coding[J]. CAAI transactions on intelligent Systems, 2016, 11(3): 391–400. [龚震霆, 陈光喜, 任夏荔, 等. 基于卷积神经网络和哈希编码的图像检索方法[J]. 智能系统学报, 2016, 11(3): 391–400. ] [DOI:10.11992/tis.201603028]
-
[7] Li D M, Gai M Y, Li C R, et al. Research on adaptive optics image denoising algorithm based on the wavelet-based Contourlet transform[J]. Laser & Optoelectronics Progress, 2015, 52(11): #111001. [李东明, 盖梦野, 李超然, 等. 基于小波域的Contourlet变换法的自适应光学图像去噪算法研究[J]. 激光与光电子学进展, 2015, 52(11): #111001. ] [DOI:10.3788/LOP52.111001]
-
[8] Xu X, Chen Q, Sun H J, et al. Fast Retinex-based color image enhancement[J]. Computer Engineering and Applications, 2010, 46(5): 4–6, 72. [许欣, 陈强, 孙怀江, 等. 快速Retinex彩色图像增强[J]. 计算机工程与应用, 2010, 46(5): 4–6, 72. ] [DOI:10.3778/j.issn.1002-8331.2010.05.002]
-
[9] Li Y, Zhang Y F, Zhang Q, et al. Infrared image contrast enhancement based on haze remove method[J]. Chinese Journal of Lasers, 2015, 42(1): #0113004. [李毅, 张云峰, 张强, 等. 基于去雾模型的红外图像对比度增强[J]. 中国激光, 2015, 42(1): #0113004. ]
-
[10] Hai Y, Li L, Gu J. Imageenhancement based on contrast limited adaptive histogram equalization for 3D images of stereoscopic endoscopy[C]//Proceedings of 2015 IEEE International Conference on Information and Automation. Lijiang, China: IEEE, 2015: 668-672.[DOI: 10.1109/ICInfA.2015.7279370]
-
[11] Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 1-9.[DOI: 10.1109/CVPR.2015.7298594]
-
[12] Melgani F, Bruzzone L. Classification of hyperspectral remote sensing images with support vector machines[J]. IEEE Transactions on Geoscience and Remote Sensing, 2004, 42(8): 1778–1790. [DOI:10.1109/TGRS.2004.831865]
-
[13] Chen Y S, Zhao X, Lin Z H. Optimizing subspaceSVM ensemble for hyperspectral imagery classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(4): 1295–1305. [DOI:10.1109/JSTARS.2014.2307356]
-
[14] Wang X J, Yang L L. Application of SVM relevance feedback algorithms in image retrieval[C]//2008 International Symposium on Information Science and Engineering. Shanghai, China: IEEE, 2008: 210-213.[DOI: 10.1109/ISISE.2008.275]
-
[15] Fu R G, Li B, Gao Y H, et al. Content-based image retrieval based on CNN and SVM[C]//Proceedings of the 2nd IEEE International Conference on Computer and Communications. Chengdu, China: IEEE. 2016: 638-642.[DOI: 10.1109/CompComm.2016.7924779]
-
[16] Bai J W, Zhao Z C. Novel relevance feedback method based on SVM in image retrieval[J]. Software Guide, 2010, 9(10): 49–51. [白婧文, 赵志诚. 一种新的基于SVM相关反馈的图像检索算法[J]. 软件导刊, 2010, 9(10): 49–51. ]
-
[17] Jiang N N, Qi M, Hao C Y. A SVM based relevance feedback algorithm for image retrieval[J]. Computer Simulation, 2009, 26(1): 219–221, 330. [姜楠楠, 齐敏, 郝重阳. 一种基于SVM的相关反馈图像检索算法[J]. 计算机仿真, 2009, 26(1): 219–221, 330. ] [DOI:10.3969/j.issn.1006-9348.2009.01.059]
-
[18] Feng G H. Research on large scale SVM classification based on boundary K-nearest[J]. Computer Engineering and Applications, 2009, 45(23): 15–17. [奉国和. 边界K邻近大样本支持向量机分类[J]. 计算机工程与应用, 2009, 45(23): 15–17. ] [DOI:10.3778/j.issn.1002-8331.2009.23.005]
-
[19] Ju H Y, Zhang J B, Li C F, et al. Automated Remote Sensing Image Classification Method Based on K-means and SVM[J]. Application Research of Computers, 2007, 24(11): 318–320. [居红云, 张俊本, 李朝峰, 等. 基于K-means与SVM结合的遥感图像全自动分类方法[J]. 计算机应用研究, 2007, 24(11): 318–320. ] [DOI:10.3969/j.issn.1001-3695.2007.11.098]
-
[20] Meng X F, Ma Z M, Li X, et al. A Top-K query results ranking approach based on contextual preferences for web database[J]. Chinese Journal of Computers, 2014, 37(9): 1986–1998. [孟祥福, 马宗民, 李昕, 等. 基于上下文偏好的Web数据库查询结果Top-K排序方法[J]. 计算机学报, 2014, 37(9): 1986–1998. ] [DOI:10.3724/SP.J.1016.2014.01986]
-
[21] Yang Y, Newsam S. Bag-of-visual-words and spatial extensions for land-use classification[C]//Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems. San Jose, California: ACM, 2010: 270-279.[DOI: 10.1145/1869790.1869829]
-
[22] Chafik S, Daoudi I, Ouardi H E, et al. Locality sensitive hashing for content based image retrieval: a comparative experimental study[C]//Proceedings of 2014 International Conference on Next Generation Networks and Services. Casablanca, Morocco: IEEE, 2014: 38-43.[DOI: 10.1109/NGNS.2014.6990224]
-
[23] Jin Z M, Li C, Lin Y, et al. Density sensitive hashing[J]. IEEE Transactions on Cybernetics, 2014, 44(8): 1362–1371. [DOI:10.1109/TCYB.2013.2283497]