发布时间: 2019-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180384
2019 | Volume 24 | Number 3

遥感图像处理

结合深度学习与相关反馈的遥感图像检索

彭晏飞, 宋晓男, 武宏, 訾玲玲

辽宁工程技术大学电子与信息工程学院, 葫芦岛 125105

收稿日期: 2018-06-14; 修回日期: 2018-09-05

基金项目: 国家自然科学基金项目（61702241）；辽宁省教育厅高等学校基本科研项目（LJ2017FBL004）；辽宁省博士科研启动基金项目（201601365）

第一作者简介: 彭晏飞, 1975年生, 男, 博士, 副教授, 主要研究方向为图像分析与理解、计算机视觉。E-mail:pengyf75@126.com;
武宏, 女, 硕士研究生, 主要研究方向为图像处理。E-mail:1028502590@qq.com;
訾玲玲, 女, 博士, 讲师, 主要研究方向为视觉与信息获取。E-mail:lingling19812004@126.com.

中图法分类号: TP753

文献标识码: A

文章编号: 1006-8961(2019)03-0420-15

摘要

目的针对基于内容的图像检索存在低层视觉特征与用户对图像理解的高层语义不一致、图像检索的精度较低以及传统的分类方法准确度低等问题，提出一种基于卷积神经网络和相关反馈支持向量机的遥感图像检索方法。方法通过对比度受限直方图均衡化算法对遥感图像进行预处理，限制遥感图像噪声的放大，采用自学习能力良好的卷积神经网络对遥感图像进行多层神经网络的监督学习提取丰富的图像特征，并将支持向量机作为基分类器，根据测试样本数据到分类超平面的距离进行排序得到检索结果，最后采用相关反馈策略对检索结果进行重新调整。结果在UC Merced Land-Use遥感图像数据集上进行图像检索实验，在mAP（mean average precision）精度指标上，当检索返回图像数为100时，本文方法比LSH（locality sensitive Hashing）方法提高了29.4%，比DSH（density sensitive Hashing）方法提高了37.2%，比EMR（efficient manifold ranking）方法提高了68.8%，比未添加反馈和训练集筛选的SVM（support vector machine）方法提高了3.5%，对于平均检索速度，本文方法比对比方法中mAP精度最高的方法提高了4倍，针对复杂的遥感图像数据，本文方法的检索效果较其他方法表现出色。结论本文提出了一种以距离评价标准为核心的反馈策略，以提高检索精度，并采用多距离结合的Top-k排序方法合理筛选训练集，以提高检索速度，本文方法可以广泛应用于人脸识别和目标跟踪等领域，对提升检索性能具有重要意义。

关键词

遥感图像检索; 卷积神经网络; 反馈; 支持向量机; 对比度受限直方图均衡化; Top-k排序

Remote sensing image retrieval combined with deep learning and relevance feedback

Peng Yanfei, Song Xiaonan, Wu Hong, Zi Lingling

School of Electronic and Information Engineering, Liaoning Technical University, Huludao 125105, China

Supported by: National Natural Science Foundation of China(61702241)

Abstract

Objective The traditional content-based image retrieval method can only retrieve and analyze the features of low layers, such as color, texture, and shape, which exist in an image. Therefore, a low level of visual features exist in such method, which is inconsistent with the high-level semantic meaning of the user's understanding of the image. This inconsistency results in the "semantic gap" phenomenon, which leads to the low accuracy of image retrieval. Moreover, the traditional method cannot meet the user's demand for high-accuracy retrieval, while remote sensing images have rich information, complex content, and high dimensionality. Analyzing only the low-level features greatly reduces the accuracy of image retrieval. Therefore, selecting an appropriate image feature extraction is the key step to achieving high-accuracy retrieval. At the same time, the traditional classification method is insignificantly accurate in image classification. Determining how to select a high-accuracy image classification method is also essential. A remote sensing image retrieval method based on convolutional neural network and relevance feedback support vector machine (SVM) is proposed in this research. Method The proposed method can preprocess remote sensing images by contrasting the limited histogram equalization algorithm, limiting the noise magnification of the remote sensing images, and avoiding the influence of noise interference on the retrieval precision. On the basis of the GoogLeNet convolutional neural network model with good self-learning capability, a multilayer neural network of remote sensing images is supervised and studied, the rich features of the remote sensing images are extracted, and the problem of "semantic gap" in the content-based image retrieval method is solved. The original dataset is divided into training and test sets, and selecting the training set reasonably is the basis for the best classification. If too many samples exist in other categories in the training set, then determining the hyperplane classification will be greatly affected. A multi-distance combined top-k sorting method is proposed to rationally screen the original training set. The image closest to the query one will be used as the training set. On the one hand, the method saves considerable time for subsequent determination of the optimal hyperplane. On the other hand, most dissimilar images are filtered out to avoid the influences of more dissimilar images on the classification results. The SVM is used as the basic classifier, and the optimal hyperplane is trained according to the training set samples. The retrieval results are sorted according to the distance between the test sample data and the classified hyperplane. A feedback of the distance evaluation standard is proposed to update the retrieval results with the distance evaluation standard. The strategy readjusts the experimental results. The method uses a small-sample marking method to mark the counterexample images to avoid too many markers and lose the meaning of the retrieval. In addition, the optimal hyperplane of the SVM does not need to be retrained to avoid unnecessary time waste. Only multiple iterations are used to update the retrieval results, and one feedback can achieve the desired results. Result The image retrieval experiments are performed on the remote sensing image dataset of UC Merced Land-use dataset. Experimental results show that the mean average precision (mAP) of the proposed method is increased by 29.4% compared with that of the locality-sensitive Hashing method, is 37.2% higher than that of the density-sensitive Hashing method, which is 68.8% higher than the efficient manifold ranking, and is 3.5% higher than that of the SVM method without feedback and training set screening. The number of retrieved images is 100. For the average retrieval speed, this method is four times higher than the method with the highest mAP accuracy in the comparison method. For the average recall rate and the average precision rate, this method is also higher than the comparison method, which shows that this method can improve not only the retrieval accuracy but also the retrieval speed. For complex remote sensing image data, the retrieval effect of this method is better than those of other methods. Conclusion A new feedback strategy is proposed in this study to improve the retrieval accuracy. Small-sample markers are used for the poor retrieval results and the distance evaluation standard as the core to perform many iterations. One time feedback can achieve good retrieval results. In terms of speed increase, this study proposes a multi-distance combined Top-k sorting method, which reduces the time of SVMs to train the optimal hyperplane by rationally selecting the training sample set and then improving the retrieval speed. This method can be widely applied to face recognition, target tracking, and other fields, and it is significant to improving retrieval performance.

Key words

remote sensing image retrieval; convolution neural network; feedback; support vector machine; contrast limited adaptive histogram equalization; Top-$ k $ sorting

0 引言

随着卫星遥感技术的迅速发展，如何快速且高精度地对海量遥感图像数据进行高效的组织、管理和检索，进而满足用户对感兴趣图像的快速浏览和查询需求，已成为国内外研究人员关注的重点。基于内容的图像检索(CBIR)^[1]为解决图像检索中信息提取和共享的难题提供了新的契机，作为一种主流方法被广泛研究与应用。

传统的CBIR系统主要通过提取低层次的图像特征(颜色、纹理、形状)进行检索^[2-3]，然而图像语义特性并不能完全由低层特征来表示，由于没有获取图像的高层语义特征，故存在着低层视觉特征与用户对图像理解的高层语义不一致，从而导致“语义鸿沟”问题的产生。随着深度学习技术的发展，卷积神经网络(CNN)作为深度学习系统的框架之一，以其局部权值共享的特殊结构以及良好的容错能力、并行处理能力和自学习能力，广泛应用于图像分类、对象检测、语义分割、图像检索等诸多领域。在图像检索过程中，CNN通过多层次的网络学习，针对提取到的丰富特征进行检索，使得检索精度大大提升。文献[4]提出了一种基于稀疏自动编码的方法在遥感图像上进行特征学习得到特征字典, 采用CNN得到每幅图像的特征图，并对待检索图像分类, 在同一类别中计算特征间的距离, 进而实现遥感图像的检索。文献[5]提出了一种基于CNN和流型排序的图像检索方法，利用CNN对图像的监督学习，提取网络中全连接层的图像特征，并对图像特征进行归一化处理，然后用高效流型排序(EMR)算法对查询图像返回的结果进行排序。文献[6]提出了一种将CNN与哈希相结合的图像检索，利用CNN进行图像特征提取，并对特征向量进行哈希编码，最后在汉明距离下进行排序得到检索结果。

在遥感图像检索过程中，由于遥感图像采集时极易受到多种外界因素的影响而产生噪声，为了避免噪声的参与造成检索精度的降低，需要对图像进行预处理。对比度受限直方图均衡化(CLAHE)方法通过限制图像直方图的高度来限制噪声的放大，降低噪声的影响，提高了图像检索精度。通过CNN对遥感图像进行多层网络的学习能够获取更加丰富的特征，克服了传统特征提取算法中出现的语义鸿沟问题，避免了传统识别算法中复杂的特征提取和数据重建过程。支持向量机(SVM)作为一个强大的二分类模型，在解决小样本、非线性和高维模式识别中表现出许多特有的优势，所以将CNN提取的丰富特征通过SVM进行分类，能够获得更佳的分类结果。同时，对初次检索结果中出现的错误情况，采取相关反馈策略进行二次调整，使得检索结果更加满足用户的需求。为此，本文提出了一种基于CNN和相关反馈的SVM的遥感图像检索方法。

1 本文方法

本文提出的遥感检索框架如图 1所示。

图 1 本文方法框架图

Fig. 1 Framework diagram of our method

1.1 遥感图像预处理

图像预处理的主要作用是降低图像噪声的干扰，增强图像中感兴趣的区域和边缘信息等，提高后续特征提取和特征分类的准确度，进而达到提高图像检索精度的目的。由于遥感图像采集时极易受到噪声的影响，所以需要对遥感图像进行预处理。在图像处理技术中，图像增强占有重要的地位，通过图像增强处理，增强图像中的有用信息，加强图像判读和识别效果，达到满足某些特殊分析的需要。

图像增强策略可分为频域和空域两种，主要处理方法包括小波变换^[7]、基于Retinex理论的方法^[8]和直方图均衡化^[9]等。本文采用CLAHE^[10]对遥感图像进行预处理，通过限制局部直方图的高度来限制局部对比度的增强幅度，从而限制遥感图像噪声的放大和局部对比度的增强，进而提高对遥感图像的识别能力，使得在图像特征提取阶段能够学习到更丰富的图像特征，提高遥感图像的检索效率。图 2为原图像与经过CLAHE算法预处理的图像对比图。从图 2可以看出，预处理后的图像视觉效果明显优于原图像，而且图像具有更高的图像细节和层次感，同时减少了图像的失真。

图 2 图像预处理对比图

Fig. 2 Image preprocessing contrast diagram((a) original image; (b) preprocessing image)

1.2 CNN提取图像特征

CNN是深度学习中的一种前馈神经网络，它以其强大的自学习能力和无监督的学习模式，被广泛应用于计算机视觉领域。CNN模型不同于传统的神经网络，它的网络层数更深，提取的特征更加丰富，网络模型模拟细胞视觉信息的处理过程更接近人脑神经元的结构。本文采用GoogLeNet^[11]卷积神经网络模型提取遥感图像特征，相比于LeNet、VGG16、AlexNet等卷积神经网络模型，GoogLeNet的网络层数更深，工具包配置更加简单、方便，对计算机的配置要求更低，性能更加优越，并为研究人员提供了一个友好和高效的使用环境。

GoogLeNet采用模块化结构，共有22层结构块，方便增添和修改，网络架构如图 3所示。包括卷积层、池化层、激励层和全连接层。在卷积层中，主要是通过若干个可训练的卷积核和输入数据进行卷积操作。卷积是求取卷积核与输入数据的内积，GoogLeNet网络的卷积核主要有1×1、3×3、5×5以及直接进行最大池化的核。为了避免梯度回传消失，巧妙地在不同深度处增加了2个辅助的归一化处理。在池化层主要采用最大池化与平均池化两种方法，池化层的输入一般来自上一个卷积层，用于防止过拟合现象的产生，并在池化层添加了一个额外的并行池化路径用于提高效率，而且最大池化主要运用于卷积层，平均池化用于全连接层；激励层中主要包含了一些激活函数，通过激活函数引入非线性因素，并且把当前特征空间通过一定的线性映射转换到另一个空间，让数据能够更好地被分类，为了避免简单的组合进行特征映射造成厚度过大的现象产生，该网络采用一种Inception结构。

图 3 GoogLeNet网络架构

Fig. 3 GoogLeNet network architecture

Inception结构如图 4所示。每个Inception模块的所有卷积中都运用了修正线性单元(ReLU)；全连接层用Softmax损失函数作为网络目标函数来指导学习过程。采用GoogLeNet模型提取图像特征，将遥感图像各点像素值矩阵作为网络输入，通过卷积、池化等操作能够学习到更加丰富的图像特征数据。

图 4 Inception模块结构

Fig. 4 Inception module structure

1.3 SVM分类处理

支持向量机是一种二分类模型，由线性可分情况下的最佳超平面发展而来，其基本模型定义为特征空间上的间隔最大的线性分类器，具有小样本学习和泛化能力强等优点，是最稳定有效的基分类器之一^[12-13]，被广泛应用于大量集成学习方法中。在CBIR系统中，图像样本集实际上分为相似图像与不相似图像两类，而SVM是优越的二分类模型，所以SVM用于CBIR^[14-15]是可行的。本文的目标是为了学习各图像样本相似性与每个特征维度之间的线性关系，因此只考虑线性SVM。

线性SVM的基本思想为：对于一组带有类别标记的训练样本集($ \mathit{\boldsymbol{X}}, \mathit{\boldsymbol{Y}} $)，其中$\mathit{\boldsymbol{X}} = \left\{ {{\mathit{\boldsymbol{x}}_{1q}}, {\mathit{\boldsymbol{x}}_{2q}}, \cdots , {\mathit{\boldsymbol{x}}_{nq}}} \right\} $，$ {\mathit{\boldsymbol{x}}_i}_q = {\rm{ }}{({\mathit{\boldsymbol{F}}_i}, {\mathit{\boldsymbol{F}}_q})^{2*}}\left( {1 \le i \le n} \right) $表示训练样本数据，2*表示求取特征提取后的训练样本特征向量$ {\mathit{\boldsymbol{F}}_i} $和查询样本特征向量$ {\mathit{\boldsymbol{F}}_q} $间各维元素差值的平方，$ n $为训练集样本个数；$ \mathit{\boldsymbol{Y}} = \left\{ {{y_1}, {y_2}, \cdots , {y_n}} \right\} $，$ {y_i} \in \left\{ { + 1, - 1} \right\}\left( {1 \le i \le n} \right) $表示训练样本的类别标记，相似图像标记为+1，不相似图像标记为-1。采用线性核函数的SVM学习一个最优的超平面$ {\mathit{\boldsymbol{w}}^{\rm{T}}}{\mathit{\boldsymbol{x}}_{iq}} + b $，学习到的最优超平面需满足训练样本数据点到达超平面的间隔最大。

线性SVM的目标函数为

$ \begin{array}{c} \min \frac{1}{2}{\left\| \mathit{\boldsymbol{w}} \right\|^2}\\ {\rm{s}}{\rm{.t}}.\; \; \; {y_i}({\mathit{\boldsymbol{w}}^{\rm{T}}}{\mathit{\boldsymbol{x}}_{iq}} + b) \ge 1, i = 1, \cdots, n \end{array} $

(1)

式中，$ \mathit{\boldsymbol{w}} $表示超平面法向量，$ b $表示分类阈值。

针对上述目标函数采用拉格朗日对偶性变换求取最优解，拉格朗日函数定义为

$ L\left( {\mathit{\boldsymbol{w}}, b, \mathit{\boldsymbol{\alpha }}} \right) = \frac{1}{2}{\left\| \mathit{\boldsymbol{w}} \right\|^2} - \sum\limits_{i = 1}^n {{\alpha _i}} ({y_i}({\mathit{\boldsymbol{w}}^{\rm{T}}}{\mathit{\boldsymbol{x}}_{iq}} + b) - 1) $

(2)

式中，$ {\alpha _i} $表示拉格朗日乘子。

分别对$ \mathit{\boldsymbol{w}} $，$ b $求偏导数，并令偏导数为零，再求对$ \mathit{\boldsymbol{α}} $的极大值，求出$ {\alpha _i} $后，进而可求出$ \mathit{\boldsymbol{w}} $和$ b $，最终得出分离超平面和分类决策函数。超平面确定后，需要根据训练好的SVM模型对测试集样本进行相似性标记，而测试集中的图像是否与检索图像相似是由$y$值决定的，计算公式为

$ y = {\mathop{\rm sgn}} ({\mathit{\boldsymbol{w}}^{\rm{T}}}\mathit{\boldsymbol{x}}{\mathit{\boldsymbol{'}}_{iq}} + b) $

(3)

式中，$ \mathit{\boldsymbol{x}}{\mathit{\boldsymbol{'}}_{iq}}$表示测试集样本的特征向量$ \mathit{\boldsymbol{F}}{'_i} $与查询样本特征向量${\mathit{\boldsymbol{F}}_q} $间各维元素差值的平方。如果求得的$y$值为1，则预测该图像是相似的，否则不相似。在求取相似性度量时，通过超平面法向量$ \mathit{\boldsymbol{w}} $和$ \mathit{\boldsymbol{x}}{\mathit{\boldsymbol{'}}_{iq}} $的内积来进行相似度计算。

1.4 相关反馈

对于检索结果不佳的情况采取相关反馈调整。传统的反馈策略是对初次返回的检索结果进行正反例标记^[16]，这样二次检索的结果势必会受到用户主观意识的影响，由于遥感图像中个别类别遥感图像相似度较高，用户对正反例样本图像同时标记出现错误的情况较多，一旦标记错误，二次检索精度将会降低，而且过多地对检索结果进行标记，检索将失去意义。样本图像标记后，需要将检索结果中标记的图像作为训练样本，由用户标记出的正例样本和原正例样本集构成新的正例样本集，同理，反例样本与原反例样本集构成新的反例样本集，并将新的正反例样本集进行SVM学习，得到一个代表用户检索目标的SVM分类器^[17]。这种方式虽然会进一步提高二次检索的检索精度，但是由于将原正反例样本再次进行了训练，相当于进行了两次获取超平面的过程，如果二次检索精度没有达到预期效果，就需要进行多次反馈，这意味着需要反复更新最优超平面，如此反复地反馈下去将消耗大量时间，而二次训练得到的最优超平面只是在原超平面上进行微调，不需要重新求取最优超平面。

为此，本文提出一种根据距离评价标准进行相关反馈的方法，只对原返回结果中最不相似的图像进行反例标记，正例样本图像不进行标记，对满足距离评价标准的图像进行调整。对于原测试样本集$\boldsymbol{S}$，具体的反馈策略步骤如下：

1) 对初次返回结果中最先出现错误排序且错误比较密集、明显的$N$(1≤$N$≤10)个不相似图像进行反例标记，同时，记录这$N$个反例图像的位置，并且记录首次出现错误排序的位置$L$。

2) 获取初次返回结果查全率达到100%时的返回图像数$T$。

3) 设置迭代次数$It$。$It$由最初的位置$L$和标记的反例图像数$N$确定，取值为$L$和$N$的比值，即$It=L$/$N$，当$It$>50时，取$It$=50，即最大迭代次数不超过50。

4) 采取距离度量标准进行重新排序，为了降低计算复杂度只采取欧氏距离度量。计算$N$个标记的反例图像与错误排序位置$L$后的其他图像特征向量的欧氏距离$ {D_{{\rm{Nsim}}}}\left( {i, j} \right) $，以及从位置$ L $随机提取前$ Q(1 \le Q \le L/10) $个正例样本图像，计算这Q个样本图像与错误排序位置$ L $后的其他图像特征向量的欧氏距离和的均值$ {D_{{\rm{Asim}}}}\left( {x, j} \right) $。距离度量标准为

$ \left\{ \begin{array}{l} {D_{{\rm{Nsim}}}}\left( {i, j} \right) \ge \frac{{{D_{{\rm{MaxNsim}}}}\left( i \right) + {D_{{\rm{MinNsim}}}}\left( i \right)}}{2}\\ {D_{{\rm{Asim}}}}\left( {x, j} \right) \le \frac{{{D_{{\rm{MaxAsim}}}}\left( x \right) + {D_{{\rm{MinAsim}}}}\left( x \right)}}{2} \end{array} \right. $

(4)

式中, $ {D_{{\rm{MaxNsim}}}}\left( i \right)$、$ D $_MinNsim($i$)与$ D $_MaxAsim($x$)、$ D $_MinAsim($x$)分别为距离$ D $_Nsim($i$, $j$)与$ D $_Asim($x$, $j$)的最大值和最小值，$ 1 \le i \le N$，$ 1 \le j \le T - L - N + 1 $，$ 1 \le x \le Q $。对于满足上述条件的样本将其按照与查询图像的欧氏距离的升序排列在位置$ L $后，不满足条件的样本排序其后，并计算查全率$ R$与查准率$P$。

5) 根据迭代次数更新返回图像数$T$和$N$个反例图像的位置，这$N$个位置基本不变，若迭代过程中$N$个位置上出现了正例样本，可通过设置阈值的方法进行解决。阈值设置为0.4，计算每次迭代过程中$N$个位置上的图像与其他正例图像欧氏距离的均值，若得到的均值小于0.4，就在此次迭代排除该位置，反之不更改这$N$个位置。重复步骤4)，直到查全率与查准率小于上一次或迭代次数超过$It$结束。

采用此方法进行相关反馈，一方面减少了用户的标记次数，另一方面避免了多次反馈重新训练最优超平面耗时的现象，通过迭代策略减少了反馈次数。

1.5 训练样本集筛选

在对SVM进行构造前，训练集样本的选取至关重要，如果训练样本中其他类别的样本过多，将会影响分类超平面的构建，使得后续对SVM模型的测试得出错误的分类结果，所以如何选取具有代表性的训练样本是一个亟待解决的问题。传统的选取方法是采用距离分类面最近的样本作为训练样本^[18]，但是单一的距离并不具有代表性。文献[19]采用$ K $-means算法对图像样本集进行聚类，根据聚类结果选取训练样本，但是由于样本特征维度较大，采用$ K $-means算法需要消耗大量时间。

针对上述问题，本文采用多距离结合的Top-$ k $^[20]排序方法对训练样本集进行筛选。所谓Top-$ k $，就是在海量数据中找出出现频率最好或最大的前$ k $个数，其目标是快速检索到与当前查询最为相关的前$ k $个结果。针对Top-$ k $类问题，通常采用快速排序、分治、Hashing和最小堆等方法进行解决，即先将数据集采用快速排序或Hashing方法分解成多个小数据集，然后统计每个小数据集中不同词出现的频率，并求出每个数据集中出现频率最高的前$ K $个数，最后在所有Top-$ k $中求出最终的Top $ K $。

多距离结合的Top-$ k $排序方法的基本思想是：

1) 根据CNN特征提取结果，求取待查询遥感图像与遥感图像库中的其他图像的4种距离(欧氏距离、曼哈顿距离、切比雪夫距离和余弦距离)，并组成相似度距离矩阵；

2) 对4类距离向量采用快速排序算法进行升序排序，获取每个距离中的前$ K $个元素的权值，将遥感数据集分成4个带有词频的小数据集；

3) 求出小数据集中所有元素词频的和，即权值加和，词频是根据4类距离排序得到的前$ K $个元素的权值计算的，每个距离的前$ K $个元素的权值按照从小到大分配为1~$ K $；

4) 求取前$ K $个元素作为SVM的训练集样本，由于每类距离中的前$ K $个元素不一定全部相同，使得4类距离中元素出现次数较多且越靠前的元素权值加和越小，体现了多距离结合的方法优势。

特征向量的相似度矩阵是由待查询图像和数据库中其他图像特征向量的4种距离(归一化)组成的。假设对于$ n$维空间中的点$ \mathit{\boldsymbol{X}} = ({x_1}, \cdots , {x_n}) $和$ \mathit{\boldsymbol{Y}} = ({y_1}, \cdots , {y_n})$，二者之间的4种距离定义如下：

1) 欧氏距离

$ {d_1}\left( {\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{Y}}} \right) = \sqrt {\sum\limits_i^n {{{({x_i} - {y_i})}^2}} } $

(5)

2) 曼哈顿距离

$ {d_2}\left( {\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{Y}}} \right) = \sum\limits_{i = 1}^n {\left| {{x_i} - {y_i}} \right|} $

(6)

3) 切比雪夫距离

$ {d_3}\left( {\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{Y}}} \right) = \mathop {\lim }\limits_{k \to \infty } {\left( {\sum\limits_{i = 1}^n {{{\left| {{x_i} - {y_i}} \right|}^k}} } \right)^{1/k}} $

(7)

4) 余弦距离

$ {d_4}\left( {\mathit{\boldsymbol{X}}, \mathit{\boldsymbol{Y}}} \right) = \frac{{\sum\limits_{k = 1}^n {{x_i}{y_i}} }}{{\sqrt {\sum\limits_{k = 1}^n {x_i^2} } \sqrt {\sum\limits_{k = 1}^n {y_i^2} } }} $

(8)

采用上述方法对SVM训练集进行筛选，一方面可以减少训练集样本的个数，降低SVM获取分类超平面的时间，另一方面可以将大多数与查询图像不相似的图像筛选出去，避免了不相似图像对分类结果造成的较多影响。

2 实验与结果分析

2.1 实验设置

实验采用的计算机配置是Intel(R) Core(TM) i7-4702处理器，4 GB内存，选用MATLAB 2014b为开发环境。本文在UC Merced Land-Use ^[21]遥感图像数据集上进行检索实验，包含农田、飞机、棒球场、停车场等21类场景遥感图像，每个类别包括100幅图像，每幅图像为256×256像素，分辨率为1英尺，这些遥感图像是从美国地质调查局国家城区地图的大型图像集中手动提取的，部分样本实例如图 5所示。实验中选取卷积神经网络第21层的图像特征向量，随机从图像数据集中选取1 000幅图像作为训练集，使用Top-$ k $排序方法对训练集进行筛选，选取前400个训练样本求取SVM最优超平面，最后将数据集中剩余的1 100幅测试图像作为检索输入。为了验证本文方法的有效性，实验时选择基于CNN图像特征提取并采用局部敏感哈希算法(LSH)^[22]、密度敏感哈希算法(DSH)^[23]、高效流形排序(EMR)^[5]以及未添加反馈和训练集筛选的SVM^[15]的图像检索方法作为对比算法，随机选取1 000幅图像作为训练集进行对比实验，以农田、飞机、棒球场、海滩、丛林、立交桥等6类遥感图像的10次检索结果的平均查全率、查准率、查准率—查全率(PVR)和平均检索精度(mAP)曲线作为评价指标，并对检索速度进行分析。查准率$P$和查全率$ R$的计算式为

图 5 UC Merced Land-Use数据集部分样本实例

Fig. 5 Partly sample examples from UC Merced Land-Use dataset

$ \left\{ \begin{array}{l} P = \frac{m}{N} \times 100\% \\ R = \frac{m}{M} \times 100\% \end{array} \right. $

(9)

式中，$ m $表示在一次检索过程中返回的图像与查询图像相似的数目，$ N $表示一次检索过程返回的全部图像的数目，$M$表示图像数据库中与查询图像相似的图像总数。

2.2 实验结果分析

为了提高检索精度，对初次检索结果中不佳的结果进行一次反馈，本文采取的反馈策略是以距离评价标准进行多次迭代，删除初次检索结果中不相关的图像，使得反馈后的检索结果精度更高。图 6为本文方法反馈前后的对比结果图。图 6(a)(c)分别为反馈前飞机类和立交桥类遥感图像的检索实例，右侧是返回的前50幅检索结果，左下侧为查全率曲线。从图中可以看出，反馈前的查全率收敛性不佳，在检索图像数为400多幅时才达到100%。图 6(b)(d)分别为反馈后飞机类和立交桥类遥感图像的检索实例，同样是返回的前50幅检索结果和查全率曲线，从图中可以看出，反馈结果中的查全率在检索图像数不到200幅时就已经达到100%，收敛性得到了极大改善。而且返回的前50幅图像中原来标记的反例样本的位置也出现了正例图像，图中的查全率和查准率的数值也得到了提高，总体来看，精度得到了有效提高。

图 6 反馈前后对比图

Fig. 6 Contrast diagram of this method before and after feedbacks ((a) aircraft retrieval results before feedback; (b) aircraft retrieval results after feedback; (c) overpass retrieval results before feedback; (d) overpass retrieval results after feedback)

UC Merced Land-Use遥感图像数据集中图像类别众多，个别图像样本特征间的相似度较高，导致检索精度降低。为了排除偶然性，在实验中选取多个类别的检索结果进行对比。对比方法中的LSH与DSH哈希方法随着编码位数的增加，编码更加准确，从而检索精度也会更高。为了验证本文方法的优越性，选取编码位数为128位的哈希方法作为对比方法。本文方法的检索精度采用一次反馈得到的结果。图 7为不同对比方法在遥感图像数据集中对多个类别遥感图像的检索实例。

图 7 不同方法检索结果

Fig. 7 Retrieval effect diagram of different methods((a) retrieval results of aircraft; (b) retrieval results of baseball diamond)

图 7(a)(b)中左侧为查询图像以及增强后的图像，右侧为不同方法返回的检索结果，每1行对应1种检索方法返回的10个检索结果，红色方框代表与查询图像不相似的图像。由检索结果可知，本文方法10个不同位置的检索结果全部为与查询图像相似的图像，而其他方法的检索结果中出现了不相似的图像，说明了本文方法的优越性。

为了更加直观地展示实验结果，实验对农田、飞机、棒球场、海滩、丛林、立交桥6个类别的遥感图像分别进行10次检索。图 8是检索图像数为50时，不同检索方法在6个类别遥感图像上的平均查准率和查全率。从图 8(a)可以看出，本文方法和CNN+SVM方法对以上6类遥感图像检索时的平均查准率都比较稳定，但是CNN+SVM^[15]方法的平均查准率显然没有本文方法高；其他对比方法对各类图像检索时的平均查准率很不稳定，而且相对较低。从图 8(b)可以看出，各个类别遥感图像的平均查全率大小不一，这是因为随机选取的测试样本中，各类别遥感图像数不一定相同，从而得到的各类别的平均查全率可能相差较大，但是本文方法的平均查全率相比于其他对比方法都比较高。

图 8 不同类别遥感图像上检索精度对比

Fig. 8 Comparison of retrieval accuracy of different categories of remote sensing images ((a) comparison of average precision rate; (b) comparison of average recall rate)

上述6类遥感图像10次检索结果总体的平均查全率、平均查准率和平均检索精度(mAP)如表 1所示，当检索图像数依次为20、50和100时，表 1的数据表明，在UC Merced Land-Use数据集中，本文方法能够实现对农田、飞机、棒球场、海滩、丛林、立交桥6个类别遥感图像的有效检索。

表 1 不同方法实验结果总体的平均精度对比
Table 1 Comparison of overall average accuracy of different methods

下载CSV

检索精度	检索图像数/幅	本文方法	CNN+LSH	CNN+DSH	CNN+EMR	CNN+SVM
平均查全率	20	0.389 4	0.355 4	0.342 0	0.302 7	0.381 3
	50	0.910 8	0.717 5	0.698 0	0.580 1	0.889 8
	100	0.986 0	0.899 7	0.857 7	0.787 5	0.949 9
平均查准率	20	0.977 8	0.869 4	0.838 9	0.738 9	0.969 4
	50	0.917 8	0.701 1	0.683 3	0.565 6	0.905 6
	100	0.502 2	0.441 1	0.419 4	0.382 8	0.482 6
平均检索精度(mAP)	20	0.365 3	0.300 7	0.278 4	0.245 1	0.354 7
	50	0.871 6	0.590 8	0.558 9	0.427 9	0.846 2
	100	0.917 6	0.709 2	0.668 4	0.543 6	0.886 6
注：加粗字体表示当前检索图像数下的最优结果。

除了5类遥感图像的检索效果不理想外，其他类别遥感图像的检索效果都较为优越。例如高速公路和飞机跑道类的检索精度与农田类的相近、港口和停车场类的与飞机类的相近、高尔夫球场和储油罐类的与棒球场类的相近、河流类的与海滩类的相近、森林类的与丛林类的相近、十字路口类的与立交桥类的相近，且都比其他方法高。而对于检索效果不理想的建筑物、住宅、中密度住宅区、稀疏住宅区和网球场等5类遥感图像，本文方法与其他方法得到的检索精度相差甚微，并且精度都比较低。导致检索精度低的主要原因是这5类遥感图像各类别之间图像特征相似度非常高，以人的视觉理解很难分开，同时，每类检索得到的结果中都存在大量其他类的图像。

2.2.1 查全率对比结果分析

不同检索方法总体的平均查全率如图 9(a)所示，通过对比可知，本文方法明显高于其他方法。从表 1的数据可知，当检索样本数为50幅时，本文方法的平均查全率达到了91%，而其他方法最高仅达到89%，说明本文方法的准确度更高。而所有的方法随着检索图像数的增加，会逐渐将与查询图像相似的图像检索出来，所以平均查全率会逐渐上升。

图 9 检索精度对比效果图

Fig. 9 Contrast effect diagrams of retrieval accuracy ((a) average recall rate; (b) average precision rate; (c) PVR curves; (d) mAP curves)

2.2.2 查准率对比结果分析

不同检索方法总体的平均查准率如图 9(b)所示，通过对比可知，本文方法明显高于其他方法。从表 1中的数据可知，当检索样本数为20幅时，本文方法对各类遥感图像检索的平均查准率超过了97%，而其他方法的平均查准率都相对较低，虽然未添加反馈和训练集筛选的SVM方法的平均查准率超过了96%，但是在后续对其速度的分析中，其检索速度比本文方法慢了很多，说明本文方法的检索收敛性优越。随着检索图像数的增加，所有方法都会将与查询图像不相似的图像检索出来，所以平均查准率会有所下降。

2.2.3 PVR和mAP曲线结果分析

PVR曲线是以查全率$R$为$X$轴，查准率$P$为$Y$轴，形成的查全率—查准率曲线。PVR曲线与$X$轴围成的图形的面积即为平均检索精度mAP。PVR曲线围成的曲线图面积越大，说明图像检索的效果越好。图 9(c)是不同检索方法总体的PVR曲线，可以看出本文方法的PVR曲线在其他方法之上。图 9(d)是不同检索方法总体的mAP曲线，可以看出本文方法的PVR曲线图围成的面积明显高于其他对比方法。从表 1的数据可知，当检索图像数达到100时，本文方法的平均检索精度近似达到了0.92，而其他方法的平均检索精度相对较低，说明本文方法的检索性能更优越。

2.2.4 检索速度

本文运用Top-$ k $方法筛选训练样本集，合理缩小训练样本个数，减少训练最优超平面的时间。表 1的数据表明，本文方法相比于其他方法都有不同程度的提升，证实了本文方法在精度提升方面的优越性。与LSH、DSH和EMR算法相比，本文方法的检索精度高出很多，因此在对比检索速度时不考虑以上3种方法。对同样采取SVM的文献[15]方法，由于检索精度很高，需要考虑其检索速度。由于本文方法和文献[15]方法在检索时提取的特征相同，所以二者的检索速度主要受特征分类速度的影响，而训练超平面的时间将直接影响SVM的分类速度，本文通过合理筛选训练样本集减少训练样本个数，保证了训练样本集中训练样本的代表性，从初始选取的1 000幅训练样本中合理筛选400幅进行实验。而文献[15]方法的训练样本集是随机选取1 000幅训练样本进行实验，并没有进行筛选，所以训练样本个数较多，从而分类速度较慢，进而导致检索速度较低。

若文献[15]方法同样选取400幅图像进行实验，由于图像是从图像库中随机选取的，虽然能够保证较快的检索速度，但是由于训练集没有代表性，检索精度将大幅度降低。表 2是文献[15]方法在400幅和1 000幅样本时对实验中的6类遥感图像的检索精度，表中展示的是检索图像数为50时的检索结果。从表 2可以看出，当训练集为400幅时，与1 000幅时的检索结果相比，各类别遥感图像检索的平均查全率和平均查准率都有所降低，说明训练集的选取对检索精度的影响非常大。而且对于图像检索，主要的评价指标是检索精度，其次才是检索速度。如果检索精度很低，那么检索速度再高也毫无意义。从表 1可知，本文方法的检索精度比训练集为1 000幅时的文献[15]方法高，说明了本文方法对训练集筛选的有效性，达到了通过选取较小的训练集实现较高检索的目的。

表 2 不同个数训练集的检索精度对比
Table 2 Comparison of retrieval accuracy of different training sets

下载CSV

/%
图像类别	平均查全率		平均查准率
图像类别	400幅训练样本	1 000幅训练样本	400幅训练样本	1 000幅训练样本
农田	81.75	88.24	88.2	95.2
飞机	80.47	92.27	76.4	87.6
棒球场	77.16	84.62	82.8	90.8
海滩	89.61	93.93	87.2	91.4
丛林	90.51	96.43	85.6	91.2
立交桥	70.47	78.39	78.4	87.2

本文选择与精度较高的训练集为1 000幅时的文献[15]方法进行速度对比，求取实验中农田、飞机、棒球场、海滩、丛林、立交桥6类遥感图像各个类别的10次检索结果时间的平均值和总体的平均检索时间，并进行对比，结果如表 3所示。从表 3可以看出，本文方法的平均检索速度不仅在各个类别上比文献[15]方法的平均检索速度快很多，而且总体的平均检索速度也比文献[15]方法快了将近4倍。

表 3 平均检索速度对比
Table 3 Comparison of the average retrieval speed

下载CSV

方法	平均检索时间/s						总体平均检索时间/s
方法	农田	飞机	棒球场	海滩	丛林	立交桥	总体平均检索时间/s
本文	19.378	32.253	35.354	23.151	18.103	34.488	27.121
文献[15]	79.226	128.375	144.682	88.951	71.026	148.172	110.072

3 结论

为了解决传统的基于内容的检索方法面临的语义鸿沟问题，并且实现对遥感图像的有效检索，本文提出采用一种卷积神经网络进行遥感图像特征提取，并通过带有相关反馈的支持向量机进行特征分类的遥感图像检索方法。该方法充分考虑了遥感图像自身的特性，运用CLAHE方法对遥感图像进行预处理，限制局部对比度的增强幅度，进而限制了噪声的放大幅度；在特征提取阶段，采用自学习能力良好的卷积网络进行遥感图像特征提取，提取图像更深层且丰富的特征；同时运用泛化能力强的支持向量机作为基分类器进行特征分类; 为了提高检索速度和检索精度，将带有距离度量标准的相关反馈以及Top-$ k $训练集筛选的方法应用于支持向量机。本文方法能够有效提高遥感图像的检索效率。

参考文献

[1] Hang Y, Yang Y B, Chen Z Q. A survey of content-based image retrieval[J]. Application Research of Computers, 2002(9): 9–13, 29. [杭燕, 杨育彬, 陈兆乾. 基于内容的图像检索综述[J]. 计算机应用研究, 2002(9): 9–13, 29. ] [DOI:10.3969/j.issn.1001-3695.2002.09.003]

[2] Liu L, Kuang G Y. Overview of image textural feature extraction methods[J]. Journal of Image and Graphics, 2009, 14(4): 622–635. [刘丽, 匡纲要. 图像纹理特征提取方法综述[J]. 中国图象图形学报, 2009, 14(4): 622–635. ] [DOI:10.11834/jig.20090409]

[3] Tanase M, Veltkamp R C. Part-based shape retrieval with relevance feedback[C]//Proceedings of 2005 IEEE International Conference on Multimedia and Expo. Amsterdam, Netherlands: IEEE, 2005: 936-939.[DOI: 10.1109/ICME.2005.1521578]

[4] Zhang H Q, Liu X Y, Yang S, et al. Retrieval ofremote sensing images based on semisupervised deep learning[J]. Journal of Remote Sensing, 2017, 21(3): 406–414. [张洪群, 刘雪莹, 杨森, 等. 深度学习的半监督遥感图像检索[J]. 遥感学报, 2017, 21(3): 406–414. ] [DOI:10.11834/jrs.20176105]

[5] Liu B, Zhang H. Image retrieval algorithm based on convolutional neural network and manifold ranking[J]. Journal of Computer Applications, 2016, 36(2): 531–534. [刘兵, 张鸿. 基于卷积神经网络和流形排序的图像检索算法[J]. 计算机应用, 2016, 36(2): 531–534. ] [DOI:10.11772/j.issn.1001-9081.2016.02.0531]

[6] Gong Z T, Chen G X, Ren X L, et al. An image retrieval method based on a convolutional neural network and hash coding[J]. CAAI transactions on intelligent Systems, 2016, 11(3): 391–400. [龚震霆, 陈光喜, 任夏荔, 等. 基于卷积神经网络和哈希编码的图像检索方法[J]. 智能系统学报, 2016, 11(3): 391–400. ] [DOI:10.11992/tis.201603028]

[7] Li D M, Gai M Y, Li C R, et al. Research on adaptive optics image denoising algorithm based on the wavelet-based Contourlet transform[J]. Laser & Optoelectronics Progress, 2015, 52(11): #111001. [李东明, 盖梦野, 李超然, 等. 基于小波域的Contourlet变换法的自适应光学图像去噪算法研究[J]. 激光与光电子学进展, 2015, 52(11): #111001. ] [DOI:10.3788/LOP52.111001]

[8] Xu X, Chen Q, Sun H J, et al. Fast Retinex-based color image enhancement[J]. Computer Engineering and Applications, 2010, 46(5): 4–6, 72. [许欣, 陈强, 孙怀江, 等. 快速Retinex彩色图像增强[J]. 计算机工程与应用, 2010, 46(5): 4–6, 72. ] [DOI:10.3778/j.issn.1002-8331.2010.05.002]

[9] Li Y, Zhang Y F, Zhang Q, et al. Infrared image contrast enhancement based on haze remove method[J]. Chinese Journal of Lasers, 2015, 42(1): #0113004. [李毅, 张云峰, 张强, 等. 基于去雾模型的红外图像对比度增强[J]. 中国激光, 2015, 42(1): #0113004. ]

[10] Hai Y, Li L, Gu J. Imageenhancement based on contrast limited adaptive histogram equalization for 3D images of stereoscopic endoscopy[C]//Proceedings of 2015 IEEE International Conference on Information and Automation. Lijiang, China: IEEE, 2015: 668-672.[DOI: 10.1109/ICInfA.2015.7279370]

[11] Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 1-9.[DOI: 10.1109/CVPR.2015.7298594]

[12] Melgani F, Bruzzone L. Classification of hyperspectral remote sensing images with support vector machines[J]. IEEE Transactions on Geoscience and Remote Sensing, 2004, 42(8): 1778–1790. [DOI:10.1109/TGRS.2004.831865]

[13] Chen Y S, Zhao X, Lin Z H. Optimizing subspaceSVM ensemble for hyperspectral imagery classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(4): 1295–1305. [DOI:10.1109/JSTARS.2014.2307356]

[14] Wang X J, Yang L L. Application of SVM relevance feedback algorithms in image retrieval[C]//2008 International Symposium on Information Science and Engineering. Shanghai, China: IEEE, 2008: 210-213.[DOI: 10.1109/ISISE.2008.275]

[15] Fu R G, Li B, Gao Y H, et al. Content-based image retrieval based on CNN and SVM[C]//Proceedings of the 2nd IEEE International Conference on Computer and Communications. Chengdu, China: IEEE. 2016: 638-642.[DOI: 10.1109/CompComm.2016.7924779]

[16] Bai J W, Zhao Z C. Novel relevance feedback method based on SVM in image retrieval[J]. Software Guide, 2010, 9(10): 49–51. [白婧文, 赵志诚. 一种新的基于SVM相关反馈的图像检索算法[J]. 软件导刊, 2010, 9(10): 49–51. ]

[17] Jiang N N, Qi M, Hao C Y. A SVM based relevance feedback algorithm for image retrieval[J]. Computer Simulation, 2009, 26(1): 219–221, 330. [姜楠楠, 齐敏, 郝重阳. 一种基于SVM的相关反馈图像检索算法[J]. 计算机仿真, 2009, 26(1): 219–221, 330. ] [DOI:10.3969/j.issn.1006-9348.2009.01.059]

[18] Feng G H. Research on large scale SVM classification based on boundary K-nearest[J]. Computer Engineering and Applications, 2009, 45(23): 15–17. [奉国和. 边界K邻近大样本支持向量机分类[J]. 计算机工程与应用, 2009, 45(23): 15–17. ] [DOI:10.3778/j.issn.1002-8331.2009.23.005]

[19] Ju H Y, Zhang J B, Li C F, et al. Automated Remote Sensing Image Classification Method Based on K-means and SVM[J]. Application Research of Computers, 2007, 24(11): 318–320. [居红云, 张俊本, 李朝峰, 等. 基于K-means与SVM结合的遥感图像全自动分类方法[J]. 计算机应用研究, 2007, 24(11): 318–320. ] [DOI:10.3969/j.issn.1001-3695.2007.11.098]

[20] Meng X F, Ma Z M, Li X, et al. A Top-K query results ranking approach based on contextual preferences for web database[J]. Chinese Journal of Computers, 2014, 37(9): 1986–1998. [孟祥福, 马宗民, 李昕, 等. 基于上下文偏好的Web数据库查询结果Top-K排序方法[J]. 计算机学报, 2014, 37(9): 1986–1998. ] [DOI:10.3724/SP.J.1016.2014.01986]

[21] Yang Y, Newsam S. Bag-of-visual-words and spatial extensions for land-use classification[C]//Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems. San Jose, California: ACM, 2010: 270-279.[DOI: 10.1145/1869790.1869829]

[22] Chafik S, Daoudi I, Ouardi H E, et al. Locality sensitive hashing for content based image retrieval: a comparative experimental study[C]//Proceedings of 2014 International Conference on Next Generation Networks and Services. Casablanca, Morocco: IEEE, 2014: 38-43.[DOI: 10.1109/NGNS.2014.6990224]

[23] Jin Z M, Li C, Lin Y, et al. Density sensitive hashing[J]. IEEE Transactions on Cybernetics, 2014, 44(8): 1362–1371. [DOI:10.1109/TCYB.2013.2283497]