0引言图像特征提取是机器视觉研究的重要组成部分,广泛应用于图像的检索分类、识别和目标跟踪等领域。随着机器学习研究的不断开展,特征的提取越来越精细化,众多特征提取算法用于图像的分类与检索,诸如SIFT(scale-invariant feature transform),VLAD(vector of locally aggregated descriptors),FV(Fisher vector)以及众多在原有特征描述子的基础上开展的二次优化(Zheng等,2018)。在图像检索领域,特征所具有的表征能力是决定检索精度的关键,通过一些算法在图像标准库上检索精度的明显提升可以看出,特征越细腻,其检索分类能力越强,但细腻的特征由此又引出了在大规模的图像检索中的计算时间和空间成本问题。对于较高分辨率的图像。如果每幅图像包含2 k个特征点,那么对于百万当量的数据集,需要2×109个特征索引,其所需要的内存空间约1 TB,所带来的聚类、编码和量化的时间成本巨大,因此从众多特征点中选择能够与其他图像进行有效区分的特征便显得尤为重要。目前特征选择或约简主要从原始特征编码聚合和特征二次选择集成两个方面开展。二者在特征处理的时间顺序上完全不同,一个是在原始特征生成的过程进行聚合;另一个是在原始特征生成之后开展二次特征选择。代表性的如弱几何一致性(Jégou等,2008)方法,根据特征点主方向和尺度在图像发生变换后直方图上的一致变化,通过弱几何一致性来实现特征匹配点的校验,以主方向旋转角度为例,多数的匹配特征点应该集中在图像的实际旋转角度范围内,而偏离匹配点角度波峰较远的特征点实际为误匹配,可以将其剔除,从而实现特征点选择。Jégou和Chum(2012)利用主成分分析(principal component analysis, PCA)和白化技术分别在同一尺寸的复合词典、不同尺寸的复合词典和主流低维特征向量等方面开展了对比研究,利用余弦相似性测量函数与倒排文档集成,规避了稀疏矩阵与权重均值向量直接相减所带来的检索负面影响,并在实验中表明了简单的SSR(signed square rooting)、PCA和白化的集成,可以有效降低特征向量维度,且保证检索精度。Turcot和Lowe(2009)提出了无效的特征点仅存在于单幅图像中,有效特征存在于包含该目标特征的不同图像中的思想,利用词袋模型对数据集中的每一幅图像进行检索,对前$M$个近邻图像进行几何一致性检验,如果检验的特征点数量大于阈值,则认为两幅图像是联通的,特征点作为有效特征保存,并在图像的连通域内修正TFIDF(term frequency-inverse document frequency)权重。该方法将原特征点数量约简至12 % 左右。Tolias等人(2013)提出的匹配核函数选择方法,对所有属于同一个单词的特征向量求均值,以此生成汉明二进制编码,以及在汉明编码方面进行的一些查询扩展(Tolias等,2013)。在原始特征编码聚合方面,VLAD(Jégou等,2010)将特征向量表示为特征点与聚类中心差值之和,增强特征表达能力。Fisher vector(Sánchez等,2013)利用Fisher kernel形成图像紧凑特征的表示。以及各类以核函数为基础建立的描述子和混合核函数描述子(Mukundan等,2017;Bursuc等,2015),该类特征利用笛卡尔坐标和极坐标、梯度模和梯度方向、梯度方向与极坐标角度差等物理位置信息,通过傅里叶级数逼近上述特征,将其映射为特征向量,最后使用克罗内克积形成新的特征向量。为了有效解决核函数逼近问题,Vedaldi和Zisserman(2010)提出了一种有效的核函数映射方法,Chum(2015)建立低维度特征映射,解决了拟合精度和维度选择的平衡问题,通过特征维度及拟合误差之和的线性规划,选择平衡常数$γ$和kernel signature的系数$ω$,实现了低维度特征映射,使上述特征得到了广泛应用。另外,还有在图像分类中表现优异的卷积神经网络,其迁移学习而来的全连接层和卷积层特征广泛地应用于图像检索。此类方法是利用在大规模数据集中预先训练好的卷积神经网络,提取某层的输出作为图像的特征表示(Babenko等,2014;Razavian等,2014)。Yan等人(2016)分别从场景、目标和特征点3个层面进行特征提取,有效地将SIFT和CNN(convolutional neural network)特征融合在一起。结合上述特征选择研究,以剔除冗余原始特征点这一简单思路为出发点,构建基于词袋模型的特征点连通图,选择有效特征,提高检索效率。1词袋模型词袋模型(bag of words,BOW)的核心思想是通过K均值聚类或者高斯混合模型聚类在训练数据集中训练生成词典(vocabulary),对一幅图像中每一个特征点测量其到所有词典单词(words)的距离,并归到最近邻单词所属类,通过计量每一个单词所归属特征点的数量形成特征直方图,即表征了整个图像的特征信息。其模型流程如图 1所示。 图1 BOW模型框架 Framework of BOW modelFig 1在整个BOW的建模过程中,一系列的量化编码方法用于特征直方图的优化表达,如经典的空间金字塔结构模型(Lazebnik等,2006),通过对在特征空间中不同物理位置的特征点分块加权,形成不同权重的特征表达,以及众多金字塔的改进模型(Avrithis和Tolias,2014;Karakasis等,2015)。还有诸如FV(Perronnin等,2010)、VLAD使用多阶绝对差构建编码空间,描述局部特征分布与视觉单词之间的多阶差异,实现对原始特征的压缩聚合优化。Rootsift(Arandjelović和Zisserman,2012)利用平方根函数完成SIFT空间到RootSift的映射。最后通过距离函数、核函数映射、支持向量机(support vector machines,SVM)等一系列相似性测量来计算直方图的差异,完成图像的匹配、分类和检索。2BOW的图像检索机制设图像提取的$D$维局部特征${\mathit{\boldsymbol{X}}}=[{\mathit{\boldsymbol{x}}}_{1}, {\mathit{\boldsymbol{x}}}_{2}, …{\mathit{\boldsymbol{x}}}_M, ]∈ {\bf{R}} ^{D×M}$,BOW使用特征向量量化的方式来形成词典。其量化方式一般可以表示为 1 $\begin{gathered}q: {\bf{R}}^{D \times M} \rightarrow[1, k]\\\boldsymbol{x} \rightarrow q(\boldsymbol{x})\end{gathered}$ 量化函数$q$完成特征向量${\mathit{\boldsymbol{x}}}$到一个索引的映射,在BOW模型一般采用K-means聚类,其聚类中心作为映射的量化索引,即称之为words,从而形成词典${\mathit{\boldsymbol{B}}}=[b_{1}, b_{2}, …, b_N]∈ {\bf{R}}^{D×N}$。那么, 相似的两个特征向量,必然在words上面具有相似的概率分布,令特征向量子集$\boldsymbol{X}_{b}=\{\boldsymbol{x} \in \boldsymbol{X}: q(\boldsymbol{x})=\boldsymbol{b}\}$表示归属于单词${\mathit{\boldsymbol{b}}}$的子集,对于两幅图像的BOW模型,二者间的相似性测量函数可以表示为 2 $\begin{gathered}\boldsymbol{K}(\boldsymbol{X}, \boldsymbol{Y})= \\\gamma(\boldsymbol{x}) \gamma(\boldsymbol{y}) \sum\limits_{\boldsymbol{b} \in \boldsymbol{B}}(T F \sim I D F(\boldsymbol{b})) M\left(\boldsymbol{X}_{b}, \boldsymbol{Y}_{b}\right)\end{gathered}$ 式中,$TF \sim IDF$为单词${\mathit{\boldsymbol{c}}}$的词频(term frequency)和逆文本频率(inverse document frequency)。归一化因子$\gamma(\boldsymbol{x})=\left(\sum\limits_{\boldsymbol{b} \in B}(T F \sim \operatorname{IDF}(\boldsymbol{b})) M\left(\boldsymbol{X}_{b}, \boldsymbol{X}_{b}\right)^{-\frac{1}{2}}\right.$,$K$(${\mathit{\boldsymbol{X}}}$, ${\mathit{\boldsymbol{Y}}}$)则为两幅图像间的相似性差异,分值的大小决定了其在检索图像的排序(rank)。3特征连通图的构建设当前有图像集$\boldsymbol{I}=\left\{\left[\boldsymbol{I}_{1}, \boldsymbol{I}_{2}, \cdots, \boldsymbol{I}_{i}\right]\right\}$,图像${\mathit{\boldsymbol{I}}}_i$中包含$N$个特征点$\boldsymbol{V}=\left\{\left(p_{i}, s_{i}, \boldsymbol{x}_{i}\right)\right\}_{i}^{N}$, 式中$p_{i}$是特征的物理位置,$s_{i}$是特征的尺度函数,${\mathit{\boldsymbol{x}}}_{i}$是特征向量。根据上述词袋模型理论,每一个特征点分别归属于词典中的单词,根据最近邻和次近邻特征的理论(Lowe,2004),本文仿照repetitive structures(Torii等,2015)从特征归属$D$个最近邻单词的角度开展特征点连通分组。设有两个特征点${\mathit{\boldsymbol{V}}}_{a}和{\mathit{\boldsymbol{V}}}_{b}$,选择每个图像特征点的前$D$个最近邻单词,令${\mathit{\boldsymbol{H}}}_{a}={[{\mathit{\boldsymbol{b}}}_{a1}, {\mathit{\boldsymbol{b}}}_{a2}, …, {\mathit{\boldsymbol{b}}}_{aD}]}$,${\mathit{\boldsymbol{H}}}_b={[{\mathit{\boldsymbol{b}}}_{b1}, {\mathit{\boldsymbol{b}}}_{b2}, …, {\mathit{\boldsymbol{b}}}_{bD}]}, {\mathit{\boldsymbol{b}}}_{ai}, {\mathit{\boldsymbol{b}}}_{bi}≤NumWords, NumWords$为既定词典单词数量。二者交叉核为 3 $\boldsymbol{I}\left(\boldsymbol{H}_{a}, \boldsymbol{H}_{b}\right)=\sum\limits_{i}^{D} \min \left(\boldsymbol{H}_{a i}, \boldsymbol{H}_{b i}\right)$ 如果${\mathit{\boldsymbol{I}}}({\mathit{\boldsymbol{H}}}_{a}, {\mathit{\boldsymbol{H}}}_b)≠{\mathit{\boldsymbol{∅}}}$,且$ {\mathit{\boldsymbol{x}}}_a-{\mathit{\boldsymbol{x}}}_bc(s_a+s_b)$,其中$c$是常数项,且$0.5s_a/s_b1.5$,则认为${\mathit{\boldsymbol{V}}}_a和{\mathit{\boldsymbol{V}}}_b$在同一组内。以此类推,对图像内所有特征点遍历之后, 得到一个包含$n$个连通分支或平凡图的分离图,即 4 $\begin{gathered}\boldsymbol{G}(\boldsymbol{V}, \boldsymbol{E})=\boldsymbol{G}_{1}\left(\boldsymbol{V}_{1}, \boldsymbol{E}_{1}\right) \cup \boldsymbol{G}_{2}\left(\boldsymbol{V}_{2}, \boldsymbol{E}_{2}\right) \cup \cdots \cup \\\boldsymbol{G}_{n}\left(\boldsymbol{V}_{n}, \boldsymbol{E}_{n}\right)\end{gathered}$ 式中,${\mathit{\boldsymbol{V}}}$表示该图内的特征点索引,$|{\mathit{\boldsymbol{V}}}| $=$N$;${\mathit{\boldsymbol{E}}}$表示特征点边集,每一个连通分支${\mathit{\boldsymbol{G}}}_{i}({\mathit{\boldsymbol{V}}}, {\mathit{\boldsymbol{E}}})$边权值相同,令其$ω({\mathit{\boldsymbol{e}}})=ω_n,{\mathit{\boldsymbol{e}}}∈{\mathit{\boldsymbol{E}}}$。根据IDF(inverse document frequency)思想,少量图像所包含的单词更具有区分性。通过IDF对每个单词设定权重,从而减少具有普遍性的单词对分类的影响,增加重要的、区分性更强的单词的影响,同时图像特征点的前$D$个最近邻单词中,不同单词的归属贡献度不同,贡献度越大其具有代表图像更重要特征的能力,在图像的匹配上更具有优先权。根据IDF完成特征点连通图权值的$ω({\mathit{\boldsymbol{e}}})$设定,即 5 $\omega_{n}=\frac{1}{D} \sum\limits_{i}^{D} \log \frac{N}{c\left(\boldsymbol{b}_{i}\right)+1}$ 式中,$c({\mathit{\boldsymbol{b}}}_{i})$为单词${\mathit{\boldsymbol{b}}}_{i}$在图像中出现的次数,最后,不同图像间的相似性模型修订为 6 $\boldsymbol{K}(\boldsymbol{X}, \boldsymbol{Y})=\gamma(\boldsymbol{x}) \gamma(\boldsymbol{y}) \sum\limits_{\boldsymbol{b} \in \boldsymbol{B}} \omega_{n} M\left(\boldsymbol{X}_{b}, \boldsymbol{Y}_{b}\right)$ 采用特征向量的克罗内克积作为匹配核,即$M({\mathit{\boldsymbol{X}}}_b, {\mathit{\boldsymbol{Y}}}_b)=\sum\limits_{{\mathit{\boldsymbol{x}}} \in {\mathit{\boldsymbol{X}}}} \sum\limits_{{\mathit{\boldsymbol{y}}} \in {\mathit{\boldsymbol{Y}}}} ϕ({\mathit{\boldsymbol{x}}})^{\rm{T}}ϕ({\mathit{\boldsymbol{y}}})$,其中$ϕ({\mathit{\boldsymbol{x}}}),ϕ({\mathit{\boldsymbol{y}}})$为特征编码方法。4连通域内的特征选择根据大规模图像内容,无论图像是否受到仿射变换、噪声等方面的影响,大连通域通常包含在图像的重复结构和冗余特征上,其所包含的特征点不具有典型的特征代表意义。正是如此,Torii等人(2015)在复杂的地域场景信息中建立了重复结构特征,完成对重复场景的特征有效分类。而小连通域包含了大量的孤立点,记为${\mathit{\boldsymbol{V}}}_{\rm{singleton}}$,这些孤立点的度为0,即$\boldsymbol{V}_{\text {singleton }}=\{v \mid {deg}(v)=0, v \in \boldsymbol{V}(\boldsymbol{G})\}$。图 2第1行图像用不同颜色展现了大连通图的特征点,图像中的天空、地面和墙面等物体通常为极大连通子图所在,所包含的点集对于后期的图像分类和检索并不具有典型的可区分性。第2行图像标注了图像中的孤立点${\mathit{\boldsymbol{V}}}_{\rm{singleton}}$,这些点包含了两个层面的信息:1)是一些具有典型可区分性的角点等,这符合IDF中少量图像中所包含的单词更具有代表性的思想;2)属于既没有与其他点集相关,单词中也无共性,无法在其他图像中匹配的特征点。 图2 Oxford Building部分图片连通域和singleton特征点 Connected regions and singleton feature points in Oxford BuildingFig 2实验中,Keble和All_Souls的部分匹配实验可以直观看出连通分量对于特征点匹配的影响,如图 3所示。Keble中连通分量在23以下的子图包含了大多数的正确匹配点,而数量仅为原始特征的50 %,All_Souls中连通分量20以下的子图则包含了81个正确匹配特征点,接近其最大正确匹配值(85),而随着更多连通分支的加入,正确匹配的个数反而呈下降趋势。孤立点同样存在占比大而匹配度低的问题,由此可见特征点的数量并不是越多越好,冗余特征的加入反而会增加误匹配的数量。 图3 Keble和All_Souls的部分匹配实验 Matching experiments of Keble and All_SoulsFig 3((a) Keble feature matching sample; (b) the relationship between matching numbers and connected components of Keble; (c) All_Souls feature matching sample; (d) the relationship between matching numbers and connected components of All-Souls)因此在大连通图和孤立点中进行有效的特征选择十分必要,在精度不变的情况下,数量的减少势必降低计算复杂度和存储空间。从孤立点单词间的联系和连通分支的连通分量两个角度出发,进行特征选择。1) 孤立点的选择为 7 $\begin{gathered}\boldsymbol{V}_{\text {sels }}(\boldsymbol{G})=v_{\text {sels }} \mid \max \left(I\left(\boldsymbol{H}_{v_{\text {sels }}}, \boldsymbol{H}_{v_{\text {com }}}\right)\right)n, \\v_{\text {sels }}, v_{\text {com }} \in \boldsymbol{V}_{\text {singleton }}\end{gathered}$ 式中,$v_{\rm{sels}}$是孤立点集合中的候选点,$v_{\rm{com}}$是其他点,${\mathit{\boldsymbol{V}}}_{\rm{sels}}({\mathit{\boldsymbol{G}}})$为选择后的特征集合。2) 连通分支的选择为 8 $\boldsymbol{V}_{\mathrm{cn}}(\boldsymbol{G})=\left\{\boldsymbol{V}_{i}(\boldsymbol{G})|| \boldsymbol{V}_{i}(\boldsymbol{G}) \mid \leqslant \gamma, i \leqslant n\right\}$ 式中,${\mathit{\boldsymbol{V}}}_{\rm{cn}}({\mathit{\boldsymbol{G}}})$为选择后的连通分支集合,最终的特征点集合${\mathit{\boldsymbol{V}}}_{\rm{sf}}({\mathit{\boldsymbol{G}}})={\mathit{\boldsymbol{V}}}_{\rm{sels}}({\mathit{\boldsymbol{G}}})∪{\mathit{\boldsymbol{V}}}_{\rm{cn}}({\mathit{\boldsymbol{G}}})$。其中连通分量$γ$,$n$的选择变成为保证匹配精度$ε$情况下,最小化分离图${\mathit{\boldsymbol{G}}}({\mathit{\boldsymbol{V}}}, {\mathit{\boldsymbol{E}}})$的阶${\mathit{\boldsymbol{V}}}_{\rm{sf}}({\mathit{\boldsymbol{G}}})$,即 9 $\begin{aligned}&\min \left(\left|\boldsymbol{V}_{\mathrm{sf}}(\boldsymbol{G})\right|\right) \\&\text { s. t. } \quad C_{\mathrm{s}}\left(\boldsymbol{I}_{i}, \boldsymbol{I}_{j}\right) \geqslant \varepsilon C_{\mathrm{o}}\left(\boldsymbol{I}_{i}, \boldsymbol{I}_{j}\right)\end{aligned}$ 式中,$C({\mathit{\boldsymbol{I}}}_{i}, {\mathit{\boldsymbol{I}}}_{j})$为两幅图像间特征匹配数量。 10 $C\left(\boldsymbol{I}_{i}, \boldsymbol{I}_{j}\right)=\left|\left\{\left(v_{i}, v_{j}\right) \in \boldsymbol{I}_{i} \times \boldsymbol{I}_{j} ; h\left(v_{i}, v_{j}\right) \leqslant \boldsymbol{h}_{t}\right\}\right|$ $C_{\mathrm{o}}\left(\boldsymbol{I}_{i}, \boldsymbol{I}_{j}\right)$和$C_{\mathrm{s}}\left(\boldsymbol{I}_{i}, \boldsymbol{I}_{j}\right)$分别为原始特征匹配数量和特征选择后的匹配数量。本文特征选择方法与UsefulFeatures(Turcot和Lowe, 2009)不同之处在于,UsefulFeatures属于后验型的特征选择,也就是首先将每一幅图像完成图像检索之后,把满足几何一致性的特征保存下来,通过校验两两图像构成近邻图像,形成图像级的无向图。其优点在完成一次彻底的全图像检索后,形成有效特征数据集,便于以后的再次查询。而本文算法是像素集的分离图,其特征选择是在完整的图像检索前发生的,对于一些大规模的图像集能够显著地减少其算法复杂度。5实验为了验证特征选择的有效性,实验采用Oxford数据集和Paris数据集对其进行评估。图像检索性能指标采用平均查询准确率(mean average precision, MAP)。使用SIFT作为特征向量,其Peakthrold取0.001;BOW模型的词典选择Oxford数据集中提供的100 k词典,特征选择参数$n=3,D=50$。硬件环境为:Xeon(R) CPU E5-2640,64 GB内存的Station;软件环境为Linux下的MATLAB 2018a。5.1Oxford数据集该图像集共包含11个建筑类,其中每个建筑类包含5个查询图像,共55幅标准查询图像,查询结果包含Good、OK、Junk和Bad这4个分类。鉴于研究方法重点在于特征选择的有效性,为进一步扩大查询范围,实验采用Good分类中所有的图像作为查询图像。参数$γ$=18。1) 特征约简。特征约简率并不会因为数据集的大小而发生明显变化,因此这里的约简实验仅采用Oxford数据集标注为Good、OK和Junk的图像,共660幅图像。实验结果如表 1所示,特征点筛选率接近原始特征点的一半,存储空间节省54 % 左右。 表1 特征约简表 阈值$γ$ 原始特征点数量 存储容量/MB 特征选择数量 存储容量/MB 约简率/% 时间复杂度/s 10 1 419 844 693.3 544 103 265.7 38 99.71 15 1 419 844 693.3 615 611 300.6 43 99.84 20 1 419 844 693.3 664 231 324.3 47 100.05 25 1 419 844 693.3 700 207 341.9 49 100.137 30 1 419 844 693.3 728 270 355.8 51 99.83 Feature reductionTable 12) 特征点选择前后在不同方法上的对比。使用原始特征点(original features,OF)和选择后的特征点(selected features,SF)分别与IDF,RootSift, Vlad,以及深度学习的全连接层特征, 卷积层的Bilinear特征(Lin等,2018)进行对比。如图 4和图 5所示,通过对比可以发现,BOW+IDF和RootSift的OF和SF之间每一类建筑的MAP实际上相差无几,对于类别All_Souls、Ashmolean、Keble等,选择后的特征向量检索精度反而优于原始特征向量,其误差棒范围中的最高AP(average precision)也高于原始特征。而对于聚合编码的Vlad特征,SF相对于OF有着明显的下降,其原因主要在于Vlad是全部特征上进行编码降维的,特征点的选择会减少其编码信息量,从而带来特征表达能力的损失,深度学习特征在Magdalen和Radcliffe两类建筑中表现优异,其他类检索效果一般,其中Bilinear特征相比其他深度学习特征检索精度高出3 % 左右,但整体检索精度仍有待提高。各类图像MAP的均值如表 2所示,SF+IDF显著高于其他特征表示方法,略低于原始特征。结合上述特征约简实验中50 % 的约简率来看,微弱检索精度的损失尚在可接受范围内。部分图像检索结果如图 6所示。 图4 编码聚合特征对比 Performance comparison with aggregation featuresFig 4 图5 深度学习特征对比 Performance comparison with deep learning featuresFig 5 表2 各类图像MAP的均值 方法 平均MAP Selected features+IDF 0.554 Original features+IDF 0.571 RootSelected 0.510 RootOriginal 0.527 VladSelected 0.287 VladOriginal 0.413 VGG19-FC6 0.454 Bilinear 0.482 Alex-FC6 0.454 Resnet18-FC1000 0.449 Means of MAP for different classesTable 2 图6 基于特征选择的部分图像检索结果 Retrieval results based on feature selectionFig 63) 不同特征抽取和选择方法的对比。将算法SF与PCA、LPP(locality preserving projection)、SR-LPP(spectral regression-LPP)、LS(Laplacian score)共4种不同特征抽取和选择方法进行对比,同时增加SF+PCA的集成实验,进一步验证SF的拓展集成性。Jégou和Chum(2012)将特征约简维度设置为128,实验结果如图 7和表 3所示。 图7 不同特征抽取和选择方法的对比 Retrieval results based on feature selectionFig 7 表3 时间复杂度对比 计算时间和频率 方法 PCA LPP SR-LPP LS SF SF+PCA 100 k词典的KD-Tree查询/s 528.3 528.3 528.3 528.3 221.9 221.9 特征抽取和选择/s 17.1 40.2 3 872.5 31.0 864.3 22.9 复合$N$个词典的特征选择频率 $N$ $N$ $N$ $N$ 1 1 Time complexity comparisonTable 3通过对比可以看出,LPP和LS的特征选择在Ashmolean、Balliol等6个建筑物类别的检索中表现较差,不适合在多类别的数据集中进行降维。PCA、SR-LPP和算法SF在11类的检索实验中表现较为稳定,SR-LPP虽然检索效果较好,但是对于100 k的词典,其矩阵转置相乘耗时较长,无法满足大规模图像检索的需要。PCA的检索精度则与本文算法相似,与其他3种算法相比,其优点是单次降维时间较少,但同样每次特征直方图的形成需要重新降维。而词典层面的降维则需要重新聚类,大词典的聚类则具有相当高的时间复杂度和空间复杂度。算法SF的主要特点在于其基于原始特征点的选择,所得到的特征点保持了原始独立性,在此基础上又可以从特征向量的角度进一步降维、聚类,方便在不同词典中移植和编码,具有很好的拓展性,其中SF+PCA的集成,仅需特征向量进行投影约简,即可实现特征向量的再次降维,且具有突出的检索效果。5.2Paris数据集Paris数据库包含12类,共6 412幅图像。除去General类包含涉及到其他各类的通用图像外,其他每类包含5个查询图像,共55幅标准查询图像,与Oxford Buliding相似,查询结果包含Good、OK、Junk和Bad等4个分类。针对每类图像,对不同连通域所选择的特征分别进行检索, 如图 8所示。随着连通域参数$γ$的不断增加,选择的特征逐渐包含所有原始特征。 图8 连通域对于检索结果的影响 The influence of connected domains on retrievalFig 8((a) Defense and Eiffel; (b) Invalides and Louvre; (c) Moulinrouge and Museedorsay; (d)Notredame and Pantheon; (e)Pompidou and Sacrecoeur; (f)Triomphe and Mean map)检索结果表明,除了Defense类随着特征数量增加,图像检索精度得到提升之外,其他10类图像检索精度相对于特征数量普遍存在一个明显的波峰,也即说明原始特征中存在一定数量的特征是典型表征图像意义的,而其他特征则是冗余的,这些特征的加入不但没有明显效果的提升,反而由于冗余信息的混淆降低了检索精度。接下来使用选择后的特征点(Selected features,SF)分别与原始特征点、RootSift、Fisher vector、Vlad及深度学习方法进行对比。各类图像的检索精度和均值如图 9和表 4所示。 图9 不同特征提取方法对比 Comparison of different feature extraction methodsFig 9 表4 各类图像MAP的均值 方法 平均MAP Selected features 0.397 Original features 0.299 Root 0.346 Vlad 0.377 Fisher vector 0.396 Alex-FC6 0.592 VGG19-FC6 0.604 Resnet18-FC1000 0.597 Bilinear 0.558 Means of MAP for different classesTable 4 加粗字体表示最优结果。实验结果表明,11类图像的检索中,与原始特征相比,特征选择后8类图像的MAP明显高于原始特征,1类持平,另外两类略低;与Root特征相比,同样有8类图像明显较高,1类持平,2类略低;与Vlad相比,7类较高,4类偏低;与Fisher vector相比,6类较高,1类持平,4类偏低。所以,在大部分类别中特征选择是行之有效的。图 10则显示了其部分图像检索结果,另一方面,深度学习特征在该数据集中表现出了良好的检索效果,除了Notre Dame和Pantheon外,各类检索都优于其他算法,MAP的均值在55 % 以上,普遍高于编码聚合类特征提取算法。因此,如何将SF算法与深度学习特征进一步融合,提高特征选择的普遍适用性,将是下一步研究的重点。 图10 基于特征选择的部分图像检索结果 Retrieval results based on feature selectionFig 106结论针对大规模图像检索,提出了一种简单有效的特征点选择方法。大规模图像数据集中特征向量体量巨大,为后期BOW词典聚类和相似性测量计算带来了时间和空间的挑战,本文从减少特征点数量这一简单思路为出发点,结合词典前$D$个最近邻单词归属、尺度特征和特征距离等特征点属性,构建特征分离图,实验表明了大连通图点集的冗余性和孤立点的部分可区分性,最后通过设置连通分量阈值摒弃大连通区域的冗余特征点,根据孤立点间的最近邻单词相关性保留具有典型特征意义的点。实验结果验证了该特征选择方法的有效性,在保证原有检索精度的基础上,有效的约简特征在50 % 以上,且部分类别的检索效果甚至优于原始特征,在与其他特征抽取和选择方法的对比中,同样保证了稳定和优异的检索性能。但是,不同图像最优的连通域阈值是不同的,实验中连通分量的选择是根据先验知识统一设定的,忽略了图像个体间的差异性。在未来的研究中,将针对不同图像,自适应地选择连通分量,形成最优特征点集,并将其与深度学习特征有效结合。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读