发布时间: 2017-11-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170503
2017 | Volume 22 | Number 11

综述

多媒体工程：2016——图像检索研究进展与发展趋势

于俊清¹, 吴泽斌¹, 吴飞², 孙立峰³

1. 华中科技大学计算机科学与技术学院, 武汉 430074;

2. 浙江大学计算机学院, 杭州 310058;

3. 清华大学计算机科学与技术系, 北京 100084

收稿日期: 2017-08-16; 修回日期: 2017-09-04

基金项目: 国家自然科学基金项目（61572211）

第一作者简介: 于俊清(1975-), 男, 教授、博士生导师, 2002年于武汉大学计算机学院获工学博士学位, 主要研究领域为多媒体信息处理与检索、多核计算与数据编译、网络安全与教育信息化等。E-mail:yjqing@hust.edu.cn.

中图法分类号: TP301.6

文献标识码: A

文章编号: 1006-8961(2017)11-1467-19

摘要

目的基于内容的图像检索方法利用从图像提取的特征进行检索，以较小的时空开销尽可能准确的找到与查询图片相似的图片。方法本文从浅层特征、深层特征和特征融合3个方面对图像检索国内外研究进展和面临的挑战进行介绍，并对未来的发展趋势进行展望。结果尺度下不变特征转换（SIFT）存在缺乏空间几何信息和颜色信息，高层语义的表达不够等问题；而CNN（convolutional neural network）特征则往往缺乏足够的底层信息。为了丰富描述符的信息，通常将SIFT与CNN等特征进行融合。融合方式主要包括：串连、核融合、图融合、索引层次融合和得分层（score-level）融合。"融合"可以有效地利用不同特征的互补性，提高检索的准确率。结论与SIFT相比，CNN特征的通用性及几何不变性都不够强，依然是图像检索领域面临的挑战。

关键词

尺度不变特征; 卷积神经网络; 特征融合; 图像检索

Multimedia technology 2016:advances and trends in image retrieval

Yu Junqing¹, Wu Zebin¹, Wu Fei², Sun Lifeng³

1. Computer Department of HuaZhong University of Science and Technology, Wuhan 430074, China;

2. Computer Department of Zhejiang University, Hangzhou 310058, China;

3. Computer Department of Tsinghua University, Beijing 100084, China

Supported by: National Natural Science Foundation of China(61572211)

Abstract

Objective Content-based image retrieval uses features extracted from an image to retrieve similar images accurately and with low memory and time consumption from a large-scale dataset.Scale-invariant feature transform (SIFT) is robust to translation, scaling, rotation, viewpoint changing, and occlusion, as well as performs fast extraction.Thus, SIFT is widely used theoretically and practically.However, SIFT has some shortcomings, such as a lack of spatial geometric information and color information.Convolutional neural network (CNN) has good domain transferability, and deep features from pre-trained CNN can be applied to various domains.CNN deep features have recently attracted considerable attention and exhibit superior performance over SIFT.However, contrary to the shortcoming of SIFT, CNN features lack shallow information.Thus, SIFT is usually fused with CNN features and other shallow features. Method This report reviews the recent advances and challenges in image retrieval in the world and in China, including shallow feature, deep feature, and feature fusion.Future development trends are also explored.For shallow features, we mainly review SIFT and its variants, the encoding methods, and the development of these methods.For deep features, we divide the descriptors of the features into different categories according to the type of CNN layer that was used:fully connected layer, convolutional layer, and softmax layer.Many features can be extracted from a convolutional layer, and many pooling methods are proposed. Result The encoding methods of SIFT mainly include bag of features (BOF), vector of locally aggregated vectors (VLAD), Fisher vector (FV), and triangulation embedding (TE), and they mostly consist of two steps:embedding and aggregation (or pooling).For CNN features, features from the fully connected layer of CNN are typically used because of their good transferability and accuracy.However, deep features from the convolutional layer have become an increasingly attractive option recently because the convolutional features can be effectively combined with a variety of pooling methods such as sum-pooling, max-pooling, VLAD-pooling, and FV-pooling, and they perform well in the domains of image classification and retrieval.The fusion methods can mainly be divided into five types:concatenation, kernel fusion, graph fusion, index-level fusion, and score-level fusion.Concatenation, kernel fusion, and index-level fusion work directly on different features, and graph fusion and score-level fusion work on the retrieval results of different features.Fusion uses complementary different features and can improve image retrieval accuracy effectively. Conclusion SIFT and CNN feature are complementary to each other:SIFT contains rich low-level information, and CNN features contain rich high semantic information; SIFT has a good property of invariance, which is the shortcoming of CNN features.Fusion is an effective way to maximize image information.However, time and space consumption will inevitably increase, and a good algorithm that can be used to distinguish good features from bad ones is yet to be studied.At present, the generalizability and geometric invariance of CNN features are inferior to those of SIFT; this issue continues to be a challenge for image retrieval researchers.The generalizability of CNN features is limited by the domain and statistic difference between the source task (usually ImageNet) and the target task.Fine tuning is a good strategy to solve this problem; however, this approach needs an additional labeled dataset similar to the target task.To enhance the geometric invariance of CNN, the CNN descriptor space consumption and extraction time will inevitably increase, and only scale invariance is usually considered for simplicity, ignoring other aspects of invariance.Moreover, the number of CNN features from one image is usually much smaller than that of SIFT; thus, insufficient information for encoding will be captured.The most commonly used CNNs are designed for image classification tasks and not for image retrieval.However, image retrieval is a more fine-grained domain; a relevant algorithm needs to find similar images, not just the images from one class.Thus, a CNN trained for image retrieval may be a good future research direction.More work is still needed to strike a better balance among generalizability, invariance, memory consumption, and extraction time for an effective and efficient image retrieval descriptor.

Key words

scale invariant feature transform (SIFT); convolutional neural network (CNN); feature fusions; image retrieval

0 引言

随着计算机网络、社交媒体、数字电视和多媒体获取设备的快速发展，以图像和视频为代表的多媒体数据的生成、处理和获取变得越来越方便，多媒体应用日益广泛，数据量呈现出爆炸性的增长，已经成为大数据时代的主要数据对象。如何在海量的图像大数据中以较小的时空开销准确地找到一幅感兴趣的图像，已经成为近年来多媒体和信息检索领域的重要研究热点。

基于内容的图像检索(CBIR)方法利用从图像提取的特征来进行检索。常用的图像特征主要有颜色、纹理和形状，包括局部特征和全局特征。局部特征是基于图像的某个区域提取的图像描述符，如尺度不变特征转换(SIFT)^[1-2]。全局描述符基于整幅图像提取的描述符，如GIST^[3]。全局特征对图像的压缩率较高，但区分力不强；局部特征的区分力强，但数目太多，故而各种编码方法被提了出来，如特征袋(BOF)^[4]，Fisher向量(FV)^[5]，以及VLAD (vector of locally aggregated descriptors)^[6]等。BOF、VLAD、FV等描述符通常继承了局部特征的部分不变性，如对平移、旋转、缩放、光照和遮挡等与语义相关不大的因素保持不变。

基于SIFT等图像描述符的检索效果相对于现有的其他特征明显改进，然而，SIFT存在如下几个问题：1) 缺乏空间几何信息; 2) 缺乏颜色信息; 3) 缺乏高层语义。为了丰富描述符的信息，通常将SIFT与其他的特征进行融合。如文献[7]中，利用核来融合多种特征，形成语义属性特征，再与FV相串联以融合SIFT特征。文献[8]则是通过图来融合SIFT与颜色特征，以提高检索的准确率。文献[9]则是通过一个2维索引结构来融合SIFT与颜色特征。

SIFT描述的是图像的底层特征，无法很好地表示图像的高层语义，因此，基于数据驱动的图像特征提取方法被提出，神经网络就是其中之一。然而，最初之时，神经网络的层与层之间是全连接的，参数太多，网络不能太深，否则，训练将非常困难。一方面，训练将非常耗时；另一方面，当时没有带标签的大数据集，训练网络时容易发生过拟合。卷积神经网络(CNN) ^[10-12]的神经元是局部连接的，是一种易于训练的网络，这使得CNN可以更深。随着ImageNet^[13]等带标签的大数据集的提出，CNN得以广泛应用。在ILSVRC2012 (imagenet large scale visual recognition challenge 2012) 比赛上，Alex等人^[14]提出的CNN框架取了冠军，远远超过了前人的结果，此CNN通常被称为AlexNet。AlexNet拥有5个卷积层，3个全连接层，6 000万参数，65万个神经元。为了加快训练，AlexNet以ReLU^[15]作为激励单元，利用GPU进行加速；此外，AlexNet在全连接层使用了Dropout^[16-17]，以减弱过拟合现象。继AlexNet之后，VGGNet(或OxfordNet)^[18]、GoogLeNet^[19] (ILSVRC2014冠军)、ResNet^[20](ILSVRC2015冠军)等新的CNN框架相继被提出，CNN被广泛应用到图像分类^{[14, 19]}、语义分割^[21]、动作识别^[22-23]、语音识别^[24-25]和机器翻译^[26-27]等领域，并几乎都获得了当时最好的结果。

文献[28-30]等表明，CNN具有良好的跨域特性(或通用性)，从预训练的CNN提取的特征可以被广泛应用到各个领域的各种数据集。文献[28]中，预训练的CNN被用于图像分类、属性检测、细粒度识别、图像检索，均取得了优良的结果。文献[28]表明，源任务数据集(ImageNet)与目标任务数据集的差异越小，视觉识别任务的效果越好。基于卷积神经网络的深度学习得到的特征不仅保持了一定的不变性，而且还包含了更多的高层语义信息，可以有效地缩小底层特征与高层语义之间的鸿沟^[31-32]。CNN全连接层特征性能较好，是最常使用的CNN特征，然而，CNN全连接层特征的几何不变性无法与SIFT相比，且缺乏对局部细节的描述，因而卷积层特征也成为了研究的热点。

本文将从浅层特征、深层特征和特征融合3个方面对国内外研究进展和面临的挑战进行介绍，并对未来的发展趋势进行展望。

1 国际研究现状

1.1 浅层特征

浅层特征提取方法基于领域知识通过固定的算法提取特征，目前被广泛采用且效果良好的浅层特征有SIFT、GIST等。根据在提取过程中使用的是图像区域还是整幅图像，这些特征又可分为局部特征(如SIFT)和全局特征(如GIST)。全局特征对图像信息的压缩率更高，但检索的准确率不如局部特征。本节首先描述了SIFT特征及其各种变体，继而介绍了对SIFT编码形成的各种浅层描述符。

SIFT^[1]由David于1999年提出，用于解决图像匹配这个计算机视觉领域的基本问题。SIFT不仅对尺度、旋转和平移具有不变性，而且对遮挡、噪声及光照变化也具有较好的鲁棒性；SIFT的生成过程非常快，可以满足实时性的要求。SIFT被广泛用于对象和场景识别，而其潜在应用则不胜枚举，如3D重建、动作跟踪、机器人定位及图像全景缝合等。Ke等人在SIFT的基础上提出了PCA-SIFT^[33]。PCA-SIFT在SIFT提取算法中使用主成分分析(PCA)，得到的是36维的特征向量，在图像检索方面取得了比SIFT更高的准确率与速度。Mikolajczyk等人^[34]对SIFT，PCA-SIFT等10种描述符在使用各种区域检测子的情况下进行比较，提出了SIFT描述符的一种变体，梯度—位置—方向直方图(GLOH)，以提高描述符的区分性和鲁棒性。不同于基于差分图像的SIFT，Bay等人^[35]基于积分图像对SIFT进行全面改进，提出了一个SIFT的加速版，加速的健壮性特征(SURF)，SURF的稳定点检测器以及区域描述器都与SIFT的不同。Arandjelovic等人^[36]利用1-范数归一化和平方根变换得到了比SIFT区分力更强的描述符RootSIFT。

由于一幅图像中包含的局部特征数目不同且数量众多，可达数百甚至数千，而每个局部特征的维度较高，因此不方便图像间的快速相似度比较，无法适应大规模图像检索对存储开销和快速响应的要求。针对上述问题，研究者们提出了多种特征编码方法，可以将不同图像中数目不一的一组局部特征变换生成一个固定长度的特征表达，以实现高效图像检索。常见的特征编码方法包括BOF，FV，VLAD等。

1.1.1 BOF

BOF^[4]在2003年由Google Robotics Research Group的研究人员提出，这一概念是文本检索在图像检索领域的推广。在文本检索中，一篇文章被看成是词的集合，每篇文章对应一个词频向量，将此概念推广到图像检索中，一幅图像被看成一篇文章，由若干个“视觉单词”构成，每幅图像对应一个tf-idf(词频-逆文档频率)^[37]向量。“视觉单词”就是由k-means算法对图像的视点不变区域提取的SIFT向量聚类生成的中心向量，也称为码字，所有“视觉单词”的集合称为“词典”或“码书”。BOF的码书通常较大，维度较高，是一个比较稀疏的向量，可以利用向量量化方法来形成倒排索引，以提高检索速度，检索结果按查询图像与数据库图像的tf-idf向量间的余弦距离排序。为了减少BOF对空间的占用，以适合大数据集，法国信息与自动化研究所INRIA的Jegou等人^[38]提出了对BOF进行二值化并对其进行稀疏压缩的方案，在BOF的基础上提出了一种二值化BOF－miniBOF^[38]。miniBOF占用的空间比BOF减少了至少一个数量级，检索准确率没有明显的下降。

1.1.2 VLAD

法国Jegou等人^[6]针对图像检索应用，联合优化内存占用、检索准确率与检索速度，提出了VLAD。VLAD对k-means生成的每一个Voronoi-cell中的特征的残差求和，形成一个子向量，然后将这些子向量串连起来。为了减少VLAD对空间的占用，可以对VLAD进行PCA变换，为了加快使用倒排列表对图像的检索，可以对VLAD用积量化(PQ)^[39]编码和非对称距离计算(ADC)。为了保证各个分量方差的均衡，可在PCA后再进行一个正交变换。在INRIA Holidays、UKB等数据集上的实验结果表明，VLAD的测试准度率(或区分力)要高于BOF、FV和miniBOF。Arandjelovic等人^[40]进一步提出了内部归一化(intra-normalization)，以消除“视觉爆发(visual burstiness)”现象^[41]；为了应对数据库的变动问题，Arandjelovic等人还提出了一个码书更新策略。

Wang等人结合SIFT特征的角度信息提出了gVLAD(geometric VLAD)^[42]，比普通的VLAD的检索准确率有了较大的提高，取得了优于Intra-VLAD^[40]的性能。Wang等人研究了小数据集高维和大数据集(Holidays1M)低维($D$=128) 两种情况下的gVLAD性能，表明了gVLAD的优越性。

1.1.3 FV

BOF要得到较高的准确率，通常需要较大的码书(几万至几十万)，时空开销较大，训练也较为困难。Perronnin等人^{[5, 43]}利用一个混合高斯模型来近似底层特征向量(如SIFT)的分布，生成分类用的码书，并用这个模型参数(权值、均值和标准差)的梯度来作为图像的一个新的表示方法，并将这个梯度向量用于分类。这个“梯度向量”就是FV向量。BOF和VLAD本质上是FV的特殊情形：BOF仅使用了频数信息(0阶统计信息)，VLAD仅使用了均值梯度信息(1阶统计信息)。VLAD可以看做是FV的硬分配版本：用k-means代替了GMM。Perronnin等人表明，仅使用均值与标准差的梯度信息即已达到最优，故而通常不用权值梯度信息。FV以较小的码书(几十至几百)取得了优于BOW的性能。Perronnin等人对FV进一步改进，提出了IFV(improved FV)^[44]。IFV利用了2-范数归一化、幂律标准化(power-normalization)和空间金字塔(spatial pyramid)^[45]3种策略。“幂律标准化”本质上用于消除“视觉爆发”现象，而空间金字塔则是提供了多个尺度的信息。Perronnin等人^[46]进一步研究了FV的二值化压缩问题，提出了FV的一个二值化版本。

1.1.4 TE

VLAD和FV描述符的构建过程基本上都可以分为两步：1) 嵌入，将低维局部向量映射到高维向量空间。2) 聚集，将高维向量集合用sum-pooling等方法聚集成一个向量。Jégou等人^[47]对两步分别进行了改进，提出了三角嵌入(TE)和民主聚集(DA)。TE仅考虑向量的角度而抛弃向量的模长信息，TE对残差向量进行归一化。TE计算了特征到每一个码字的残差，而非仅仅计算与最近邻码字的残差。给予主方向太高的权重是冗余的，TE后会进行一个白化操作。TE使得不相关的两个向量间的内积接近于0，即对相似度没有贡献。简单的sum-pooling导致各个局部特征在最终得到的全局描述符中的贡献并不一样，DA使得各个局部描述符对最终的全局描述符的贡献相等。TE是在嵌入阶段消除不相关向量的交叉作用，而DA则是在聚集阶段消除交叉作用。在Holidays，Oxford等图像检索数据集上的实验表明，TE优于FV-embedding，DA优于sumpooling.TE+DA性能要优于FV。TE+DA后往往还要进行一个PCA旋转和归一化处理，以消除cooccurence现象^[48]，进一步提高准确率。

1.2 深度特征

1.2.1 全连接层

Babenko等人^[49]利用预训练的CNN来提取图像的特征，并将这些从CNN的全连接层提取的特征称为“神经编码(Neural Codes) ”。Babenko等人还进一步研究了“微调(finetune)”对神经编码的影响：在使用一个Landmark数据集进行微调的情况下，神经编码在Oxford building数据集上的准确率提高了10个百分点。Babenko等人利用INRIA Holidays、UKB和Oxford Buildings等公共数据集研究了PCA对从CNN提取的特征的影响，发现神经编码不易受PCA降维的影响。

Razavian等人^[30]研究了ILSVRC2013中的基于CNN的Overfeat网络^[50]提取的特征，表明从Overfeat网络提取的特征可以被有效地用于图像分类、场景识别、细粒度识别、属性检测和图像检索等视觉识别领域。Razavian等人提出的CNNaug-ss特征在Holidays、UKBench、Oxford5k等公共数据集上取得了比普通的CNN、汉明嵌入(HE)^[51]、VLAD、改进的Fisher向量(IFV)、BOF等全局特征要好的检索效果。

为了增加CNN特征的不变性，Gong等人^[52]在多个尺度提取图像的CNN全连接层特征，并利用它们构成VLAD向量，此向量被称为多尺度无序池化(MOP-CNN)。MOP-CNN对伸缩、平移和旋转都具有一定的不变性。MOP-CNN在SUN397场景识别数据集上的效果要优于DeCAF, 在Holidays数据集上的图像检索结果表明，MOP-CNN的准确率要高于FV和VLAD等基于SIFT的描述符。MOP-CNN的不足在于，由于采用了滑动窗口法来生成多个尺度的分片，而每个分片要通过CNN一次，增加了生成MOP-CNN的时间开销。

Liu等人^[53]研究表明，FV并不适合对高维局部向量(如从图像分片提取的CNN特征)，并提出了一种新的FV编码方法-SCFVC(sparse-coded fisher vector coding)。SCFVC通过一定的近似，将模型的目标函数转化成了稀疏编码模式。类似于MOP-CNN，Liu等人先用滑动窗口法从图片提取大小为227×227像素的分片，然后从每一个分片提取一个FC6特征(来自CNN的FC6层)以作为局部特征；最后，利用SCFVC对这些局部特征进行编码。不同的是，MOP-CNN使用了3个尺度，而且利用VLAD对这些局部FC特征进行编码。在场景分类数据集上的实验结果表明，仅使用一个尺度SCFVC的性能与使用了3个尺度的MOP-CNN相当。

同样为了增强描述符的几何不变性，Reddy等人^[54]提出了对象层深度池化(OLDFP)，OLDFP利用了对象先验知识。OLDFP利用选择搜索(selective search)^[55]方法来提取包含对象的图像分片，然后再提取各个分片的全连接层特征。“选择搜索”对每幅图片平均生成2 000个分片，OLDFP根据分片包含对象的概率(或得分)来对各分片进行排序，仅选取得分最高的100个分片。各个分片的全连接层特征最后通过max-pooling来形成一个图片的全局描述符。OLDFP描述符在各个图像检索公共数据集上取得了优于TE和gVLAD的性能。OLDFP在Holidays数据集上的mAP要高于MOP_CNN。OLDFP的不足在于，要利用“选择搜索”来提取图像分片，从中选取的100个分片都需要通过CNN一次，增加了时间开销。

1.2.2 卷积层

使用卷积层来构造描述符的方法按照其使用的pooling方法的不同，主要可以分为4类：Max-pooling(最大值池化)，sum-poling(和池化)，VLAD-pooling(VLAD池化)和FV-pooling(FV池化)。研究者们通常使用CNN的最后一个卷积层。使用pooling层的方法也算作使用卷积层的方法，因为pooling层的特征图(feature map)是对卷积层的特征图使用max-pooling得到的。

1) max-pooling。Razavian等人^[56]对CNN生成的图像表述进行了大量的研究。为了增加特征的几何不变性，Razavian等人提出了多分辨率搜索(MR)。MR从输入图片不同的位置生成多种尺度的图像分片，因为对象的大小可能不相同，且可能出现在图片的任何位置。MR将每一个分片输入CNN，提取最后一个卷积层的特征，进行max-pooling便得到单个分片的描述符。两幅图片间的相似度用两幅图片对应的分片描述符集合来计算。为了进一步加强特征的不变性，Razavian等人提出了Spatial max-pooling(空间max-pooling)。Spatial max-pooling比简单的max-pooling保留了更多的空间信息。Razavian等人从每幅图片提取了4种尺度的30个分片，这意味着每幅图片要通过CNN 30趟，会增大距离计算的开销，Razavian等人使用GPU来进行图片间的距离计算。结合PCA-白化等后处理技术，MR在5个图像检索数据集上均取得了当时最好的结果。

Tolias等人^[57]研究了图像检索的“初步搜索”和“再排序”两个过程，提出了卷积区域最大响应(R-MAC)^[57]。R-MAC利用与MR^[56]类似的方法来生成多尺度的分片。R-MAC利用CNN的卷积层来生成图像分片的特征，然后用max-pooling来形成一个全局描述符。R-MAC用积分图像来进行近似max-pooling，以加速对分片的max-pooling操作。结合查询扩展(QE)，R-MAC超越了SPoC^[58]等方法。

细粒度图片检索(FGIR)^[59]源自于细粒度图像识别^[60-62]研究的是在由同一种物体形成的数据集中的检索。比如，这种数据集可以是由不同品种的狗形成的，查询时，要找出相似的同一种类的狗。图片之间的差异非常微小。FGIR通常没有监督数据，所以是一个比通用图像检索要困难得多的问题。通用图像检索只需要找到具有相似的内容(在纹理和形状上)的图片。针对FGIR问题，Wei等人提出了选择性卷积描述符聚合(SCDA)^[63]。SCDA用阈值法来定位图片中的物体，以去掉背景噪声；对此物体区域对应的CNN特征进行average-pooling /max-pooling(实际上是将这两者串联起来，以利用它们的互补性)，便得到了SCDA。为了提高SCDA的区分力，Wei等人组合VGGNet的pool5层和relu5_2层，形成一个加强版的描述符：SCDA⁺。为了进一步增强描述符的不变性，Wei等人串联水平翻转图片的SCDA⁺描述符，形成一个新的描述符SCDA_flip⁺。SCDA_flip⁺在6个细粒度检索数据集上取得了高于SPoC和CroW^[64]的准确率，与R-MAC相当。Wei等人研究了SCDA_flip⁺的压缩问题，发现“SVD+白化”不仅可以对SCDA_flip⁺进行降维，还可以进一步提高描述符的准确率，表明SCDA_flip⁺中存在冗余。

2) sum-pooling。大部分计算机视觉研究者都是从CNN的全连接层提取特征，认为卷积层特征的区分力不够强。Liu等人^[65]指出，如果适当的使用，卷积层特征可以比全连接层的特征更好。Liu等人提出了“跨卷积层池化(CCLP) ”^[65]技术，以用来对卷积层特征进行编码。卷积层输出的特征图通常对应了一些具有语义意义的区域，因此CCLP利用第($i$+1) 个卷积层的特征图来为其在第$i$层中对应的ROI中的局部特征加权。将第$i$个卷积层中的所有ROI中特征的加权和串连起来便得到了最终的图像表示。结合多分辨率方法，CCLP在场景分类、细粒度分类、物体分类、人类属性分类等任务上取得了优于MOP-CNN、SCFVC等使用全连接层的方法。Liu还指出，简单的符号量化对CCLP描述符的区分力影响极其微小，从而可以实现高度压缩。

FV和TE等描述符的构建过程大致分为嵌入和聚集两步。“嵌入”过程将SIFT特征嵌入到高维向量空间；“聚集”过程利用sum-pooling等方法对高维向量进行汇聚。Babenko等人^[58]发现，CNN卷积层特征具有不同于浅层特征(如SIFT)的特性，利用简单的sum-pooling和PCA-白化对VGGNet最后一个卷积层的特征进行处理后形成的描述符在四个公共检索数据集上取得了要高于用全连接层生成的神经编码和MOP-CNN的准确率，而不需要费时的高维嵌入过程。此描述符被称为基于和池化的卷积层特征(SPoC)^[58]。由于没有高维嵌入过程，SPoC的维度不是很高，不需要很多的数据来计算PCA矩阵。虽然没有嵌入过程，SPoC的性能要优于FV和TE等浅层描述符。

类似于CCLP^[65]，Kalantidis等人提出了跨卷积层加权(CroW)^[64]，以利用CNN的最后一个卷积层来生成图像描述符。CroW在“通道加权(channel weighting)”中引入了稀疏性，因为Kalantidis等人发现特征图上的稀疏模式更具有区分力，类似于BOW中的稀有特征更具有区分力。此通道加权策略称之为“稀疏敏感的通道加权(SSW)”，类似于BOW的idf加权，也可以有效地处理“视觉爆发”问题。在低维情况下(128或256维)，CroW在图像检索公共数据集上取得了优于Neural Codes，SPoC和R-MAC的结果。

3) VLAD-pooling。Yue等人^[66]认为全连接层最后面的几层是为了分类的任务而训练的，包含了很多有利于分类的高层语义特征，对局部对象的描述信息不足，不一定适合图像检索；而且训练集图像的尺寸与测试集图像尺寸可能不相同。类似于MOP-CNN，Yue等人也利用VLAD来对CNN特征进行编码，不同的是，MOP-CNN是在多个尺度对全连接层特征进行VLAD编码，而Yue等人则是在一个尺度对卷积层进行VLAD编码。

为了处理识别图片中的位置，Arandjelovic等人^[67]提出了一个“端到端学习(end-to-end-learning)”的方法来学习VLAD描述符，此描述符被称为NetVLAD^[67]。Arandjelovic等人去掉CNN后面所有的FC层，然后在最后一个卷积层后添加一个VLAD层，以码书作为参数，此VLAD层可以用BP算法来进行训练。此VLAD层用的是Intra-VLAD ^[40]，同时结合软分配(soft-assignment)^[68]策略。Arandjelovic等人用一个卷积层和一个softmax层实现了软分配。NetVLAD在地点识别任务上取得了优于Intra-VLAD和全连接层特征的性能。

4) FV-pooling。类似于MOP-CNN从3个尺度提取全连接层特征来增强描述符的几何不变性，Yoo等人提出了多尺度金字塔池化(MPP)^[69]。Yoo等人首先对CNN进行改造，将后面的全连接层替换成了等价的卷积层，使CNN变成一个全卷积层网络，这样输入就可以是任意大小。然后，在此全卷积网络后面添加一个MPP层以生成多尺度FV描述符。不同于MOP-CNN将3个尺度的描述符串联，MPP使用了average-pooling，对3个尺度的FV进行了一个平均，形成一个FV描述符。尽管MPP和MOP-CNN都使用了多尺度方法，MPP与MOP-CNN相比，主要的不同点在于：(1) 多尺度输入的生成，MOP_CNN利用滑动窗口法来生成其余两个尺度的图片分片，而MPP则利用下采样形成的尺度金字塔；(2) pooling方法，MOP_CNN使用的是VLAD，MPP使用的是FV；(3) 多尺度融合，MOP_CNN使用的是串连(将3个尺度的特征串连起来)，而MPP使用的是average-pooling(对3个尺度的FV进行平均)。MPP在场景分类任务上取得了远优于MOP_CNN的结果。

1.2.3 softmax层

自然场景分类是一类具有挑战性的问题，物体在图片的空间布局差异通常很大。基于SIFT的BOW和基于CNN的特征是目前最常用的方法。然而，还有比较特别的方法，这类方法生成的描述符被称为“语义描述符”，此类描述符通常也被称为语义袋(BoS)^[70-71]。BoS以分类器的概率向量作为特征。尽管此类方法在场景分类任务上取得了优于BOW的性能，但是还是不如FV，因为从图像分片提取的语义特征含有很多噪声，而且BOW等编码方法未必直接适用于概率向量。Dixit等人^[72]提出了SemanticFV来解决这些问题。SemanticFV使用CNN分类器来生成语义特征，利用FV来对语义特征进行编码。由于CNN分类器比传统的SVM分类器要准确得多，得到的语义特征更精确。Dixi等等人认为，由于概率向量空间是非欧的，所以并不适合直接用FV对其进行编码。Dixi等人通过对数变换将概率向量映射到线性空间(欧氏空间)。为了得到足够多的局部语义特征，Dixi等人从4个尺度对图像进行P×P的分割，对每个块提取fc8层(即softmax层)的特征，然后用于生成SemanticFV。实验表明，SemanticFV在场景分类数据集上优于使用fc7层的MOP_CNN和使用fc6层的SCFVC。

1.3 特征的融合

1.3.1 串连

Douze等人^[7]将属性描述符用于图像检索领域，并与FV相结合，取得了当时最好的实验结果。Douze等人共用了4种特征来形成属性描述符：1) SIFT，利用SIFT生成BOF描述符；2) GIST，描述图像空间布局；3) PHOG(pyramid of histograms of oriented gradients) ^[73]，此描述符描述的是形状；4) Self-similarity描述符^[74]，此描述符描述的是自相似性，即描述的纹理。Douze等人将空间金字塔分割与这些描述符相结合以进一步提高区分力，每一个金字塔层对应一个$χ^2$-RBF核，将各个核平均后用于SVM，每种属性(或类别)对应一个二分类器。将各属性的得分串联起来，标准化并降维后便得到了属性描述符。将属性描述符与FV向量串联便得到了融合后的描述符。直接串联是给属性描述符和FV赋予了相同的权重，Douze等人还提出一种加权融合的方法，给FV赋予较大的权重，使得准确率提高了5个百分点。

1.3.2 核融合

Gehler等人^[75]提出用多核学习(MKL)^[76]来将多个核融合成一个单一的模型，以用于处理图像分类问题。每种特征对应一个核，核的融合就是对特征的融合，特征的组合与选择就转化成核的组合与选择问题。MKL得到的是核的一个最佳的线性组合，也即特征的一个最佳线性组合。MKL最后只使用了一个SVM分类器，Gehler等人提出可以用线性规划boosting (LPBoost) ^[77]，使用了一种变体LP-β来代替MKL，为P种特征训练P个SVM分类器，每个SVM分类器作为一个弱学习机，最后用各个SVM的线性组合来作为一个最终的分类器。此种方式增强了最终分类器的通用性。实验结果表明，LP-β要优于MKL方法，二者都要优于简单的平均核和乘积核，表明LP-β和MKL都有效的选择具有选择区分力强的特征。

1.3.3 图融合

基于码树^[78]的方法的扩展性很好，但不同查询图片的准确率可能变化很大。Zhang等人^[8]提出用带权无向图来融合局部特征与全局特征的检索结果，以增强检索的准确率，此方法被称之为基于图的查询融合(graph-based query specific fusion)，简称为Graph Fusion(图融合)^[8]。Graph Fusion对每一种特征的检索结果构建一个k-互近邻^[79]图，通过对图进行链接分析来对查询结果进行重排序。GraphFusion以查询结果图片为顶点，以Jaccard相似性系数^[80]为顶点间边的权值。结点的连通度反映它与其他图片的相似程度。Zhang等人提出了两种方法对融合后图中的顶点(图片)进行重排序：1) PageRank^[81]概率向量。根据结点连通度对图片进行排序，利用权值与结点的连通度构建一个随机跳转矩阵，通过迭代算法计算出达到平稳时的各个结点的概率，此概率代表着被访问的概率，也代表着结点的重要程度，按此概率对结点排序并返回。2) 加权最大密度子图，返回边的平均权值最大的子图，此子图可以通过贪心算法得到。Zhang等人以SIFT作为局部特征，以哈希化处理的GIST和HSV作为全局特征，取得了高于码树方法的准确率，而且保留了码树方法的效率与可扩展性。此算法的问题在于要将所有数据库图片的k-互近邻算出来，而且不能适应数据库的动态变化，最优的k值对不同的数据集是不一样的，与查询图片的相关图片数有关。

1.3.4 索引层次的融合

Zhang等人提出了“语义敏感的协同索引(Semantic aware co-indexing)”^[82]，在索引层次融合低层的SIFT局部特征和高层的语义属性，以利用它们的互补性增强索引的区分力。很多的融合方法需要在线提取出多种特征，而这增加了时间开销，“语义敏感的协同索引”则是用语义属性离线更线码树索引，仅用SIFT进行在线查询。以denseHOG和局部二进制模式(LBP)^[83]来训练SVM分类器，以分类器的输出作为语义属性。为了便于进行距离计算，还要用sigmoid函数对语义属性进行处理。“语义敏感的协同索引”的生成是离线的，主要包括两步：1) 删除离群图片，对于某个码字对应的倒排索引而言，根据语义属性，删除与其他语义不相似的离群图片。2) 插入K-语义近邻图片(K-semantic nearest neighbor)，根据语义属性计算所有数据库图的K近邻，并插入到索引项中。查询时，K-语义近邻被用于对TF-IDF计算的相似度进行微调。“语义敏感的协同索引”在查询时仅需在线计算SIFT，语义被融合在索引中。

Liu等人将CNN特征包含进索引中，提出了DeepIndex^[84]。Liu等人利用空间金字塔分割来提取3个尺度14个特征，然后用它们来建立索引。Liu等人提出了两种形式的DeepIndex：1)1-D-DPI，1维的DeepIndex，仅用一个全连接层特征生成的BOW索引；2)2-D-DPI，类似于c-MI^[85]的2维DeepIndex，用两个全连接层形成的。因为使用了两个CNN层，所以包含了两个语义层的信息。对于2-D-DPI，Liu等人提出了两个变体：(1) intra-DPI，利用同一个CNN的两个全连接层；(2) inter-DPI，两个全连接层分别来自两个CNN，AlexNet和VGGNet。Inter-DPI的两个全连接层的差异比intra-DPI更大，互补性更强。为了提高准确率，Liu等人计算出图片的全局CNN特征存储在一张表格中，作为额外的补充信息，此信息称之GIS(global image signature)。此GIS与IDF将一起被用于计算特征间的相似度。与MA相结合，2-D-DPI取得了优于MOP_CNN的结果，但要逊色于融合了SIFT和CNN特征的DeepEmbedding^[86]。

1.3.5 得分层融合(score-level fusion)

研究者们通常认为全连接层的特征是最好的，所以只使用CNN的全连接层，Li等人提出了多层无序融合(MOF)^[87]以融合多个CNN层的特征。使用了CNN-M-128 ^[88]的conv3，conv5和fc7这3个层。Conv3是一个中间层，conv5是最后一个卷积层，fc7是一个全连接层。MOF通过融合3个层来同时包含低层的模式和高层的语义。类似于MOP-CNN，MOF首先使用滑动窗口法来生成大小为224× 224像素的图像分片，然后为每一个分片分别提取conv3, conv5，fc7层的特征。MOF使用max-pooling对卷积层的特征进行聚合。MOF为每一层建立一个BOW索引，并在索引中分别包含各层特征的HE二进制签名。查询时对3个层的相似度进行融合(各层相似度的加权和)，各层的相似度计算方式类似于HE方法。MOF在Holidays，UKB数据集上取得了与MOP_CNN相当的结果。滑动窗口法提取的分片可能含有背景噪声，对描述符的区分力造成了一定程度的影响。

2 国内研究现状

2.1 浅层特征

为了提高描述符的不变性，通常通过在训练集中加入水平翻转后的图片，但是这会使用算法的时空开销加倍。Xie等人提出了一个对于水平翻转具有不变性的局部描述符MAX-SIFT^[89-90]。MAX-SIFT是对原SIFT和从水平翻转后的图片得到的SIFT的进行max-pooling得到的。MAX-SIFT并没有从水平翻转后的图片再提取SIFT，而是利用原图片的SIFT来得到翻转图片的的SIFT，因为原SIFT与翻转图片的SIFT间存在一种简单的排列关系。这使得MAX-SIFT与SIFT的速度相当。在场景分类与细粒度分类等数据集上的实验结果表明，MAX-SIFT要优于SIFT。而且也要优于2014年提出的“基于狄利克雷分布的直方图特征变换(DHFT)”^[91]。虽然MAX-SIFT对水平翻转具有不变性，但对于其他严重变形的情形，MAX-SIFT可能与SIFT同样无能为力。

Gao等人对TE+DA编码方法进行了改进，提出了快速DA(FDA)^[92]。Gao等人主要从两个方面对TE+DA进行了改进：1) 提高核矩阵的计算速度。TE要使用嵌入到高维空间的向量来计算核矩阵，然后利用核矩阵来计算DA的权值。但是，Gao等人认为没有必要将SIFT映射到高维向量，对RootSIFT进行白化后，whitened-RootSIFT也可以获得TE后的高维向量的属性：相似的特征间的相似度较大，不相似的特征间的相似度较小。利用whitened-RootSIFT计算核矩阵极大的减少了算法的时空开销。2) 在提取SIFT时会引入人工“视觉并发(visual co-occurence)现象”：同一个图像分片被多个SIFT表示，这些SIFT仅仅是方向不同。Gao等人提出利用描述符间的空间上下文(如空间位置)来减弱这种现象。Gao等人利用空间上下文信息提出了一个依赖矩阵，利用依赖矩阵与原来的核矩阵的加权平均来形成一个新的核矩阵。实验结果表明，FDA比DA要快一个量级，而且FDA的准确率比DA要略高。

2.2 深度特征

2.2.1 全连接层

CNN的全连接层特征通常有4 096维，对其进行pooling后得到的维度将更大。Song等人^[93]提出利用CNN来学习一个低维的表示。Song等人减少ZFNet^[94]的FC7层的滤波器数(一般用1 024)，以此作为一个瓶颈层，此特征也被称为DBF(deep bottleneck feature)。Song等人利用滑动窗口法从输入图提取224×224像素的分片，从每一个分片提取一个DBF，然后用一种被称之为“二阶池化(second-order pooling)”^[94-95]的方法来对它们进行聚合，得到的描述符称之为BoDBF (Bag of DBF)^[93]。在PascalVOC2007^[96]对象分类数据集以及MIT场景分类数据集上的结果表明，BoDBF描述符优于MOP-CNN^[52]和SCFV^[53]。BoDBF由于使用的是简单的二阶池化，而且DBF特征维度较小，计算量比同样使用全连接层特征的SCFV、MOP-CNN等方法要小。

图像分类问题与图像检索有很多相似之处，这两个问题都可以用BOW来解决，不同的是，图像检索是“BOW+检索过程”，而分类问题是“BOW+分类器”。Xie等人表明，图像分类与检索本质上是相同的，并提出了在线近邻估计(ONE)^[97]这一算法来统一分类与检索问题。ONE是通过统一分类与检索的相似性计算算法来达到这一目的的。Xie等人用3种方法来对ONE算法加速：1) PCA降维；4 096维降至512维。2) ANN(approximate nearest neighbor)搜索：用积量化算法编码；3) GPU加速。ONE在3个场景分类数据集、3个细粒度分类数据集、2个图像检索数据集上都取得了当时最先进的结果。尤其是，ONE在当时最大的场景分类数据集SUN-397上使得准确率提升了将近10个百分点。ONE在Holidays/UKB数据集上达到了0.887/3.873。Xie等人将SIFT-BOW与ONE相结合，使得检索准确率进一步提升，不过很有限。

MOP-CNN使用滑动窗口法来生成多个尺度的图像分片，这些分片中有不少含有噪声，而OLDFP^[54]使用简单的max-pooling来对从分片提取的CNN特征进行聚合，造成了信息的损失。鉴于此，Bao等人使用VLAD-pooling来对从各分片提取的全连接层特征进行聚集，由此而形成的描述符称之为基于对象的深度特征聚集(OADF)^[98]。与OLDFP相同，OADF也利用Selective Search来生成图像分片，其与OLDFP的不同在于对分片使用了VLAD-pooling，因而可以看做是OLDFP的一个改进版。OADF在Holidays和Oxford数据集上取得了优于MOP-CNN和OLDFP的性能。Bao等人认为可以利用分片之间的关联来进一步提升性能。

2.2.2 卷积层

Gao等人^[99]研究了用深度特征进行图像识别的系统中各种因子的作用，以得到一个简单、有效和准确率高的图像分类系统。Gao等人主要研究了5种因子：1) 层，是使用卷积层还是使用全连接层；2) 标准化；3) FV的GMM的Gaussian分量数(K)；4) 空间信息；5) 多尺度。基于对这些影响因子的研究，提出了深度空间金字搭(DSP)^[99]描述符。DSP对卷积层特征图(而非对输入图像)使用空间金字塔(SP)分割以捕获空间信息，然后使用IFV对分割后的每一个块进行编码，将各个块的IFV描述符串联起来后便得到DSP描述符。因为是在特征图上使用SP分割，而不是在原输入图像上进行，所以只需前向通过CNN一次，节省了时间开销。MPP^[69]对原输入图像构建多分辨率金字塔，MOP-CNN则是对输入图像使用滑动窗口法来获取多个尺度的信息。此外，Gao等人提出了一个新的特征标准化方法：2-范数矩阵标准化，使用图片所有卷积层特征形成的矩阵的谱范数来对特征进行标准化。2-范数矩阵标准化使用了来自整幅图像的信息，可以捕获一些全局信息，对光照和尺度变化等更具有较强的抵抗力。Gao等人发现，当FV的K在1 4之间时(基于SIFT的FV使用的K值通常位于64 256)，DSP即可取得最优的结果。如此小的K值将极大的减小DSP的维度。极小的K值之所以有效，Gao等人认为是由于从卷积层提的局部特征太少了(100个左右)，不足以用于准确估计较大的GMM模型。为了进一步捕获多个尺度的信息，Gao等人提出了DSP的一个多尺度版本-Multi-scale DSP(Ms-DSP)。Ms-DSP对5个尺度的输入图片提取DSP，然后取平均。DSP在对象识别、场景识别、动作识别等数据集上都取得较好的结果。

2.3 特征融合

2.3.1 串连

为了同时利用局部特征与全局特征，以增强特征的区分力与抗噪性能，Sun等人提出了OR^[100]。Sun等人首先利用BING(二值化梯度范数)^[101]来获取图像分片；从每一个分片提取一个VLAD描述符(用SIFT生成)和一个CNN描述符(全连接特征)，PCA-whitening后串连起来即为OR描述符。Sun等人进一步利用积量化和倒排索引来加速检索，以适应大规模数据集。

近年来CNN在各个领域都取得当前最先进的结果，那么我们是否可以抛弃SIFT直接使用CNN特征呢？Yan等人认为，SIFT与CNN是互补的关系，并提出了CCS(complementary CNN and SIFT)^[102]描述符来融合SIFT与CNN特征。CCS是一种多层表示，融合了多个层次的信息：1) 场景层。场景层代表的是高层的语义信息，提取GoogLeNet的pool 5层作为此层的表示。2) 对象层。利用EdgeBox^[103]提取图像分片，选取得分最高的前100个分片，从每一个分片提取pool 5层的特征，然后用于生成VLAD。3) 点层。利用SIFT生成VLAD。融合SIFT可以有效的提高描述符的几何不变性。CCS利用PCA将VLAD降到1 024维，然后将3个层次的描述符串连起来并进行归一化，进行PCA-whitening处理，再归一化后即为最终的CCS描述符。CCS在Oxford数据集、Paris数据集和UKB数据集上取得了优于SPoC，MOP_CNN，OLDFP的准确率，证明融合SIFT与CNN的有效性。不过，CCS的VLAD的码书很大，取的是500(一般的情况下只取64 256)，这么大的码书会导致VLAD的维度很高，PCA矩阵的计算将比较困难。

为了利用多种互补的特征，Ge等人^[104]提出利用稀疏编码^[105]来对不同的特征进行编码，然后串连起来以达到融合的目的，此描述符在此处称之为“稀疏编码的特征(SCF)”^[104]。对于每一种特征，Ge等人先利用稀疏编码方法来生成特征的稀疏编码，然后利用max-pooling对稀疏编码进行聚合。Ge等人研究了特征的检测子与描述子的组合问题，提出利用Harris-DAISY^[106]和LOG-SIFT两种局部特征描述符。另外，Ge等人还提出了一种新局部颜色描述符micro。利用“稀疏编码+max-pooling”对所有分片的micro特征进行编码，就形成了一个新的颜色描述符-Sparse-coded micro feature (SCMF)。micro特征利用了图片的自相似性。将Harris-DAISY，LOG-SIFT和micro 3个特征的稀疏编码描述符串连起来就是最终的融合描述符。Ge等人还研究了用PCA和积量化对此描述符进行压缩以用于大规模图像检索的情形。实验表明，此描述符要优于VLAD，FV以及颜色袋(BOC)^[107]。虽然此稀疏编码特征在UKB上超越了当时的其他方法，但是，在Holidays数据集上要逊色于LBOC(local BoC)^[107]和HE。

2.3.2 核融合

简单的串连会增加特征的维度，Yeh等人提出用MKL来融合来自不同域的特征，此法称之为GL-MKL (group lasso muti-kernel learning)^[108]。GL-MKL使每种特征对应多个核，以每种特征作为一个组。GL-MKL混合使用ℓ₁-范数约束和ℓ₂-范数约束(称为ℓ_{1, 2}-norm约束)，以作为一个组lasso约束子(group lasso regularizer)。GL-MKL使用MKL来学习每个组中核的权值。组lasso约束子增强了组间的稀疏性，但组内却不用是稀疏的。组间稀疏性使得仅有少数区分力强的特征被使用，所以GL-MKL也是一种特征选择方法。Yeh等人将GL-MKL用于视频物体分类和图片分类。在处理视频物体分类问题时，使用了MFCC (梅尔频率倒谱系数)音频特征，SIFT特征，HOG特征，Gabor滤波器^[109]和EDH(边缘方向直方图)^[110]。实验结果表明，GL-MKL要优于LP-β。本质上，GL-MKL可以看成是LPBoosting的进一步推广，引入了组稀疏性的概念。

2.3.3 图融合

Liu等人^[111-112]认为GraphFusion方法易受离群图片(outliers)的影响，因为：1) 特征。并不是所有特征都是有效的，无效特征会引入离群图片。2) K近邻数。GraphFusion使用的是K-互近邻，K值理论上应当与查询图片的真实相关图片(groundtruth)数相等，但每张查询图片的相关图片数是不一样的，如果K大于相关图片数，就会引入离群图片。鉴于此，Liu等人提出了一个更不易受离群图片影响的方法——ImageGraph^[111-112]。ImageGraph是GraphFusion方法的改进版，与GraphFusion方法有如下不同：(1) 图。GraphFusion用的是K-互近邻图，而ImageGraph用的是一个单向K-近邻图(仅含出边，指向K-近邻)。K-近邻图的结点数比K-互近邻图的结点数更多，可以提高检索的查全率。(2) 相关性度量。Liu等人提出一个被称为Rank Distance的方法来度量两幅图片的相关程度。Rank Distance利用了两幅图片的排序，不易受离群图片的影响。(3) 相似性度量。GraphFusion用的是Jaccard相似性，ImageGraph的相似性度量方法称之为“贝叶斯相似性”，是基于Rank Distance方法求的概率模型。(4) 排序方法。GraphFusion的排序方法可能会导致不相关的图片间有很多边。ImageGraph的方法称为“Local Ranking”。Local Ranking旨在寻找一个最大加权子图，是一个局部最优的方法，而非全局最优，以避免被紧密相连的离群图片影响。ImageGraph用到了SIFT，GIST, HSV和CNN特征，并在Holidays和UKB数据集上取得了优于GraphFusion和“查询自适应晚期融合”^[113]的结果。

2.3.4 索引层融合

从IMI (inverted multi-index)^[85]得到启发，Zheng等人提出了耦合多维索引(coupled Multi-Index，c-MI) ^[9]，对SIFT和CN(颜色名)^[114]颜色特征在索引层次进行了融合。c-MI是一个2维索引，以SIFT和CN分别作为索引的1维。SIFT和CN分别对应一个码书，它们的每一个码字组合对应一个倒排列表。查询时，取出码字组合对应的倒排列表，tf-idf及CN的二进制签名计算相似度。Zheng等人将c-MI的策略总结为“装箱(packing)”和“填补(padding)”:“装箱”是指以SIFT和CN分别作为索引的1维；”填补”则是指使用一些别的策略来进一步提高检索的准确率与查全率。具体“填补”的内容有：1) MA(multiple assignment)。取多个近邻的倒排列表以提高查全率。2) SIFT的HE二进制签名。3) burstiness加权^[41]，消除“视觉爆发现象”。4) Graph Fusion。可以利用Graph Fusion将c-MI的结果与HSV的结果进行融合。c-MI在Holidays、UKB等图像检索公共数据集上取得了当时最好的结果。c-MI不仅时空开销较小，而且还可以进一步与其他的特征融合，不过索引的维度越高，倒排列表将会越稀疏，要提高查全率与准确率就要访问更多的倒排列表。

为了有效地同时利用SIFT和CNN特征，Zhou等人提出了“协同索引嵌入(CIE)^[115]。CIE利用索引矩阵对SIFT和CNN的两个特征空间的图片近邻结构进行相互迭代校正，使两个特征空间的近邻结构尽可能相似。由于两个特征空间的近邻结构接近，所以最后在查询时，只需CNN特征即可。CIE将CNN(AlexNet)的两个全连接层特征串连起来以作为CNN特征，并通过域值化对其进行了稀疏化处理，以适应于索引，减少索引开销，加快查询速度。CIE在Holidays与UKB数据集上取得了与“查询自适应晚期融合”^[113]以及ONE^[97]相当的准确率。

2.3.5 得分层融合(score-level fusion)

在利用多个特征进行检索时，对于给定的特征，并不知道哪些特征是有效的，哪些特征是无效的，所以应当开发一种自适应查询的方法。Zheng等人提出了一种得分层(score-level)多特征融合方法-查询自适应晚期融合(query adaptive late fusion)^[113]。Zheng等人的动机在于他们发现：对于一个好的特征而言，其排序后的得分曲线应该是L型的(先快速下降，然后趋于平稳)，而不好的特征的得分曲线是逐渐下降的。“查询自适应晚期融合”主要有两个特点：1) 以查询自适应的方式估计特征的有效性。各特征的权值是不固定的，不易受无效特征的不良影响。2) 特征的有效性是利用无关数据集在线估计的，不依赖数据库本身，可以适应大规模数据库的动态变化。Zheng等人利用不相关的数据集近似数据库图片上的score曲线的尾部，用特征的score曲线减去此尾部以突出top-k图片的作用，此score曲线与坐标轴围成的面积的倒数便反映了特征的好坏(或有效性)。以此面积的倒数作为对应特征的权值以计算相似度。Zheng等人^[116]共利用了5种特征：SIFT、HSV、CaffeNet全连接层特征、GIST和随机特征。GIST与随机特征主要作为无效特征，以测试算法的健壮性。实验表明，“查询自适应晚期融合”要优于图融合和索引层次融合的协同索引^[82]。

BOW仅使用SIFT特征来进行匹配，而SIFT特征仅代表了局部的信息，忽视了其他的信息，而且被量化到同一个视觉单词的特征即认为是匹配的，这会导致大量的虚假匹配(false match)。Zheng等人^[86]认为，一对关键点要成为真实匹配(true match)，需要在“局部/区域/全局”3个层次上匹配。为达到这一目的，Zheng等人提出了一个DeepEmbedding^[86]框架，利用3个层次的信息来为匹配过程建立一个概率模型，此模型就是CNN特征与SIFT的融合模型。Zheng等人利用空间金字塔来对图像划分，总共分为3个尺度(1×1，4×4，8×8)，除global尺度外，剩下的两个尺度用于区域层。全局层与区域层均由Decaf网络的全连接层特征来描述，而局部层则用SIFT来描述，区域信息与全局信息被称之为SIFT特征点的上下文环境。Zheng等人还提出一个DeepIndexing的索引结构，仅在索引中存放SIFT的HE签名与区域、全局特征的指针，而regional与global特征的LSH(局部敏感哈希)^[117]签名则统一放在外部的表格中。与MA等策略相结合，DeepEmbedding在Holidays、UKB等数据集上取得了优于在索引层次融合SIFT与颜色特征的c-MI的性能。

3 挑战及趋势

3.1 讨论

卷积层特征与SIFT相比，有如下特点：1) 卷积层特征类似于密集SIFT特征(通过网格式的密集采样得到)。卷积层特征与SIFT一样是局部特征，对应了图片的某个区域(可以将CNN特征图上每一个点反向映射回图片)，是一种局部特征。2) 卷积层特征是通过学习得到的，SIFT是手工类型。CNN的卷积层参数是可以针对不同的数据集通过迭代训练调优的，而且可通过简单的修改进一步改进(如增加深度、宽度等)而SIFT的参数是通过预先的精密设计固定的。3) 卷积层特征具有层次性。不同的卷积层具有不同的语义层次^[94]，如浅层的特征图通常是一些边/角等，而中层则是物体的一部分, 高层则通常是一个完整的物体。选用不同的层将可能达到完全不同的效果，该如何选择一个最优的层则到目前为止还没有一个最优的方法，通常通过测试多层的效果来达到。SIFT在不使用SP的情况下不具有层次性，描述的是边/角等比较低层次的特征，这也是为什么CCS^[102]将SIFT与CNN融合会有效果的原因之一。4) CNN卷积层特征维度比SIFT/SURF等浅层特征要大得多，而且计算量大，需要GPU辅助才能达到实时的效果，而且因为要存储很多卷积层特征图的原因，空间开销也要大得多。对于PC机而言，这不是什么大问题，然而未来的AI将可能无处不在，CNN在移动平台上的使用将成为一个具有挑战性的问题。随着类脑计算^[118]如火如荼的展开，各种神经处理专用芯片(如中国科学院陈云霁等人研发的DaDianNao^[119]，Google最近研发的TPU^[120]等)不断涌现，此问题或者也将不是问题。

3.2 挑战

3.2.1 SIFT

SIFT存在两个问题：1) 视觉爆发现象^[41]。大量的特征被分配到少量的视觉单词。对于具有自相似性的纹理图片而言，不少SIFT从2-范数距离意义上来讲是很相似的，这会导致匹配时的假正(false positive)现象。这个问题通常在编码阶段被处理，如VLAD为了处理“视觉爆发现象”采用的内部标准化策略与IFV采用的幂律标准化策略。2) 视觉并发现象^[48]。码字的出现并不是相互独立的。“视觉并发现象”通常采用PCA-whitening^[121]来处理。虽然都很有效，不过并没有谁找到一种最优的方法来处理这两个问题，而且这两种现象和数据集类型有很大的关系。

编码方法通常分为两个步骤：1) 嵌入。将低维局部特征嵌入(或映射)到高维空间。此过程通常是为了采集局部特征分布的统计信息。如BOF只含有0阶统计信息(频数)，VLAD含有1阶统计信息(均值)，FV含有1阶(均值)和2阶(方差)的统计信息。不过，目前这些编码方法基本上都是基于局部特征的分布属性的方法，而且这些分布属性基本上是采用k-means、GMM等非监督聚类方法得到的。k-means等方法是基于2-范数距离的，由于“维度灾难(curse-of-dimensionality)”^[117]的存在，高维向量在欧氏空间具有高度的相似性，不易区分，因而2-范数距离并非最优的。而且高维向量中通常含有大量的信息冗余。将高难空间映射到低维空间来处理，从一定程度上能缓解此问题，然而降维会造成部分有用信息的损失。2) 汇聚。局部特征的数目通常非常多，而且会随图片的大小与特征的类型而变化，sum-pooling(通常是加权平均)在编码方法中被广泛的使用，以消除特征数目的影响；而max-pooling则在对CNN的卷积层汇聚时用的最多，因为max-pooling对微小的变化具有一定的不变性。不同的局部特征(SIFT/CNN卷积层特征)来自不同的位置，描述能力(或区分力)也不一样，因而对特征加权是现在经常使用并且在将来还会继续被广泛使用的策略。

SIFT虽然具有很强的几何不变性，但是其本身缺乏几何信息(如尺度、方向、位置)，所以通常通过增强几何信息来增强区分力。目前主要通过3种策略来达到这一目的：1) SIFT层。扩展SIFT描述符，将几何信息串连在SIFT后面。2) 编码层。如gVLAD^[42]，利用SIFT的主方向来生成包含方向信息的VLAD。3) 索引层(或score层)。如HE(Hamming embedding)^[51]使用尺度与角度信息来校正相似度，HE将其称之为“弱几何一致性(WGC)”。有“弱”就有强，强几何一致性通常通过仿射匹配来达到，称之为“空间验证(SV)”^{[1, 45]}。SV同时考虑了位置、尺度、方向3个因子，利用它们来建立仿射模型，利用RANSAC(random sample consensus) ^[122]来迭代校正模型，最后用仿射模型来验证图片的几何一致性。不过，RANSAC只能用在两个集合之间，只适合局部特征，并不适合全局特征，因为一幅图片只能生成一个全局特征，所以SV通常用于SIFT-BOW模型。所以，全局特征目前缺乏强几何一致性的验证方法，一般只能通过编码来包含少量的几何信息，或者通过空间金字塔^[123]来达到。但空间金字塔会使得描述符的维度成倍增加，在大规模的情况下，会增加不少的时空开销。

3.2.2 CNN特征

尽管CNN特征目前在图像检索领域被广泛使用，但与SIFT相比，CNN特征在图像检索方面还存在以下不足：1) 通用性。SIFT可以被用于任意数据集，不需要考虑数据集的分布。而用ImageNet预训练的CNN特征则在通用性方面要差一些，目标数据集与ImageNet的差异越大，图像检索的性能就会越差。用与目标数据集相近的数据集重新训练CNN几乎是不可能的，因为这种带标签的大数据集一般是没有的，而小数据集会导致过拟合问题。故而此问题通常通过用与目标数据集相近的小数据集微调预训练的CNN来解决，然而哪怕是收集这种小数据集也很费事，因为还要人工标注。2) 几何不变性。CNN特征与SIFT这种局特征相比，在尺度、旋转、平移及光照变化等方面的不变性要差得多。虽然MOP_CNN^[52]通过串联3个尺度的VLAD增强了尺度不变性，MOP_CNN对于旋转、平移等因素的不变性却没有得到处理。也可以在源头解决CNN特征的不变性问题，那就是“数据增强”：将训练图片经过旋转、伸缩、平移等处理后的图片也加入训练集。不过这会使得训练的时空开销成倍增加。3) 特征数。从一幅图片一般可以提取几千个SIFT，即使是小图片，也可以通过密集采样得到数目众多的SIFT。而从一幅图片提取的CNN特征则很少：1个全连接层特征或几百个卷积层特征。一般通过生成很多图像分片来解决此问题，但每个分片要通过CNN一趟，会使CNN特征提取的开销增加。

3.3 趋势

针对CNN特征的不足，预测未来的特征及特征融合方法的趋势可能如下：1) CNN架构。目前的CNN架构几乎都是用于图像分类问题的，然而图像分类问题与图像检索问题有很大的不同，图像检索是一个更细粒度的问题，更观注图像包含的局部视觉模式，检索算法对这种模式的区分力是一个图像检索问题的一个决定因素。增加CNN对图片模式的区分力，找到一种更适合图像检索的CNN架构是一个值得研究的问题。2) 几何不变性。CNN特征缺乏几何不变性，但目前研究者们对此问题进行处理的人比较少。增强CNN特征对尺度、旋转、平移及光照变化等各种因素的不变性，毫无疑问，将显著提升检索算法的准确率，然而时空开销的增加将不可避免。3) 特征融合。CNN特征缺乏不变性，在不改变其本身的情况下，可以通过融合不变性强的特征来解决此问题；再者，通过融合互补的多种特征可以有效的增加描述符的区分力。然而，特征的有效性及融合方法依然需要研究。“查询自适应晚期融合”^[113]通过研究Score曲线的形状来判定特征的有效性，然而此种方法的代价较大，能否找到一种在“早期”(比如编码阶段)就能判定特征是否有效的方法呢？这个问题值得思考。未来的图像检索将无处不在，各种平台在存储与计算能力方面的差异都将为本领域带来挑战，如何权衡好速度、空间开销、准确率等方面，依然是图像检索领域将要面对的问题。

志谢: 本报告的撰写得到华中科技大学、浙江大学和清华大学相关研究团队研究人员的大力支持，特此致谢。

参考文献

[1] Lowe D G.Object recognition from local scale-invariant features[C]//Proceedings of the 7th IEEE International Conference on Computer Vision.Kerkyra, Greece:IEEE, 1999, 2:1150-1157.[DOI:10.1109/ICCV.1999.790410]

[2] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91–110. [DOI:10.1023/B:VISI.0000029664.99615.94]

[3] Oliva A, Torralba A. Modeling the shape of the scene:a holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001, 42(3): 145–175. [DOI:10.1023/A:1011139631724]

[4] Sivic J, Zisserman A.Video Google:a text retrieval approach to object matching in videos[C]//Proceedings of the 9th IEEE International Conference on Computer Vision.Nice, France:IEEE, 2003, 2:1470-1477.[DOI:10.1109/ICCV.2003.1238663]

[5] Perronnin F, Dance C.Fisher kernels on visual vocabularies for image categorization[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis, MN:IEEE, 2007:1-8.[DOI:10.1109/CVPR.2007.383266]

[6] Jégou H, Douze M, Schmid C, et al.Aggregating local descriptors into a compact image representation[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco, CA:IEEE, 2010:3304-3311.[DOI:10.1109/CVPR.2010.5540039]

[7] Douze M, Ramisa A, Schmid C.Combining attributes and fisher vectors for efficient image retrieval[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.Providence, RI:IEEE, 2011:745-752.[DOI:10.1109/CVPR.2011.5995595]

[8] Zhang S T, Yang M, Cour T, et al.Query specific fusion for image retrieval[C]//Proceedings of the 12th European Conference on Computer Vision-ECCV 2012.Florence, Italy:Springer, 2012:660-673.[DOI:10.1007/978-3-642-33709-3_47]

[9] Zheng L, Wang S J, Liu Z Q, et al.Packing and padding:coupled multi-index for accurate image retrieval[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus, OH:IEEE, 2014:1939-1946.[DOI:10.1109/CVPR.2014.250]

[10] LeCun Y, Boser B, Denker J S, et al.Handwritten digit recognition with a back-propagation network[M]//Advances in Neural Information Processing Systems.San Francisco, CA:Morgan Kaufmann Publishers Inc., 1990:396-404.

[11] LeCun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541–551. [DOI:10.1162/neco.1989.1.4.541]

[12] Wu F, Zhu W W, Yu J Q. Researches on multimedia technology 2014-deep learning and multimedia computing[J]. Journal of Image and Graphics, 2015, 20(11): 1423–1433. [吴飞, 朱文武, 于俊清. 多媒体技术研究:2014——深度学习与媒体计算[J]. 中国图象图形学报, 2015, 20(11): 1423–1433. ] [DOI:10.11834/jig.20151101]

[13] Deng J, Dong W, Socher R, et al.ImageNet:a large-scale hierarchical image database[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Miami, FL:IEEE, 2009:248-255.[DOI:10.1109/CVPR.2009.5206848]

[14] Krizhevsky A, Sutskever I, Hinton G E.ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems.Lake Tahoe, Nevada:Curran Associates Inc., 2012:1097-1105.

[15] Nair V, Hinton G E.Rectified linear units improve restricted boltzmann machines[C]//Proceedings of the 27th International Conference on International Conference on Machine Learning.Haifa, Israel:Omnipress, 2010:807-814.

[16] Hinton G E, Srivastava N, Krizhevsky A, et al.Improving neural networks by preventing co-adaptation of feature detectors[Z].arXiv:1207.0580, 2012.

[17] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout:A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929–1958.

[18] Simonyan K, Zisserman A.Very deep convolutional networks for large-scale image recognition[Z].arXiv:1409.1556, 2015.

[19] Szegedy C, Liu W, Jia Y Q, et al.Going deeper with convolutions[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA:IEEE, 2015:1-9.[DOI:10.1109/CVPR.2015.7298594]

[20] He K M, Zhang X Y, Ren S Q, et al.Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas, NV:IEEE, 2016:770-778.[DOI:10.1109/CVPR.2016.90]

[21] Long J, Shelhamer E, Darrell T.Fully convolutional networks for semantic segmentation[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA:IEEE, 2015:3431-3440.[DOI:10.1109/CVPR.2015.7298965]

[22] Ji S W, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221–231. [DOI:10.1109/TPAMI.2012.59]

[23] Simonyan K, Zisserman A.Two-stream convolutional networks for action recognition in videos[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems.Montreal, Canada:MIT Press, 2014:568-576.

[24] Hannun A, Case C, Casper J, et al.Deep speech:scaling up end-to-end speech recognition[Z].arXiv:1412.5567, 2014.

[25] Amodei D, Ananthanarayanan S, Anubhai R, et al.Deep speech 2:end-to-end speech recognition in English and mandarin[C]//Proceedings of the 33rd International Conference on Machine Learning.New York, NY:JMLR, 2016:173-182.

[26] Sutskever I, Vinyals O, Le Q V.Sequence to sequence learning with neural networks[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems.Montreal, Canada:MIT Press, 2014:3104-3112.

[27] Bahdanau D, Cho K, Bengio Y.Neural machine translation by jointly learning to align and translate[Z].arXiv:1409.0473, 2016.

[28] Donahue J, Jia Y Q, Vinyals O, et al.DeCAF:a deep convolutional activation feature for generic visual recognition[C]//Proceedings of the 31st International Conference on Machine Learning.Beijing, China:JMLR, 2014:647-655.

[29] Razavian A S, Azizpour H, Sullivan J, et al.CNN features off-the-shelf:an astounding baseline for recognition[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops.Columbus, OH:IEEE, 2014:512-519.[DOI:10.1109/CVPRW.2014.131]

[30] Azizpour H, Razavian A S, Sullivan J, et al. Factors of transferability for a generic convnet representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(9): 1790–1802. [DOI:10.1109/TPAMI.2015.2500224]

[31] Zhao R, Grosky W I. Narrowing the semantic gap-improved text-based web document retrieval using visual features[J]. IEEE Transactions on Multimedia, 2002, 4(2): 189–200. [DOI:10.1109/TMM.2002.1017733]

[32] Hare J S, Lewis P H, Enser P G B, et al.Mind the Gap:another look at the problem of the semantic gap in image retrieval[C]//Proceedings Volume 6073, Multimedia Content Analysis, Management, and Retrieval 2006.San Jose, California:SPIE, 2006:607309.[DOI:10.1117/12.647755]

[33] Ke Y, Sukthankar R.PCA-SIFT:a more distinctive representation for local image descriptors[C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington, DC:IEEE, 2004, 2:Ⅱ-506-Ⅱ-513.[DOI:10.1109/CVPR.2004.1315206]

[34] Mikolajczyk K, Schmid C. A performance evaluation of local descriptors[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1615–1630. [DOI:10.1109/TPAMI.2005.188]

[35] Bay H, Tuytelaars T, Van Gool L.Surf:speeded up robust features[C]//Proceedings of the 9th European Conference on Computer Vision-ECCV 2006.Graz, Austria:Springer, 2006:404-417.[DOI:10.1007/11744023_32]

[36] Arandjelovic R, Zisserman A.Three things everyone should know to improve object retrieval[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence, RI:IEEE, 2012:2911-2918.[DOI:10.1109/CVPR.2012.6248018]

[37] Salton G, Buckley C. Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management, 1988, 24(5): 513–523. [DOI:10.1016/0306-4573(88)90021-0]

[38] Jégou H, Douze M, Schmid C.Packing bag-of-features[C]//Proceedings of the 2009 IEEE 12th International Conference on Computer Vision.Kyoto:IEEE, 2009:2357-2364.[DOI:10.1109/ICCV.2009.5459419]

[39] Jegou H, Douze M, Schmid C. Product quantization for nearest neighbor search[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(1): 117–128. [DOI:10.1109/TPAMI.2010.57]

[40] Arandjelovic R, Zisserman A.All about VLAD[C]//Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland, OR:IEEE, 2013:1578-1585.[DOI:10.1109/CVPR.2013.207]

[41] Jégou H, Douze M, Schmid C.On the burstiness of visual elements[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami, FL:IEEE, 2009:1169-1176.[DOI:10.1109/CVPR.2009.5206609]

[42] Wang Z X, Di W, Bhardwaj A, et al.Geometric VLAD for large scale image search[Z].arXiv:1403.3829, 2014.

[43] Sánchez J, Perronnin F, Mensink T, et al. Image classification with the fisher vector:theory and practice[J]. International Journal of Computer Vision, 2013, 105(3): 222–245. [DOI:10.1007/s11263-013-0636-x]

[44] Perronnin F, Sánchez J, Mensink T.Improving the fisher kernel for large-scale image classification[C]//Proceedings of the 11th European Conference on Computer Vision-ECCV 2010.Heraklion, Crete, Greece:Springer, 2010:143-156.[DOI:10.1007/978-3-642-15561-1_11]

[45] Philbin J, Chum O, Isard M, et al.Object retrieval with large vocabularies and fast spatial matching[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis, MN:IEEE, 2007:1-8.[DOI:10.1109/CVPR.2007.383172]

[46] Perronnin F, Liu Y, Sánchez J, et al.Large-scale image retrieval with compressed fisher vectors[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco, CA:IEEE, 2010:3384-3391.[DOI:10.1109/CVPR.2010.5540009]

[47] Jégou H, Zisserman A.Triangulation embedding and democratic aggregation for image search[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus, OH:IEEE, 2014:3310-3317.[DOI:10.1109/CVPR.2014.417]

[48] Chum O, Matas J.Unsupervised discovery of co-occurrence in sparse high dimensional data[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco, CA:IEEE, 2010:3416-3423.[DOI:10.1109/CVPR.2010.5539997]

[49] Babenko A, Slesarev A, Chigorin A, et al.Neural codes for image retrieval[C]//Proceedings of the 13th European Conference on Computer Vision.Zurich, Switzerland:Springer, 2014:584-599.[DOI:10.1007/978-3-319-10590-1_38]

[50] Sermanet P, Eigen D, Zhang X, et al.OverFeat:integrated recognition, localization and detection using convolutional networks[Z].arXiv:1312.6229, 2014.

[51] Jegou H, Douze M, Schmid C.Hamming embedding and weak geometric consistency for large scale image search[C]//Proceedings of the 10th European Conference on Computer Vision-ECCV 2008.Marseille, France:Springer, 2008:304-317.[DOI:10.1007/978-3-540-88682-2_24]

[52] Gong Y C, Wang L W, Guo R Q, et al.Multi-scale orderless pooling of deep convolutional activation features[C]//Proceedings of the 13th European Conference on Computer Vision-ECCV 2014.Zurich, Switzerland:Springer, 2014:392-407.[DOI:10.1007/978-3-319-10584-0_26]

[53] Liu L Q, Shen C H, Wang L, et al.Encoding high dimensional local features by sparse coding based fisher vectors[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems.Montreal, Canada:MIT Press, 2014:1143-1151.

[54] Reddy Mopuri K, Venkatesh Babu R.Object level deep feature pooling for compact image representation[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops.Boston, MA:IEEE, 2015:62-70.[DOI:10.1109/CVPRW.2015.7301273]

[55] Uijlings J R R, van de Sande K E A, Gevers T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154–171. [DOI:10.1007/s11263-013-0620-5]

[56] Razavian A S, Sullivan J, Carlsson S, et al.Visual instance retrieval with deep convolutional networks[Z].arXiv:1412.6574, 2016.

[57] Tolias G, Sicre R, Jégou H.Particular object retrieval with integral max-pooling of CNN activations[Z].arXiv:1511.05879, 2016.

[58] Yandex A B, Lempitsky V.Aggregating local deep features for image retrieval[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago:IEEE, 2015:1269-1277.[DOI:10.1109/ICCV.2015.150]

[59] Xie L X, Wang J D, Zhang B, et al. Fine-grained image search[J]. IEEE Transactions on Multimedia, 2015, 17(5): 636–647. [DOI:10.1109/TMM.2015.2408566]

[60] Lin T Y, RoyChowdhury A, Maji S.Bilinear CNN models for fine-grained visual recognition[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago:IEEE, 2015:1449-1457.[DOI:10.1109/ICCV.2015.170]

[61] Krause J, Jin H L, Yang J C, et al.Fine-grained recognition without part annotations[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA:IEEE, 2015:5546-5555.[DOI:10.1109/CVPR.2015.7299194]

[62] Zhang Y, Wei X S, Wu J X, et al. Weakly supervised fine-grained categorization with part-based image repre-sentation[J]. IEEE Transactions on Image Processing, 2016, 25(4): 1713–1725. [DOI:10.1109/TIP.2016.2531289]

[63] Wei X S, Luo J H, Wu J X, et al. Selective convolutional descriptor aggregation for fine-grained image retrieval[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2868–2881. [DOI:10.1109/TIP.2017.2688133]

[64] Kalantidis Y, Mellina C, Osindero S.Cross-dimensional weighting for aggregated deep convolutional features[C]//Proceedings of the European Conference on Computer Vision.Amsterdam, the Netherlands:Springer, 2016:685-701.[DOI:10.1007/978-3-319-46604-0_48]

[65] Liu L Q, Shen C H, van den Hengel A.The treasure beneath convolutional layers:cross-convolutional-layer pooling for image classification[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA:IEEE, 2015:4749-4757.[DOI:10.1109/CVPR.2015.7299107]

[66] Yue-Hei Ng J, Yang F, Davis L S.Exploiting local features from deep networks for image retrieval[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops.Boston, MA:IEEE, 2015:53-61.[DOI:10.1109/CVPRW.2015.7301272]

[67] Arandjelovic R, Gronat P, Torii A, et al.NetVLAD:CNN architecture for weakly supervised place recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas, NV:IEEE, 2016:5297-5307.[DOI:10.1109/CVPR.2016.572]

[68] Philbin J, Chum O, Isard M, et al.Lost in quantization:improving particular object retrieval in large scale image databases[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Anchorage, AK:IEEE, 2008:1-8.[DOI:10.1109/CVPR.2008.4587635]

[69] Yoo D, Park S, Lee J Y, et al.Fisher kernel for deep neural activations[Z].arXiv:1412.1628, 2014.

[70] Torresani L, Szummer M, Fitzgibbon A.Efficient object category recognition using classemes[C]//Proceedings of the 11th European Conference on Computer Vision-ECCV 2010.Heraklion, Crete, Greece:Springer, 2010:776-789.[DOI:10.1007/978-3-642-15549-9_56]

[71] Kwitt R, Vasconcelos N, Rasiwasia N.Scene recognition on the semantic manifold[C]//Proceedings of the 12th European Conference on Computer Vision-ECCV 2012.Florence, Italy:Springer, 2012:359-372.[DOI:10.1007/978-3-642-33765-9_26]

[72] Dixit M, Chen S, Gao D S, et al.Scene classification with semantic fisher vectors[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA:IEEE, 2015:2974-2983.[DOI:10.1109/CVPR.2015.7298916]

[73] Bosch A, Zisserman A, Munoz X.Representing shape with a spatial pyramid kernel[C]//Proceedings of the 6th ACM International Conference on Image and Video Retrieval.Amsterdam, the Netherlands:ACM, 2007:401-408.[DOI:10.1145/1282280.1282340]

[74] Shechtman E, Irani M.Matching local self-similarities across images and videos[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Minneapolis, MN:IEEE, 2007:1-8.[DOI:10.1109/CVPR.2007.383198]

[75] Gehler P, Nowozin S.On feature combination for multiclass object classification[C]//Proceedings of the 2009 IEEE 12th International Conference on Computer Vision.Kyoto:IEEE, 2009:221-228.[DOI:10.1109/ICCV.2009.5459169]

[76] Lanckriet G R G, Christianini N, Bartlett P L, et al.Learning the kernel matrix with semi-definite programming[C]//Proceedings of the 19th International Conference on Machine Learning.San Francisco, CA:Morgan Kaufmann Publishers Inc., 2002:323-330.

[77] Demiriz A, Bennett K P, Shawe-Taylor J. Linear programming boosting via column generation[J]. Machine Learning, 2002, 46(1-3): 225–254. [DOI:10.1023/A:1012470815092]

[78] Nister D, Stewenius H.Scalable recognition with a vocabulary tree[C]//Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York, NY:IEEE, 2006, 2:2161-2168.[DOI:10.1109/CVPR.2006.264]

[79] Qin D F, Gammeter S, Bossard L, et al.Hello neighbor:accurate object retrieval with k-reciprocal nearest neighbors[C]//Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.Providence, RI:IEEE, 2011:777-784.[DOI:10.1109/CVPR.2011.5995373]

[80] Jaccard P. The distribution of the flora in the alpine zone[J]. New Phytologist, 1912, 11(2): 37–50. [DOI:10.1111/j.1469-8137.1912.tb05611.x]

[81] Page L. The PageRank citation ranking:Bringing order to the web[J]. Stanford Digital Libraries Working Paper, 1998, 9(1): 1–14.

[82] Zhang S L, Yang M, Wang X Y, et al.Semantic-aware co-indexing for image retrieval[C]//Proceedings of the IEEE International Conference on Computer Vision.Sydney, NSW:IEEE, 2013:1673-1680.[DOI:10.1109/ICCV.2013.210]

[83] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971–987. [DOI:10.1109/TPAMI.2002.1017623]

[84] Liu Y, Guo Y M, Wu S, et al.Deepindex for accurate and efficient image retrieval[C]//Proceedings of the 5th ACM on International Conference on Multimedia Retrieval.Shanghai, China:ACM, 2015:43-50.[DOI:10.1145/2671188.2749300]

[85] Babenko A, Lempitsky V.The inverted multi-index[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence, RI:IEEE, 2012:3069-3076.[DOI:10.1109/CVPR.2012.6248038]

[86] Zheng L, Wang S J, He F, et al.Seeing the big picture:deep embedding with contextual evidences[Z].arXiv:1406.0132, 2014.

[87] Li Y, Kong X W, Zheng L, et al.Exploiting hierarchical activations of neural network for image retrieval[C]//Proceedings of the 2016 ACM on Multimedia Conference.Amsterdam, the Netherlands:ACM, 2016:132-136.[DOI:10.1145/2964284.2967197]

[88] Chatfield K, Simonyan K, Vedaldi A, et al.Return of the devil in the details:delving deep into convolutional nets[Z].arXiv:1405.3531, 2014.

[89] Xie L X, Tian Q, Zhang B.Max-SIFT:flipping invariant descriptors for Web logo search[C]//Proceedings of the 2014 IEEE International Conference on Image Processing.Paris:IEEE, 2014:5716-5720.[DOI:10.1109/ICIP.2014.7026156]

[90] Xie L X, Tian Q, Wang J D, et al.Image classification with Max-SIFT descriptors[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing.2015.

[91] Kobayashi T.Dirichlet-based histogram feature transform for image classification[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus, OH:IEEE, 2014:3278-3285.[DOI:10.1109/CVPR.2014.413]

[92] Gao Z N, Xue J R, Zhou W G, et al.Fast democratic aggregation and query fusion for image search[C]//Proceedings of the 5th ACM on International Conference on Multimedia Retrieval.Shanghai, China:ACM, 2015:35-42.[DOI:10.1145/2671188.2749293]

[93] Song Y, McLoughLin I, Dai L R.Deep bottleneck feature for image classification[C]//Proceedings of the 5th ACM on International Conference on Multimedia Retrieval.Shanghai, China:ACM, 2015:491-494.[DOI:10.1145/2671188.2749314]

[94] Zeiler M D, Fergus R.Visualizing and understanding convolutional networks[C]//Proceedings of the 13th European Conference on Computer Vision.Zurich, Switzerland:Springer, 2014:818-833.[DOI:10.1007/978-3-319-10590-1_53]

[95] Carreira J, Caseiro R, Batista J, et al.Semantic segmentation with second-order pooling[C]//Proceedings of the 12th European Conference on Computer Vision-ECCV 2012.Florence, Italy:Springer, 2012:430-443.[DOI:10.1007/978-3-642-33786-4_32]

[96] Everingham M, Van Gool L, Williams C K I, et al. The Pascal visual object classes (VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303–338. [DOI:10.1007/s11263-009-0275-4]

[97] Xie L X, Hong R C, Zhang B, et al.Image classification and retrieval are one[C]//Proceedings of the 5th ACM on International Conference on Multimedia Retrieval.Shanghai, China:ACM, 2015:3-10.[DOI:10.1145/2671188.2749289]

[98] Bao Y, Li H J.Object-based aggregation of deep features for image retrieval[C]//Proceedings of the 23rd International Conference on Multimedia Modeling.Reykjavik, Iceland:Springer, 2017:478-489.[DOI:10.1007/978-3-319-51811-4_39]

[99] Gao B B, Wei X S, Wu J X, et al.Deep spatial pyramid:the devil is once again in the details[Z].arXiv:1504.05277, 2015.

[100] Sun S Y, Zhou W G, Tian Q, et al. Scalable object retrieval with compact image representation from generic object regions[J]. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 2016, 12(2). [DOI:10.1145/2818708]

[101] Cheng M M, Zhang Z M, Lin W Y, et al.BING:binarized normed gradients for objectness estimation at 300fps[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus, OH:IEEE, 2014:3286-3293.[DOI:10.1109/CVPR.2014.414]

[102] Yan K, Wang Y W, Liang D W, et al.CNN vs.SIFT for image retrieval:alternative or complementary?[C]//Proceedings of the ACM on Multimedia Conference.Amsterdam, the Netherlands:ACM, 2016:407-411.[DOI:10.1145/2964284.2967252]

[103] Zitnick C L, Dollár P.Edge boxes:locating object proposals from edges[C]//Proceedings of the 13th European Conference on Computer Vision.Zurich, Switzerland:Springer, 2014:391-405.[DOI:10.1007/978-3-319-10602-1_26]

[104] Ge T Z, Ke Q F, Sun J.Sparse-coded features for image retrieval[C]//Proceedings of the 24th British Machine Vision Conference.British:British Machine Vision, 2013.

[105] Yang J C, Yu K, Gong Y H, et al.Linear spatial pyramid matching using sparse coding for image classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Miami, FL:IEEE, 2009:1794-1801.[DOI:10.1109/CVPR.2009.5206757]

[106] Winder S, Hua G, Brown M.Picking the best daisy[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Miami, FL:IEEE, 2009:178-185.[DOI:10.1109/CVPR.2009.5206839]

[107] Wengert C, Douze M, Jégou H.Bag-of-colors for improved image search[C]//Proceedings of the 19th ACM International Conference on Multimedia.Scottsdale, Arizona:ACM, 2011:1437-1440.[DOI:10.1145/2072298.2072034]

[108] Yeh Y R, Lin T C, Chung Y Y, et al. A novel multiple kernel learning framework for heterogeneous feature fusion and variable selection[J]. IEEE Transactions on Multimedia, 2012, 14(3): 563–574. [DOI:10.1109/TMM.2012.2188783]

[109] Manjunath B S, Ma W Y. Texture features for browsing and retrieval of image data[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence, 1996, 18(8): 837–842. [DOI:10.1109/34.531803]

[110] Yanagawa A, Hsu W, Chang S F.Brief descriptions of visual features for baseline TRECVID concept detectors[R].Columbia:Columbia University, 2006.

[111] Liu ZQ, Wang S J, Zheng L, et al.Visual reranking with improved image graph[C]//Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing.Florence:IEEE, 2014:6889-3893.[DOI:10.1109/ICASSP.2014.6854935]

[112] Liu Z Q, Wang S J, Zheng L, et al. Robust ImageGraph:rank-level feature fusion for image search[J]. IEEE Transactions on Image Processing, 2017, 26(7): 3128–3141. [DOI:10.1109/TIP.2017.2660244]

[113] Zheng L, Wang S J, Tian L, et al.Query-adaptive late fusion for image search and person re-identification[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA:IEEE, 2015:1741-1750.[DOI:10.1109/CVPR.2015.7298783]

[114] van de Weijer J, Schmid C.Applying color names to image description[C]//Proceedings of IEEE International Conference on Image Processing.San Antonio, TX:IEEE, 2007:Ⅲ-493-Ⅲ-496.[DOI:10.1109/ICIP.2007.4379354]

[115] Zhou W G, Li H Q, Sun J, et al. Collaborative index embedding for image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017. [DOI:10.1109/TPAMI.2017.2676779]

[116] Jia Y Q, Shelhamer E, Donahue J, et al.Caffe:convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM international conference on Multimedia.Orlando, Florida:ACM, 2014:675-678.[DOI:10.1145/2647868.2654889]

[117] Indyk P, Motwani R.Approximate nearest neighbors:towards removing the curse of dimensionality[C]//30th Annual ACM Symposium on Theory of Computing.Dallas, Texas, USA:ACM, 1998:604-613.[DOI:10.1145/276698.276876]

[118] Huang T J, Shi L P, Tang H J, et al. Research on multimedia technology 2015-advances and trend of brain-like computing[J]. Journal of Image and Graphics, 2016, 21(11): 1411–1424. [黄铁军, 施路平, 唐华锦, 等. 多媒体技术研究:2015——类脑计算的研究进展与发展趋势[J]. 中国图象图形学报, 2016, 21(11): 1411–1424. ] [DOI:10.11834/jig.20161101]

[119] Chen Y J, Luo T, Liu S L, et al.DaDianNao:a machine-learning supercomputer[C]//47th Annual IEEE/ACM International Symposium on Micro-architecture.Cambridge:IEEE, 2014:609-622.[DOI:10.1109/MICRO.2014.58]

[120] Jouppi N P, Young C, Patil N, et al.In-datacenter performance analysis of a tensor processing unit[Z].arXiv:1704.04760, 2017.

[121] Jégou H, Chum O.Negative evidences and co-occurences in image retrieval:the benefit of PCA and whitening[C]//Proceedings of the 12th Computer Vision-ECCV 2012.Florence, Italy:Springer, 2012:774-787.[DOI:10.1007/978-3-642-33709-3_55]

[122] Fischler M A, Bolles R C. Random sample consensus:a paradigm for model fitting with applications to image analysis and automated cartography[J]. Communications of the ACM, 1981, 24(6): 381–395. [DOI:10.1145/358669.358692]

[123] Lazebnik S, Schmid C, Ponce J.Beyond bags of features:spatial pyramid matching for recognizing natural scene categories[C]//Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.New York, NY:IEEE, 2006, 2:2169-2178.[DOI:10.1109/CVPR.2006.68]