发布时间: 2017-02-25
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20170211
2017 | Volumn 22 | Number 2

第11届图像图形技术与应用学术会议专栏

目标提取与哈希机制的多标签图像检索

陈飞, 吕绍和, 李军, 王晓东, 窦勇

国防科学技术大学并行与分布处理重点实验室, 长沙 410073

收稿日期: 2016-08-01; 修回日期: 2016-09-18

基金项目: 国家自然科学基金项目(U1435219)

第一作者简介: 陈飞(1991-),男,国防科学与技术大学计算机科学与技术专业硕士研究生,主要研究方向深度学习、图像理解。E-mail:chenfsjz@126.com

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2017)02-0232-09

摘要

目的哈希是大规模图像检索的有效方法。为提高检索精度，哈希码应保留语义信息。图像之间越相似，其哈希码也应越接近。现有方法首先提取描述图像整体的特征，然后生成哈希码。这种方法不能精确地描述图像包含的多个目标，限制了多标签图像检索的精度。为此提出一种基于卷积神经网络和目标提取的哈希生成方法。方法首先提取图像中可能包含目标的一系列区域，然后用深度卷积神经网络提取每个区域的特征并进行融合，通过生成一组特征来刻画图像中的每个目标，最后再产生整幅图像的哈希码。采用Triplet Loss的训练方法，使得哈希码尽可能保留语义信息。结果在VOC2012、Flickr25K和NUSWIDE数据集上进行多标签图像检索。在NDCG(normalized discounted cumulative gain)性能指标上，当返回图像数量为 1 000时，对于VOC2012，本文方法相对于DSRH(deep semantic ranking hashing)方法提高2~4个百分点，相对于ITQ-CCA(iterative quantization-canonical correlation analysis)方法能提高3~6个百分点；对于Flickr25，本文方法比DSRH方法能提高2个左右的百分点；对于NUSWIDE，本文方法相对于DSRH方法能提高4个左右的百分点。对于平均检索准确度，本文方法在NUSWIDE和Flickr25上能提高2~5个百分点。根据多项评价指标可以看出，本文方法能以更细粒度来精确地描述图像，显著提高了多标签图像检索的性能。结论本文新的特征学习模型，对图像进行细粒度特征编码是一种可行的方法，能够有效提高数据集的检索性能。

关键词

图像检索; 卷积神经网络; 哈希; 多标签

Multi-label image retrieval by hashing with object proposal

Chen Fei, Lyu Shaohe, Li Jun, Wang Xiaodong, Dou Yong

National Laboratory for Parallel and Distributed Processing, National University of Defense Technology, Changsha 410073, China

Supported by: National Natural Science Foundation of China(U1435219)

Abstract

Objective Hashing is an effective means for large-scale image retrieval. Preserving the semantic similarity in hash codes (i.e., the distance between the hash codes of two images)should be small when the images are similar to improve the retrieval performance. Conventional methods first extract the overall image feature and then generate a single hash code. Such methods cannot characterize the image content for multiple objects, which results in a low accuracy of multi-label image retrieval. This study proposes a new hash generation method with object proposals. Method We propose a new deep-network-based framework to construct hash functions that learn directly from images that contain multiple labels. The model first derives a series of interesting regions that may contain objects and then generates the features of each region through deep convolutional neural networks. It finally generates a group of hash codes to describe all the objects in an image. The compact hash code will be generated to represent the entire image. A novel triplet-loss based training method is adopted to preserve the semantic order of the hash codes. Resuls The image retrieval experiments on the VOC2012, Flickr25K, and NUSWIDE datasets show that the NDCG (normalized discounted cumulative gain)value of our method can be improved by 2% to 4% unlike DSRH (deep semantic ranking hashing)and 3% to 6% unlike ITQ-CCA (iterative quantization-canonical correlation analysis)on VOC2012. Our method can attain the improvements by approximately 2% on Flickr25 and 4% on NUSWIDE. Our method can obtain 2% to 5% on the Flickr25 and NUSWIDE datasets over the DSRH for the map evaluation. Thus, the new method can describe an image accurately in a fine-grained way, and the performance is improved significantly for multi-label image retrieval. Conclusion This study proposes a new model to learn compact features, and experiment results show that the fine-grained feature embedding of an image is practicable. Thus, our method outperforms other state-of-the-art hashing methods in terms of image retrieval.

Key words

image retrieval; convolutional neural networks; hash; multi-label

0 引言

图像检索是图像处理的重要问题之一，其目的是根据给定的查询示例在图像数据库中找出与其相似的图像。为有效地衡量图像之间的相似性，需要获得图像的特征并计算它们之间的距离，距离越近，相似度越大。将图像特征用二进制哈希码来表示，是降低开销、提高计算速度的有效方法。为了保证哈希码的距离能够准确衡量图像的相似性，哈希码需要保留尽可能多的语义信息。如何从图像特征得到满足这种条件的哈希码，是图像处理领域长期关注的热点问题。

现有方法不能有效地处理包含多个目标的复杂图像，其基本思想是，首先生成描述了整体图像的一些图像特征，然后基于这些特征生成一个二进制向量，即哈希码。

如图 1所示，图 1(a)(b)都包含相同的目标“人”，它们具有一定的相似性；图 1(b)(c)也包含相同的目标“树”，它们也有相似性。如果每幅图像都用一个特征向量来表示，则图 1(a)(c)的向量在距离上就会比较相近，因为它们都与图 1(b)有相似性。由此我们就会得到“图 1(a)(c)相似”的错误结论。出现这种问题的根源在于，对包含多个目标的图像(如图 1(b))，只用一个哈希码来表示，不能准确地刻画每一个目标，从而降低了相似度衡量的准确性。

图 1 含有多标签的示例图

Fig. 1 Sample pictures which contain multiple labels ((a) picture which contains a person; (b) picture which contains person and tree; (c) picture which contains a tree)

深度学习是机器学习与人工智能领域的重要进展。目前，深度卷积神经网络已成为提取图像特征的最有效手段。早期的哈希方法主要基于人工提取的特征，如SIFT(scale-invariant feature transform)特征，与传统特征相比，深度神经网络提取的特征更为准确。因此，近期许多图像检索的研究，都开始探索基于深度网络提取的特征来生成哈希码的方法。本文也沿此思路，研究结合深度学习与哈希码生成的图像哈希表示方法。

该方法的基本思想包括：1) 每幅图像用一组而不仅是一个哈希码来表示；2) 每个哈希码准确地描述了图像中某个目标；3) 每幅图像的哈希码的数量等于它所包含的目标的数目。

图 2给出了一种基本的实现框架。首先，使用目标区域推荐(Object Proposal)算法来产生目标区域，用一个4维的坐标向量来表示其在图像中的位置；其次，利用深度卷积神经网络描述目标区域提的特征；为了产生哈希编码，本文在全连接层的后面接了一个哈希层H。因为每个Object Proposal对应图像中不同大小的区域，在网络中利用空间金字塔池化方法 (SPPnet^[1])为每个目标图像计算长度为C的卷积特征映射，能够加速网络的训练。

图 2 基于目标提取的细粒度哈希学习方法

Fig. 2 Fine-grained hash learning with object proposals

用一个概率模型来筛选有效的目标区域，这样对于每幅图像产生不定长度的序列特征向量(如一组哈希码)，每一段哈希码就对应一个目标(即标签)。文献[2]利用了一个视觉注意机制来在FeatureMap层来选取图像中的显著部分，但是这样的机制主要聚焦于图像的某一区域，而本文提出在基于图像的目标区域来进行哈希编码，能够更完整捕捉图像的局部信息。

新方法的特点包括：1) 将特征提取与哈希码生成统一到一个模型中，可进行端到端的训练(end-to-end trainable)；2) 将图像分解为一系列的目标并生成相应的哈希码，提高了图像表示的准确性。

本文在3个多标签数据集Flickr25，VOC 2012和NUSWIDE上进行了评估。结果显示本文的模型能够更细粒度地描述图像，从而显著提高多标签图像检索的性能。

1 相关工作

早期的图像检索方法主要是通过手动提取图像的底层特征，如Gist^[3]，SIFT^[4]，纹理特征，颜色特征，形状特征等，再通过相应的哈希方法产生哈希向量，如LSH^[5]，这种方法是数据独立的。最近，基于哈希学习的方法引起了比较大的关注，根据图像本身或者标签来学习哈希函数。这种方法可以分为无监督、半监督和监督方法3类。

无监督方法，通过无标签数据来学习哈希函数，如LSH^[5]利用简单的随机映射作为哈希函数，使得原始数据通过哈希函数的映射后仍能保持在原始空间的距离相似度，其缺点是：需要较长的哈希码来达到令人满意的检索效果。KLSH^[6]为了保证在大规模的数据集中进行查找具有子线性时间，将核函数用于LSH^[5]。Spectral hashing^[7]将图像特征向量的编码看做图分割问题，学习一种非线性映射作为哈希函数，使得原始数据在汉明空间的编码具有语义相似性。ITQ^[8]通过交替优化的方法寻找一个正交矩阵来学习哈希函数。

半监督方法，同时利用有标签和无标签的数据进行学习，这样可以有效防止过拟合。SSH^[9]通过最小化标签数据集上的经验误差同时最大化哈希位之间的方差和独立性，能有效防止过拟合。WSH^[10]利用少量手动标注的样本对学习哈希函数，其中相似的两个图像被标记为“similar”，不相似的图像被标记为“dissimilar”。半监督学习由于可以利用较少的标记样本进行学习，所以训练速度要快于监督学习。

监督方法，其目的是利用图像的监督信息学习更好的向量表示。CCA-ITQ^[8]根据典型相关性分析，利用图像特征和标签来学习一个映射矩阵，提升了编码向量的语义关联性。IRSH^[11]基于场景的概念进行图像检索。KSH^[12]是一种基于核的监督哈希模型产生紧凑二进制码，最小化相似图像的二进制码，最大化不相似图像的二进制码。深度卷积神经网络使得图像检索的水平提升到新的层次。CNNH^[13]利用图像对的相似矩阵信息，首先利用坐标下降法将相似矩阵分解为哈希码，用产生的哈希码作为监督信息；再利用卷积神经网络来学习比较好的图像表达和哈希函数。Lai^[14]基于TripletLoss训练一个深度卷积神经网络来学习哈希函数，其中使用NIN^[15]的网络架构，将图像三元组的相似关系作为监督信息。SSDH^[16]利用AlexNet提取图像的特征，在全连接层后连接了一个有K个单元的隐含层作为哈希层对特征进行编码。文献[16]证明利用深度卷积神经网络来学习哈希函数是可行的，并且达到了不错的效果。DSRH^[17]提出了一个基于多标签语义相似的深度网络学习哈希函数。本文方法是一种有监督的方法，它对每幅图像生成一组数目不等的哈希码，从而准确地描述它所含的目标信息。

2 模型

2.1 目标推荐模块

对于网络的输入，采用Object Proposal方法对输入的图像I首先产生一批候选区域。对于Object Proposal的研究可以根据方法分为两类：Grouping method和Window scoring method，其中方法1先将图像进行分割，尽可能使得目标对应图像某个区域，再进行聚合，如SelectiveSearch^[18]、Geodesic^[19]；方法2是为每个候选窗口打分，表示其对应图像中某个目标的程度，然后过滤掉低分的区域，这种方法由于只需返回边界框，所以速度比聚合方法快，例如Objectness^[20]、Bing^[21]。

本文选择GOP^[19]方法：目标是定义一组种子点，使其尽可能命中所有的目标区域。该算法先对图像过分割，通过分类器来为测地距离变换标定种子点。每个测地距离变换的水平集(定义了前景/背景的分割)为候选的目标区域。将Proposals的数量设置为100，对于每个目标区域的范围用4维的坐标S_i=(x₁,y₁,x₂,y₂)表示。

2.2 深度卷积网络

由于GoogLeNet^[22]在ILSVCR2014中取得了非常不错的成绩，在分类任务中其top-5的错误率达到了6.67%，在目标检测任务中，其平均检索准确度mAP(mean average precision)达到了43.9%。与AlexNet相比，其层数加深到了22层，由于Inception模块使用大量的1×1卷积核来降维防止模型过拟合，相对于AlexNet的60 M的参数，GoogLeNet整个模型的参数只有7 M。本文利用GoogLeNet作为中间层提取图像的特征低层特征。对于已经提取出来的目标区域(Object Proposals)，其大小是不完全相同的，文献[1]提出基于金子塔的池化方法(SPP)。对于不同尺寸大小的局部区域，经过SPP层后都能将其转换为相同的维度的特征，这样有利于后面利用统一的哈希层来对每个proposal进行编码。

2.3 目标区域的选择模块

如图 3所示，利用Object Proposals方法，本文在一幅图像中选出冗余数量的目标区域，经过卷积神经网络对L个目标区域的特征编码为d维的向量。对于现有的数据集，Object Proposals的数量远超于数据集的标签数和图像中所包含的目标数。那么为了选择出有效的目标区域，对每个Object Proposals计算可信度向量v_i(i=1,2,3,…,L)，v_i∈R^C，其中每一位表示该proposal属于某个标签的概率，通过概率来选择有效的目标区域。

图 3 图像中显著的目标区域选择模块

Fig. 3 The model of selecting good subregions which relates certain labels

类似于图像的多分类情况，为了得到有效的概率，利用多标签的损失函数softmax_loss^[23]进行训练。每个Object Proposal的特征x_i对应的标签 j的概率可以表示为

${{p}_{ij}}=\frac{\exp ({{f}_{j}}({{\mathbf{x}}_{i}}))}{\sum\limits_{j=1}^{c}{\exp ({{f}_{j}}({{\mathbf{x}}_{i}}))}}$

(1)

式中， f_j(x_i)为特征x_i所对应类别j的激活函数。

针对所有目标区域的概率，定义基于优化目标对应概率的损失函数

$J=-\sum\limits_{i=1}^{|{{C}_{+}}|}{\sum\limits_{j=1}^{L}{\frac{1}{\left| {{c}_{+}} \right|}\ln ({{p}_{ij}})}}$

(2)

式中，c₊表示数据集的标签集合， |c₊|表示标签集的大小。

2.4 图像哈希模块

为了将图像映射为哈希码，添加一个有K个神经元的隐含层H来学习哈希函数。在前面的特征提取模块，模型产生L个目标区域的特征向量A={a₁,a₂,…,a_L},a_i∈R^d，维度为d×L。对应的概率矩阵P，维度为c×L。

图 4 根据提取的局部特征产生图像的哈希编码

Fig. 4 Generate final hash codes with local descriptor

我们希望用标签个数的一组编码来表达整幅图像的内容。为此，对P和A进行合成运算，图像可以表达为d×c维的特征向量，即对于某个标签i(i=1，2，…，c)，所对应Object Proposal 的特征为a_i。在网络的最后设计K个单元的隐含层来进行哈希映射。那么隐含层的输出为

$\mathbf{a}_{{}}^{H}=\sigma (\mathbf{a}_{{}}^{F}{{\mathbf{W}}^{H}}+{{\mathbf{b}}^{H}})$

(3)

式中，a^F为d×c维的特征向量，其中b^H是哈希层的偏置值，W^H∈R^bc×K为权值矩阵，σ(·)是Logistic sigmod function，定义为σ(z)=1/(1+exp(-z)),其值域为[0,1]。为了得到K位的二进制编码，设计一个符号函数

$b_{i}^{{}}(v)=sgn(a_{i}^{\text{H}}-0.5)=\left\{ \begin{align} & \begin{matrix} 1 & v\ge 0 \\ \end{matrix} \\ & \begin{matrix} 0 & v<0 \\ \end{matrix} \\ \end{align} \right.$

(4)

式中，v=a_i^H-0.5。

2.5 损失函数

对于多标签的数据集，图像内容的复杂度往往不同，图像间的相似度取决于有多少标签是相同的。Zhao等人^[17]提出基于标签的距离排序，在学习哈希函数时，确保根据汉明距离计算的相似图像顺序尽可能地顺从于利用语义标签来计算的结果，对于相同标签越多的图像，在查询时就要离查询图像越近。利用triplet-loss^[24]作为损失函数，给定一个图像三元组(I,I^-,I⁺)，其中I与I⁺相似，I与I^-不相似，则在损失函数中希望(I,I⁺)之间的汉明距离小于(I,I^-)之间的汉明距离，训练的目的是最小化目标函数

${{\ell }_{\text{triplet}}}={{[d(I,{{I}^{+}})-d(I,{{I}^{-}})+m]}_{+}}$

(5)

式中，I表示一幅图像，I⁺是与I的某个标签相同的图像，I^-是与I的某个标签不相同的图像。d(.,.)为汉明距离，m为边距参数，[x]₊=max{0,x}。由于这个式子是非凸的，为了易于优化，将上面的损失函数进行松弛，用欧氏距离来代替汉明距离，并且添加一个正则化项，即

$\begin{align} & {{l}_{triplet}}={{[||I-{{I}^{\text{+}}}||_{2}^{2}+||I-{{I}^{\text{-}}}||_{2}^{2}+m]}_{+}}+ \\ & \frac{\lambda }{2}||\mathbf{W}||_{2}^{2} \\ \end{align}$

(6)

式中，λ为正则化系数，W为网络的权值。根据NDCG(归一化累积折损增益)^[25]的定义，距离查询图像最近的返回图像应该获得较高的NDCG分数。本文在损失函数中添加一个权重ω=2^r_i-2^r_j，其中r_i和r_j分别为图像对(I,I⁺)和(I,I^-)中相同标签的个数，则

${{l}_{triplet}}=\omega {{l}_{triplet}}(I,{{I}^{-}},{{I}^{+}})$

(7)

3 实验

在3个数据集上对模型进行测试，并与之前的方法进行比较。选取无监督方法ITQ^[8]，监督的方法CCA-ITQ^[8]、 DSRH^[17]。数据集分别为Flickr25K^[26]、VOC2012^[27]、NUSWIDE^[28]。

3.1 数据集

Flickr25K数据集由来源于Flickr中的25 000幅图像组成。该数据集包含38个语义标签，其中每幅图像有多个标签。平均每幅图像的标签2.8个。随机选取其中的2 000幅图像作为测试集，剩下的23 000幅图像作为训练集。

VOC2012数据集包含11 530幅图像，20种标签，平均每幅图像包含的标签2.8个。随机选取其中2 000幅图像作为测试集，剩下9 530幅图像作为训练集。

NUSWIDE数据集包含269 684幅图像，81种标签，该数据集的图像也是来源于Flickr。随机选择5 000幅图像作为测试集，剩下的图像作为训练集。

3.2 评价标准

采用NDCG、ACG(average cumulative gain)和wMAP^[17]作为评价指标。ACG@m是返回的前m个图像的平均相似度，其定义为

$ACG@m=\frac{1}{m}\sum\limits_{i=1}^{m}{r(i)}$

(8)

式中，r(i)为第i个返回图像与查询图像之间共同的标签数。NDCG是归一化折损累积增益，其定义为

$\begin{align} & NDCG@p=DCG@p/{{X}_{p}} \\ & DCG@P=\sum\limits_{i=1}^{P}{\frac{{{2}^{{{r}_{i}}}}-1}{\ln (1+i)}} \\ \end{align}$

(9)

式中，X_p为DCG的理想情况下的最大值，所以NDCG的值范围为[0,1]。r_i为相似度级别，通过两幅图像之间共有的标签数来衡量，最大值为查询图像与数据库中图像的最大的相同标签数，最小值为0。

wMAP^[17]是查询集中所有图像的平均检索准确度，其定义为

$mA{{P}_{w}}=\frac{1}{M}\sum\limits_{r=1}^{M}{A{{P}_{w}}(r)}$

(10)

式中，M为查询集的大小，AP_w是每幅图像的平均相似度，其计算方式为

$A{{P}_{w}}=\frac{\sum\limits_{P=1}^{K}{\delta ({{r}_{p}}>0)ACG@p}}{{{K}_{r>0}}}$

(11)

式中，δ为指示函数，当在相似度级别p所返回图像数量(r_p)大于0时为1，否则为0。

3.3 训练

实验基于caffe^[29]框架进行训练和测试，利用已经训练好的模型GoogLeNet^[20]初始化网络来提取图像的低层特征。Mini_batch 的大小设置为32用于梯度下降算法(SGD)，选取前100个较高置信度的Object Proposals。模型的初始学习率为0.000 1，衰减因子(gamma)为0.1。动量设置为0.9。

类似于文献[1]，使用4层SPP：{4×4,3×3,2×2,1×1}提取局部特征，对于一个Feature map，SPP将其映射为维度为30的特征向量。

3.4 实验结果比较

实验中，对于非深度学习方法的ITQ^[8]和CCA-ITQ^[8]，为了能公平地进行比较，利用GoogLeNet^[22]的全连接层作为图像的特征，这样将每幅图像表示为1 024维的特征向量，再利用ITQ^[8]和CCA-ITQ^[8]进行哈希编码。本文直接用已经训练好的GoogLeNet模型提取图像的特征。

图 5-图 7展示了3个数据集在哈希码为48位时的NDCG@m和ACG@m值。从图 5(a)可以看到，在VOC2012数据集上本文方法要好于其他方法。随着返回图像数量的增加，NDCG的值呈递增趋势，在图像数量为1 000时，本文方法相对于DSRH方法提高24个百分点，相对于ITQ-CCA方法能提高36个百分点。从图 5(b)可以看出，本文方法的ACG值要高于其他方法，当返回图像数量增加时ACG值下降的要比其他方法慢。

图 5 voc2012数据集48bit性能图

Fig. 5 Performance curves for 48bits of voc2012 ((a) NDCG figure; (b) ACG figure)

图 6 Flickr25k数据集48bit性能图

Fig. 6 Performance curves for 48bits of Flickr25k ((a) NDCG figure; (b) ACG figure)

图 7 Nus-wide 数据集48 bit性能图

Fig. 7 Performance curves for 48bits of Nus-wide ((a) NDCG figure; (b) ACG figure)

对于Flickr25k数据集，其结果如图 6所示，由于数据集的差异性，NDCG值整体都不高。本文方法比DSRH方法能提高2个左右的百分点。但是对于ACG，本文方法能够维持比较好的水平，能够达到 2.9。

对于Nus-wide数据集，如图 7所示，本文方法和直接使用GoogleNet作为图像特征的CCA-ITQ方法都取得到了不错的效果。

图 8-图 10分别为voc2012、Flickr25k和NUSWIDE数据集在不同哈希码的情况下NDCG和ACG的变化，其中返回的图像数量为100，哈希码的长度分别为16 bits，32 bits，48 bits和64 bits。从图 8(a)可以看出，虽然开始本文方法对比DSRH方法的优势不是很明显，但是随着哈希码的长度增加，本文方法的NDCG能够达到0.8，比其高出4个百分点。从图 8(b)可以看出，哈希码长度的增长时，本文方法的效果相对于DSRH有比较明显地增长。

图 8 voc2012数据集不同长度哈希码的性能图

Fig. 8 Comparison performance of ours method with others by varies of hash bits ((a) NDCG figure; (b) ACG figure)

图 9 Flickr25k数据集不同长度哈希码的性能图

Fig. 9 Comparison performance of ours method with others by varies of hash bits ((a) NDCG figure; (b) ACG figure)

图 10 Nus-wide数据集不同长度哈希码的性能图

Fig. 10 Comparison performance of our method with others by varies of hash bits ((a) NDCG figure; (b) ACG figure)

对于Flickr25K数据集，DSRH整体的性能比较好，在16~48 bits的哈希码段内，本文效果基本和其持平。对于Nuswides数据集，如图 10所示，可以看出，在NDCG指标上，本文方法和CCA-ITQ方法效果都比较好，本文方法的ACG值稍优于DSRH方法，基本和其持平。

对于Nus-wide和Flickr25k两个数据集给出了加权的平均检索准确度，如图 11所示，在Nuswide上本文方法能提高2~5个百分点，在Flickr25k上本文方法可以提高4~5个百分点。

图 11 Nus-wide和Flickr25k上性能比较图

Fig. 11 Comparison performances of our method with others by varies of hash bits ((a) NDCG figure; (b) ACG figure)

4 结论

图像检索的核心是对图像的准确描述。对于包含多个标签的复杂图像，如何准确地描述它的内容是图像处理的热点问题。本文基于目标提取的思想，研究了细粒度图像描述的方法，通过分别地描述图像包含的所有目标，从而实现对图像整体的精确描述。这时，图像就不是用单个哈希码来表示，而是用一组哈希码来表示，每个哈希码对应于图像中的某个目标。实验结果表明这种方法能够大幅提高多标签图像检索的性能。本文的研究重点主要是基于多标签的有监督学习，而现实应用中大多数图像是没有标签的，这给有监督的图像检索训练就带来一定困难。其次本文方法是细粒度的图像检索，针对不同分辨率的图像，其包含的有效信息不同，这使得神经网络的性能差异较大。针对这两个问题，本课题未来的研究方向是结合一定的无监督方法来共同训练，其次是研究设计泛化性能更好的深度神经网络。

参考文献

[1] He K M, Zhang X Y, Ren S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2015, 37 (9) : 1904–1916. DOI:10.1109/TPAMI.2015.2389824

[2] Xu K, Ba J, Kiros R, et al. Show, Attend and Tell:Neural Image Caption Generation with Visual Attention[C/OL]//Proceedings of International Conference on Machine Learning,2015:2048-2057.[2016-07-20].http://jmlr.org/proceedings/papers/v37/xuc15.pdf.

[3] Oliva A, Torralba A. Modeling the shape of the scene:a holistic representation of the spatial envelope[J]. International Journal of Computer Vision , 2001, 42 (3) : 145–175. DOI:10.1023/A:1011139631724

[4] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision , 2004, 60 (2) : 91–110. DOI:10.1023/B:VISI.0000029664.99615.94

[5] Gionis A, Indyk P, Motwani R. Similarity search in high dimensions via hashing[C]//Proceedings of the 25th International Conference on Very Large Data Bases. San Francisco, CA, USA:Morgan Kaufmann Publishers Inc., 1999:518-529.

[6] Kulis B, Grauman K. Kernelized locality-sensitive hashing for scalable image search[C]//Proceedings of the 12th International Conference on Computer Vision. Kyoto:IEEE, 2009:2130-2137.DOI:10.1109/ICCV.2009.5459466

[7] Weiss Y, Torralba A, Fergus R. Spectral hashing[C]//Advances in Neural Information Processing Systems 21:22nd Annual Conference on Neural Information Processing Systems 2008. Vancouver, British Columbia, Canada:NIPS, 2008:1753-1760.

[8] Gong Y C, Lazebnik S, Gordo A, et al. Iterative quantization:a procrustean approach to learning binary codes for large-scale image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2013, 35 (12) : 2916–2929. DOI:10.1109/TPAMI.2012.193

[9] Wang J, Kumar S, Chang S F. Semi-supervised hashing for scalable image retrieval[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA:IEEE, 2010:3424-3431.DOI:10.1109/CVPR.2010.5539994

[10] Mu Y D, Shen J L, Yan S C. Weakly-supervised hashing in kernel space[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA:IEEE, 2010:3344-3351.DOI:10.1109/CVPR.2010.5540024

[11] Johnson J, Krishna R, Stark M, et al. Image retrieval using scene graphs[C]//Computer Vision and Pattern Recognition. Washington DC:IEEE, 2015:3668-3678.DOI:10.1109/CVPR.2015.7298990

[12] Liu W, Wang J, Ji R R, et al. Supervised hashing with kernels[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI:IEEE, 2012:2074-2081.DOI:10.1109/CVPR.2012.6247912

[13] Xia R K, Pan Y, Lai H J, et al. Supervised hashing for image retrieval via image representation learning[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence. Québec City, Canada:AAAI, 2014.

[14] Lai H J, Pan Y, Liu Y, et al. Simultaneous feature learning and hash coding with deep neural networks[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA:IEEE, 2015:3270-3278.DOI:10.1109/CVPR.2015.7298947

[15] Lin M, Chen Q, Yan S C. Network in network. arXiv preprint arXiv:1312.4400, 2013..https://arxiv.org/abs/1312.4400.

[16] Yang H F, Lin K, Chen C S. Supervised learning of semantics-preserving hashing via deep neural networks for large-scale image search. arXiv preprint arXiv:1507.00101, 2015..https://arxiv.org/abs/1507.00101.

[17] Zhao F, Huang Y Z, Wang L, et al. Deep semantic ranking based hashing for multi-label image retrieval[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA:IEEE, 2015:1556-1564.DOI:10.1109/CVPR.2015.7298763

[18] Uijlings J R R, Van De Sande K E A, Gevers T, et al. Selective search for object recognition[J]. International Journal of Computer Vision , 2013, 104 (2) : 154–171. DOI:10.1007/s11263-013-0620-5

[19] Krähenbühl P, Koltun V. Geodesic object proposals[C]//Proceedings of the 13th European Conference on Computer Vision-ECCV 2014. Switzerland:Springer International Publishing, 2014:725-739.DOI:10.1007/978-3-319-10602-1_47

[20] Alexe B, Deselaers T, Ferrari V. What is an object?[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, CA:IEEE, 2010:73-80.DOI:10.1109/CVPR.2010.5540226

[21] Cheng M M, Zhang Z M, Lin W Y, et al. BING:binarized normed gradients for objectness estimation at 300fps[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH:IEEE, 2014:3286-3293.DOI:10.1109/CVPR.2014.414

[22] Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA:IEEE, 2015:1-9.DOI:10.1109/CVPR.2015.7298594

[23] Wei Y C, Xia W, Huang J S, et al. CNN:single-label to multi-label. arXiv preprint arXiv:1406.5726, 2014..https://arxiv.org/abs/1406.5726.

[24] Norouzi M, Fleet D J, Salakhutdinov R R. Hamming distance metric learning[C]//Advances in Neural Information Processing Systems 25:26th Annual Conference on Neural Information Processing Systems 2012. Lake Tahoe, Nevada, USA:NIPS, 2012:1070-1078.

[25] Järvelin K, Kekäläinen J. IR evaluation methods for retrieving highly relevant documents[C]//Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM, 2000:41-48.DOI:10.1145/345508.345545

[26] Huiskes M J, Lew M S. The MIR flickr retrieval evaluation[C]//Proceedings of the 1st ACM International Conference on Multimedia Information Retrieval. New York, NY, USA:ACM, 2008:39-43.DOI:10.1145/1460096.1460104

[27] Everingham M, Van Gool L, Williams C K I, et al. The pascal visual object classes (VOC) challenge[J]. International Journal of Computer Vision , 2010, 88 (2) : 303–338. DOI:10.1007/s11263-009-0275-4

[28] Chua T S, Tang J H, Hong R C, et al. NUS-WIDE:a real-world web image database from National University of Singapore[C]//Proceedings of the 2009 ACM International Conference on Image and Video Retrieval. New York,:ACM, 2009:#48.DOI:10.1145/1646396.1646452

[29] Jia Y Q, Shelhamer E, Donahue J, et al. Trevor Darrell:Caffe:Convolutional Architecture for Fast Feature Embedding[C]//Proceedings of the ACM International Conference on multimedia, ACM Multimedia. New York:ACM, 2014:675-678.DOI:10.1145/2647868.2654889

摘要

关键词