发布时间: 2017-02-25
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20170212
2017 | Volumn 22 | Number 2

第11届图像图形技术与应用学术会议专栏

结合视觉注意机制与递归神经网络的图像检索

李军, 吕绍和, 陈飞, 阳国贵, 窦勇

国防科学技术大学计算机学院, 长沙 410073

收稿日期: 2016-08-04; 修回日期: 2016-09-17

基金项目: 国家自然科学基金项目(U1435219)

第一作者简介: 李军(1991-),男,国防科学与技术大学计算机学院软件工程硕士研究生,主要研究方向为计算机视觉。E-mail:lj924544292@163.com

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2017)02-0241-08

摘要

目的图像检索是计算机视觉的一项重要任务。图像检索的关键是图像的内容描述，复杂图像的内容描述很具有挑战性。传统的方法用固定长度的向量描述图像内容，为此提出一种变长序列描述模型，目的是丰富特征编码的信息表达能力，提高检索精度。方法本文提出序列描述模型，用可变长度特征序列描述图像。序列描述模型首先用CNN(convolutional neural network)提取底层特征，然后用中间层LSTM(long short-term memory)产生局部特征的相关性表示，最后用视觉注意LSTM(attention LSTM)产生一组向量描述一幅图像。通过匈牙利算法计算图像之间的相似性完成图像检索任务。模型采用标签级别的triplet loss函数进行端对端的训练。结果在MIRFLICKR-25K和NUS-WIDE数据集上进行图像检索实验，并和相关算法进行比较。相对于其他方法，本文模型检索精度提高了512个百分点。相对于定长的图像描述方式，本文模型在多标签数据集上能够显著改善检索效果。结论本文提出了新的图像序列描述模型，可以显著改善检索效果，适用于多标签图像的检索任务。

关键词

图像检索; 序列描述模型; 特征提取; 匈牙利算法; 卷积神经网络; LSTM

Image retrieval by combining recurrent neural network and visual attention mechanism

Li Jun, Lyu Shaohe, Chen Fei, Yang Guogui, Dou Yong

College of Computer, National University of Defense Technology, Changsha 410073, China

Supported by: National Natural Science Foundation of China(U1435219)

Abstract

Objective Image retrieval is an important task in computer vision. Image content description is the key to image retrieval. Accurate and full descriptions of the image content can significantly improve retrieval precision. Traditional methods describe image content by a unified fixed-length vector. A simple image only contains one object, whereas a complex image can contain several objects. Describing a complex image similar to a simple image by a fixed-length vector is generally insufficient. This study proposes a varying-length sequence description model. Method We propose the sequence description model based on the Recurrent Neural Network and Visual Attention Mechanism. The sequence description model describes images with varying-length sequences. The sequence description model first extracts low-level features by CNN (convolutional neural network), then generates a contextual representation of local features by intermediate LSTM (long short-term memory), and finally produces a vector group to describe an image by attention LSTM. The attention mechanism enables the vector number to describe images that are as many as the label number of the described image. The model is end-to-end trainable, and we train the sequence description model with label-level triplet loss function. We apply the Hungarian algorithm to compute the similarities between the two images. We also study the image retrieval precision with different deep multilayer LSTMs by changing the number of multilayer LSTMs. Resuls We performed the experiment based on two common datasets:MIRFLICKR-25K and NUS-WIDE. Our sequence description model method increased by 10 percent to 12 percent in terms of accuracy rate, unlike the DNN-lai method in the single-label image retrieval experiment on the MIRFLICKR-25K dataset. Our sequence description model method increased by approximately 10 percent over the CCA-ITQ and DSRH methods in the experiment on multi-label image retrieval on the NUS-WIDE dataset. We also provided comparative results of the performance of our method against the DNN-lai method. We applied the Hungarian algorithm to compute the similarities between two images, which consumed much time, given that our feature extraction results are varying-length. Thus, our method required a long time when querying an image in the dataset. Conclusion This study presented a model utilizing a recurrent neural network to generate descriptive sequences of an image with attention LSTM. The proposed model was applicable to the task of multi-label image retrieval.

Key words

image retrieval; sequences description model; feature extraction; Hungarian algorithm; convolutional neural network (CNN); long short-term memory (LSTM)

0 引言

图像检索是指根据查询图像从数据库中找出与其相似的图像，它在计算机视觉领域占有重要的地位。图像在各种应用场合和各个领域扮演着重要的角色，大规模图像数据库需要有效的方法进行索引，存储，分析和查询。因此，快速、精确、有效地查询图像数据库是一个很有挑战性的任务。

图像检索的核心是图像内容的描述。为比较图像的相似性，必须描述图像的内容，其基本思想是将图像表达为特征向量^[1]。通常，越相似的图像，它们特征向量之间的距离越小，例如特征向量之间的欧氏距离越小。这种做法最为简单，图像用一个固定长度的向量来表示，能够支持快速的比较，但不能适应图像检索的新需求。

图像检索面临的现实问题：图像内容越来越复杂，包含信息越来越多。图像的复杂多样性表现在：从内容上看，单幅图像，有的仅包含单个目标，有的可能包含多个目标且这些目标之间还存在关联。将前者称为简单图像，后者称为复杂图像。从相似程度上看，图像之间的相似，可以涵盖从单个目标到多个目标甚至目标之间关联等不同层面的相似。

近年来，深度学习方法被广泛用于图像分类^[2-3]，物体检测^[4]，场景语义标记^[5-6]和图像检索^[1]。深度学习方法可以学习图像的特征表示，例如，卷积神经网络通过卷积和下采样操作提取图像特征^{[1, 7]}。通常，顶层全连接层会产生一个固定长度的向量来表示图像的特征。包含多个目标物体的复杂图像，对图像内容描述，提出了新的要求。现有的固定长度的向量表示方式，不能满足需求。为应对这种需求，采用以下策略：单独描述图像中的物体，对两幅复杂的图像，它们之间的相似性往往表现为部分内容是相同的。如图 1所示，图 1(a)(b)有共同的物体、人，所以图 1(a)(b)相似；图 1(b)(c)有共同的物体、车，所以图 1(b)(c)相似。当用固定长度的向量描述图像内容时，图 1(a)(b)特征向量之间的距离很近，图 1(b)(c)特征向量之间的距离也很近。那么图 1(a)(c)特征向量之间的距离也可能很近，这就说明图 1(a)(c)相似，这样就得出错误结论。这种混淆的原因是图 1(b)的表达是一个单独的向量，没能区分不同的物体。这种问题可以通过单独描述图像中的物体解决，即一个图像中有多少个物体，就用多少个向量描述图像。

图 1 3幅图像的相似性比较

Fig. 1 Similarities comparison of three images ((a) contains a person； (b) contains a person and a car； (c) contains a car)

按照以上策略，提出新的图像内容描述模型。序列描述模型，用一个变长的特征序列描述图像内容，而不是用固定长度的向量。首先，利用CNN (convolutional neural network)提取图像的基本特征；然后，利用中间层LSTM(long short-term memory)产生图像邻域组合表示；最后，利用attention LSTM^[8]获取图像的一个特征序列。在这个特征序列中，每个特征描述了图像中部分物体。序列长度是可变的，取决于图像的信息量。一个复杂的图像，包含多个物体，拥有多个标签，序列描述产生特征序列，每个特征和图像的一个标签对应，描述图像中的一个物体。中间层LSTM能够描述物体之间的部分关系。attention LSTM，能够按照一定顺序注意图像中的每个感兴趣物体。相对于将整个图像转换成一个静态的表示，attention允许静态的特征依据需要“动态地”呈现在面前^[8]。本文突破了固定的表达，在表达能力与计算效率之间取得了新的平衡。一方面，变长可分的向量提供了图像的精确描述，通过attention来获取图像中物体及其之间的关系；另一方面，每一个子向量是固定长度的，能够实现标签(物体)级别的快速比较。

在图像检索任务的应用。在图像检索任务中，对于复杂的图像，一般需要多个标签表达。序列描述方法与图像标签信息结合，提供了图像的一种简洁有效的特征表示。图像中单个物体特征长度固定。利用匈牙利算法(Hungarian algorithm)便于快速计算共享标签个数，决定图像相似程度。多个数据集的实验结果表明，序列描述方法可以提高检索能力。

标签级别的训练策略。序列描述模型是端对端训练的。将图像成对输入网络，但在图像标签级别利用triplet loss训练。它的优点包括：标签级别的triplet loss训练，保证了训练的有效性；输入是两幅图像，相较于传统的triplet loss训练，减少了数据量。这些新方法可拓展到许多应用领域。例如，训练策略可用于图像产生标题的递归神经网络(RNN)训练。再比如，可分的图像描述，作为一种图像内容描述，可用于图像标注，物体识别等图像处理任务。

在MIR-Flickr25K^[9]和NUS-WIDE^[10]两个数据集上对实验做出评估。实验结果表明，图像内容描述模型能够提高图像检索能力，特别是在复杂的数据集上表现更为突出。中间层LSTM层数对模型的性能有影响,当层数为两层时效果最好。

1 相关工作

早期的图检索方法，提取特征还是手动提取的，直接比较图像特征判别相似性。最近，基于学习的方法，尤其深度学习方法在描述图像方面引起了广泛的关注。按照学习策略可以分为无监督学习方法^[11]和有监督学习方法^[12]。无监督学习方法仅利用训练数据学习哈希函数，然后将输入数据编码成二进制码。有监督的学习方法利用监督信息(标签信息)学习图像的简洁表示。

RNN被成功的用于处理时间序列模型。例如，手写体识别^[13]、语音识别^[14]。最近，RNN也多用于图像处理领域，例如图像产生标题^[8]，场景语义标注^[5-6]，人的检测^[15]。

最近，基于RNN的attention模型应用较为广泛。例如，Mnih等人^[16]提出Glimpse模型，每次从图像或者视频中选择一块区域进行处理，而不直接对整个图像或者视频进行操作。基于attention的模型^[8]被用来自动学习描述图像内容。Stochastic “Hard” Attention在一次处理过程中，可以确定关注图像哪个区域位置；Deterministic “Soft” Attention在一次处理过程中，对不同的区域分配不同的权重，最终加权求和表示关注区域。

2 模型

2.1 LSTM

LSTM拥有记忆单元，允许网络在学习过程中，选择忘记先前的隐藏状态或者更新隐藏状态。本文用的LSTM单元如图 2所示。

图 2 基本LSTM单元图^[17]

Fig. 2 A diagram of a basic LSTM cell^[17]

LSTM有两个输入，输入x_t，隐含层状态h_t-1，除此之外还包括：输入门i_t，遗忘门f_t，输出门o_t，输入模块g_t，记忆单元c_t，即

$\begin{align} & {{i}_{t}}=\sigma ({{W}_{xi}}{{x}_{t}}+{{W}_{hi}}{{h}_{t-1}}+{{b}_{i}}) \\ & {{f}_{t}}=\sigma ({{W}_{xf}}{{x}_{t}}+{{W}_{hf}}{{h}_{t-1}}+{{b}_{f}}) \\ & {{o}_{t}}=\sigma ({{W}_{xo}}{{x}_{t}}+{{W}_{ho}}{{h}_{t-1}}+{{b}_{o}}) \\ & {{g}_{t}}=\phi ({{W}_{xc}}{{x}_{t}}+{{W}_{hc}}{{h}_{t-1}}+{{b}_{c}}) \\ & {{c}_{t}}={{f}_{t}}\odot \text{ }{{c}_{t-1}}+{{i}_{t}}\odot \text{ }{{g}_{t}} \\ & {{h}_{t}}={{o}_{t}}\odot \text{ }\phi ({{c}_{t}}) \\ \end{align}$

式中，⊙表示两个向量对应位置的元素相乘，σ(x)是sigmoid非线性操作，φ(x)是双曲正切函数，它们计算公式为

$\begin{align} & \sigma (x)={{(1+{{e}^{-x}})}^{-1}} \\ & \phi (x)=\frac{{{e}^{x}}-{{e}^{-x}}}{{{e}^{x}}+{{e}^{-x}}}=2\sigma (2x)-1 \\ \end{align}$

2.2 模型整体架构

如图 3所示，采用CNN+RNN的混合结构，每幅图像经过3个主要环节得到最终的特征表达。首先，利用深度卷积网络提取输入图像的特征，为了不丢失图像的中层特征，没有选择最后的全连接层作为图像的特征，而是选择图像的feature map特征作为LSTM的输入。由于googlenet^[18]深度卷积网络在图像分类上取得非常好的效果，能够很好地提取图像的特征，所以选择googlenet作为CNN模型。用googlenet模型提取图像feature map(15×20的格子)，每个格子表示1 024维的向量。接下来，用LSTM对每个格子及其周围邻域的格子进行特征组合，获得图像局部物体特征表示。最后，用attention LSTM产生图像的序列描述，这就是图像的最终表示方式。

图 3 模型整体框架：CNN+中间层LSTM+Attention LSTM

Fig. 3 Overall framework model:CNN+Intermediate LSTM+Attention LSTM

2.3 googlenet提取底层特征

因为googlenet深度卷积网络在图像分类上取得非常好的效果，能够很好地提取图像的特征，所以用googlenet提取底层特征。提取底层特征时，输入为1幅图像(640×480像素)，输出为feature map(15×20的格子)，每个格子表示1 024维的向量。选取googlenet网络的最后一层feature map层，即可得到输出15×20×1 024的向量。

2.4 中间层LSTM

中间层LSTM的作用是提取图像中物体的相关性。如图 4所示，输入是googlenet提取的feature map特征，输出为特征向量，作为下一步attention LSTM的输入。如图 4，对于某个格子A₀，考虑R×R(R=3)的邻域，这里的输入顺序是A₈, A₇,…, A₀，最后输出为A₀的邻域组合表达，它表示了A₀及其邻域之间的相关性。最终的输出长度为N，N是LSTM隐藏层单元个数，实验中固定N=250，这样LSTM输出为250维的向量。若A₀位于15×20格子的边缘，其3×3邻域会超出格子的范围，实验中超出格子范围的邻域赋值为0。实验中选取3×3的邻域，也可以考虑2×2的邻域，但可能会丢失一些信息；若R足够大，可以涵盖整个图像，这时信息量比较充足，但是会增大计算量，代价比较大。这里单层LSTM可以扩展成多层LSTM^[19]，实验中将单层LSTM扩展到两层LSTM，对实验结果有一定的提升，扩展到3层LSTM，实验结果反而下降。

图 4 中间层LSTM

Fig. 4 Intermediate LSTM

2.5 attention LSTM

attention LSTM产生输入图像的一组序列表示。一个复杂的图像，包含多个目标物体，每个物体都有一个类别标签，这样一个图像拥有多个标签。attention机制使得每个输出序列都对应图像的一个标签，即对应图像中的一个物体。使用soft attention model^[8],如图 5所示，t时刻，该模型的输出为向量y_t，输入分为两个部分：中间层LSTM出来的特征向量{s₁,s₂,…,s_L}，LSTM的隐含状态h_t-1。模型的计算公式为

$\begin{align} & {{x}_{t}}=\sum\limits_{i=1}^{L}{{{s}_{i}}{{\alpha }_{ti}}} \\ & {{\alpha }_{ti}}=\frac{{{e}_{ti}}}{\sum\limits_{k=1}^{L}{{{e}_{tk}}}} \\ & {{e}_{tk}}={{\omega }_{\alpha }}\phi ({{V}_{a}}{{s}_{k}}+{{W}_{a}}{{h}_{t-1}}) \\ \end{align}$

式中，V_a，W_a是参数矩阵，ω_a是参数向量，t时刻，h_t是隐含状态，{a_t1,a_t2,…,a_tL}是attention权值向量。

attention LSTM能够学习到图像中的物体，并不需要提前标注物体的位置。

图 5 attention LSTM

Fig. 5 attention LSTM

3 训练

在标签级别使用triplet loss损失函数。Triplet loss损失函数在学习物体之间的相似性上取得了良好的效果^[1]。详细过程如下：1)首先对数据库所有标签排序，这个顺序可以是任意的，但一定要有个顺序，这样数据库中任意一幅图像的标签是排好序的。2)图像的最终序列表示和标签一致。对于任意一幅图像，假设有n个标签，i₁,i₂,…,i_n，那么训练过程中图像的输出就是n个向量，V₁,V₂,…,V_n，第i个输出V_i，对应第i个标签i_i。3)训练时，同时输入两幅图像，目标是使得两幅图像相同标签对应向量之间的距离小于不同标签对应向量之间的距离。假设图像A的标签是a₁,a₂,…,a_m，对应的向量是V_a1,V_a2,…,V_am,图像B的标签是b₁,b₂,…,b_n，对应的向量是V_b1,V_b2,…,V_bn，a₁和b₂是相同标签，a₁和b₁是不同标签，则希望d(V_a1,V_b2)<d(V_a1,V_b1)，其中d表示欧氏距离。为了区分得更开，这里再添加一项m，使得d(V_a1,V_b2)+m<d(V_a1,V_b1),实验中m=1。

4 查询

从图像数据库D中寻找和查询图像I_q相似的图像，首先，需要计算D中任意一图像I_x(I_x∈D)和查询图像I_q之间的相似性，然后，按照相似性对D中所有图像进行排序。

计算图像I_q和I_x之间的相似性。首先，构建一个加权二部图G=(V,E,W)，其中V表示图像I_q和I_x的输出，V=V_q∪V_x，对任意v₁∈V_q和v₂∈V_x，都有一条边相连，边的权值是v₁、v₂对应输出向量之间的欧氏距离。然后，用匈牙利算法计算最大匹配数，使欧氏距离之和最小，越小表示越相似。对任意两点，如果它们之间边的权值小于阈值γ，认为这两点是匹配的，它们对应的标签是同一个标签。阈值γ根据训练结果可以得到。

按照相似性对D中所有图像进行排序。用s_x表示欧氏距离之和，用n_x表示匹配的边数之和。对D中图像排序规则如下：对任意两幅图像I_x,I_y(I_x,I_y∈D)，如果满足n_x>n_y或者n_x=n_y并且s_x<s_y，则I_x排在I_y之前，排序越靠前表示该图像与查询图像越相似。

5 实验

在两个数据集上进行训练和测试:1)MIRFLICKR-25K数据集，包含25 000幅图像，总共24个标签，每个图像有多个标签；2)NUS-WIDE数据集，包含大概210 000幅可用图像，总共81个标签。每个图像有一个或者多个标签。对于每个数据集，随机选取中的80%作为训练集，剩下的20%作为测试集。为方便和其他方法进行比较，训练结束后，随机选取测试集中的1 000幅图像作为查询图像。本文的对比方法有ITQ^[11]、CCA-ITQ^[11]、DNN-lai^[7]、DRSH^[1]。

实验基于caffe框架^[20]。在cpu-i3，内存64 GB，显卡GTX980机器上训练，MIRFLICKR-25K迭代20万次，耗时约25 h，NUS-WIDE迭代100万次，耗时约120 h，内存占用2 GB左右。训练时，googlenet^[18]直接加载训练好的参数，在整个模型训练过程中进行微调。整个模型的学习率设为0.01，每迭代20 000次学习率乘上0.8，动量设为0.5，所有的参数初始化为N(0,0.1)，中间层LSTM和attention LSTM隐藏层单元分别设为250和64。

用3个评价指标：单标签查询用平均检索精度(mAP)、PR(precision-recall curve)曲线评价，多标签用NDCG(normalized discounted cumulative gain)^[21]评价。NDCG@m定义为

$\begin{align} & NDCG@m=\frac{DCG@m}{{{X}_{m}}} \\ & DCG@m=\sum\limits_{i=1}^{m}{\frac{{{2}^{r(i)}}-1}{\ln (1+i)}} \\ \end{align}$

式中，X_m是DCG@m的最大值，r(i)表示返回图像和查询图像之间共同的标签个数，@m表示返回的前m个图像。NDCG@m的值介于0~1之间。

5.1 单标签查询

单个标签的查询，如果返回图像和查询图像有一个共同的标签，则认为返回图像和查询图像相似，返回结果正确。实验结果如图 6、图 7所示。

图 6 MIRFLICKR-25K数据集单标签查询结果对比图

Fig. 6 Single-label retrieval results on MIRFLICKR-25K ((a) mAP vs number of returned images；(b) mAP vs Reall)

图 7 NUS-WIDE数据集单标签查询结果对比图

Fig. 7 Single-label retrieval results on NUS-WIDE ((a) mAP vs number of returned images；(b) mAP vs Reall)

如图 6所示，在MIRFLICKR-25K数据集上，本文方法相对于其他方法(ITQ、DNN-lai)，结果更好。从图 6(a)mAP和返回图像个数曲线可以看出，本文方法相对于DNN-lai提高了10~12个百分点，一直保持在85%左右的准确率。图 6(b)mAP和Recall曲线中，在Recall=0.2时，本文方法和DNN-lai方法持平，mAP都等于83%，随着Recall的增大，DNN-lai方法mAP下降很快，本文方法mAP下降较缓，在Recall=1时，仍达到70%的准确率。在NUS-WIDE数据上，图 7(a)mAP和返回图像个数曲线表明本文方法相对于DNN-lai方法提高了2~4个百分点。图 7(b)mAP和Recall曲线中，本文方法略微好于DNN-lai方法。相对于传统方法ITQ，基于深度学习的方法(DNN-lai，本文方法)都表现出更好的性能，这说明深度学习能够更有效的提取图像的特征。

MIRFLICKR-25K数据集相对于NUS-WIDE数据集更为复杂，每个图像包含更多的对象，拥有更多的标签。在更为复杂的数据集上，本文方法效果更加显著，说明该方法适用于描述内容多，关系复杂的图像。

中间层LSTM的层数对实验结果有一定的影响。将中间层LSTM从一层拓展到两层，再到3层。实验结果如图 8、图 9所示。

图 8 MIRFLICKR-25K数据集不同LSTM层数结果对比图

Fig. 8 The results of different number of LSTM layers on MIRFLICKR-25K ((a) mAP vs number of returned images； (b) mAP vs Reall)

图 9 NUS-WIDE数据集结果对比图

Fig. 9 The results on NUS-WIDE((a) mAP vs number of returned images；(b) mAP vs Reall)

如图 8、图 9所示，本文改变中间层LSTM层数，层数变化对结果会产生影响。在数据集MIRFLICKR-25K上，如图 8(a)(b)所示，LSTM 2层相对于LSTM 1层提高2%~5%，说明更深的网络结构有助于性能提升，但LSTM 3相对于LSTM 1降低5%~10%，当LSTM网络层数增多时，更多的参数使得训练难度增大，网络可调性降低。

5.2 多标签查询

多个标签的查询是利用两幅图像之间相同标签的个数来衡量相似性，相同标签个数越多，则两幅图像的相似度越大。实验结果如图 10所示。多标签查询，本文方法比CCA-ITQ，DSRH方法效果好，相对于DSRH方法约高出10个百分点。中间层LSTM层数变化对多标签查询有影响，两层结果优于1层和3层。

图 10 多标签查询NDCG@2000结果对比图

Fig. 10 The NDCG@2000 results of multi-label retrieval

5.3 性能分析

在数据集NUS-WIDE上，中间层LSTM为2层本文方法和DNN-lai方法部分性能对比结果如表 1所示，DNN-lai方法查询数据集为10 500幅，查询一次耗时0.274 s，本文方法查询数据集为143 552幅，查询一次耗时为5.99 s。因为本文方法最终是变长向量的比较，需要用匈牙利算法进行匹配，所以平均每两幅图像比对一次耗时，本文方法比DNN-lai方法慢了将近一倍。

表 1 LSTM为2层时NUS-WIDE数据集上的性能对比
Table 1 Performance comparison between DNN-lai and ours method on NUS-WIDE when LSTM is two layers

下载CSV

性能	DNN-lai	本文方法
网络输入/像素	224×224	640×480
训练集规模/幅	10 500	143 552
查询数据集规模/幅	10 500	14 352
训练内存/GB	2.12	2.352
训练时间/h	大约45	大约120
查询一次耗时/s	0.274	5.99
2幅图像对比一次平均耗时/s	2.61×10^-5	4.17×10^-5

6 结论

准确描述图像内容是一个很有挑战性的任务，尤其是复杂图像。本文基于caffe框架，利用LSTM网络学习图像中物体的相关性，并用attention LSTM产生图像的序列化表达。根据图像包含信息量的多少，用一组向量表示图像。每个向量描述图像中一个物体，不用提前定位物体位置。利用标签级别的triplet loss损失函数进行训练，实验结果表明本文方法优于其他方法。对中间层LSTM深度研究表明，在网络可调范围内，深度为两层时效果较好。

参考文献

[1] Zhao F, Huang Y Z, Wang L, et al. Deep semantic ranking based hashing for multi-label image retrieval[C]//Proceedings of the 2015IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA:IEEE, 2015:1556-1564.DOI:10.1109/CVPR.2015.7298763

[2] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems 25:26th Annual Conference on Neural Information Processing Systems 2012. Lake Tahoe, Nevada, USA:NIPS, 2012.

[3] Sermanet P, Eigen D, Zhang X, et al. Overfeat:integrated recognition, localization and detection using convolutional networks[J/OL]. arXiv preprint arXiv:1312.6229.[2016-07-21].https://arxiv.org/abs/1312.6229.

[4] Jarrett K, Kavukcuoglu K, Ranzato M A, et al. What is the best multi-stage architecture for object recognition?[C]//Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Kyoto:IEEE, 2009:2146-2153.DOI:10.1109/ICCV.2009.5459469

[5] Farabet C, Couprie C, Najman L, et al. Learning hierarchical features for scene labeling[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2013, 35 (8) : 1915–1929. DOI:10.1109/TPAMI.2012.231

[6] Byeon W, Breuel T M, Raue F, et al. Scene labeling with LSTM recurrent neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA:IEEE, 2015:3547-3555.DOI:10.1109/CVPR.2015.7298977

[7] Lai H J, Pan Y, Liu Y, et al. Simultaneous feature learning and hash coding with deep neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA:IEEE, 2015:3270-3278.DOI:10.1109/CVPR.2015.7298947

[8] Xu K, Ba J, Kiros R, et al. Show, Attend and Tell:Neural Image Caption Generation with Visual Attention[J/OL]. arXiv preprint arXiv:1502.03044.[2016-07-21].https://arxiv.org/abs/1502.03044.

[9] Huiskes M J, Lew M S. The MIR flickr retrieval evaluation[C]//Proceedings of the 1st ACM International Conference on Multimedia Information Retrieval. New York:ACM, 2008:39-43.DOI:10.1145/1460096.1460104

[10] Chua T S, Tang J H, Hong R C, et al. NUS-WIDE:a real-world web image database from National University of Singapore[C]//Proceedings of the ACM International Conference on Image and Video Retrieval. New York:ACM, 2009:#48.DOI:10.1145/1646396.1646452

[11] Gong Y C, Lazebnik S, Gordo A, et al. Iterative quantization:a procrustean approach to learning binary codes for large-scale image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2013, 35 (12) : 2916–2929. DOI:10.1109/TPAMI.2012.193

[12] Yang L, Jin R, Mummert L, et al. A boosting framework for visuality-preserving distance metric learning and its application to medical image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2010, 32 (1) : 30–44. DOI:10.1109/TPAMI.2008.273

[13] Graves A, Liwicki M, Fernández S, et al. A novel connectionist system for unconstrained handwriting recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2009, 31 (5) : 855–868. DOI:10.1109/TPAMI.2008.137

[14] Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C]//Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver BC:IEEE, 2013:6645-6649.DOI:10.1109/ICASSP.2013.6638947

[15] Stewart R, Andriluka M. End-to-end people detection in crowded scenes[J/OL]. arXiv preprint arXiv:1506.04878.[2016-07-21].https://arxiv.org/abs/1506.04878.

[16] Mnih V, Heess N, Graves A, et al. Recurrent models of visual attention[C]//Advances in Neural Information Processing Systems 27:28th Annual Conference on Neural Information Processing Systems 2014. Montreal, Canada:NIPS, 2014:2204-2212.

[17] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation , 1997, 9 (8) : 1735–1780. DOI:10.1162/neco.1997.9.8.1735

[18] Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA:IEEE, 2015:1-9.DOI:10.1109/CVPR.2015.7298594

[19] Pascanu R, Gulcehre C, Cho K, et al. How to construct deep recurrent neural networks. arXiv preprint arXiv:1312.6026, 2013.

[20] Jia Y Q, Shelhamer E, Donahue J, et al. Caffe:convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia. New York:ACM, 2014:675-678.DOI:10.1145/2647868.2654889

[21] Järvelin K, Kekäläinen J. IR evaluation methods for retrieving highly relevant documents[C]//Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM, 2000:41-48.DOI:10.1145/345508.345545

摘要

关键词