Print

发布时间: 2018-11-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180259
2018 | Volume 23 | Number 11




    NCIG 2018会议专栏    




  <<上一篇 




  下一篇>> 





面向跨媒体检索的层级循环注意力网络模型
expand article info 綦金玮, 彭宇新, 袁玉鑫
北京大学计算机科学技术研究所, 北京 100080

摘要

目的 跨媒体检索旨在以任意媒体数据检索其他媒体的相关数据,实现图像、文本等不同媒体的语义互通和交叉检索。然而,"异构鸿沟"导致不同媒体数据的特征表示不一致,难以实现语义关联,使得跨媒体检索面临巨大挑战。而描述同一语义的不同媒体数据存在语义一致性,且数据内部蕴含着丰富的细粒度信息,为跨媒体关联学习提供了重要依据。现有方法仅仅考虑了不同媒体数据之间的成对关联,而忽略了数据内细粒度局部之间的上下文信息,无法充分挖掘跨媒体关联。针对上述问题,提出基于层级循环注意力网络的跨媒体检索方法。方法 首先提出媒体内-媒体间两级循环神经网络,其中底层网络分别建模不同媒体内部的细粒度上下文信息,顶层网络通过共享参数的方式挖掘不同媒体之间的上下文关联关系。然后提出基于注意力的跨媒体联合损失函数,通过学习媒体间联合注意力来挖掘更加精确的细粒度跨媒体关联,同时利用语义类别信息增强关联学习过程中的语义辨识能力,从而提升跨媒体检索的准确率。结果 在2个广泛使用的跨媒体数据集上,与10种现有方法进行实验对比,并采用平均准确率均值MAP作为评价指标。实验结果表明,本文方法在2个数据集上的MAP分别达到了0.469和0.575,超过了所有对比方法。结论 本文提出的层级循环注意力网络模型通过挖掘图像和文本的细粒度信息,能够充分学习图像和文本之间精确跨媒体关联关系,有效地提高了跨媒体检索的准确率。

关键词

跨媒体检索; 注意力机制; 循环神经网络; 关联学习; 语义辨识

Cross-media retrieval with hierarchical recurrent attention network
expand article info Qi Jinwei, Peng Yuxin, Yuan Yuxin
Institute of Computer Science and Technology, Peking University, Beijing 100080, China
Supported by: National Natural Science Foundation of China (61771025, 61532005)

Abstract

Objective Cross-media retrieval aims to retrieve the data of different media types by a query, which can provide flexible and useful retrieval experience with numerous user demands at present. However, a "heterogeneity gap" leads to inconsistent representations of different media types, thus resulting in a challenging construction of correlation and realizing cross-media retrieval between them. However, data from different media types naturally have a semantic consistency, and their patches contain abundant fine-grained information, which provides key clues for cross-media correlation learning. Existing methods mostly consider a pairwise correlation of various media types with the same semantics, but they ignore the context information among the fine-grained patches, which cannot fully capture the cross-media correlation. To address this problem, a cross-media hierarchical recurrent attention network (CHRAN) is proposed to fully consider the intra-and inter-media fine-grained context information. Method First, we propose to construct a hierarchical recurrent network to fully exploit the cross-media fine-grained context information. Specifically, the hierarchical recurrent network consists of two levels, which are implemented by a long short-term memory network. We extract features from the fine-grained patches of different media types and organize them into sequences, which are considered the inputs of the hierarchical network. The bottom level aims to model the intra-media fine-grained context information, whereas the top level adopts a weight-sharing constraint to fully exploit inter-media context correlation, which aims to share the knowledge learned from different media types. Thus, the hierarchical recurrent network can provide intra-and inter-media fine-grained hints for boosting cross-media correlation learning. Second, we propose an attention-based cross-media joint embedding loss to learn a cross-media correlation. We utilize an attention mechanism to allow the models to focus on the necessary fine-grained patches within various media types, thereby allowing the inter-media co-attention to be explored. Furthermore, we jointly consider the matched and mismatched cross-media pairs to preserve the relative similarity ranking information. We also adopt a semantic constraint to preserve the semantically discriminative capability during the correlation learning process. Therefore, a precise fine-grained cross-media correlation can be captured to improve retrieval accuracy. Result We conduct experiments on two widely-used cross-media datasets, including Wikipedia and Pascal Sentence datasets, which consider 10 state-of-the-art methods for comprehensive comparisons to verify the effectiveness of our proposed CHRAN approach. We perform a cross-media retrieval with two types of retrieval tasks, that is, retrieving text by image and retrieving the image by text, and then we adopt mean average precision (MAP) score as the evaluation metric. We also conduct baseline experiments to verify the contribution of a weight-sharing constraint and cross-media attention modeling. The experimental results show that our proposed approach achieves the optimal MAP scores of 0.469 and 0.575 on two datasets and outperforms the state-of-the-art methods. Conclusion The proposed approach can effectively learn a fine-grained cross-media correlation precisely. Compared with the existing methods that mainly model the pairwise correlation and ignore the fine-grained context information, our proposed hierarchical recurrent network can fully capture the intra-and inter-media fine-grained context information with a cross-media co-attention mechanism that can further promote the accuracy of cross-media retrieval.

Key words

cross-media retrieval; attention mechanism; recurrent network; correlation learning; semantic discrimination

0 引言

近年来,随着多媒体和计算机网络技术的迅速发展,图像、文本等不同媒体数据广泛存在于互联网中,且呈现相互融合的趋势,能够帮助计算机更好地认知外部世界。然而,“异构鸿沟”问题导致不同媒体的数据分布及表征不一致,难以实现语义关联。目前,已经有一些研究工作尝试打破不同媒体数据之间的界限。其中,跨媒体检索是一个重要的研究问题,旨在跨越不同媒体数据实现信息检索,在搜索引擎和大数据管理中均有广泛的应用。相比传统的单媒体检索,如图像检索、视频检索等,都只能返回与查询相同媒体类型的检索结果,而跨媒体检索能够根据任意媒体类型的查询,检索得到不同媒体类型的结果[1],能够提供更加方便与灵活的用户检索体验。

跨媒体检索面临的关键问题是如何学习不同媒体数据之间的内在关联关系,由于不同媒体数据表征的不一致性,跨媒体相似性度量面临很大挑战,导致难以实现语义关联。现有跨媒体检索方法的一个主要思路是将不同媒体数据的特征表示映射到一个共同子空间来学习统一表征,从而不同媒体数据之间的相似性可以通过计算其对应统一表征之间的距离进行度量。现有方法大致可以分为两类:传统方法和基于深度学习的方法。

传统方法通常利用统计分析的方法学习映射矩阵,其中最具代表性的是通过典型相关分析(CCA)[2]建模不同媒体数据之间的成对关联关系,并将其映射到同一维度的共同子空间[3]。此外,Zhai等人[4]提出为不同媒体数据构造图模型,通过图规约进行跨媒体关联学习和高层语义抽象。随着近年来深度学习在计算机视觉、自然语言处理等领域取得巨大进展,研究人员尝试利用深度神经网络来建模不同媒体数据之间的关联关系以实现跨媒体检索。Feng等人[5]提出对应自编码器(Corr-AE)同时建模不同媒体数据的关联关系和重建信息。Peng等人[6]提出了跨模态关联学习方法(CCL),采用多任务学习框架,联合优化媒体内和媒体间的粗细粒度关联。

描述同一语义的不同媒体数据存在天然的语义一致性关系,同时数据内部蕴含着丰富的细粒度上下文信息,为跨媒体关联学习提供了重要依据。然而,现有方法大都将不同媒体数据通过映射矩阵或是深度模型投射到共同子空间,来挖掘不同媒体原始数据之间的成对关联关系,即一个图像和一段文本的全局信息之间的对应关系,而忽略了图像内部各个细粒度局部区域之间的上下文信息,以及文本内部各个细粒度片段之间的上下文信息。此外,现有方法仅仅考虑了图像和文本的全局信息,无法有效地突出图像和文本内部具有语义辨识性的局部区域或片段并建模它们之间的成对关联,例如一个图像中包含相应物体的区域以及一段文本中重点描述相应物体的语句。针对上述问题,本文提出了跨媒体层级循环注意力网络(CHRAN),同时学习媒体内及媒体间的上下文信息,主要包括以下两点创新:

1) 提出媒体内—媒体间两级循环神经网络,其中底层网络分别建模不同媒体数据内部的细粒度上下文信息,而顶层网络通过共享参数的方式充分挖掘不同媒体数据之间的上下文关联关系。

2) 提出基于注意力的跨媒体联合损失函数,在顶层循环神经网络上学习媒体间联合注意力,并利用学习得到的细粒度局部注意力权重来指导跨媒体关联学习,从而有效提升跨媒体检索的准确率。

本文在两个广泛使用的跨媒体数据集Wikipedia和Pascal Sentence上与10种现有方法进行实验对比,结果表明本文方法有效地提高了跨媒体检索的准确率。

1 相关工作

1.1 传统跨媒体检索方法

传统方法主要为不同媒体数据学习映射矩阵,并构建共同子空间得到统一表征,从而可以利用普通的距离度量方法,如欧氏距离、余弦距离等,计算不同媒体数据之间的相似性。典型相关分析(CCA)[2]是最具代表性的方法,后续很多工作都是基于CCA方法进行扩展。例如,Rasiwasia等人[3]尝试将语义类别信息与CCA进行结合,Hardoon等人[7]提出了KCCA方法将核函数引入到传统的CCA方法中,从而学习非线性的跨媒体关联关系。Gong等人[8]提出了Multi-view CCA将高层语义作为第3个视角来扩展传统CCA方法。与CCA方法不同,Li等人[9]提出了跨媒体因子分析方法(CFA),通过最小化成对数据之间的Frobenius范数来学习跨媒体关联。此外,Zhai等人[4]提出联合表示学习方法(JRL)通过为不同媒体数据构建图模型,联合挖掘跨媒体关联关系与高层语义信息。进一步,Peng等人[10]构建了统一的跨媒体关联超图,同时利用不同媒体的细粒度信息,并进一步结合半监督规约来学习跨媒体统一表征。

1.2 基于深度学习的跨媒体检索方法

近年来,深度学习已经在多媒体领域取得了巨大进展,一系列基于深度学习的跨媒体检索方法相继被提出。Ngiam等人[11]提出了双模态自编码器模型(bimodal autoencoders),该模型在网络中间层建模跨媒体关联,同时在顶层建模不同媒体自身的重构误差。Andrew等人[12]将传统的CCA方法与深度网络相结合,提出了深度典型相关分析方法(DCCA),在两个子网络顶层建模不同媒体之间的关联关系。Feng等人[5]同样构建两路子网络,并通过中间层连接两路网络,进而同时建模不同媒体数据的关联和重建信息。Peng等人[13]构建跨媒体层次化网络,通过两阶段的学习策略充分挖掘媒体内及媒体间关联,从而得到跨媒体统一表征。他们进一步提出了跨模态关联学习方法[6],充分建模不同媒体数据的多粒度信息,并结合多任务学习框架,自适应地平衡媒体内语义类别约束和媒体间成对关联约束的学习,从而学习更精准的跨媒体关联关系。Wei等人[14]提出了深度语义匹配模型(Deep-SM),将不同媒体数据映射到语义类别空间,并充分利用卷积神经网络的特征学习能力,得到具有更强表示能力的统一表征。此外,Wang等人[15]提出了对抗式跨媒体检索方法(ACMR),通过对抗学习挖掘跨媒体关联关系。Huang等人[16]提出了基于混合迁移网络的跨媒体统一表征方法,实现了从单媒体源域到跨媒体目标域的媒体内及媒体间知识迁移。

2 本文方法

本文方法的网络结构如图 1所示。首先,对于图像和文本两种媒体的数据,分别构建媒体内—媒体间两级循环神经网络,其中底层神经网络分别建模不同媒体内部的细粒度上下文信息,顶层网络通过共享参数的方式充分学习媒体间的上下文关联关系。然后,在顶层网络之上,设计基于注意力的跨媒体联合损失函数对整体网络进行训练,从而学习更加精确的细粒度跨媒体关联。

图 1 本文提出的跨媒体层级循环注意力网络框架图
Fig. 1 An overview of our proposed cross-media hierarchical recurrent attention network

下面介绍本文的形式化定义,跨媒体数据集包含图像和文本两种媒体类型,其中图像数据表示为$ {\mathit{\boldsymbol{D}}^{\left( {\rm{i}} \right)}} = \left\{ {{i_q}, y_q^{\rm{i}}} \right\}_{q = 1}^m$,共包含$ m$个图像数据,$ {{i_q}}$为第$ q$个图像且具有相应的标签$ {y_q^{\rm{i}}}$。类似地,$ {\mathit{\boldsymbol{D}}^{\left( {\rm{t}} \right)}} = \left\{ {{t_q}, y_q^{\rm{t}}} \right\}_{q = 1}^m$表示文本数据。跨媒体检索旨在给定任意一个查询图像或文本,检索与其相关的另一种媒体类型的文本或图像数据。

2.1 跨媒体两级循环神经网络

为了充分学习媒体内和媒体间的细粒度上下文信息,本文构建了跨媒体两级循环神经网络。针对图像和文本数据,分别提取图像局部区域以及文本片段的特征,并输入到循环神经网络中学习细粒度的特征表示。具体地,对于每一个图像$ {{i_q}}$,首先将其缩放至256×256像素的大小,再输入到卷积神经网络VGGNet[17]中。然后从该网络最后一个池化层(pooling layer)提取图像$ j$个不同区域的特征表示,并依照人眼观察的顺序[18]组织成一个序列$ \left\{ {v_1^{\rm{i}}, \cdots , v_j^{\rm{i}}} \right\}$。对于每一个文本$ {{t_q}}$,首先将其按照段落或语句切分成多个片段,然后分别将各个文本片段输入到文本卷积神经网络[19]中提取$ k$个文本片段的特征表示,同样按照文本自身原有的语句顺序将其组织成一个序列,表示为$ \left\{ {v_1^{\rm{t}}, \cdots , v_k^{\rm{t}}} \right\}$

上述得到的图像局部区域以及文本片段的特征表示蕴含了丰富的细粒度信息,进一步图像、文本数据内各个细粒度局部之间具有上下文关系,例如一个图像中物体不同区域、前背景之间,以及一段文本中不同段落、词句之间都具有上下文关系。因此,将图像局部区域以及文本片段的特征表示输入到两级循环神经网络中,以建模图像和文本的细粒度上下文信息。这里采用长短时记忆网络(LSTM)[20],将图像和文本序列分别输入到底层LSTM网络中,并循环地更新网络来学习输入序列的上下文关系,即

$ \left\{ \begin{array}{l} U_{\rm{S}}^T\\ U_{\rm{F}}^T\\ U_{\rm{O}}^T \end{array} \right\} = \sigma \left( {\left\{ \begin{array}{l} {W_{\rm{S}}}\\ {W_{\rm{F}}}\\ {W_{\rm{O}}} \end{array} \right\}{x^T} + \left\{ \begin{array}{l} {M_{\rm{S}}}\\ {M_{\rm{F}}}\\ {M_{\rm{O}}} \end{array} \right\}{h^{T - 1}} + \left\{ \begin{array}{l} {b_{\rm{S}}}\\ {b_{\rm{F}}}\\ {b_{\rm{O}}} \end{array} \right\}} \right) $ (1)

$ U_{\rm{U}}^T = {\rm{tanh}}({W_{\rm{U}}}{x^T} + {M_{\rm{U}}}{h^{T - 1}} + {b_{\rm{U}}}) $ (2)

$ U_{\rm{C}}^T = U_{\rm{C}}^{T - 1} \odot U_{\rm{F}}^T + U_{\rm{U}}^T \odot U_{\rm{S}}^T $ (3)

$ {h^T} = U_{\rm{O}}^T \odot {\rm{tanh}}(U_{\rm{C}}^T) $ (4)

式中,S、F、C和O分别表示输入、遗忘、记忆和输出单元,$ T$为当前的时间状态, $ x$表示输入序列,U表示中间输出,$ \odot $表示元素相乘,$ W$$ M$为网络的参数权重,$ b$为偏置,而$ \sigma $表示Sigmoid激活函数。图像的输出序列可以表示为$ {\mathit{\boldsymbol{H}}^{{\rm{i1}}}} = \{ h_1^{{\rm{i1}}}, \cdots , h_\mathit{j}^{{\rm{i1}}}\} $,类似地,$ {\mathit{\boldsymbol{H}}^{{\rm{t1}}}} = \{ h_1^{{\rm{t1}}}, \cdots , h_\mathit{k}^{{\rm{t1}}}\} $表示文本的输出序列,其中包含了各个媒体内部的细粒度上下文信息。

接下来,将底层LSTM输出的图像和文本序列输入到顶层的LSTM中,同样按照式(1)—式(4)对网络进行参数更新。这里需要说明的是,图像和文本两路顶层LSTM的网络参数是共享的,这样网络可以将从不同媒体学习得到的知识进行共享,同时进一步挖掘不同媒体之间的共有知识,从而充分建模不同媒体间的上下文关联关系。

最终,两级循环网络的输出可以表示为$ {\mathit{\boldsymbol{H}}^{{\rm{i2}}}} = \{ h_1^{{\rm{i2}}}, \cdots , h_\mathit{j}^{{\rm{i2}}}\} $$ {\mathit{\boldsymbol{H}}^{{\rm{t2}}}} = \{ h_1^{{\rm{t2}}}, \cdots , h_\mathit{j}^{{\rm{t2}}}\} $,其中蕴含了丰富的媒体内和媒体间细粒度上下文信息。

2.2 基于注意力的跨媒体联合损失函数

近年来,注意力机制被广泛应用到各种多媒体任务中[21]并取得了显著效果,其可以让深度模型聚焦于更重要的图像区域或是文本片段。受其启发,本文设计了基于注意力的跨媒体联合损失函数,利用学习得到的细粒度注意力权重来指导跨媒体关联学习。

首先,在2.1节提到的顶层循环神经网络上加入联合注意力模型,定义为$ \mathit{\boldsymbol{A = }}[{A^{\rm{i}}}, {A^{\rm{t}}}]$$ {A^{\rm{i}}}$$ {A^{\rm{t}}}$分别表示图像和文本的注意力模型,其中包括全连接网络(fully-connected network)和softmax函数,图像和文本的两个注意力模型$ {A^{\rm{i}}}$$ {A^{\rm{t}}}$进一步通过共享参数的方式学习不同媒体显著性部分的对应关系以建模媒体间的联合注意力,这里联合注意力是指利用注意力机制联合建模图像和文本中具有语义对应关系的显著性部分,例如一张鸟的图像和一段描述鸟的文本,其中图像里鸟的头部、身体的区域以及文本中描述相应部位的语句,即为具有语义对应关系的显著性部分。具体地,计算跨媒体联合注意力权重

$ {\mathit{\boldsymbol{E}}^r} = {\rm{tanh}}({\mathit{\boldsymbol{W}}_1}{\mathit{\boldsymbol{H}}^r}) $ (5)

$ {\mathit{\boldsymbol{a}}^r} = {\rm{softmax}}(\mathit{\boldsymbol{W}}_2^{\rm{T}}{\mathit{\boldsymbol{E}}^r}) $ (6)

式中,$ r$=i2、t2分别表示上述图像或文本顶层循环网络的输出,$ {\mathit{\boldsymbol{W}}_1}$$ \mathit{\boldsymbol{W}}_2^{\rm{T}}$为两层网络分别的参数权重,$ \mathit{\boldsymbol{E}}$表示中间输出,而$ {\mathit{\boldsymbol{a}}^{{\rm{i2}}}}$$ {\mathit{\boldsymbol{a}}^{{\rm{t2}}}}$表示学习得到的图像局部区域和文本片段的注意力权重的集合,可以有效地突出图像和文本中的显著性部分。最后定义基于注意力的跨媒体联合损失函数为

$ L = {L_{{\rm{corr}}}} + {L_{{\rm{se}}{{\rm{m}}_{\rm{i}}}}} + {L_{{\rm{se}}{{\rm{m}}_{\rm{t}}}}} $ (7)

式中,$ {L_{{\rm{corr}}}}$为跨媒体关联项,而$ {L_{{\rm{se}}{{\rm{m}}_{\rm{i}}}}}$$ {L_{{\rm{se}}{{\rm{m}}_{\rm{t}}}}}$分别为图像和文本的语义类别约束项,各项分别定义为

$ {L_{{\rm{corr}}}} = \sum\limits_{q = 1}^N {\left\| {\sum\limits_{l = 1}^j {a_{_l}^{{\rm{i}}{{\rm{2}}_q}}h_{_l}^{{\rm{i}}{{\rm{2}}_q}}} - \sum\limits_{l = 1}^k {a_{_l}^{{\rm{t}}{{\rm{2}}_q}}h_{_l}^{{\rm{t}}{{\rm{2}}_q}}} } \right\|} $ (8)

$ {L_{{\rm{se}}{{\rm{m}}_{\rm{i}}}}} = - \sum\limits_{q = 1}^m {{p_{{i_q}}}{\rm{log}}({{\hat p}_{{i_q}}})} $ (9)

$ {L_{{\rm{se}}{{\rm{m}}_{\rm{t}}}}} = - \sum\limits_{q = 1}^n {{p_{{t_q}}}{\rm{log}}({{\hat p}_{{t_q}}})} $ (10)

式中,($ {{i_q}}$, $ {{t_q}}$)表示匹配的图像/文本对,$ {h_{_l}^{{\rm{i}}{{\rm{2}}_q}}}$$ {h_{_l}^{{\rm{t}}{{\rm{2}}_q}}}$为其第$ l$个区域或是片段对应的顶层LSTM网络的输出,$ {a_{_l}^{{\rm{i}}{{\rm{2}}_q}}}$$ {a_{_l}^{{\rm{t}}{{\rm{2}}_q}}}$为他们相应的注意力权重。$ \left\| \cdot \right\|$采用余弦嵌入准则,$ N$为采样的图像/文本对数目。语义约束项由softmax层和交叉熵损失函数组成,其中$ {{p_{{i_q}}}}$$ {{p_{{t_q}}}}$表示目标分布概率,$ {{{\hat p}_{{i_q}}}}$$ {{{\hat p}_{{t_q}}}}$为预测的分布概率。最终,定义图像和文本的统一表征分别为

$ \begin{array}{l} {R^{{i_q}}} = \sum\limits_{l = 1}^j {a_{_l}^{{\rm{i}}{{\rm{2}}_q}}h_{_l}^{{\rm{i}}{{\rm{2}}_q}}} \\ {R^{{t_q}}} = \sum\limits_{l = 1}^k {a_{_l}^{{\rm{t}}{{\rm{2}}_q}}h_{_l}^{{\rm{t}}{{\rm{2}}_q}}} \end{array} $ (11)

这样通过基于注意力权重的加权融合可以得到最终的跨媒体统一表征,其中包含了丰富的细粒度上下文信息。

综上,通过最小化上述联合损失函数,不仅可以学习细粒度的跨媒体关联关系,而且能够增强统一表征的语义辨识能力,从而提升跨媒体检索的准确率。

3 实验

3.1 实验数据集

本文在两个广泛使用的跨媒体数据集上进行了验证实验,分别是Wikipedia数据集和Pascal Sentence数据集,以下将对这两个数据集进行简要介绍:

1) Wikipedia数据集[3]是在跨媒体检索领域使用最广泛的数据集之一,它是由维基百科的“亮点文章”中挑选10个最大的概念类别组成,例如历史、艺术等,共有2 866个图像/文本对,同时参照文献[5, 13]将数据集分为3个子集。具体地,随机选择2 173个图像/文本对作为训练集,462个为测试集,其余231个为验证集。

2) Pascal Sentence数据集[22]是从2008 PASCAL开发工具包中提取,包含1 000个图像/文本对,其中每个图像对应的文本是由5句人工标注的独立语句组成,总共有20个类别。同样参照文献[5, 13]将数据集分为3个子集,其中训练集包含800个图像/文本对,测试集和验证集均包含100个图像/文本对。

3.2 网络细节

本文提出的网络在Torch上进行实现,使用图像局部区域序列和文本片段序列作为循环网络的输入。具体地,对于图像,本文利用VGGNet[17]的最后一个池化层将每个图像划分为49块局部区域,每块区域提取512维的特征。对于文本,首先按照段落将文本数据划分为多个片段,再使用文本卷积神经网络[19]为每个片段提取300维的特征。由于不同文本数据的段数各不相同,划分的序列长度也存在差异。实验中将最长文本序列的长度作为网络输入的统一长度,其余长度不足的文本序列用0补全。接着,将输入图像和文本序列通过一个全连接层输入到LSTM中,两级LSTM网络的输入和输出维数均为512,最后经过由全连接网络和softmax层组成的注意力网络得到最终的跨媒体统一表征。

3.3 评价指标和对比方法

为了充分验证本文方法的有效性,在上述两个数据集上设置了两个跨媒体检索任务,具体定义如下:

1) 图像检索文本(Image→Text):给定任意测试集中的一个图像作为查询,在测试集中检索与其相关的文本,并按照相似度进行排序。

2) 文本检索图像(Text→Image):给定任意一个测试集中的文本作为查询,在测试集中检索与其相关的图像,并按照相似度进行排序。

本文采用平均准确率均值(MAP)作为评价指标,通过单次实验对多个查询的排序结果分别计算得到平均准确率(AP),即测试集中的每一个图像和文本均会作为查询,并计算相应的AP值,然后计算所有查询的平均结果得到最终的MAP值。该指标能够同时兼顾返回结果的排序以及准确率,在信息检索领域被广泛使用。

实验对比了10种现有的跨媒体检索方法,包括5种传统跨媒体检索方法:CCA[2]、CFA[9]、KCCA[7]、JRL[4]和LGCFL[23],以及5种基于深度学习的跨媒体检索方法:Corr-AE[5]、DCCA[12]、Deep-SM[14]、CMDN[13]和ACMR[15]。为了公平对比,所有对比方法均采用深度特征作为输入。具体地,图像特征由19层的VGGNet[17]提取,该网络是在ImageNet上进行预训练并在相应的训练集上进行微调,文本特征由文本卷积神经网络[19]提取。此外需要说明的是,在实验中采用余弦距离来计算学习得到的跨媒体统一表征之前的相似度,进而实现跨媒体检索。

3.4 实验结果及分析

本文方法以及所有对比方法的实验结果如表 1表 2所示,列出了2个检索任务的MAP值及其平均值。从对比结果可以看出,本文方法的结果在2个任务上均超过了所有对比方法,以Wikipedia数据集为例,MAP平均值从0.457提升到0.469。此外,一方面深度特征能够在一定程度上提升传统方法的检索准确率,一些传统方法甚至超过了部分基于深度学习的方法,例如JRL和LGCFL。另一方面,基于深度学习的方法整体表现并不稳定,如Corr-AE和DCCA的检索准确率与传统方法KCCA相当,而CMDN和Deep-SM则是所有对比方法中表现最好的2个。与传统方法相比,本文方法具有显著的优势,由于传统方法大都受限于传统框架去学习映射矩阵,导致其难以充分挖掘复杂的跨媒体关联。而现有基于深度学习的方法仅仅使用深度网络建模了图像和文本原始数据之间的成对关联关系,忽略了细粒度的上下文信息,而本文方法通过构建跨媒体两级循环神经网络并结合注意力机制,充分学习不同媒体数据内部及之间的细粒度上下文信息,能够学习更加精确的跨媒体关联,从而有效地提升跨媒体检索的准确率。

表 1 Wikipedia数据集上跨媒体检索的MAP结果
Table 1 MAP scores of cross-media retrieval on Wikipedia

下载CSV
方法 Image→ext Text→Image 平均
本文 0.499 0.439 0.469
CMDN[13] 0.487 0.427 0.457
ACMR[15] 0.468 0.412 0.440
Deep-SM[14] 0.478 0.422 0.450
LGCFL[23] 0.466 0.431 0.449
JRL[4] 0.479 0.428 0.454
DCCA[12] 0.445 0.399 0.422
Corr-AE[5] 0.442 0.429 0.436
KCCA[7] 0.438 0.389 0.414
CFA[9] 0.319 0.316 0.318
CCA[2] 0.298 0.273 0.286
注:加粗字体为最优结果。

表 2 Pascal Sentence数据集上跨媒体检索的MAP结果
Table 2 MAP scores of cross-media retrieval on Pascal Sentence

下载CSV
方法 Image→Text Text→Image 平均
本文 0.588 0.561 0.575
CMDN[13] 0.544 0.526 0.535
ACMR[15] 0.538 0.544 0.541
Deep-SM[14] 0.560 0.539 0.550
LGCFL[23] 0.539 0.503 0.521
JRL[4] 0.563 0.505 0.534
DCCA[12] 0.568 0.509 0.539
Corr-AE[5] 0.532 0.521 0.527
KCCA[7] 0.488 0.446 0.467
CFA[9] 0.476 0.470 0.473
CCA[2] 0.203 0.208 0.206
注:加粗字体为最优结果。

为了验证本文方法各个部分的效果,进一步进行了基线实验的对比,其中“无参数共享”表示顶层循环神经网络的参数不进行共享,而“无注意力”表示跨媒体联合损失函数中不使用注意力模型。从表 3的结果可以看出,通过顶层网络的参数共享,可以充分挖掘媒体间的上下文关联,从而促进跨媒体关联学习。而利用注意力模型,可以突出图像和文本内部具有代表性的细粒度局部信息,能够学习更加精确的跨媒体关联。两者结合能够相互促进,进一步提升跨媒体检索准确率。

表 3 Wikipedia和Pascal Sentence数据集上基线实验的MAP结果
Table 3 MAP scores of baseline experiments on Wikipedia and Pascal Sentence

下载CSV
数据集 方法 Image→Text Text→Image 平均
Wikipedia 本文 0.499 0.439 0.469
无参数共享 0.477 0.416 0.447
无注意力 0.478 0.424 0.451
Pascal Sentence 本文 0.588 0.561 0.575
无参数共享 0.575 0.543 0.559
无注意力 0.545 0.547 0.546
注:加粗字体为最优结果。

4 结论

本文提出了跨媒体层级循环注意力网络,首先构建两级循环神经网络充分建模不同媒体内部及之间的细粒度上下文信息,然后设计基于注意力的跨媒体联合损失函数,利用注意力权重来学习更加精确的跨媒体关联关系。通过在两个跨媒体数据集上与10种现有方法进行实验对比,验证了本文方法的有效性。

下一步工作将尝试扩展现有框架,支持视频、音频等多种媒体数据,充分利用不同媒体数据之间的互补信息以提升跨媒体检索效果。

参考文献

  • [1] Peng Y X, Huang X, Zhao Y Z. An overview of cross-media retrieval:concepts, methodologies, benchmarks and challenges[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017. [DOI:10.1109/TCSVT.2017.2705068]
  • [2] Hotelling H. Relations between two sets of variates[J]. Biometrika, 1936, 28(3-4): 321–377. [DOI:10.2307/2333955]
  • [3] Rasiwasia N, Costa Pereira J, Coviello E, et al. A new approach to cross-modal multimedia retrieval[C]//Proceedings of the 18th ACM International Conference on Multimedia. Firenze, Italy: ACM, 2010: 251-260.[DOI:10.1145/1873951.1873987]
  • [4] Zhai X H, Peng Y X, Xiao J G. Learning cross-media joint representation with sparse and semisupervised regularization[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 24(6): 965–978. [DOI:10.1109/TCSVT.2013.2276704]
  • [5] Feng F X, Wang X J, Li R F. Cross-modal retrieval with correspondence autoencoder[C]//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando, Florida, USA: ACM, 2014: 7-16.[DOI:10.1145/2647868.2654902]
  • [6] Peng Y X, Qi J W, Huang X, et al. CCL:cross-modal correlation learning with multigrained fusion by hierarchical network[J]. IEEE Transactions on Multimedia, 2018, 20(2): 405–420. [DOI:10.1109/TMM.2017.2742704]
  • [7] Hardoon D R, Szedmak S, Shawe-Taylor J. Canonical correlation analysis:An overview with application to learning methods[J]. Neural Computation, 2004, 16(12): 2639–2664. [DOI:10.1162/0899766042321814]
  • [8] Gong Y C, Ke Q F, Isard M, et al. A multi-view embedding space for modeling internet images, tags, and their semantics[J]. International Journal of Computer Vision, 2014, 106(2): 210–233. [DOI:10.1007/s11263-013-0658-4]
  • [9] Li D G, Dimitrova N, Li M K, et al. Multimedia content processing through cross-modal association[C]//Proceedings of the 11th ACM International Conference on Multimedia. Berkeley, CA, USA: ACM, 2003: 604-611.[DOI:10.1145/957013.957143]
  • [10] Peng Y X, Zhai X H, Zhao Y Z, et al. Semi-supervised cross-media feature learning with unified patch graph regularization[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(3): 583–596. [DOI:10.1109/TCSVT.2015.2400779]
  • [11] Ngiam J, Khosla A, Kim M, et al. Multimodal deep learning[C]//Proceedings of the 28th International Conference on Machine Learning. Bellevue, WA: ICML, 2011: 689-696. http://campar.in.tum.de/Students/MaDeepEMR
  • [12] Andrew G, Arora R, Bilmes J, et al. Deep canonical correlation analysis[C]//Proceedings of the 30th International Conference on Machine Learning. Atlanta, GA, USA: ACM, 2013: 1247-1255. https://www.mendeley.com/research-papers/deep-canonical-correlation-analysis/
  • [13] Peng Y X, Huang X, Qi J W. Cross-media shared representation by hierarchical learning with multiple deep networks[C]//Proceeding of 25th International Joint Conference on Artificial Intelligence. New York, NY, USA: Morgan Kaufmann, 2016: 3846-3853.
  • [14] Wei Y C, Zhao Y, Lu C Y, et al. Cross-modal retrieval with CNN visual features:a new baseline[J]. IEEE Transactions on Cybernetics, 2017, 47(2): 449–460. [DOI:10.1109/TCYB.2016.2519449]
  • [15] Wang B K, Yang Y, Xu X, et al. Adversarial cross-modal retrieval[C]//Proceedings of ACM on Multimedia Conference. Mountain View, California, USA: ACM, 2017: 154-162.[DOI:10.1145/3123266.3123326]
  • [16] Huang X, Peng Y X, Yuan M K. Cross-modal common representation learning by hybrid transfer network[C]//Proceeding of the 26th International Joint Conference on Artificial Intelligence. Melbourne, Australia: Morgan Kaufmann, 2017: 1893-1900.[DOI:10.24963/ijcai.2017/263]
  • [17] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv: 1409.1556, 2014. https://arxiv.org/abs/1409.1556
  • [18] Lin Y T, Pang Z Y, Wang D H, et al. Task-driven visual saliency and attention-based visual question answering[J]. arXiv preprint arXiv: 1702.06700, 2017. https://arxiv.org/abs/1702.06700
  • [19] Kim Y. Convolutional neural networks for sentence classification[C]//Proceeding of Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics, 2014: 1746-1751.[DOI:10.3115/v1/D14-1181]
  • [20] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735–1780. [DOI:10.1162/neco.1997.9.8.1735]
  • [21] Lu J S, Yang J W, Batra D, et al. Hierarchical question-image co-attention for visual question answering[C]//Proceeding of Advances in Neural Information Processing Systems. Barcelona, Spain: MIT Press 2016: 289-297. http://export.arxiv.org/abs/1606.00061
  • [22] Rashtchian C, Young P, Hodosh M, et al. Collecting image annotations using Amazon's Mechanical Turk[C]//Proceeding of NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon's Mechanical Turk. Los Angeles, California: ACM, 2010: 139-147. https://www.mendeley.com/research-papers/collecting-image-annotations-using-amazons-mechanical-turk/
  • [23] Kang C C, Xiang S M, Liao S C, et al. Learning consistent feature representation for cross-modal multimedia retrieval[J]. IEEE Transactions on Multimedia, 2015, 17(3): 370–381. [DOI:10.1109/TMM.2015.2390499]