Print

发布时间: 2021-06-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200862
2021 | Volume 26 | Number 6




    图像处理与通信技术    




  <<上一篇 




  下一篇>> 





基于深度学习的跨模态检索综述
expand article info 尹奇跃, 黄岩, 张俊格, 吴书, 王亮
中国科学院自动化研究所, 北京 100190

摘要

由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,其将一种模态的数据作为查询条件检索其他模态的数据,如用户可以用文本检索图像或/和视频。由于查询及其检索结果模态表征的差异,如何度量不同模态之间的相似性是跨模态检索的主要挑战。随着深度学习技术的推广及其在计算机视觉、自然语言处理等领域的显著成果,研究者提出了一系列以深度学习为基础的跨模态检索方法,极大缓解了不同模态间相似性度量的挑战,本文称之为深度跨模态检索。本文从以下角度综述有代表性的深度跨模态检索论文,基于所提供的跨模态信息将这些方法分为3类:基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索。一般来说,上述3类方法提供的跨模态信息呈现递增趋势,且提供学习的信息越多,跨模态检索性能越优。在上述不同类别下,涵盖了7类主流技术,即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。不同类别下包含部分关键技术,本文将具体阐述其中有代表性的方法。同时对比提供不同跨模态数据信息下不同技术的区别,以阐述在提供了不同层次的跨模态数据信息下相关技术的关注点与使用异同。为评估不同的跨模态检索方法,总结了部分代表性的跨模态检索数据库。最后讨论了当前深度跨模态检索待解决的问题以及未来的研究方向。

关键词

跨模态检索; 跨模态哈希; 深度学习; 共同表示学习; 对抗学习; 似然分析; 学习排序

Survey on deep learning based cross-modal retrieval
expand article info Yin Qiyue, Huang Yan, Zhang Junge, Wu Shu, Wang Liang
Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China

Abstract

Over the last decade, different types of media data such as texts, images, and videos grow rapidly on the internet. Different types of data are used for describing the same events or topics. For example, a web page usually contains not only textual description but also images or videos for illustrating the common content. Such different types of data are referred as multi-modal data, which inspire many applications, e.g., multi-modal retrieval, hot topic detection, and perso-nalize recommendation. Nowadays, mobile devices and emerging social websites (e.g., Facebook, Flickr, YouTube, and Twitter) are diffused across all persons, and a demanding requirement for cross-modal data retrieval is emergent. Accordingly, cross-modal retrieval has attracted considerable attention. One type of data is required as the query to retrieve relevant data of another type. For example, a user can use a text to retrieve relevant pictures or/and videos. The query and its retrieved results can have different modalities; thus, measuring the content similarity between different modalities of data, i.e., reducing heterogeneity gap, remains a challenge. With the rapid development of deep learning techniques, various deep cross-modal retrieval approaches have been proposed to alleviate this problem, and promising performance has been obtained. We aim to review and comb representative methods for deep learning based cross-modal retrieval. We first classify these approaches into three main groups based on the cross-modal information provided, i.e.: 1) co-occurrence information, 2) pairwise information, and 3) semantic information. Co-occurrence information based methods indicate that only co-occurrence information is utilized to learn common representations across multi-modal data, where co-occurrence information indicates that if different modalities of data co-exist in a multi-modal document, then they have the same semantic. Pairwise information based methods indicate that similar pairs and dissimilar pairs are utilized to learn the common representations. A similarity matrix for all modalities is usually provided indicating whether or not two points from the modalities are in the same categories. Semantic information based methods indicate that class label information is provided to learn common representations, where a multi-modal example can have one or more labels with massive manual annotation. Usually, co-occurrence information exists in pairwise information and semantic information based approaches, and pairwise information can be derived when semantic information is provided. However, these relationships do not necessarily hold. In each category, various techniques can be utilized and combined to fully use the provided cross-modal information. We roughly categorize these techniques into seven main classes, as follows: 1) canonical correlation analysis, 2) correspondence preserving, 3) metric learning, 4) likelihood analysis, 5) learning to rank, 6) semantic prediction, and 7) adversarial learning. Canonical correlation analysis methods focus on finding linear combinations of two vectors of random variables with the objective of maximizing the correlation. When combined with deep learning, linear projections are replaced with deep neural networks with extra considerations. Correspondence preserving methods aim at preserving the co-existing relationship of different modalities with the objective of minimizing their distances in the learned embedding space. Usually, the multi-modal correspondence relationship is formed as regularizers or loss functions to enforce a pairwise constraint for learning multi-modal common representations. Metric learning approaches seek to establish a distance function for measuring multi-modal similarities with the objective to pull similar pairs of modalities closer and dissimilar pairs apart. Compared with correspondence preserving and canonical correlation analysis methods, similar pairs and dissimilar pairs are provided as restricted conditions when learning common representations. Likelihood analysis methods, based on Bayesian analysis, are generative approaches with the objective of maximizing the likelihood of the observed multi-modal relationship, e.g., similarity. Conventionally, the maximum likelihood estimation objective is derived to maximize the posterior probability of multi-modal observation. Learning to rank approaches aim to construct a ranking model constrained on the common representations with the objective of maintaining the order of multi-modal similarities. Compared with metric learning methods, explicit ranking loss based objectives are usually developed for ranking similarity optimization. Semantic prediction methods are similar to traditional classification model with the objective of predicting accuracy semantic labels of multi-modal data or their relationships. With such high-level semantics utilized, intramodal structure can effectively reflect learning multi-modal common representations. Adversarial learning approaches refer to methods using generative adversarial networks with the objective of being unable to infer the modality sources for learning common representations. Usually, the generative and discriminative models are carefully designed to form a min-max game for learning statistical inseparable common representations. We introduce several multi-modal datasets in the community, i.e., the Wiki image-text dataset, the INRIA-Websearch dataset, the Flickr30K dataset, the Microsoft common objects in context(MS COCO) dataset, the Real-world Web Image Dataset from National University of Singapore(NUS-WIDE) dataset, the pattern analysis, statistical modelling and computational learning visual object classes(PPSCAL Voc) dataset, and the XMedia dataset. Finally, we discuss open problems and future directions. 1) Some researchers have put forward transferred/extendable/zero-shot cross-modal retrieval, which claims that multi-modal data in the source domain and the target domain can have different semantic annotation categories. 2) Effective cross-modal benchmark data-set containing multiple modal data and with a certain volume for the complex algorithm verification to promote cross-modal retrieval performance with huge data is limited. 3) Labeling all cross-modal data and each sample with accurate annotations is impractical; thus, using these limited and noisy multi-modal data for cross-modal retrieval will be an important research direction. 4) Researchers have designed relatively complex algorithms to improve performance, but the requirements of retrieval efficiency are difficult to satisfy. Therefore, designing efficient and high-performance cross-modal retrieval algorithm is a crucial direction. 5) Embedding different modalities into a common representation space is difficult, and extracting fragment level representation for different modal types and developing more complex fragment-level relationship modeling will be some of the future research directions.

Key words

cross-modal retrieval; cross-modal hashing; deep learning; common representation learning; adversarial learning; likelihood analysis; learning to rank

0 引言

随着移动互联网的普及与飞速发展,不同类型的媒体数据如文本、图像和视频迅速增长。通常,这些不同类型的数据用于描述相同的事件或主题。例如,网页通常不仅包含文本描述,还包含与之匹配的图像或视频。这些不同类型的数据称为多模态数据,表现出模态间的异构特性并具有广泛应用,如图 1所示,互联网与社交媒体涌现的大规模多模态数据可以用于主题检测、信息推荐和检索等。

图 1 多模态数据以及应用示例
Fig. 1 Multi-modal data and its applications

多模态数据的迅速增长使得用户很难有效地搜索感兴趣的信息,也就衍生了各种各样的检索、搜索技术。然而这些搜索技术大多是针对单一模态内检索,如基于关键字的检索和基于内容的检索,它们只执行相同媒体类型的相似性搜索,如文本检索、图像检索、音频检索和视频检索。移动设备和新兴的社交网站(如Facebook、Flickr、YouTube和Twitter)的普及使得用户对跨模态数据检索的要求越来越高。例如,用户正在游览长城,希望通过拍照检索相关的文本、音频等材料作为指南。通常,跨模态检索的目的是以一种模态的数据作为查询来检索相关的其他模态数据。

跨模态检索引起了研究者广泛的研究兴趣。一般来说,与传统的单模态检索方法相比,跨模态检索需要构建跨模态关系模型,以便用户可以通过提交他们所拥有的模态来检索他们期望的模态。因此,跨模态检索的挑战在于如何度量不同模态数据之间的内容相似性,也称之为异质鸿沟问题(heterogeneity gap)。随着深度学习技术的推广以及其在计算机视觉、自然语言处理和语音分析等领域的显著成果(LeCun等,2015),以深度学习技术为基础的表示学习对于缓解异质鸿沟问题提供了一种有前景的解决方案。大量的深度跨模态检索技术被提出并取得了优异的跨模态检索性能,在学术界和工业界产生了广泛影响。

本文旨在对深度跨模态检索进行综述。在此之前,本文作者在该方向进行了深入的研究,从特征选择、子空间对齐、模态缺失、语义顺序学习和小样本学习等方面进行了较多探索(Huang等,2015, 2017, 2018, 2019b, c2020bYin等,2017, 2018Wang等,2013, 2016aXu等,2016He等2015),对于该领域当前的研究现状和最新进展较为熟悉,这也是作者们立足自身研究基础选择撰写该综述的主要原因。Liu等人(2010)进行了跨模态检索综述,但是无法囊括近些年来涌现的新方法和新工作。Xu等人(2013)进行了多视角学习综述但并非针对异质模态的检索任务。Peng等人(2018b)在2018年发表了跨模态检索的综述论文,但没有对2018年之后的跨模态检索方法进行总结。Baltrušaitis等人(2019)对多模态机器学习进行了综述和分类,但是其研究重点过于分散,无法涵盖跨模态检索任务的所有重要问题。针对跨模态检索面临的各种挑战性问题,研究者提供了各种思路和技术。本文着重总结这些与以往相关研究较为不同的深度跨模态检索的最新研究成果。需要注意的是,本文关注在跨模态检索这一基本跨模态分析任务上,其他相关主题,如图像/视频描述、图文问答等(Li等,2019aSrivastava等,2019)不在本文讨论范围内。

本文的主要贡献如下:

1) 综述了深度跨模态检索的最新进展。包含了许多已有综述中没有出现的新的重要的参考文献,该综述有利于初学者快速了解和熟悉跨模态检索领域。

2) 对深度跨模态检索方法进行了分类,介绍了不同类别下的代表性方法,并重点阐述了同类下不同方法以及不同类方法之间的差异,有助于该领域研究者更好理解跨模态检索领域中使用的各种技术。

3) 对深度跨模态检索领域面临的机遇和挑战进行梳理,并总结了未来该领域的发展方向, 这将有助于启发进而做出更有价值的跨模态检索工作。

1 深度跨模态检索概述

深度跨模态检索的一般框架如图 2所示。深度特征学习以及跨模态相关关系建模为多模态共同表示学习的重要步骤,在减少异质鸿沟问题中发挥重要作用。基于多模态共同表示,跨模态相似度可以进行有效度量。一般而言,上述共同表示可以是实值表达也可以是二值表达。对于实值表达,学习得到的不同模态表达为实数值(一般为向量)。对于二值表达,学习得到的不同模态表达为-1以及1构成的编码,该精简表达有助于减少存储需求且加速跨模态检索速度,相关方法也称为跨模态哈希。

图 2 跨模态检索一般框架
Fig. 2 General framework for cross-modal retrieval

数学上,具有l模态的数据一般表示为{Xv, v=1, …, l},模态v下样本i表示为xiv。根据学习共同表示时提供的跨模态信息,深度跨模态检索大致可以分为3类:基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索。一般来说,上述3类的跨模态信息呈现递增的情况,且提供学习的信息越多,跨模态检索性能越优。

1) 基于跨模态数据间一一对应。模态vt之间对于样本i存在对应关系,即xivxit表征数据库中相同的样本i。该信息的物理意义在于同一样本的不同模态的描述共同存在且一一对应。

2) 基于跨模态数据间相似度。跨模态数据间存在相似与非相似性的关系,即一般存在矩阵S表征样本间的相似关系,sij代表各种模态下样本i与样本j之间的相似度情况。

3) 基于跨模态数据语义标注。跨模态数据存在样本的语义标注,即对于数据库中任意样本i存在矩阵Y,其中yij代表样本i是否包含有第j语义类别的标注。

在不同的跨模态数据信息提供下,研究者提出了广泛的学习技术并表现出一定的差异。这些技术大致包含7类,即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习。下面简要介绍这7类技术。不同代表性方法往往存在多种技术的整合,为方便对比,本文针对方法本身的最主要特性进行划分,相关代表性方法整理如表 1所示。

表 1 典型跨模态检索算法
Table 1 Classical cross-modal retrieval methods

下载CSV
分类 算法
典型相关分析 (Yan和Mikolajczyk,2015)(r)[it],(Xia等,2020)(r)[ai, it],(Shao等,2016)](r)[it]
一一对应关系保持 (Feng等,2014)(r)[it],(Feng等,2015b)(r)[it],(Vukotić等,2016)(r)[it],(Wang等,2014)(r)[it],(Nawaz等,2018)(r)[it],(Gou等,2018)(r)[ai],(Wu等,2018a)(b)[it],(Su等,2019)(b)[tv]
跨模态数据间一一对应 似然分析 (Wang等,2015)(r)[it],(He等,2016)(r)[it],(Feng等,2015a)(r)[it]
学习排序 (Hua等,2015)(r)[it],(Wang等,2016b)(r)[it],(Peng等,2018a)(r)[it],(Karpathy等,2014)(r)[it],(Jiang等,2015)(r)[it],(Chen等,2017b)(r)[it],(Chen等,2018)(r)[it],(Dorfer等,2018)(r)[at],(Mithun等,2018)(r)[tv]
对抗学习 (He等,2017)(r)[it],(Huang等,2019a)(r)[it],(Gu等,2018)(r)[it],(Li等,2019b)(b)[it],(Zhang等,2018a)(b)[it],(Zhang等,2020)(b)[aimtv]
度量学习 (Lin等,2017)(r)[it],(Masci等,2014)(b)[it],(Cao等,2016a)(b)[it],(Cao等,2016b)(b)[it],(Shen等,2017)(b)[it]
跨模态数据间相似度 似然分析 (Cao等,2017)(b)[it],(Yang等,2017)(b)[it],(Jiang等,2017)(b)[it],(Nie等,2021)(b)[it],(Wang等,2020)(b)[it],(Cao等,2018)(b)[it]
对抗学习 (Zhang等,2018b)(b)[it]
语义预测 (Wei等,2017)(r)[it],(Wang等,2016c)(r)[it],(Chen等,2017a)(r)[it],(Kang等,2019)(r)[it],(Zhong等,2018)(b)[it]
典型相关分析 (Shao等,2015)(r)[it],(Shao等,2019)(r)[it]
似然分析 (Wu等,2018b)(r)[it],(Zhen等,2019)(r)[it],(Cao等,2019)(r)[it],(Peng等,2019)(b)[it],(Zhang等,2020)(b)[it],(Liong等,2017b)(b)[it],(Deng等,2018)(b)[it]
跨模态数据语义标注 度量学习 (Liong等,2017a)(r)[it],(Peng等,2018c)(r)[it],(Salvador等,2017)(r)[it],(Qi等,2017)(r)[it],(Cao等,2016c)(b)[it],(Ma等,2018)(b)[it]
学习排序 (Zhang等,2017)(r)[it],(Carvalho等,2018)(r)[it],(Wang等,2020)(r)[it]
对抗学习 (Wang等,2017)(r)[it],(Xu等,2018)(r)[it],(Xu等,2020)(r)[it],(Hu等,2019)(r)[it],(Shang等,2019)(r)[it],(Xu等,2019)(r)[it],(Wu等,2020)](r)[it],(Xie等,2020)(b)[it],(Qiang等,2020)(b)[it],(Li等,2018)(b)[it],(Ma等,2020)(b)[it]
注:(b)代表二值共同表示,(r)代表实值共同表示; [i]代表图像模态,[t]代表文本模态,[v]代表视频模态,[a]代表音频模态,[m]代表 3d模态。

1) 典型相关分析。通过线性投影将两个模态数据投影至低维空间,并通过最大化模态之间相关关系学习上述投影,深度神经网络的引入一般替换上述线性投影而有利于相关性最大化目标函数的优化。

2) 一一对应关系保持。在共同表示层构建跨模态数据间一一对应关系,进而实现对应的跨模态数据间距离最小化。该项技术广泛应用于早期尤其是无监督跨模态检索中。

3) 度量学习。引入度量函数或者深度神经网络构建数据间的相似性与非相似性关系,其主要目标为使相似样本在共同表示空间具有较小距离而非相似样本具有较大距离。

4) 似然分析。生成模型一般通过极大似然优化目标函数进行观测数据的生成建模,在跨模态数据中,该观测数据可以是多模态特征、数据间对应关系以及数据间相似度等。

5) 学习排序。构建排序模型保证在共同表示空间下数据间的排序关系得以保持。在跨模态数据中,该排序信息一般以三元组的形式通过模态内或模态间的相似关系进行构建。

6) 语义预测。通过一般分类任务模型实现模态内数据的相似性结构保持,即具有相同的语义标注则具有相似的共同表示,据此间接实现跨模态数据关系构建,即相同语义下跨模态共同表示一致。

7) 对抗学习。主要是生成对抗网络思想(Goodfellow等,2014)的引入,通过构建生成—对抗任务以学习多模态共同表示,建模过程迫使相似的跨模态数据共同表示统计不可分,进而实现模态间相似度计算。

需要注意的是:深度跨模态检索代表性方法的划分主要体现在实现共同表示学习优化目标的差异上。

2 国内外代表方法

2.1 基于跨模态数据间一一对应

在多模态表示学习中仅利用跨模态数据间的一一对应关系,相关方法主要采用以下5种技术:典型相关分析、一一对应关系保持、似然分析、学习排序以及对抗学习。

2.1.1 典型相关分析

Andrew等人(2013)提出深度典型相关分析算法(deep canonical correlation analysis, DCCA),如图 3所示,通过将传统相关分析方法中的线性映射替换为深度神经网络,实现不同模态映射空间下的数据最大相关性。考虑到不同模态数据维度较高时在优化DCCA巨大的存储以及时间开销,Yan和Mikolajczyk(2015)提出了一种端到端DCCA算法,该算法详细阐述了DCCA的GPU(graphics processing unit)优化方式,该方法实现效率相比基于CPU(central processing unit)实现高出了几个数量级。

图 3 DCCA算法(Andrew等,2013)
Fig. 3 DCCA algorithm(Andrew et al., 2013)

上述两种DCCA算法在梯度更新时采用标准的随机梯度算法进行参数更新,因此容易陷入局部最优解进而产生过拟合。为了克服该问题,高斯—牛顿算法(Gauss-Newton)提供了一种可行方案,但却容易受到黑塞矩阵(Hessian)不可逆的计算问题影响。Xia等人(2020)采用莱文贝格—马夸特方法(Levinberg-Marquardt)结合高斯—牛顿方法与随机梯度方法的各自优势,在该算法中,DCCA框架的参数更容易学习且学习步长可自动控制。

考虑到上述所有无监督DCCA框架难以引入数据语义信息进行共同表示学习的增强,Shao等人(2016)提出构建文本模态的相似度,进而采用超图的方式实现隐语义信息的挖掘。通过将该语义信息以及其他两种模态两两组合,一种基于任意两种模态相关性分析的三模态DCCA框架被提出并获得了有效的性能提升。

2.1.2 一一对应关系保持

Feng等人(2014, 2015b)提出了一种基于一致自编码器的图像文本跨模态检索框架。不同模态数据采用各自的自编码网络进行编码层表示学习,且其一一对应关系通过对应跨模态数据的编码层的距离最小化实现保持。一个基本的一致性自编码器结构如图 4所示。更进一步,通过自编码器模态间的重构约束,跨模态学习得到的编码表达将更有效表达不同模态的语义一致性。

图 4 基本一致性自编码器(Feng等,2014)
Fig. 4 Basic correspondence autoencoder(Feng et al., 2014)

延续Feng等人(2014, 2015b)提出的一致自编码器框架,Vukotić等人(2016)提出不同模态自编码器之间的权重共享以及结构对称方法,进而实现一一对应关系保持的增强。另一种改进一致自编码器框架的方向为训练优化,Wang等人(2014)提出交替优化框架在优化某一模态自编码器的同时固定其他模态的自编码器权重,该种方式实现了跨模态检索的快速训练。

所有上述方法针对不同模态采用不同的神经网络进行各自模态高层语义表示学习,并在该神经网络层进行一一对应关系保持。为减少整体网络参数,Nawaz等人(2018)提出使用单一网络进行图像—文本的跨模态检索。在该方法中,不同模态间的一一对应关系保持采用了一种基于中心损失函数(center loss)的神经网络进行刻画。相似地,Gou等人(2018)提出了一种视觉—音频网络结构进行遥感图像与语音的跨模态检索。视觉模态神经网络与语音神经网络通过一种融合网络进行整合以直接输出一一对应关系的是或否信息。

为实现在汉明空间进行更快速的跨模态距离度量,Wu等人(2018a)提出了一种自学习的图像文本哈希框架。通过将图像与文本经过神经网络提取的共同实值表达进行分解,隐变量基矩阵与共同哈希编码可以直接获得而非需要实值表达进行二值化松弛。反之,基于该哈希编码,不同模态的特征提取网络作为哈希函数可以通过一种自学习的方式进行学习。更进一步,该方法引入拉普拉斯约束以保持数据间的相似性关系,进而实现哈希编码学习的增强。

相比于上述直接将跨模态共同表示进行分解,Su等人(2019)直接将该表达通过激活函数进行二值化变换。在该方法中,作者首先计算不同模态内数据间的相似度矩阵,并基于该相似度矩阵通过线性加权的方式得到跨模态统一度量矩阵。在优化目标上,该方法希望哈希编码计算的相似度矩阵与该统一度量矩阵保持一致,进而实现哈希编码的有效学习。

2.1.3 似然分析

考虑到不同模态的数据具有相异的表达特性,在数据特征提取上一般会根据各自模态的特性采用模态相关的神经网络。Wang等人(2015)He等人(2016)提出使用卷积神经网络(convolutional neural network, CNN)提取图像特征、单词级卷积神经网络(word convolutional neural network, WCNN)提取文本特征,并采用最大似然估计方法,在共同表示隐含空间下生成相似数据对对比于非相似数据对的观察,如图 5所示。值得注意的是,He等人(2016)提出的方法为Wang等人(2015)提出方法的扩展,区别之处在于在似然函数构建中采用双向损失,即不仅包含以图像为基准的损失构建,同时包含以文本为基准的损失构建。

图 5 似然分析框架(Wang等,2015)
Fig. 5 Likelihood analysis(Wang et al., 2015)

在上述方法中,作者提出以相似对对比于非相似对作为生成模型的观察,不同于此,Feng等人(2015a)提出直接以跨模态的原始特征为观察的生成模型,采用玻尔兹曼机模型直接学习不同模态的潜在语义表达以进行不同模态数据特征的最大似然估计。同时,通过引入Feng等人(2014, 2015b)提出的一致自编码器框架进行了不同模态数据间关系的刻画。

2.1.4 学习排序

Hua等人(2015)提出了一种基于卷积神经网络进行特征提取的图像—文本跨模态检索框架,在跨模态共同表示隐变量空间,一种基于间隔的目标函数被提出以进行不同模态相关性建模,该优化目标要求相似的跨模态数据对间的相似度要至少以给定间隔的相似度大于不相似的跨模态数据对。

上述基于排序的优化方式广泛应用于图像—文本跨模态检索中(Wang等,2016bPeng等,2018a)。不同文献的主要区别在于主要优化目标之外其他信息的使用与设计。例如,模态内相似性结构保持将有助于上述共同表示学习的增强。另一种主要的考虑在于使用图像与文本的片段(如图像局部特征、文本中的词或词组)进行更细粒度的相似性度量,相关文章更多地引入注意力等机制进行给定数据对间的相似度优化(Karpathy等,2014Jiang等,2015)。

除了在传统的图像—文本跨模态检索中产生广泛应用,上述标准的排序优化目标在跨模态图像—食谱检索(Chen等,2017b, 2018)、音频—乐谱检索(Dorfer等,2018)以及视频—文本检索(Mithun等,2018)中都有普遍的应用。不同检索任务的主要区别在于不同模态数据具有不同的特性,需要采用模态相关或模态适应的深度神经网络进行共同表示的提取。例如,3D时空CNN用于视频特征提取(Mithun等,2018),一种基于区域划分的多分类CNN用于实物图像特征学习(Chen等,2017b)。

2.1.5 对抗学习

He等人(2017)借鉴传统生成对抗网络(generative adversarial network, GAN)的思想提出了一种基于生成对抗的跨模态共同表示学习框架用于图像—文本检索。在该方法中,不同模态基于神经网络非线性映射进行共同表示学习的过程被看做生成器,判别器用于区分不同模态数据的共同表示。当上述过程达到收敛,不同模态的共同表示将统计不可分,进而实现跨模态共同表示学习。另外,不同模态数据间一一对应的距离最小化约束被加入上述框架以进一步提升共同表示的学习。

借鉴上述基本框架,Huang等人(2019a)提出了一种可以利用普遍存在的无标注图像进行有效的跨模态图像—文本检索的弱监督学习框架。首先采用快速区域卷积神经网络(faster region proposal networks, Faster RCNN)框架进行无标注图像检测任务,进而产生一系列的生成图像—文本对。基于上述的共同表示学习、共同表示判别对抗框架,作者构建了已标注图像、真实文本、无标注图像以及生成文本的共同表示学习目标,进而实现利用无标注图像进行共同表示学习的有效增强。

除共同表示生成与判别为基础的跨模态检索框架外,Gu等人(2018)提出了一种更接近原生生成式对抗网络的跨模态检索模型。该模型包含了生成器进行图像的生成以及判别器用于生成图像与真实图像的区分。具体地,该模型包含3条分支。第1条分支为传统基于排序学习的跨模态检索框架。第2条为图像到文本的生成对抗框架,采用编码器—解码器方法并使用强化学习方法进行优化以缓解离散量(文本词)生成时传统交叉熵训练下的曝光偏差(exposure bais)以及训练评估指标不匹配问题。第3条分支为文本到图像的生成对抗框架。最终,上述共同表示学习的整合作为跨模态度量实现了共同表示的有效学习。

引入多条生成器与判别器思想进行有效共同表示学习的框架在跨模态哈希中也得到了一定程度的借鉴。Li等人(2019b)提出了一种耦合循环一致性生成对抗网络(cycle-consistent adversarial networks, cycleGAN)的跨模态哈希框架以学习跨模态实值与二值共同表示,如图 6所示。具体地,一个外部的cycleGAN并借鉴共同表示生成与判别基础框架实现了跨模态实值共同表示的学习构建。同时,实值共同表示生成的二值共同表示通过一个相似的内部cycleGAN用于该二值表达学习的对抗过程构建。上述耦合cycleGAN通过一种交替学习的方式可以同时学习获得用于跨模态距离度量的实值与二值共同表示。

图 6 对抗学习框架(Li等,2019b)
Fig. 6 Adversarial learning(Li et al., 2019b)

生成对抗模型建模之外,为实现跨模态数据间流形关系(manifold)的有效学习,Zhang等人(2018a)提出了一种基于图思想的生成对抗哈希学习框架。该过程描述如下:给定一个模态下的数据,生成模型基于共同表示的学习选择其他模态的数据构成数据对来挑战判别模型,判别模型区分该生成的数据对与真实的采集于关系图中的数据对。该关系图反映了数据的流形结构,采样与计算过程基于各自模态计算获得的相似度矩阵,该框架被进一步扩展以处理五模态数据, 进行更一般意义的跨模态检索(Zhang和Peng,2020)。

2.2 基于跨模态数据间相似度

在多模态表示学习中利用跨模态数据间的相似度值,一般该相似度值信息覆盖了跨模态数据间一一对应信息,相关方法主要采用以下3种技术:度量学习、似然分析以及对抗学习。

2.2.1 度量学习

Lin等人(2017)提出了一种跨模态数据对相似度优化框架,如图 7所示。在该模型中,不同模态数据的相似度计算通过引入仿射变换可以充分融合马氏距离度量与余弦距离度量。基于跨模态数据所提供的相似度信息,共同表示学习通过优化类似折页损失(hinge-like)目标函数实现,即相似度值与其标签的乘积与数值1尽可能接近。

图 7 度量学习框架(Lin等,2017)
Fig. 7 Metric learning(Lin et al., 2017)

Masci等人(2014)提出了一种基于孪生神经网络进行相似性度量的跨模态哈希框架。其采用模态间的数据相似性与非相似性信息进行汉明空间下共同表示学习。更具体地,在汉明空间下的跨模态数据相似度满足对于相似数据对其距离小于一个设定的阈值,而对于非相似数据对其距离大于一个设定的阈值。

上述跨模态哈希框架直接在汉明空间进行度量学习,Cao等人(2016ab)提出在实值共同表示空间进行度量并提出基于最大间隔优化目标来约束共同表示下的数据相似性与非相似性。之后,该共同表示通过相似的优化目标以量化产生汉明空间下的二值表达。更进一步,该工作通过设计基于位的最大间隔优化目标实现了更有效的量化,结合更有效的跨模态融合网络实现了更有效的哈希表达学习。

一般来说,度量学习框架要求相似的跨模态数据对间距离小于设定的阈值,而非相似的数据对间距离大于一定的阈值。Shen等人(2017)提出了一种基于迹的优化目标来保证相似与非相似关系能够在汉明空间下得到保持。更进一步,针对跨模态图像—文本检索任务,采用基于区域的CNN框架与长短时依赖神经网络(long short-term memory, LSTM)进行特征提取,使得所学习的共同表示能够基于更强的提取特征。

2.2.2 似然分析

Cao等人(2017)提出了一种混合网络用于跨模态图像文本哈希。多模态共同实值表示通过优化给定的跨模态数据间相似性关系的极大似然估计进行学习。同时,实值表示与二值表示间通过设计专门的量化损失进行控制,并反馈进行共同表示网络的梯度更新。

在上述框架的基础上,一系列的工作通过考虑额外的约束以提升跨模态实值或二值共同表示学习。例如,增加了模态内数据相似度观测的似然分析以及通过去相关性约束使得学习的哈希编码具有更强的判别能力,即增强每一位的表征能力(Yang等,2017)。Jiang和Li(2017)增加了每一位哈希编码的正则项约束来使得每一位编码携带尽可能多的信息。Nie等人(2021)引入多尺度融合网络以在学习哈希编码时能够进行更有效的特征提取。Wang等人(2020)在引入注意力机制进行共同表示增强的同时增加每一位哈希编码的权重以对每一位编码能力进行刻画。

考虑到极大似然分析中困难样本应该给予更多的关注,Cao等人(2018)提出了一种加权的最大数据间相似度观察的极大似然估计方法。在该模型中,依据似然估计值进行权重学习。另外,作者提出了一种基于概率的指数分布函数来代替传统的Sigmod激活函数,并声称对于缓解上述问题更有效。

2.2.3 对抗学习

Zhang等人(2018b)提出了一种基于注意力机制的生成对抗框架进行跨模态图像—文本哈希,如图 8所示。整体框架包含3个部分:跨模态图像—文本实值共同表示学习模块、注意力模型用于关注与非关注的表示学习、哈希模块用于将实值表达转为二值表达并保持数据间相似度。整体的对抗框架设定为:耦合表示学习模块的注意力模块迫使哈希模块不能保持数据间的相似度,而哈希模块则致力于保持该相似度。

图 8 对抗学习框架(Zhang等,2018b)
Fig. 8 Adversarial learning(Zhang et al., 2018b)

2.3 基于跨模态数据语义标注

在多模态表示学习中利用数据的单标签或多标签语义标注。一般提供数据语义信息的同时提供跨模态数据间一一对应信息,跨模态数据间相似度信息可以进行推导或计算,相关方法主要采用以下6种技术:语义预测、典型相关分析、似然分析、度量学习、学习排序和对抗学习。

2.3.1 语义预测

Wei等人(2017)提出了一个基于CNN提取图像特征的跨模态检索基线算法。图像特征基于预训练于ImageNet数据库的CNN网络并基于当前数据提供的语义信息进行微调。基于不同模态数据(图像、文本)提供的语义预测/分类网络,跨模态相关性隐式建模,即相似类别的跨模态数据间具有较小的距离。

上述基于语义预测进行共同表示学习的方法被广泛采用,并通过额外的约束进行增强(Wang等,2016cChen等,2017aKang等,2019)。Wang等人(2016c)增加了类内同语义数据间以及类间同语义数据间距离最小化约束以提升共同表示的学习能力。Chen等人(2017a)提出了一种基于多任务学习的框架进行食物图像语义分析,以识别烹调方法、切割方法和配料类别。Kang等人(2019)提出在不同模态的共同表示之间增加类间低秩约束以充分挖掘模态间的相关性。Zhong等人(2018)使用拉普拉斯特征映射保持模态内与模态间的数据间语义相似性。

2.3.2 典型相关分析

Shao等人(2015)提出了一种三视角深度典型相关分析方法用于跨模态图像—文本检索。语义信息作为和图像与文本一样的分支进行DCCA的构建。更具体地,通过任意两个分支之间的DCCA构建,并整合3组DCCA的优化目标实现语义信息的有效嵌入。更进一步,编码器—解码器结构的重构一定程度缓解了过拟合问题。

在上述三视角DCCA框架下,Shao等人(2019)提出一种两阶段的训练框架以在上述框架下进一步利用语义信息。具体地,经过三视角DCCA处理获得的共同表示作为输入以送入第2阶段神经网络,并借助于对比损失以及中心损失实现了新的更有效跨模态共同表示学习。

2.3.3 似然分析

Wu等人(2018b)提出了一种多标签跨模态共同表示学习算法,该方法对局部以及整体语义结构两部分进行了有效保持。针对局部语义结构保持,作者基于多标签语义信息构建了相似度图,并采用skip-gram模型进行共同表示学习,满足节点的表示能够以极大似然方式生成节点的邻居关系。针对整体语义结构保持,满足上述共同表示可以进行多标签预测重构。针对上述跨模态语义结构保持,Zhen等人(2019)提出了相似的框架,即基于共同表示进行模态内与模态间相似度生成以及基于语义预测进行共同表示到语义类别的建模。两者工作的主要区别在于相似度的构建方法差异。

以相似度作为观察进行似然分析之外,一种更普遍的做法是采用玻尔兹曼机进行数据原始特征的生成。Cao等人(2019)以此为基础提出了一种混合表示学习框架。首先以玻尔兹曼机为基础的多模态深度置信网络被采用以计算模态潜在表示,该表示被送入深度编码器网络以进行更高层次特征抽象,该过程通过数据的语义预测进行了一定程度的增强。最后通过引入多模态编码器融合不同模态特征进行模态间相关性建模。

在学习二值表达上,Peng等人(2019)提出了一种双注意力网络进行图像—文本哈希,如图 9所示。两模态的共同实值表示通过引入两个注意力机制进行参考文本的图像表示以及参考图像的文本表示学习。在该共同表示基础之上,引入量化损失以产生二值表达。同时该二值表达增加额外约束以进行增强,即由该二值表达可以通过似然分析生成跨模态数据之间的相似度。

图 9 似然分析学习框架(Peng等,2019)
Fig. 9 Likelihood analysis(Peng et al., 2019)

相似地,Zhang等人(2020)提出了一种相关性对齐的多语义标注图像—文本哈希框架。区别之处在于由跨模态共同表示进行数据间相似度生成时的相似度值由多模态语义标签以及数据的原始特征共同产生。另一方面,不同模态数据由共同表示进行构建的协方差矩阵通过对齐实现了更有效的跨模态相关性建模。

以相似度、特征值作为观测进行似然分析之外,Liong等人(2017b)提出了一种新颖的以学习目标作为似然分析对象的跨模态图像—文本变分哈希框架。在该方法中,不同模态基于各自神经网络产生的哈希表示被要求逼近于所有模态经过融合神经网络产生的联合哈希表示。更具体地,各自哈希表示采样于各自神经网络产生的分布,同时基于该哈希表示采用似然分析方式以产生联合哈希编码观测。相似地,Deng等人(2018)提出由语义标注信息提供的跨模态三元组作为观察进行共同表示的学习,且该观测在跨模态数据间以及同模态间共同构造。

2.3.4 度量分析

Liong等人(2017a)提出了一种深度耦合度量学习跨模态检索方法。该算法采用深度前向网络构造不同模态共同表示,并希望类内变异最小且类间变异最大化实现共同表示有效学习。为实现上述目标,作者分别设置了两个阈值进行上述类内变异与类间变异损失度量。

上述基于度量学习进行相似与非相似性建模的框架已被广泛采用。例如,Peng等人(2018c)提出了对比损失函数以要求相似的样本在共同表示空间距离较近而非相似样本在该空间距离较远。Salvador等人(2017)提出了一种基于CNN与LSTM进行共同表示学习的跨模态食物图像—食谱建模方法。为实现跨模态共同表示学习的同时直接进行度量的有效计算,Qi等人(2017)提出了一种融合跨模态共同表示学习与度量学习的网络结构。各自模态共同表示独立神经网络之外,一个融合所有模态共同表示的度量网络被加入以直接进行数据间相似性与非相似性的计算,即通过分类模型实现。

在学习二值表达上,Cao等人(2016c)提出了一种基于编码器—解码器的图像—文本哈希算法。编码器网络生成两种模态的二值共同表示,该表示生成的跨模态数据间相似度以一种线性判别分析为优化目标的方式与实际相似度对齐,其中,实际相似度计算由语义信息提供。除了采用线性判别分析优化目标,Ma等人(2018)提出了一种结构保持项来惩罚不满足数据间相似性关系的样本对,进而实现度量学习。更进一步,跨模态二值表示与语义空间表示的相似性以一种相对熵(Kullback-Leibler divergence, KL)的方式进行度量,使得所学习的二值表达更有效地挖掘模态内相关性。

2.3.5 学习排序

Wang等人(2020)提出了一种典型的图像—食谱跨模态排序学习框架,如图 10所示。在共同表示学习上,作者采用了自注意力机制以提升食谱共同表示学习的表征能力。在共同表示学习上采用经典的三元组排序构建距离优化目标。除此之外,提出共同表示学习的预测网络以构建预测语义分布与实际语义标注分布的KL散度最小优化目标。

图 10 学习排序学习框架(Wang等,2020)
Fig. 10 Learning to rank(Wang et al., 2020)

Zhang等人(2017)提出了一种判别性排序模型进行跨模态图像—文本检索。作者设计了一种加权的排序数据对损失函数选择最具判别性的负样本进行基于共同表示的排序学习。同时,类别判别性以一种基于间隔的损失函数进行建模以使得模态内相似的样本具有相似的共同表示。

在排序学习中的排序构造上,Carvalho等人(2018)提出了另一种方式以进行图像—食谱检索。在该方法中,通过两种三元组的排序学习优化目标加和实现学习。第1种三元组依赖跨模态数据间的一一对应关系构建,即检索数据的对应与非对应其他模态数据;第2种三元组依赖语义信息,即当前数据语义相同与不相同的其他模态数据。

2.3.6 对抗学习

Wang等人(2017)声称首次融合了监督的深度共同表示学习与对抗学习用于跨模态检索。在该模型中,对抗网络的构建采用较为传统的共同表示生成—判别方式,除此之外,语义信息用于进行模态间与模态内数据结构保持的判别性约束构建,进而增强共同表示学习能力。

如跨模态数据间一一对应信息下的对抗学习框架,跨模态共同表示生成与判别在跨模态数据语义标注信息下也被广泛采用。该系列方法不同之处在于语义信息对上述过程增强的使用上(Xu等,2018, 2019, 2020Hu等,2019Shang等,2019Wu等,2020)。例如,Xu等人(2018)将类别信息加入共同表示学习中以使得模型可以泛化未训练的其他语义标注的数据。该方法随后被扩展,通过增加语义标签的共同表示学习,在处理原始两个模态的生成对抗过程被扩展为3组生成对抗过程,即增加语义标签模态的任意两个模态(Xu等,2020)。通过该扩展,共同表示学习获得了更大的增强。Hu等人(2019)引入了Fisher准则使得共同表示学习更具判别性,同时生成对抗过程以一种回归的方式而非标准的min-max优化目标进行构建。Shang等人(2019)通过监督字典学习方式进行跨模态数据的第1阶段预处理,使得生成—对抗过程的输入信息更优。Xu等人(2019)在该框架下提出特征相关性损失函数以最小化同类差异最大化异类差异。Wu等人(2020)将共同表示分为模态独立表示与模态一致表示,同时基于给定语义标注使用间隔损失等进行基于共同表示的结构保持,以提升表示学习能力。

在学习二值表达上,Xie等人(2020)提出了一种多任务一致性保持对抗网络进行图像—文本哈希。该框架仍然符合上述共同表示生成—对抗框架,区别之处在于引入一致性优化模块以区分模态一致性表达与独立性表达、语义预测模块进行共同表示增强以及哈希模块以产生哈希编码且保持数据间一一对应关系。

考虑到语义标注提供了强监督信息,而仅仅通过语义预测难以实现该语义信息的更有效利用,越来越多的工作将语义标注进行向量化表达, 并将其作为与其他模态一样的数据源(Qiang等,2020Li等,2018Ma等,2020),如图 11所示。这一系列工作的主要区别在于处理包括语义标注模态时不同模态间的关系建模上。例如,Li等人(2018)使用跨模态数据对间的相似性进行不同模态哈希编码的优化。Ma等人(2020)将共同表示拆分为跨模态数据间相关与非相关特征进而采用语义相关损失进行优化。

图 11 对抗学习框架(Li等,2018)
Fig. 11 Adversarial learning(Li et al., 2018)

2.4 方法间对比

本文对比提供不同跨模态数据信息下不同技术的区别,以阐述在提供了不同层次的跨模态数据信息下,相关技术的关注点与使用异同。

对于典型相关分析,给定跨模态数据间一一对应信息,主要研究CCA框架的非线性化、加速等问题。给定语义标注信息,主要研究如何通过语义信息进行DCCA的增强,如采用语义标注作为额外网络进行共同表示的增强。

对于一一对应关系保持,其广泛存在于所述的3种跨模态数据信息中,该技术建模具有通用性,例如,通过对应跨模态数据共同表示的距离最小化实现跨模态关系建模。区别在于提供的信息越多,该共同表示将使用更多的信息进行增强。

对于度量学习,因考虑其对跨模态数据的相似对与非相似度建模,因此广泛存在于给定数据间相似度与语义标注的信息框架下。该技术建模具有一定通用性,但考虑到给定语义标注后数据的类别信息可以提供,因此可以采用更广泛的技术进行度量学习,如利用分类网络作为一种度量进行语义相同跨模态数据间的预测。

对于似然分析,因考虑其对跨模态数据的观察以极大似然框架进行建模,因此广泛存在于3种信息下。该技术建模具有通用性,如通过使用跨模态共同表示进行数据特征、相似度等观察的生成,可以基于训练数据集进行共同表示的有效学习。区别在于给定更多的信息,一些经过一定计算得到的观察值如相似度将更准确,另外就是更多的信息用于建模可以增强共同表示学习。

对于学习排序,因其建模跨模态数据间的相似性排序,因此广泛存在于给定数据间一一对应与语义标注信息下。其在给定数据间相似度信息下较少出现,可能的原因在于相比于一一对应信息,相似度提供了更准确的数据间关系而非仅仅是排序。该技术建模具有通用性,一般通过如基于间隔的优化目标进行共同表示约束。当提供更多的信息如语义标注时,将能获得更准确的排序信息,同时提供更多的非排序优化目标约束。

对于语义预测,因其需要提供跨模态数据语义标注,因此一般仅存在于提供语义标注信息下。通过不同模态语义学习,共同表示将隐式建模模态内的数据近邻结构以及模态间的数据语义结构。

对于对抗学习,因构造生成与对抗过程的便利性,其广泛存在于给定的3种信息中。一般通过构建共同表示学习与判别、相似度生成与判别、模态原始数据生成与判别等方式实现共同表示统计不可分特性。当提供更多信息如语义标注时,将基于此信息辅助设计对抗过程或者其他约束以增强共同表示的学习。

3 典型数据库介绍

为评估跨模态检索性能,研究者收集并提出了若干基准数据集,本节将重点介绍部分代表性跨模态检索数据库,如表 2所示。

表 2 跨模态检索代表数据库
Table 2 Classical cross-modal retrieval datasets

下载CSV
数据库 模态 样本量 类别数
Wiki 图像/文本 2 866 10
INRIA-Websearch 图像/文本 71 478 353
Flickr30K 图像/短句 31 783 -
MS COCO 图像/短句 87 783 -
NUS-WIDE 图像/标签 186 577 81
PASCAL VOC 图像/标签 9 963 20
XMedia 文本/图像/视频/音频/3D模型 12 000 20
注:“-”代表无类别标签。

1) Wikipedia(Wiki)数据集(Rasiwasia等,2010)。该数据集收集于维基百科,其包含2 866个图像—文本对。文本为描述人、地点或者一些事件的文档,图像为配套该文档的配图,且每一个数据对含有10种语义标注中的一种。该数据集中包含了可选择的两种模态特征,文本为潜在狄利克雷分布模型(latent Dirichlet allocation, LDA)得到的10个维度特征(Blei等,2003),图像为128维的尺度不变特征变换(scale invariant feature transform, SIFT)(Lowe,2004)。

2) INRIA-Websearch数据集(Krapac等,2010)。该数据集包含71 478个图像—文本对。数据收集源于以353个语义标注为检索的网络检索结果,该标注信息包含著名的地标、演员、电影以及标志等内容。基于该标注进行检索获得网络图像并进行筛选,获得任意语义标注下一系列图像与图像所在网页中包含的文本信息对。该数据集因为较大的语义标注种类数目成为相对具有挑战的跨模态检索数据集。

3) Flickr30k数据集(Young等,2014)。Flickr8k(Hodosh等,2013)数据集的扩展版本,包含了31 783幅收集于Flickr网站上的图像,主要内容涉及包含人与动作的方方面面的事件。每一幅图像包含了5个独立的文本句子进行描述,每一个描述由志愿者进行撰写。

4) MS COCO (Microsoft common objects in context)数据集(Lin等,2014)。该数据集相似于Flickr30k数据集, 但包含了更多的图像,即82 783幅训练与40 504幅验证图像, 共计80个语义类别。同时,每一幅图像都包含了5个描述图像的句子。

5) NUS-WIDE(Real-world Web Image Dataset from National University of Singapore)数据集(Chua等,2009)。该数据集包含186 577幅标注的图像,其中每幅图像被标记若干短语标签,构成了图像—文本对。在监督跨模态检索中,为保证每一类图像包含足够数量的训练图像—文本对,研究者一般选择具有数据量最多的10类或者21类标注下的数据对进行子数据集的构建。该数据库提供了图像的6个基本视觉描述特征,即64维颜色直方图、144维颜色相关图、73维边缘方向直方图、128维小波纹理特征、225维颜色矩特征以及500维基于词袋模型的SIFT特征。文本特征为1 000维的短语标签编码特征。

6) PASCAL VOC (pattern analysis,statistical modelling and computational learning visual object classes)数据集(Hwang和Grauman,2012)。该数据集包含5 011以及4 952个训练与测试图像—短语标签数据对,共计20个语义标注。考虑到一些数据对含有多个语义标注,部分研究者在研究单语义标注的跨模态检索中一般去除多类别语义标注数据,仅保留余下的2 808与2 841个训练与测试数据对(Sharma等,2012)。在该数据集中,提供了图像的词袋直方图特征、全局特征信息以及颜色特征,相似于NUS-WIDE数据集,文本特征为对应的399维短语标签特征。

7) PKU XMediaNet(XMedia)数据集(Peng等,2016Zhai等,2014)。该数据集收集20个语义标注下的共计5个模态的数据,即文本、图像、视频、音频以及3D模型,其数据量依次为5 000, 5 000, 500, 1 000, 500。通过将语义标注作为查询进行检索,文本收集自Wikipedia且大多数文本长度大于200单词,图像收集于互联网且图像具有较高分辨率,视频收集于YouTube且截取符合语义标注的片段,音频收集于互联网且长度大多小于1 min,3D模型收集于Yobi3D。该数据集以4 ∶1切分训练集与测试集,分别为9 600与2 400。

4 讨论与展望

尽管近些年来一系列基于深度神经网络的跨模态检索/哈希算法被提出并取得了相对优异的性能,算法在应用上仍然与用户的期待存在一定的鸿沟。因此,跨模态检索仍然是一个需要深耕的方向并吸引着越来越多的研究者。本文将简要了介绍跨模态检索新的研究思路并讨论未来的一些迫切需要研究的方向。

1) 跨模态检索新的研究思路。部分研究者提出可迁移/可扩展/零样本的跨模态检索方法(Xu等,2018, 2020Zhen等,2020Huang等,2020aLiu等,2019),该思路聚焦利用源域中标注类别的数据进行目标域无标注/有标注且类别与源域部分重叠或者完全不重叠的跨模态数据间检索,期望可以有效蒸馏源域中标注数据的信息提升目标域跨模态检索性能。上述研究不同于一般跨模态检索默认要求源域与目标域具有相同的语义标注类别,因此更贴近真实跨模态检索应用场景。

2) 收集大规模多种模态数据集。为提升跨模态检索性能,研究者设计了越来越复杂的算法,然而却缺少有效的包含多种模态数据且具有一定体量的跨模态基准数据集进行验证。当前的专用跨模态检索数据集如Wiki仅仅包含图像与文本两种模态且数据量很小,或者如NUS-WIDE数据集的文本模态仅仅为用户提供标签,难以有效刻画模态表征。因此,收集大规模的且包含多种模态(语音、视频、图像、文本和草图等)的通用检索数据集是非常有用的一个研究方向。

3) 少量且含有噪声的语义标注下的跨模态检索。随着互联网与社交媒体的飞速发展,如Flickr、YouTube、Facebook、MySpace、微博和微信等产生了大量的多模态数据。当前这些数据在网络中以松散组织的方式存在,数据的标注是受限且包含巨大噪声的,同时进行所有数据的标注是不切实际的。因此如何使用这些有限且包含噪声标注的多模态数据进行跨模态检索将是未来的一个重要研究方向。

4) 轻量级的跨模态检索。现实环境中存在大量的多模态数据,与之对应的是用户进行跨模态检索的需求和要求越来越高,因此对于算法的要求也变得更加苛刻。当前研究者设计了越来越大复杂度的算法以提升跨模态检索性能,但却难以满足检索效率的需求。因此,如何设计高效的且性能俱佳的跨模态检索算法是未来一个至关重要的方向。

5) 细粒度的跨模态相关性建模。大部分算法在跨模态共同表示学习时将不同模态数据通过深度神经网络非线性映射到共同表示空间,之后在该空间进行直接的跨模态度量。然而该类方法在多模态共同表示建模时太过粗糙,难以有效挖掘不同模态的一致性部分。近年来在图像—文本跨模态检索任务中,一系列的细粒度相关性建模方法被提出以有效挖掘图像与文本中片段级别的对应关系,取得了更好的跨模态相关性建模效果。因此,如何针对不同模态类型提取片段级别表征并构建更复杂的片段级别关系建模将是未来的一个研究方向。

5 结语

跨模态检索提供了一种有效的多模态检索方案,满足了用户越来越普遍的检索需求。本文针对传统跨模态检索问题进行了基于深度学习方法的综述。依据可提供的跨模态数据信息,将跨模态检索划分为3大类,并阐述了不同类下7种代表性技术以及典型算法。本文介绍了常用的跨模态检索基准数据集以及未来的研究方向。尽管基于深度学习的跨模态检索近些年来取得了巨大的研究进展,但是相关技术仍然难以满足需求,仍然有大量的工作需要进行深入研究。希望通过本文让读者了解当前工作的前沿,以启发进而做出更有价值的跨模态检索工作。

参考文献

  • Andrew G, Arora R, Bilmes J and Livescu K. 2013. Deep canonical correlation analysis//Proceedings of the 30th International Conference on Machine Learning. Atlanta, USA: JMLR: 1247-1255
  • Baltrušaitis T, Ahuja C, Morency L P. 2019. Multimodal machine learning: a survey and taxonomy. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(2): 423-443 [DOI:10.1109/TPAMI.2018.2798607]
  • Blei D M, Ng A Y, Jordan M I. 2003. Latent dirichlet allocation. The Journal of Machine Learning Research, 3: 993-1022
  • Cao W M, Lin Q B, He Z H, He Z Q. 2019. Hybrid representation learning for cross-modal retrieval. Neurocomputing, 345: 45-57 [DOI:10.1016/j.neucom.2018.10.082]
  • Cao Y, Liu B, Long M S and Wang J M. 2018. Cross-modal hamming hashing//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 207-223[DOI:10.1007/978-3-030-01246-5_13]
  • Cao Y, Long M S, Wang J M and Liu S C. 2017. Collective deep quantization for efficient cross-modal retrieval//Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI: 3974-3980
  • Cao Y, Long M S, Wang J M, Yang Q and Yu P S. 2016b. Deep visual-semantic hashing for cross-modal retrieval//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, USA: ACM: 1445-1454[DOI:10.1145/2939672.2939812]
  • Cao Y, Long M S, Wang J M and Yu P S. 2016a. Correlation hashing network for efficient cross-modal retrieval[EB/OL]. [2020-12-31]. https://arxiv.org/pdf/1602.06697.pdf
  • Cao Y, Long M S, Wang J M and Zhu H. 2016c. Correlation autoencoder hashing for supervised cross-modal search//Proceedings of 2016 ACM on International Conference on Multimedia Retrieval. New York, USA: ACM: 197-204[DOI: 10.1145/2911996.2912000]
  • Carvalho M, Cadène R, Picard D, Soulier L, Thome N and Cord M. 2018. Cross-modal retrieval in the cooking context: learning semantic text-image embeddings//Proceedings of the 41st International ACM SIGIR Conference on Research and Development in Information Retrieval. Ann Arbor, USA: ACM: 35-44[DOI:10.1145/3209978.3210036]
  • Chen J J, Ngo C W and Chua T S. 2017a. Cross-modal recipe retrieval with rich food attributes//Proceedings of the 25th ACM International Conference on Multimedia. Mountain, View, USA: ACM: 1771-1779[DOI:10.1145/3123266.3123428]
  • Chen J J, Ngo C W, Feng F L and Chua T S. 2018. Deep understanding of cooking procedure for cross-modal recipe retrieval//Proceedings of the 26th ACM International Conference on Multimedia. Seoul, Korea(South): ACM: 1020-1028[DOI:10.1145/3240508.3240627]
  • Chen J J, Pang L and Ngo C W. 2017b. Cross-modal recipe retrieval: how to cook this dish?//Proceedings of the 23rd International Conference on MultiMedia Modeling. Reykjavik, Iceland: Springer: 588-600[DOI:10.1007/978-3-319-51811-4_48]
  • Chua T S, Tang J H, Hong R C, Li H J, Luo Z P and Zheng Y T. 2009. NUS-WIDE: a real-world web image database from national university of Singapore//Proceedings of 2009 ACM International Conference on Image and Video Retrieval. Santorini Island, Greece: ACM: 48[DOI:10.1145/1646396.1646452]
  • Deng C, Chen Z J, Liu X L, Gao X B, Tao D C. 2018. Triplet-based deep hashing network for cross-modal retrieval. IEEE Transactions on Image Processing, 27(8): 3893-3903 [DOI:10.1109/TIP.2018.2821921]
  • Dorfer M, Hajič Jr J, Arzt A, Frostel H, Widmer G. 2018. Learning audio-sheet music correspondences for cross-modal retrieval and piece identification. Transactions of the International Society for Music Information Retrieval, 1(1): 22-33 [DOI:10.5334/tismir.12]
  • Feng F X, Li R F, Wang X J. 2015a. Deep correspondence restricted Boltzmann machine for cross-modal retrieval. Neurocomputing, 154: 50-60 [DOI:10.1016/j.neucom.2014.12.020]
  • Feng F X, Wang X J and Li R F. 2014. Cross-modal retrieval with correspondence autoencoder//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando, USA: ACM: 7-16[DOI:10.1145/2647868.2654902]
  • Feng F X, Wang X J, Li R F, Ahmad I. 2015b. Correspondence autoencoders for cross-modal retrieval. ACM Transactions on Multimedia Computing, Communications, and Applications, 12(1S): #26 [DOI:10.1145/2808205]
  • Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A and Bengio Y. 2014. Generative adversarial nets//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: NIPS: 2672-2680
  • Gou M, Yuan Y and Lu X Q. 2018. Deep cross-modal retrieval for remote sensing image and audio//Proceedings of the 10th IAPR Workshop on Pattern Recognition in Remote Sensing. Beijing, China: IEEE: 1-7[DOI:10.1109/PRRS.2018.8486338]
  • Gu J X, Cai J F, Joty S, Niu L and Wang G. 2018. Look, imagine and match: improving textual-visual cross-modal retrieval with generative models//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7181-7189[DOI:10.1109/CVPR.2018.00750]
  • He L, Xu X, Lu H M, Yang Y, Shen F M and Shen H T. 2017. Unsupervised cross-modal retrieval through adversarial learning//Proceedings of 2017 IEEE International Conference on Multimedia and Expo. Hong Kong, China: IEEE: 1153-1158[DOI:10.1109/ICME.2017.8019549]
  • He R, Zhang M, Wang L, Ji Y, Yin Q Y. 2015. Cross-modal subspace learning via pairwise constraints. IEEE Transactions on Image Processing, 24(12): 5543-5556 [DOI:10.1109/TIP.2015.2466106]
  • He Y H, Xiang S M, Kang C C, Wang J, Pan C H. 2016. Cross-modal retrieval via deep and bidirectional representation learning. IEEE Transactions on Multimedia, 18(7): 1363-1377 [DOI:10.1109/TMM.2016.2558463]
  • Hodosh M, Young P, Hockenmaier J. 2013. Framing image description as a ranking task: data, models and evaluation metrics. Journal of Artificial Intelligence Research, 47: 853-899 [DOI:10.1613/jair.3994]
  • Hu P, Peng D Z, Wang X, Xiang Y. 2019. Multimodal adversarial network for cross-modal retrieval. Knowledge-Based Systems, 180: 38-50 [DOI:10.1016/j.knosys.2019.05.017]
  • Hua Y, Tian H, Cai A N and Shi P. 2015. Cross-modal correlation learning with deep convolutional architecture//Proceedings of 2015 Visual Communications and Image Processing. Singapore, Singapore: IEEE: 1-4[DOI:10.1109/VCIP.2015.7457841]
  • Huang P Y, Kang G L, Liu W H, Chang X J and Hauptmann A G. 2019a. Annotation efficient cross-modal retrieval with adversarial attentive alignment//Proceedings of the 27th ACM International Conference on Multimedia. Nice, France: ACM: 1758-1767[DOI:10.1145/3343031.3350894]
  • Huang X, Peng Y X, Yuan M K. 2020a. MHTN: modal-adversarial hybrid transfer network for cross-modal retrieval. IEEE Transactions on Cybernetics, 50(3): 1047-1059 [DOI:10.1109/TCYB.2018.2879846]
  • Huang Y, Long Y and Wang L. 2019b. Few-shot image and sentence matching via gated visual-semantic embedding//Proceedings of the 33rd AAAI Conference on Artificial Intelligence, AAAI 2019, the 31st Innovative Applications of Artificial Intelligence Conference, IAAI 2019, the 9th AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2019. Honolulu, USA: AAAI: 8489-8496
  • Huang Y and Wang L. 2019c. ACMM: aligned cross-modal memory for few-shot image and sentence matching//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea(South): IEEE: 5773-5782[DOI:10.1109/ICCV.2019.00587]
  • Huang Y, Wang W, Wang L. 2015. Unconstrained multimodal multi-label learning. IEEE Transactions on Multimedia, 17(11): 1923-1935 [DOI:10.1109/TMM.2015.2476658]
  • Huang Y, Wang W and Wang L. 2017. Instance-aware image and sentence matching with selective multimodal LSTM//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 2310-2318[DOI:10.1109/CVPR.2017.767]
  • Huang Y, Wu Q, Song C F and Wang L. 2018. Learning semantic concepts and order for image and sentence matching//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 6163-6171[DOI:10.1109/CVPR.2018.00645]
  • Huang Y, Wu Q, Wang W, Wang L. 2020b. Image and sentence matching via semantic concepts and order learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(3): 636-650 [DOI:10.1109/TPAMI.2018.2883466]
  • Hwang S J, Grauman K. 2012. Reading between the lines: object localization using implicit cues from image tags. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(6): 1145-1158 [DOI:10.1109/TPAMI.2011.190]
  • Jiang Q Y and Li W J. 2017. Deep cross-modal hashing//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 3270-3278[DOI:10.1109/CVPR.2017.348]
  • Jiang X Y, Wu F, Li X, Zhao Z, Lu W M, Tang S L and Zhuang Y T. 2015. Deep compositional cross-modal learning to rank via local-global alignment//Proceedings of the 23rd ACM International Conference on Multimedia. Brisbane, Australia: ACM: 69-78[DOI:10.1145/2733373.2806240]
  • Kang P P, Lin Z H, Yang Z G, Fang X Z, Li Q and Liu W Y. 2019. Deep semantic space with intra-class low-rank constraint for cross-modal retrieval//Proceedings of 2019 on International Conference on Multimedia Retrieval. Ottawa, Canada: ACM: 226-234[DOI:10.1145/3323873.3325029]
  • Karpathy A, Joulin A and Li F F. 2014. Deep fragment embeddings for bidirectional image sentence mapping//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: NIPS: 1889-1897
  • Krapac J, Allan M, Verbeek J and Juried F. 2010. Improving web image search results using query-relative classifiers//Proceedings of the 23rd IEEE Computer Society Computer Vision and Pattern Recognition. San Francisco, USA: IEEE: 1094-1101[DOI:10.1109/CVPR.2010.5540092]
  • LeCun Y, Bengio Y, Hinton G. 2015. Deep learning. Nature, 521(7553): 436-444 [DOI:10.1038/nature14539]
  • Li C, Deng C, Li N, Liu W, Gao X B and Tao D C. 2018. Self-supervised adversarial hashing networks for cross-modal retrieval//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 4242-4251[DOI:10.1109/CVPR.2018.00446]
  • Li C, Deng C, Wang L, Xie D and Liu X L. 2019b. Coupled cyclegan: unsupervised hashing network for cross-modal retrieval//Proceedings of the 33rd AAAI Conference on Artificial Intelligence, AAAI 2019, the 31st Innovative Applications of Artificial Intelligence Conference, IAAI 2019, the 9th AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2019. Honolulu, USA: AAAI: 176-183
  • Li S, Tao Z Q, Li K, Fu Y. 2019a. Visual to text: survey of image and video captioning. IEEE Transactions on Emerging Topics in Computational Intelligence, 3(4): 297-312 [DOI:10.1109/TETCI.2019.2892755]
  • Lin L, Wang G R, Zuo G M, Feng X C, Zhang L. 2017. Cross-domain visual matching via generalized similarity measure and feature learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1089-1102 [DOI:10.1109/TPAMI.2016.2567386]
  • Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Dollár C P and Zitnick L. 2014. Microsoft coco: common objects in context//Proceedings of the 13th European Conference on Computer Vision. Zurich Switzerland: Springer: 740-755[DOI:10.1007/978-3-319-10602-1_48]
  • Liong V E, Lu J W, Tan Y P, Zhou J. 2017a. Deep coupled metric learning for cross-modal matching. IEEE Transactions on Multimedia, 19(6): 1234-1244 [DOI:10.1109/TMM.2016.2646180]
  • Liong V E, Lu J W, Tan Y P and Zhou J. 2017b. Cross-modal deep variational hashing//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 4077-4085[DOI: 10.1109/ICCV.2017.439]
  • Liu J, Xu C S, Lu H Q. 2010. Cross-media retrieval: state-of-the-art and open issues. International Journal of Multimedia Intelligence and Security, 1(1): 33-52 [DOI:10.1504/IJMIS.2010.035970]
  • Liu X W, Li Z, Wang J, Yu G X, Domenicon C and Zhang X L. 2019. Cross-modal zero-shot hashing//Proceedings of 2019 IEEE International Conference on Data Mining. Beijing, China: IEEE: 449-458[DOI:10.1109/ICDM.2019.00055]
  • Lowe D G. 2004. Distinctive image features from scale-invariant Keypoints. International Journal of Computer Vision, 60(2): 91-110 [DOI:10.1023/B:VISI.0000029664.99615.94]
  • Ma L, Li H L, Meng F M, Wu Q B, Ngan K N. 2018. Global and local semantics-preserving based deep hashing for cross-modal retrieval. Neurocomputing, 312: 49-62 [DOI:10.1016/j.neucom.2018.05.052]
  • Ma X H, Zhang T Z, Xu C S. 2020. Multi-level correlation adversarial hashing for cross-modal retrieval. IEEE Transactions on Multimedia, 22(12): 3101-3114 [DOI:10.1109/TMM.2020.2969792]
  • Masci J, Bronstein M M, Bronstein A M, Schmidhuber J. 2014. Multimodal similarity-preserving hashing. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(4): 824-830 [DOI:10.1109/TPAMI.2013.225]
  • Mithun N C, Li J C, Metze F and Roy-Chowdhury A K. 2018. Learning joint embedding with multimodal cues for cross-modal video-text retrieval//Proceedings of 2018 ACM on International Conference on Multimedia Retrieval. Yokohama, Japan: ACM: 19-27[DOI: 10.1145/3206025.3206064]
  • Nawaz S, Janjua M K, Calefati A and Gallo I. 2018. Revisiting cross modal retrieval[EB/OL]. [2020-12-30]. https://arxiv.org/pdf/1807.07364v1.pdf
  • Nie X S, Wang B W, Li J J, Hao F C, Jian M W, Yin Y L. 2021. Deep multiscale fusion hashing for cross-modal retrieval. IEEE Transactions on Circuits and Systems for Video Technology, 31(1): 401-410 [DOI:10.1109/TCSVT.2020.2974877]
  • Peng H Y, He J J, Chen S F, Wang Y L, Qiao Y. 2019. Dual-supervised attention network for deep cross-modal hashing. Pattern Recognition Letters, 128: 333-339 [DOI:10.1016/j.patrec.2019.08.032]
  • Peng Y X, Huang X, Zhao Y Z. 2018b. An overview of cross-media retrieval: concepts, methodologies, benchmarks, and challenges. IEEE Transactions on Circuits and Systems for Video Technology, 28(9): 2372-2385 [DOI:10.1109/TCSVT.2017.2705068]
  • Peng Y X, Qi J W, Huang X, Yuan Y X. 2018c. CCL: cross-modal correlation learning with multigrained fusion by hierarchical network. IEEE Transactions on Multimedia, 20(2): 405-420 [DOI:10.1109/TMM.2017.2742704]
  • Peng Y X, Qi J W, Yuan Y X. 2018a. Modality-specific cross-modal similarity measurement with recurrent attention network. IEEE Transactions on Image Processing, 27(11): 5585-5595 [DOI:10.1109/TIP.2018.2852503]
  • Peng Y X, Zhai X H, Zhao Y Z, Huang X. 2016. Semi-supervised cross-media feature learning with unified patch graph regularization. IEEE Transactions on Circuits and Systems for Video Technology, 26(3): 583-596 [DOI:10.1109/TCSVT.2015.2400779]
  • Qi J W, Huang X, Peng Y X. 2017. Cross-media similarity metric learning with unified deep networks. Multimedia Tools and Applications, 76(23): 25109-25127 [DOI:10.1007/s11042-017-4726-6]
  • Qiang H P, Wan Y, Xiang L, Meng X J. 2020. Deep semantic similarity adversarial hashing for cross-modal retrieval. Neurocomputing, 400: 24-33 [DOI:10.1016/j.neucom.2020.03.032]
  • Rasiwasia N, Pereira J C, Coviello E, Doyle G, Lanckriet G R G, Levy R and Vasconcelos N. 2010. A new approach to cross-modal multimedia retrieval//Proceedings of the 18th ACM International Conference on Multimedia. Firenze, Italy: ACM: 251-260[DOI: 10.1145/1873951.1873987]
  • Salvador A, Hynes N, Aytar Y, Marin J, Ofli F, Weber I and Torralba A. 2017. Learning cross-modal embeddings for cooking recipes and food images//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 3020-3028[DOI: 10.1109/CVPR.2017.327]
  • Shang F, Zhang H X, Zhu L, Sun J D. 2019. Adversarial cross-modal retrieval based on dictionary learning. Neurocomputing, 355: 93-104 [DOI:10.1016/j.neucom.2019.04.041]
  • Shao J, Wang L Q, Zhao Z C, Su F, Cai A N. 2016. Deep canonical correlation analysis with progressive and hypergraph learning for cross-modal retrieval. Neurocomputing, 214: 618-628 [DOI:10.1016/j.neucom.2016.06.047]
  • Shao J, Zhao Z C, Su F. 2019. Two-stage deep learning for supervised cross-modal retrieval. Multimedia Tools and Applications, 78(12): 16615-16631 [DOI:10.1007/s11042-018-7068-0]
  • Shao J, Zhao Z C, Su F and Yue T. 2015. 3view deep canonical correlation analysis for cross-modal retrieval//Proceedings of 2015 Visual Communications and Image Processing. Singapore, Singapore: IEEE: 1-4[DOI: 10.1109/VCIP.2015.7457870]
  • Sharma A, Kumar A, Daume H and Jacobs D W. 2012. Generalized multiview analysis: a discriminative latent space//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE: 2160-2167[DOI: 10.1109/CVPR.2012.6247923]
  • Shen Y M, Liu L, Shao L and Song J K. 2017. Deep binaries: encoding semantic-rich cues for efficient textual-visual cross retrieval//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 4097-4103[DOI: 10.1109/ICCV.2017.441]
  • Srivastava Y, Murali V, Dubey S R and Mukherjee S. 2019. Visual question answering using deep learning: a survey and performance analysis[EB/OL]. [2020-12-30]. https://arxiv.org/pdf/1909.01860.pdf
  • Su S P, Zhong Z S and Zhang C. 2019. Deep joint-semantics reconstructing hashing for large-scale unsupervised cross-modal retrieval//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea(South): IEEE: 3027-3035[DOI: 10.1109/ICCV.2019.00312]
  • Vukotić V, Raymond C and Gravier G. 2016. Bidirectional joint representation learning with symmetrical deep neural networks for multimodal and crossmodal applications//Proceedings of 2016 ACM on International Conference on Multimedia Retrieval. New York, USA: ACM: 343-346[DOI: 10.1145/2911996.2912064]
  • Wang B K, Yang Y, Xu X, Hanjalic A and Shen H T. 2017. Adversarial cross-modal retrieval//Proceedings of the 25th ACM International Conference on Multimedia. Mountain View, USA, ACM: 154-162[DOI: 10.1145/3123266.3123326]
  • Wang H, Sahoo D, Liu C H, Shu K, Achananuparp P, Lim E P and Hoi S C H. 2020. Cross-modal food retrieval: Learning a joint embedding of food images and recipes with semantic consistency and attention mechanism[EB/OL]. [2020-12-30]. https://arxiv.org/pdf/2003.03955v1.pdf
  • Wang J, He Y H, Kang C C, Xiang S M and Pan C H. 2015. Image-text cross-modal retrieval via modality-specific feature learning//Proceedings of the 5th ACM on International Conference on Multimedia Retrieval. Shanghai, China: ACM: 347-354[DOI: 10.1145/2671188.2749341]
  • Wang K Y, He R, Wang W, Wang L and Tan T N. 2013. Learning coupled feature spaces for cross-modal matching//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE: 2088-2095[DOI: 10.1109/ICCV.2013.261]
  • Wang K Y, He R, Wang L, Wang W, Tan T N. 2016a. Joint feature selection and subspace learning for cross-modal retrieval. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(10): 2010-2023 [DOI:10.1109/TPAMI.2015.2505311]
  • Wang L W, Li Y and Lazebnik S. 2016b. Learning deep structure-preserving image-text embeddings//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 5375-5384[DOI: 10.1109/CVPR.2016.541]
  • Wang W, Ooi B C, Yang X Y, Zhang D X, Zhuang Y T. 2014. Effective multi-modal retrieval based on stacked auto-encoders. Proceedings of the VLDB Endowment, 7(8): 649-660 [DOI:10.14778/2732296.2732301]
  • Wang W, Yang X Y, Ooi B C, Zhang D X, Zhuang Y T. 2016c. Effective deep learning-based multi-modal retrieval. The VLDB Journal, 25(1): 79-101 [DOI:10.1007/s00778-015-0391-4]
  • Wang X Z, Zou X T, Bakker E M, Wu S. 2020. Self-constraining and attention-based hashing network for bit-scalable cross-modal retrieval. Neurocomputing, 400: 255-271 [DOI:10.1016/j.neucom.2020.03.019]
  • Wei Y C, Zhao Y, Lu C Y, Wei S K, Liu L Q, Zhu Z F, Yan S C. 2017. Cross-modal retrieval with CNN visual features: a new baseline. IEEE Transactions on Cybernetics, 47(2): 449-460 [DOI:10.1109/TCYB.2016.2519449]
  • Wu F, Jing X Y, Wu Z Y, Ji Y M, Dong X W, Luo X K, Huang Q H, Wang R C. 2020. Modality-specific and shared generative adversarial network for cross-modal retrieval. Pattern Recognition, 104: 107335 [DOI:10.1016/j.patcog.2020.107335]
  • Wu G S, Lin Z J, Han J G, Liu L, Ding G G, Zhang B C and Shen J L. 2018a. Unsupervised deep hashing via binary latent factor models for large-scale cross-modal retrieval//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm, Sweden: ACM: 2854-2860
  • Wu Y L, Wang S H and Huang Q M. 2018b. Learning semantic structure-preserved embeddings for cross-modal retrieval//Proceedings of the 26th ACM International Conference on Multimedia. Seoul, Korea(South): ACM: 825-833[DOI: 10.1145/3240508.3240521]
  • Xia D L, Miao L, Fan A W. 2020. A cross-modal multimedia retrieval method using depth correlation mining in big data environment. Multimedia Tools and Applications, 79(1): 1339-1354 [DOI:10.1007/s11042-019-08238-0]
  • Xie D, Deng C, Li C, Liu X L, Tao D C. 2020. Multi-task consistency-preserving adversarial hashing for cross-modal retrieval. IEEE Transactions on Image Processing, 29: 3626-3637 [DOI:10.1109/TIP.2020.2963957]
  • Xu C, Tao D C and Xu C. 2013. A survey on multi-view learning[EB/OL]. [2020-12-30]. https://arxiv.org/pdf/1304.5634.pdf
  • Xu P, Yin Q Y, Qi Y G, Song Y Z, Ma Z Y, Wang L and Guo J. 2016. Instance-level coupled subspace learning for fine-grained sketch-based image retrieval//Proceedings of 2016 Computer Vision-ECCV 2016 Workshop. Amsterdam, the Netherlands: Springer: 19-34[DOI: 10.1007/978-3-319-46604-0_2]
  • Xu X, He L, Lu H M, Gao L L, Ji Y L. 2019. Deep adversarial metric learning for cross-modal retrieval. World Wide Web, 22(2): 657-672 [DOI:10.1007/s11280-018-0541-x]
  • Xu X, Lu H M, Song J K, Yang Y, Shen H T, Li X L. 2020. Ternary adversarial networks with self-supervision for zero-shot cross-modal retrieval. IEEE Transactions on Cybernetics, 50(6): 2400-2413 [DOI:10.1109/TCYB.2019.2928180]
  • Xu X, Song J K, Lu H M, Yang Y, Shen F M and Huang Z. 2018. Modal-adversarial semantic learning network for extendable cross-modal retrieval//Proceedings of 2018 ACM on International Conference on Multimedia Retrieval. Yokohama, Japam: ACM: 46-54[DOI: 10.1145/3206025.3206033]
  • Yan F and Mikolajczyk K. 2015. Deep correlation for matching images and text//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 3441-3450[DOI: 10.1109/CVPR.2015.7298966]
  • Yang E K, Deng C, Liu W, Liu X L, Tao D C and Gao X B. 2017. Pairwise relationship guided deep hashing for cross-modal retrieval//Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI: 1618-1625
  • Yin Q Y, Wu S, Wang L. 2017. Unified subspace learning for incomplete and unlabeled multi-view data. Pattern Recognition, 67: 313-327 [DOI:10.1016/j.patcog.2017.01.035]
  • Yin Q Y, Wu S, Wang L. 2018. Multiview clustering via unified and view-specific embeddings learning. IEEE Transactions on Neural Networks and Learning Systems, 29(11): 5541-5553 [DOI:10.1109/TNNLS.2017.2786743]
  • Young P, Lai A, Hodosh M, Hockenmaier J. 2014. From image descriptions to visual denotations: new similarity metrics for semantic inference over event descriptions. Transactions of the Association for Computational Linguistics, 2: 67-78 [DOI:10.1162/tacl_a_00166]
  • Zhai X H, Peng Y X, Xiao J G. 2014. Learning cross-media joint representation with sparse and semisupervised regularization. IEEE Transactions on Circuits and Systems for Video Technology, 24(6): 965-978 [DOI:10.1109/TCSVT.2013.2276704]
  • Zhang J, Peng Y X. 2020. Multi-pathway generative adversarial hashing for unsupervised cross-modal retrieval. IEEE Transactions on Multimedia, 22(1): 174-187 [DOI:10.1109/TMM.2019.2922128]
  • Zhang J, Peng Y X and Yuan M K. 2018a. Unsupervised generative adversarial cross-modal hashing//Proceedings of the 32nd AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th Innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18). New Orleans, USA: AAAI: 539-546
  • Zhang L, Ma B P, Li G R, Huang Q and Tian Q. 2017. Multi-networks joint learning for large-scale cross-modal retrieval//Proceedings of the 25th ACM International Conference on Multimedia. Mountain View, USA: ACM: 907-915[DOI: 10.1145/3123266.3123317]
  • Zhang M J, Li J Z, Zhang H X, Liu L. 2020. Deep semantic cross modal hashing with correlation alignment. Neurocomputing, 381: 240-251 [DOI:10.1016/j.neucom.2019.11.061]
  • Zhang X, Lai H J and Feng J S. 2018b. Attention-aware deep adversarial hashing for cross-modal retrieval//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 614-629[DOI: 10.1007/978-3-030-01267-0_36]
  • Zhen L L, Hu P, Peng X, Goh R S M and Zhou J T. 2020. Deep multimodal transfer learning for cross-modal retrieval. IEEE Transactions on Neural Networks and Learning Systems: #3029181[DOI: 10.1109/TNNLS.2020.3029181]
  • Zhen L L, Hu P, Wang X and Peng D Z. 2019. Deep supervised cross-modal retrieval//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 10394-10403[DOI: 10.1109/CVPR.2019.01064]
  • Zhong F M, Chen Z K, Min G Y. 2018. Deep discrete cross-modal hashing for cross-media retrieval. Pattern Recognition, 83: 64-77 [DOI:10.1016/j.patcog.2018.05.018]