发布时间: 2021-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200193
2021 | Volume 26 | Number 4

图像分析和识别

深度多模态融合服装风格检索

苏卓^1,2, 柯司博^1,2, 王若梅^1,2, 周凡^1,2

1. 中山大学计算机学院, 广州 510006;

2. 中山大学国家数字家庭工程技术研究中心, 广州 510006

收稿日期: 2020-06-11; 修回日期: 2020-10-19; 预印本日期: 2020-10-26

基金项目: 国家自然科学基金项目(61872394，61672547)；广州市科技计划项目(201902010056)

作者简介: 苏卓, 1985年生, 男, 副教授, 主要研究方向为图像处理、多媒体检索技术。E-mail: suzhuo3@mail.sysu.edu.cn
柯司博, 男, 本科生, 主要研究方向为多媒体检索。E-mail: kesb@mail2.sysu.edu.cn
王若梅, 女, 教授, 主要研究方向为计算机图形学。E-mail: isswrm@mail.sysu.edu.cn
周凡, 通信作者, 男, 教授, 主要研究方向为计算机图形学、多媒体处理。E-mail: isszf@mail.sysu.edu.cn
*通信作者: 周凡 isszf@mail.sysu.edu.cn

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2021)04-0857-15

摘要

目的服装检索方法是计算机视觉与自然语言处理领域的研究热点，其包含基于内容与基于文本的两种查询模态。然而传统检索方法通常存在检索效率低的问题，且很少研究关注服装在风格上的相似性。为解决这些问题，本文提出深度多模态融合的服装风格检索方法。方法提出分层深度哈希检索模型，基于预训练的残差网络ResNet(residual network)进行迁移学习，并把分类层改造成哈希编码层，利用哈希特征进行粗检索，再用图像深层特征进行细检索。设计文本分类语义检索模型，基于LSTM(long short-term memory)设计文本分类网络以提前分类缩小检索范围，再以基于doc2vec提取的文本嵌入语义特征进行检索。同时提出相似风格上下文检索模型，其参考单词相似性来衡量服装风格相似性。最后采用概率驱动的方法量化风格相似性，并以最大化该相似性的结果融合方法作为本文检索方法的最终反馈。结果在Polyvore数据集上，与原始ResNet模型相比，分层深度哈希检索模型的top5平均检索精度提高11.6%，检索速度提高2.57 s/次。与传统文本分类嵌入模型相比，本文分类语义检索模型的top5查准率提高29.96%，检索速度提高16.53 s/次。结论提出的深度多模态融合的服装风格检索方法获得检索精度与检索速度的提升，同时进行了相似风格服装的检索使结果更具有多样性。

关键词

多模态服装检索; 哈希特征; 文本嵌入; 风格相似性; 深度哈希

Fashion style retrieval based on deep multimodal fusion

Su Zhuo^1,2, Ke Sibo^1,2, Wang Ruomei^1,2, Zhou Fan^1,2

1. School of Computer Science and Engineering, Sun Yat-sen University, Guangzhou 510006, China;

2. National Engineering Research Center of Digital Life, Sun Yat-sen University, Guangzhou 510006, China

Supported by: National Natural Science Foundation of China (61872394, 61672547); Science and Technology Program of Guangzhou, China (201902010056)

Abstract

Objective Fashion retrieval method is a research hotspot in the field of computer vision and natural language processing. It aims to help users easily and quickly retrieve clothes that meet the query conditions from a large number of clothing. To make the retrieval method more diverse and convenient, the retrieval method researched in recent years usually includes the image query mode for intuitive retrieval and the text query mode for supplementary retrieval, that is, content-based image retrieval and text-based image retrieval. However, most of them pay attention to the precise matching in vision, and few pay attention to the similarity in style of clothing. In addition, the extracted feature dimensions are usually high, which leads to low retrieval efficiency. To solve these problems, we propose a fashion style retrieval method based on deep multimodal fusion. Method To solve the problem of low efficiency of image query mode, a hierarchical deep hash retrieval model is first proposed in this study. Its image deep feature extraction network is based on the pre-trained residual network ResNet for migration learning, which can learn the image deep features at a lower cost. The network classification layer is transformed into a hash coding layer, which can generate simple hash features. In this study, hash features are used for coarse retrieval, while in the fine retrieval stage, the preliminary results are rearranged based on the deep features of the image. To solve the problem of low efficiency of text query mode and to improve the scalability of the search engine, a text classification semantic retrieval model is proposed in this study, which designs a text classification network based on long short-term memory(LSTM) to classify query text in advance. Then, we construct a text embedding feature extraction model based on doc2vec, which can retrieve the text embedding feature in the pre-classified categories. At the same time, to capture the similarity of clothing style, a similar style context retrieval model is proposed, which measures the similarity of clothing style by referring to the similarity of part of speech and collocation level of words, references the training form of word2vec model in text words, and trains clothing as words and outfit as sentences. Finally, we use the probability driven method to quantify fashion style similarity without manual style annotation; compare different multimodal hybrid methods to maximize the similarity as the final return of search engine, that is, based on the text retrieval modal results to retrieve style context similar clothing; and rearrange all modal results and style context results based on image features. Result Choosing Polyvore as the dataset, we use the test set data as the query and retrieve the returned training set data as the result, so as to evaluate the results for different indicators. For the image retrieval mode, compared with the original ResNet model, the average retrieval accuracy of top 5 of the hierarchical deep hash retrieval framework is improved by 11.6%, and the retrieval speed is increased by 2.57 s/query. The average retrieval accuracy of the two feature retrieval strategies from coarse to fine is comparable to that of the direct image deep feature retrieval. For the text retrieval mode, compared with the traditional text embedding model, the top 5 precision of the text classification semantic retrieval framework is increased by 29.96%, and the retrieval speed is increased by 16.53 s/query. Finally, for the multimodal fusion results, we retrieve the context style similar clothing based on the text modal results and rearrange the final results in the image feature space. The average style similarity of the final results is 24%. Conclusion We propose a fashion style retrieval method based on deep multimodal fusion, whose hierarchical deep hash retrieval model is used as the image retrieval mode. Compared with most other modes and retrieval methods, the method of fine-tuning based on pre-training network with the goal of generating hash code and retrieval strategy from coarse to fine can improve the retrieval accuracy and speed. As the text retrieval mode, the text classification semantic retrieval model uses the text classification network to narrow the scope of retrieval and then uses the text features extracted from the text feature extraction model combined with the output of different models for retrieval. Compared with other text semantic retrieval methods, this mode can also improve the retrieval speed and accuracy. At the same time, in order to capture the similarity of fashion style, a similar style context retrieval model is proposed to find the results similar to the query clothing style and make the results more diverse.

Key words

multimodal fashion search; hash feature; text embedding; style similarity; deep hashing

0 引言

服装检索旨在让买家通过输入特定的搜索条件，在各式各样的服装中快速检索出自己想要的服装。主要包含基于内容的图像检索模态(content base image retrieve，CBIR)和基于文本的图像检索模态(text base image retrieve，TBIR)。

CBIR的研究专注于利用深度网络学习图像特征，彭晏飞等人(2019)结合深度学习和相关反馈的方法有效提高了图像检索精度，原尉峰等人(2019)的多任务哈希模型更是可以在避免语义漂移的同时加快检索速度。然而, CBIR通常面临着一个问题：只关注服装在视觉上的相似性，而风格上相似的服装(如同一套装中的上衣和裤子)不一定在视觉上相似。TBIR可以在一定程度上解决该问题，检索出包含某些风格词的文本描述对应的服装，且通常更灵活也更符合大部分用户的使用习惯。为了获得强鲁棒性的文档表示，Kim等人(2019)结合了多种模型实现文档表示的编码。然而，查询所得的服装图像往往包含用户难以使用文字语言进行描述的信息，从而限制了TBIR模型的实际表现。因此，综合上述两种模态进行检索的融合检索方法得到广泛应用，文本查询模态通常用于对查询图像进行“属性操作”(Ak等，2018；Tautkute等，2019)，使整体检索更灵活方便。Wang等人(2019)在探讨图文相关性问题时，利用ResNet101(residual network)提取视觉特征，利用门控循环单元(gated recurrent unit，GRU)提取文本特征，最后提出图像位置注意力机制。有效地把图像位置信息与文本单词进行融合。该方法适用于为文本对图像进行“属性操作”前作准备，然而其本质上是一个图文匹配而非图像检索任务，且其视觉和文本特征的维度都较高，不适用于本文所需的快速检索。可见，CBIR和TBIR都会面临特征维度高检索效率低的问题，另外TBIR虽然能对风格描述进行处理，但大部分用户对一些抽象复杂的风格词汇并不熟悉，因此需要一种专门捕获风格相似性的模型来解决该问题。Tautkute等人(2019)根据单词上下文提出服装上下文的概念，从而利用词嵌入模型(Mikolov等，2013)捕获到服装风格相似性。

本文提出深度多模态融合的服装风格检索方法，能够同时使用图像和文本进行多模态搜索，搜索结果包含在视觉、描述和风格上相似的服装。为了能直观快速地进行服装检索，提出了分层深度哈希检索模型，该模型基于预训练的深度卷积神经网络构造了图像深层特征提取网络，并把该网络最后分类层改造成哈希编码层，使用图像深层特征粗检索再以哈希特征细检索的方法返回图像检索模态的结果；为了提高检索方法的可扩展性，进一步构造了文本分类语义检索模型，其训练了文本分类网络对查询文本提前分类缩小搜索范围，再以文档嵌入模型提取的特征进行语义检索；为了捕获传统检索方法很少关注的风格相似性，本文参考单词相似性提出相似风格上下文检索模型，该模型可捕获服装在词性和搭配上的相似性。最后实验对比多种多模态结果融合方法并采用了最大化平均风格相似度的结果作为本文检索方法的最终反馈。本文的主要贡献包括：

1) 设计分层深度哈希检索模型，其图像深层特征提取网络降低了训练成本，同时哈希编码层生成的低维哈希特征，把高维特征距离计算转换为低维汉明距离计算，由粗到细的检索策略提高检索速度的同时保持较高检索精度。

2) 构造了文本分类语义检索模型，其文本分类网络有效缩小检索范围，而综合不同特征的文档嵌入模型能更好地表征文档。该模型获得检索速度和精度的提升。

3) 参考两种单词相似性提出相似风格上下文检索模型，进行风格相似的服装检索。

1 相关工作

1.1 基于内容的图像检索

早期的图像检索方法参考了文本检索系统的词袋模型，使用“视觉词汇”来模仿真实的文本单词，其原理为对图像分块计算出的SIFT(scale-invariant feature transform)(Lowe，2004)特征进行聚类并将聚类中心作为视觉词，最终每幅图像表示成词频向量。Wang等人(2018)在提取图像局部特征时表现了该方法有效性，同时其基于图像纹理和颜色提取了图像全局特征，并分别利用全局特征和局部特征构造了第1层和第2层超图，在高阶样本关系建模中有效融合了多种特征，但其图像特征提取方式属于传统方法，与本文基于深度学习的方法相比，调参过程相对复杂且泛化能力较弱。

基于深度学习的图像检索确实表现出更大的潜力，李军等人(2017)采用视觉注意机制学习复杂图像的特征向量。而对于包含大量杂波的真实图像与商店图像存在较大差距的问题也被Zhang等人(2018)以深度卷积神经网络(convolutional neural networks，CNN)模型解决，其基于模型与搜索融合的方法来预测类别。

然而，深度网络所提取的图像特征通常因较高维度导致检索效率低下，如Wang等人(2019)利用ResNet101提取了2 048维的图像特征向量，虽然其特征能更好表征图像，但与本文视觉特征提取方法相比，其训练网络深度较大且特征维度较高，意味着训练成本较高且检索速度较低。这时哈希算法被广泛应用以解决检索效率问题。陈双等人(2019)使用VGG-16(Visual Geometry Group network)进行服装图像特征提取，并采用局部敏感哈希算法的思想进行哈希编码以快速检索。而传统等长编码位数的量化方法会导致编码效率低、量化精度低等问题，因此基于哈夫曼编码乘积量化的图像检索方法(栾婷婷等，2019)被提出以解决这些问题。深度学习在生成哈希特征方面的优势也不可忽略，Lin等人(2015)提出基于预训练网络进行微调的哈希编码网络，其通过优化输出层分类误差来调整隐藏层类哈希码输出，而Liu等人(2016b)以相对损失函数优化输出层的类哈希输出，实现了直接生成简洁哈希编码的方法。

1.2 基于文本的图像检索

最早提出用于解决词嵌入的方法是基于单词计数的模型，如词袋模型，其通常用于统计单词在一个文档中的出现频数。基于单词计数的模型还有TF-IDF(term frequency-inverse document frequency)模型(Salton等，1975)，它不仅考虑单词在局部文档中的频数，还考虑单词在全局文档中的频数。但基于计数的模型遇到大规模语料库时通常出现“维数灾难”，Furnas等人(2017)使用奇异值分解(singular value decomposition，SVD)对单词共现矩阵进行降维并取得了较好效果。然而这类模型得到的词向量仍无法包含单词的语义信息，且其标记单一，难以表示单词复杂的意思。因此，提出word2vec (Mikolov等，2013)解决上述问题，其本质为浅层神经网络，包含CBOW(continues bag of words)和Skip-gram两种训练框架，可从隐藏层参数矩阵中获取包含单词语义信息的词向量。为了能学习到全局上下文特征表示，Pennington等人(2014)提出了word2vec的扩展版glove，其利用了局部上下文信息和全局共现矩阵。Wang等人(2018)基于标签文本进行图像检索，训练了基于英文维基百科的word2vec词汇向量模型，采用其中的skip-gram模型，word2vec能训练出高效表示文本单词的词向量，但其基于标签进行图像检索，相比本文方法，其查询方式相对单一且不够灵活，标签所包含的信息相对较少，不适用于精准的服装检索。为获得文档向量，Le和Mikolov(2014)参考word2vec提出了doc2vec以生成文档向量表示，本文选择的正是doc2vec模型作为文档特征提取模型。Wang等人(2019)利用双向GRU生成单词向量表示，其若要得到文档向量即句子向量仍需要加权求和等方法，而本文所采用的doc2vec模型本身就是基于句子进行训练得到句子向量，流程更简约且考虑了单词的顺序。

1.3 基于风格相似性的图像检索

风格相似性一直缺少明确的定义，但仍有不少工作进行了相关研究，Yumer和Kara(2014)以及van Kaick等人(2013)专注于基于物体结构的形状相似性并且对图像中物体的边缘盒子的方向和范围大小进行了比较。然而风格上相似的物品不一定要在结构上相似，如同一套服装中的上衣和裤子。于是，提出了超越结构进行风格相似性评估的方法(Lun等，2015)，它是围绕评估模型上存在的相似形状或匹配的显著几何元素对而进行设计的。最近，提出了一种基于数据概率驱动、不需要对风格进行预定义的风格相似性衡量方法，在对家具和服装进行风格相似性搜索的图像检索方法中(Tautkute等，2019)，其将风格相似性定义为服饰在不同套装共现的后验概率，而本文也沿用这种定义进行风格相似性评估。

2 多模态服装风格检索方法

为使本文的检索方法能直观地进行图像检索，提出分层深度哈希检索模型作为图像检索模态，其图像深层特征提取网络是基于预训练ResNet(He等，2016)进行迁移学习构造的，可以通过较低的训练成本学习到图像特征。针对生成特征维度高的问题，其分类层被改造成哈希编码层以学习到低维汉明空间的哈希特征，以哈希特征粗检索再以图像特征细检索，在提高检索速度的同时保持较高的检索精度。为了提高本文检索方法的可扩展性和灵活性，本文提出文本分类语义检索框架，针对检索效率低的问题，基于LSTM(long short-term memory)构造文本分类网络, 对查询文本提前分类以缩小检索范围，再以基于doc2vec的混合文本嵌入特征进行检索，可提高检索精度。为了捕获风格相似性，本文提出相似风格上下文检索模型，其参考单词的词性和搭配层面的相似性来衡量服装风格相似性。最后本文以最大化平均风格相似性的结果作为最终反馈。

本文的多模态服装风格检索方法包括3大组件：1)分层深度哈希检索模型，其包括图像深层特征提取网络和哈希编码网络；2)文本分类语义检索模型，其包括文本分类网络和文本嵌入特征提取模型；3)相似风格上下文检索模型。

2.1 分层深度哈希检索模型

作为图像检索模型，本文提出分层深度哈希检索模型。该模型不仅能利用深度卷积神经网络学习到图像深层特征，而且能基于该特征以图像对的形式在有监督的训练过程中进一步学习到图像的低维哈希特征，采用以哈希特征粗检索再对粗检索结果以图像深层特征细检索的方法作为分层检索策略以保证检索速度和精度。

基于CNN各种预训练的网络来提取图像特征通常能减少训练成本。而本文所实现的图像深层特征提取网络正是基于在ImageNet数据集(Russakovsky等，2015)上经过预训练的ResNet50来进行图像特征提取的。ResNet与传统CNN不同之处在于其提出残差的概念，如图 1，其本质上建立了不同层之间的短路连接，把前面层的输入以恒等映射的形式直接链接到后面层的输出，堆叠层需要拟合残差函数为

$ R(x)=H(x)-x $

(1)

图 1 ResNet的残差块结构

Fig. 1 Residual block structure of ResNet

正是因为这种短路连接的结构，使信息可以更少损失地传到后面的层，同时误差进行反向传播时更容易传播到前面的层，避免了梯度消失或者梯度爆炸的问题。从期望的输出$H(x)$中去除恒等映射$ x$后得到残差意味着残差是一个较小的响应值，对于相同的输出值变化$ \Delta$，有

$ \Delta / R>\Delta / H $

(2)

因此当拟合残差而非原本的期望输出时，将更容易感受到数据扰动，从而训练可以在层数增加时达到更优的效果。

本文方法中的特征提取网络的结构如图 2红色点线框所示，其对在ImageNet经过预训练的ResNet50进行迁移学习，以预训练权重初始化本文网络并在Polyvore数据集上训练，进行参数微调，该网络的核心结构为多个短路连接块，短路连接可以跨越两层或三层全连接层或卷积层。原始的ResNet50中最后一个平均池化层Avg_pool提取特征后就输入分类器进行分类，而去除分类层，把提取的特征作为图像深层特征用于后续精准检索，并且输入哈希编码网络进一步提取出哈希特征用于快速检索。

图 2 分层深度哈希检索模型

Fig. 2 Hierarchical deep hash retrieval model

直接用图像深层特征提取网络提取到的特征(2 048维)进行线性搜索十分低效，因此把ResNet50最后一层即全连接层改造成哈希编码网络。哈希特征检索之所以能够加速搜索是因为原来高纬特征空间计算特征距离时需要进行多次减法和乘法的操作(欧氏距离)，而在低维汉明空间中，只需要进行较少次异或操作即可，大大减少了计算复杂度。本文的哈希编码网络的结构如图 2右框所示，其把特征提取网络提取出来的高纬图像特征输入全连接层，输出$n $维的类二进制值，最后通过二值化操作转化为哈希特征。在误差反向传播的过程中，更新包含图像深层特征提取网络在内的整个网络的参数，以更好地拟合网络在哈希编码任务上的权重。采用在线生成图像对的方式，即将每个批次中的所有图像两两组合成图像对，计算它们的相对损失函数以训练出可以有效保留图像特征的且可辨别性高的类二进制输出，任意一个图像对的损失函数为

$ \begin{array}{c} L_{\mathrm{con}}=\frac{1}{2} s_{i}\left\|\boldsymbol{h}_{i, 1}-\boldsymbol{h}_{i, 2}\right\|_{2}^{2}+ \\ \frac{1}{2}\left(1-s_{i}\right) \max \left(t-\left\|\boldsymbol{h}_{i, 1}-\boldsymbol{h}_{i, 2}\right\|_{2}^{2}, 0\right)+ \\ \alpha\left(\left\|\left|\boldsymbol{h}_{i, 1}\right|-1\right\|_{1}+\left\|\left|\boldsymbol{h}_{i, 2}\right|-1\right\|_{1}\right) \end{array} $

(3)

式中，${\mathit{\boldsymbol{h}}_{i, 1}}, {\mathit{\boldsymbol{h}}_{i, 2}} $表示第$ i$个图像对中两幅图像的网络输出，即类二进制特征表示，$ s_i$表示第$ i$个图像对中的两幅图像是否相似，在数据集中就表现为两幅服饰图像是否属于相同类别，同类为1，否则为0，$ t$为边界阈值参数，$\alpha $为正则化强度参数。当两幅图像是同类别时，该损失函数惩罚了类二值输出不相似的图像对；当两幅图像是不同类别时，该损失函数惩罚了类二值输出相似的图像对，因此能够很好地让同类别的图像生成的类二值码尽可能相近，而不同类别的图像的类二值码尽可能相互远离。对于正则化项，优化损失的过程中会让$ {\mathit{\boldsymbol{h}}_{i, 1}}, {\mathit{\boldsymbol{h}}_{i, 2}}$中的元素尽可能接近-1或1，可以生成接近二值的输出。最后二值化时把0作为分界点即可获得标准二值输出。对于训练集中图像对的个数$ N$，最终目标是优化所有图像对的总体损失，即

$ L=\sum\limits_{i=1}^{N} L_{\mathrm{con}} $

(4)

2.2 文本分类语义检索模型

作为文本检索模型，文本分类语义检索模型包含了文本分类网络和文本嵌入特征提取模型，先用文本分类网络对查询文本进行归类，接着在所属类别中以文本嵌入特征进行检索，可同时提升检索速度和精度。

为了找到文档嵌入表示，需要先关注单词嵌入方面著名的包含单词语义、上下文关系的词嵌入模型word2vec(Mikolov等，2013)，要获得文档向量表示最简单的方法是通过词向量的加权平均值来表示文档向量, 但这样文档向量会失去单词顺序，这时基于学习机制的doc2vec(Le和Mikolov，2014)是很好的选择。在word2vec中词向量被“要求”对预测下一个单词做贡献，而doc2vec参考这一点，也“要求”文档向量和从文档中抽样得到的上下文词向量一起对预测下一个单词做贡献。这正是doc2vec中文档向量的分布式记忆模型PV-DM(distributed memory model of paragraph vectors)的思想。该模型训练目标为使预测当前词的平均对数概率最大化，即

$ \frac{1}{N} \sum\limits_{i=k}^{N-k} \log p\left(w_{i} \mid w_{i-k}, \cdots, w_{i+k}\right) $

(5)

式中，$ N$为文档长度，$k $为窗口大小的一半，$w_i$为单词。其中概率$ p$经过了softmax处理，处理前的概率为

$ p_{u}=b+K \boldsymbol{f}\left(w_{i-k}, \cdots, w_{i+k}, {para} ; \boldsymbol{W}, \boldsymbol{D}\right) $

(6)

式中，$b$和$K$为softmax参数，para为句子向量(paragraph vectors), $\boldsymbol{f} $为把从$ \boldsymbol{W}$中提取的词向量与$\boldsymbol{D} $中提取的文档向量进行级联或求平均得到的中间向量表示，然后用该向量去预测下一个单词。doc2vec还有另一种框架：PV-DBOW(distributed bag of words of paragraph vector)，它和PV-DM相反，不考虑上下文单词顺序，以文档向量预测文档窗口中的单词。

本文所构造的文本嵌入特征提取模型是基于doc2vec实现的，PV-DM理解语义信息的同时考虑了单词顺序，PV-DBOW又具有存储数据少(不需要保存词向量矩阵$ \boldsymbol{W}$)的优点，为了利用两者的优点，获得更加准确稳定即鲁棒性更强的向量表示，把两种模型得到的文档向量组合起来使用(图 3)，把同一文档得到的两种向量进行级联得到更高维、更高文档辨识度的向量，实验表明了该方法的优越性。

图 3 文本嵌入特征提取模型

Fig. 3 Text embedding feature extraction model

与分层深度图像检索框架相似，在找到文档嵌入特征之后，该特征维度较高且数据集规模较大，不适合直接用该特征进行检索。因此为使语义检索框架能快速检索，设计了文本分类网络提前对查询文本进行分类，从而缩小检索范围。

在文本分类任务中通常用到循环神经网络(recurrent neural network, RNN)，而LSTM作为RNN的变体，具有把长期和短期记忆结合的能力，一定程度上解决了普通RNN梯度消失的问题，因此基于LSTM设计了文本分类网络。本文以LSTM为核心部件构造了文本分类网络，其结构如图 4所示。网络包含Embedding层、Spatialdropout1D层、LSTM层和FC层。$timestep $为序列长度，$em\_dim $为词嵌入维度。先对输入的查询文本进行数据清洗、构建词汇表并按照词汇表将文档标号化处理，构建[$timestep $]维的标号向量，接着将向量输入Embedding层，得到[$timestep $, $em\_dim $ ]维文档嵌入表示。为了适当减少每个$timestep $之间的依赖性，使用Spatialdropout1D层进行处理，再将文档嵌入输入LSTM，这里$timestep $对应LSTM的时间步，因为最终目标是分类，所以LSTM层里采用多对一的结构，只取最后一个$timestep $的输出，即得到[$em\_dim $]维的输出。最后经过全连接层FC生成$ n$维向量，$ n$表示服饰类别数，这是一个多分类任务，采用常用的softmax激活函数对输出进行处理，最终得到查询文本所属于的服饰类别。

图 4 文本分类网络

Fig. 4 Text classification network

2.3 相似风格上下文检索模型

为了使本文检索方法可以捕获传统检索方法很少关注的服装风格相似性，借鉴衡量单词相似性的思路。在单词领域，认为相似的单词通常有两方面特性：有相同或者相似的上下文，即词性相似；这些单词经常一起搭配出现，作为相互的上下文，即关联性强，称为搭配相似。本文基于word2vec模型来寻找单词的这两种特性。

对于词性相似的单词，通常有相似的上下文，如“He likes football very much”和“She likes baseball so much”中，“football”和“baseball”词性相同，其上下文十分相似。当用word2vec的skip-gram框架进行单词训练时，如图 5左图，以中间单词来预测上下文单词，中间词使用向量的形式进行训练，这种训练模式意味着当两个单词有相似的上下文时，其训练目标也是相似的，这样就会使两个单词训练出来的词向量也是相似的，因此可以用词向量来寻找向量余弦距离接近的向量，从而找出词性相似的单词。类比到服装领域，如图 5右图，参照word2vec的skip-gram框架，风格相似的服装经常有相似的其他服饰与它们搭配，如风格相似的上衣可能经常有相同或相似的裤子、帽子等与它们搭配，即这些上衣的“上下文”十分相似，那么它们对应的词向量表示也会很接近，只需要把服饰看做单词，把套装看做句子，放到word2vec中进行训练，就可以通过词向量余弦距离的比较找到风格相似的服饰。

图 5 采用skip-gram思想进行风格相似服饰训练

Fig. 5 Train similar style clothes with skip-gram

两个风格相似的服饰，不一定“词性”相同，如不一定都是上衣，它们可能经常在同一件套装中搭配出现，如同一件套装中的上衣和裤子，它们互为上下文，在风格上也是相似的，针对这类服饰通过计算服饰之间的互信息来衡量其关联性。可同样把服饰看做单词、套装看做句子。首先把关联性定义为两个单词$ x$, $y $的互信息

$ \log \frac{p(x, y)}{p(x) p(y)}=\log p(y \mid x)-\log p(y) $

(7)

式中，$ p$($ x$)和$ p$($y $)为边缘分布，$ p$($ x$, $y $)为联合分布，$ p$($y $|$ x$)为单词$ x$出现时的条件概率。两个单词关联性越强则互信息值越大，通常表现为两个单词经常出现在同一个句子中并经常搭配出现。要解决式(7)，首先要对单词$w_i$出现情况下单词$w_k$出现的概率建模，即$ p$($w_k$|$w_i$)，而要做到这一点，word2vec中skip-gram模型及其优化加速模块hierarchical softmax (h-softmax)是最好的选择。

h-softmax中的哈夫曼树结构如图 6所示，每个叶子结点代表一个单词，以词$w_2$为例，从根节点到$w_2$的路径上的中间节点为 $ m\left(w_{2}, 1\right)、m\left(w_{2}, 2\right)、m\left(w_{2}, 3\right)$，则输入$w_i$预测$w_2$的概率为路径上经过这些中间结点的概率的乘积。推广开来，中间结点$ m$($w_i$, $ j$)向下走的概率为

$\begin{array}{c} p\left(m\left(w_{i}, j\right), w_{i}\right)= \\ \sigma\left({sign}\left(w_{i}, j\right) \times \boldsymbol{\theta}_{m\left(w_{i}, j\right)}^{\mathrm{T}} \times \boldsymbol{v}\left(w_{i}\right)\right) \end{array} $

(8)

图 6 h-softmax中哈夫曼树结构

Fig. 6 Huffman tree in h-softmax

式中，符号函数表示在结点$ m$($w_i$, $ j$)处选择向左走还是向右走，即

$ {sign}\left(w_{i}, j\right)=\left\{\begin{array}{cc} 1 & \text { 左结点 } \\ -1 & \text { 右结点 } \end{array}\right. $

(9)

$\boldsymbol{\theta}_{m\left(w_{i}, j\right)} $为中间结点的参数向量，$\boldsymbol{v}$($w_i$)为输入词的词向量表示。让$ L$($w_i$)表示从根结点到叶子结点$w_i$的路径长度，则单词$w_i$出现情况下单词$w_k$出现的概率为

$ p\left(w_{k} \mid w_{i}\right)=\prod\limits_{j=1}^{L\left(w_{i}\right)-1} p\left(m\left(w_{i}, j\right), w_{i}\right) $

(10)

而word2vec模型对这些信息都有很好的统计，因此可以计算当前服饰和其他服饰搭配的概率，从而检索出关联性最强的服饰。

2.4 多模态搜索结果的融合

深度多模态融合的服装风格检索方法将多模态结果融合的过程如图 7所示。通过分层深度哈希检索模型检索出图像上相似的前${k_{{\rm{visual}}}} $个服饰结果$R_v $，通过文本分类语义检索模型检索出与文本描述语义相近的服饰描述对应的前${k_{{\rm{text}}}} $个服饰结果${R_t} $，接着将${R_t} $中的前$h_{{\rm{similar}}}$个输入相似风格上下文检索模型进行风格相似服装检索，取前${k_{{\rm{similar}}}} $个作为风格相似结果${R_s} $。将以上3个结果初步融合在一起组成${R_b} $后，采用基于图像深层特征的欧氏距离，在图像特征空间中对结果图像和查询图像进行比较并重新排序，得到最终结果${R_f} $。

图 7 深度多模态融合的服装风格检索方法结果融合过程

Fig. 7 Fusion process for fashion style retrieval method based on deep multimodal fusion

3 实验过程和结果

3.1 数据集

基于多模态搜索的服装风格检索方法的结构，使用的数据集需要满足以下条件：

1) 有单独的服饰项图像以及对应的文字描述和服饰类别；2) 服饰项与对应套装之间的关联信息。

DeepFasion(Liu等，2016b)虽然包含800 000幅服饰图像，但没有套装信息，且没有详细的文本描述信息。本文使用了Polyvore(Han等，2017)数据集，一共包含142 480幅服饰图像和对应的文字描述，这些服饰分为380类，组成21 889个套装。但该数据集有很多项并不是真正的服饰项，包含家具、床上用品、食物饮料、植物和闹钟等，应将这些项都清除。清除这些项后剩余的服饰项共有155个类别，64 585幅服饰图像和对应文字描述，这些服饰组成20 953个套装，每个套装2~10个服饰。该数据集中有25.3%的服饰不止出现在一个套装内，套装之间的关联性强弱决定了服饰之间的风格相似性。

3.2 训练网络

1) 图像检索模态训练。删除Polyvore数据集中不需要的类别后，将图像统一缩放为256×256像素大小，再随机裁剪成224×224像素的大小，然后进行随机垂直翻转，最后进行归一化，3个通道的均值和标准差分别为[0.485, 0.456, 0.406]和[0.229, 0.224, 0.225]，式(3)中的阈值参数$ t$设置为2倍哈希编码的位数大小，而正则化参数$\alpha $则设置为0.03。将清理后的数据集划分为64 585个样本的训练集、4 789个样本的验证集和9 763个样本的测试集，基于ResNet50的网络进行20次迭代，初始学习率为1×10^-4，使用Adam优化器，每经过5次迭代把学习率缩小10倍。

2) 文本检索模态训练。进行去除停用词、去除标点符号的数据清洗工作后，对DBOW模型使用负采样加速，噪声词个数为5，迭代数为250，把至少出现一次的单词都考虑进去，窗口大小为4，生成向量维度为200；对DM模型，使用h-softmax加速，使用取平均的方法组合词向量和文档向量，迭代数为5，把至少出现一次的单词都考虑进去，窗口大小为8，生成向量维度为200。然后将这两个模型生成的向量拼接成400维的文档向量。

3) 风格上下文检索模型训练。将服饰的名字连成一个单词，将同一个套装中的服饰放到训练文本中的同一行当成一个句子，用word2vec进行训练，收敛的最大迭代数为500，使用skip-gram模型，用h-softmax加速，向量维度为400，窗口大小为4，考虑至少出现一次的单词。

3.3 评估指标

对不同模态的结果使用多个角度的评估指标，包括平均检索精度(mean average precision, mAP)、查准率(precision)、检索速度(speed)、平均风格相似度(average style, AS)。其中平均检索精度和查准率中判断是否相关的标准都为服装类别是否一致。

检索速度定义为单位时间内可以处理的查询图像或查询文档的数量，一次查询处理的时间$ T_{q}$为从输入查询图像或查询文本到获得排好序的结果的过程所花费的总时间。检索速度计算为

$ f_{\text {speed }}=\frac{Q}{\sum\limits_{q=1}^{Q} T_{q}} $

(11)

式中，$ Q$为查询次数。

风格相似度沿用了Tautkute等人(2019)的定义，即

$ s_{1}\left(c_{1}, c_{2}\right)=\frac{\left|\left\{\boldsymbol{O}_{i} \in \boldsymbol{O}: c_{1} \in \boldsymbol{O}_{i} \wedge c_{2} \in \boldsymbol{O}_{i}\right\}\right|}{\max \limits_{c \in\left|c_{1}, c_{2}\right|}\left|\left\{\boldsymbol{O}_{j} \in \boldsymbol{O}: c \in \boldsymbol{O}_{j}\right\}\right|} $

(12)

式中，$ \boldsymbol{C}$表示数据库中所有服装项的集合，${c_1}, {c_2} $为其中两个服装项，$ {\mathit{\boldsymbol{O}}_i}, {\mathit{\boldsymbol{O}}_j}$表示不同的套装，$\mathit{\boldsymbol{O}} $表示数据库中所有风格兼容的套装集合，式(12)分子表示同时包含$ {p_1}$, $ {p_2}$的兼容套装数目，分母表示包含$ {p_1}$的套装数和包含$ {p_2}$的套装数中的最大值。该公式表示两个服装项同时出现在同一个风格兼容套装中的经验概率，该定义不依赖于人工对服装进行风格标注。

清洗后的Polyvore数据集只有25%左右的服饰不止出现在一个套装，这意味着任意两个服饰，有很大概率不是同一个套装，式(12)将不能很好地评估相似性；而且式(12)更倾向于评估服饰在搭配上的相似性，并不能很好地评估“词性”上的相似性，因此使用了一个根据服饰描述重叠程度评估相似性的指标，即

$ s_{2}\left(c_{1}, c_{2}\right)=\frac{\left|\left\{\boldsymbol{D}_{c_{1}} \cap \boldsymbol{D}_{c_{2}}\right\}\right|}{\min \left(\left|\boldsymbol{D}_{c_{1}}\right|, \left|\boldsymbol{D}_{c_{2}}\right|\right)} $

(13)

式中，$ {\mathit{\boldsymbol{D}}_{{c_i}}}$表示构成服饰项${c_i} $的文字描述的单词集合，该指标表示两个服饰项的文字描述重叠程度，越大则服饰项风格越相似。最终取两种风格指标的最大值来作为服饰项相似性的衡量，即

$s\left(c_{1}, c_{2}\right)=\max \left(s_{1}\left(c_{1}, c_{2}\right), s_{2}\left(c_{1}, c_{2}\right)\right) $

(14)

而对于整个结果集合$\boldsymbol{R}$，评估该结果的平均风格相似性

$ A S(\boldsymbol{R})=\left(\frac{k}{2}\right)^{-1} \sum\limits_{c_{i} \in \boldsymbol{R}} \sum\limits_{c_{j} \in \boldsymbol{R}, c_{i} \neq c_{j}} s\left(c_{1}, c_{2}\right) $

(15)

3.4 实验结果与分析

对于分层深度哈希检索模型，使用平均检索精度、检索速度来评估结果；对于文本分类语义检索模型，使用查准率、检索速度来评估结果；对于相似风格上下文检索模型和多模态融合结果，使用平均风格相似性来评估。

对于分层深度哈希检索模型，基于在ImageNet上预训练的网络ResNet50和VGG19来构建图像深层特征提取器，比较图像深层特征与图像哈希特征的检索效果，同时把基于没经过微调的预训练ResNet50特征进行检索的方法(Tautkute等，2019)作为基线方法，记为ResNet_origin。其他对比方法包括：1)基于经过微调的Net在图像深层特征层提取的特征进行检索(Net_feature)；2)基于经过微调的Net在哈希编码层提取的特征进行检索(Net_hash)；3)先基于经过微调的Net在哈希编码层提取的特征进行粗检索，再用图像深层特征细检索(Net_hash_feature)。Net指VGG和ResNet，本文方法记为ResNet_hash_feature。

比较7种检索方法的结果，平均检索精度mAP的对比如图 8所示，大多数情况下VGG_feature的效果最差，而当Top $k $较大时，基线特征baseline效果最差，因为服饰检索和普通的图像分类任务有很大差异，不进行微调将得到不好的效果。同时由图 8可见，VGG19效果不如ResNet50，且VGG19图像特征为4 096维，是ResNet50图像特征维度的两倍，检索速度更慢，可见ResNet因其残差结构能更好地拟合数据。

图 8 不同图像检索方法的平均检索精度评估

Fig. 8 mAP of different image retrieve methods

大部分情况下本文方法得到的效果稍差于直接用图像特征检索的方法，这是因为哈希编码位数(48 bit)比图像特征位数(2 048 bit)少得多，在特征表示方面图像区分能力确实有所下降，但这种差异较小，说明这两种方法效果相当，且当Top $k $在(20, 32)的范围时，本文方法效果逼近甚至超过图像特征的方法。而与只有哈希特征不重排的方法ResNet_hash相比，本文方法显然更优，说明了细检索即根据图像深层特征重排的必要性。最后，本文方法Top5检索比基线方法得到的mAP高11.6%，表明了本文方法的有效性。

基于网络引入哈希检索模块的另一个更重要的目的是加快检索速度。图 9为视觉检索模态从输入图像到检索出视觉上相似的图像的过程中，直接用图像深层特征检索(Eu)和先用哈希特征再用图像深层特征检索(hash, 本文方法)的检索速度的比较。可见，本文由粗到细方法的检索速度比普通检索速度更快，在完整数据集大小检索时快2.57 s/次，随着数据集的增大，普通检索速度明显下降，而由粗到细的检索速度几乎不变，说明了本文提出的哈希特征检索的优越之处。

图 9 图像检索模态速度评估

Fig. 9 Retrieve speed for image retrieve mode

对于文本分类语义检索模型，Tautkute等人(2019)使用了word2vec词向量取平均的方式来表示句子向量，本文重现了该方法，并且与本文以LSTM为基础的文本分类器提前分类再用基于doc2vec的文本嵌入特征检索的方法进行了对比。

图 10为取与文本分类结果相同类别的服饰作为检索结果(clsf)、使用基于PV_DBOW的文本嵌入特征进行检索(dbow)、使用基于PV_DM的文本嵌入特征进行检索(dm)、使用基于两种特征组合的文本嵌入特征进行检索(dbow_dm_con，本文方法)、使用基于word2vec取平均的特征进行基于欧氏距离的线性检索(w2v)5种查准率的比较。可见使用词向量取平均的方法w2v得到的查准率与PV_DM相当，而PV_DBOW的效果比这两者好，当把PV_DM和PV_DBOW进行结合时得到的效果比前三者都好，这说明了基于doc2vec两个模型所做的优化是有效的；基于LSTM的文本分类结果得到的查准率比其他方法都高，比最差的PV_DM方法高29%~40%，且十分稳定地维持在81%左右，这是因为文本分类器预测的准确率本来就在81%左右，top5检测比Tautkute等人(2019)方法高29.96%。

图 10 不同检索方法查准率评估

Fig. 10 Precision of different methods

但文本分类器所做的毕竟只是把同类结果返回，而需要的是尽可能接近查询文本的结果，根据图 10显示基于doc2vec的文本嵌入特征有更高的查准率，且根据图 11用t-SNE(t-distributed stochastic neighbor embedding)降维可视化分析，可以看到doc2vec形成的特征与word2vec取平均形成的特征相比，同类的服饰用doc2vec特征表示能更靠近，不同类的能隔得更远，因此，选择基于doc2vec的文本嵌入特征对基于LSTM的文本分类结果进行重排。

图 11 t-SNE降维可视化分析

Fig. 11 Visual analysis of t-SNE dimension reduction ((a)doc2vec; (b) word2vec average)

同样地，文本分类器除了能提高分类准确率，本文最初引入该模块是为了通过初步的分类来缩小检索范围，从而带来检索速度的提升。本节对使用文本分类器初步分类再用文本嵌入特征细检索的方法(clsf_embed)和直接用文本嵌入特征细检索的方法(embed)的检索速度进行了比较。

如图 12所示，统计从输入文本到检索出文本相似结果的过程的检索速度，可见，使用文本分类器提前分类再检索的速度比直接使用文本嵌入特征检索的速度快，在完整数据集大小检索时快16.53 s/次，且当数据集大小从小到大变化时，直接用文本嵌入特征检索的速度缓慢下降，而提前分类的方法在2×10⁴~5×10⁴范围内相对稳定。因此本文检索框架不仅能提高查准率，还可以提高检索速度。

图 12 文本检索模态速度评估

Fig. 12 Retrieve speed for text retrieve mode

在将多模态结果融合之前，先单独对相似风格上下文检索模型进行分析，服饰有两种相似性：词性相似(s_similar)和搭配相似(s_relative)，因此对两种相似性均进行对比。

如图 13所示，从训练集中随机取200个服饰项进行查询，每次查询计算返回结果数从2~20时结果的风格相似度。比较了词性相似性和搭配相似性，发现两者得到的结果的风格相似性没有很大差异，因此每次查询都计算两种相似结果，并取风格相似性最大的作为相似风格上下文的检索方式，图中s_max为每次查询取两种方式中的最大值得到的曲线。

图 13 风格上下文检索结果相似性

Fig. 13 Similarity for style context retrieval results

对于多模态融合的风格相似性，对比融合方法包括：

1) 直接取分层深度哈希检索结果的前$k $个作为最终结果(visual)；

2) 直接取文本分类语义检索结果的前$k $个作为最终结果(text)；

3) 取一部分图像哈希粗检索的结果，用文本分类语义检索模块对视觉结果进行筛选、重排，取第1个结果进行相似风格上下文检索，再把上述融合结果按照与查询图像的视觉特征距离重排，取前$k $个作为最终结果(visual_text)；

4) 分层深度哈希检索和文本分类语义检索结果各取一部分，并基于图像检索第1个结果进行相似风格上下文检索，再把这3部分融合结果按照与查询图像的视觉特征距离重排，取前$k $个结果作为最终结果(base_visual)；

5) 分层深度哈希检索和文本分类语义检索结果各取一部分，并基于文本检索第1个结果进行相似风格上下文检索，再把这3部分融合结果按照与查询图像的视觉特征距离重排，取前$k $个结果作为最终结果(base_text)；

分别把Sandals、Hats、Ankle Booties、Sweaters、Handbags、Jackets、Sunglasses、Pants和Blouses这9个类别的服饰作为查询输入，$k $设置为12，进行风格相似度的对比分析，表 1为结果。可以看到，visual即单独用图像检索和visual_text即基于图像检索结果用文本检索模块筛选的结果都不好，原因是图像检索模块本身检索精确度就不高，且即使是视觉上相似的服饰在文本描述上也不一定相似，而风格相似度指标在处理“词性”上相似的服饰时本质上基于服饰描述来评估，文本检索text本质上基于文本语义相似性来进行评估，因此文本检索结果的风格相似度会比图像检索的高很多，这也是base_text即基于文本检索结果来进行风格上下文检索会比base_visual即基于图像检索结果得到的风格相似度更高的原因。而base_visual和base_text都比visual高而比text低，这是因为图像检索比文本检索的风格相似度差，而base_visual和base_text是把两者进行了融合，所以效果会趋向于视觉和文本的折中。另外，基于最后一种方法base_text，可以看到Hats即帽子的风格相似性是最高的，这可能因为帽子款式不多，因此检索结果在风格上更相似，而Blouses即女上衣则可能因为有各式各样，用文字描述或图像都不能很好区分，因此导致结果风格相似度不高。

表 1 不同融合方法服饰风格相似性
Table 1 Fashion similarity of different fusion methods

下载CSV

服饰类别	方法
服饰类别	visual	text	visual_text	base_visual	base_text
Sandals	0.19	0.48	0.18	0.18	0.19
Hats	0.10	0.71	0.10	0.29	0.32
AnkleBootee	0.33	0.60	0.35	0.28	0.29
Sweaters	0.17	0.54	0.16	0.22	0.22
Handbags	0.13	0.55	0.12	0.19	0.19
Jackets	0.27	0.60	0.29	0.25	0.28
Sunglasses	0.20	0.58	0.19	0.27	0.28
Pants	0.13	0.62	0.16	0.19	0.18
Blouses	0.17	0.49	0.20	0.17	0.17
平均值	0.19	0.57	0.19	0.23	0.24
注：加粗字体为最优平均值。

为了对多个模态的结果有更直观的呈现，将本文的检索方法设计成web应用进行结果展示。该应用展示了分层深度图像检索结果、文本语义检索结果、相似风格服装推荐结果，以及根据与查询图像在图像特征空间的距离重排后的融合结果(作为最终结果)，3个组件的结果数比例可以调整，根据3.4节中的base_text方法进行检索，3个组件的结果比例为5 ∶5 ∶5，取最终返回结果数$k $为12。多模态服装风格检索web应用的查询页面如图 14所示，红色框为本文选择的查询图像，查询文本输入框中为查询文本，其结果展示页面如图 15所示，图 15(a)为3个组件的结果，右边为重排后的最终融合结果。可见各部分组件发挥各自功能检索出相似结果后，最终该应用将结果与查询图像在视觉特征空间的距离顺序进行了排序，呈现给用户合理的结果。

图 14 多模态服装风格检索web应用查询页面

Fig. 14 Query page of multimodal fashion style retrieval web application

图 15 检索结果展示

Fig. 15 Display of retrieval results((a) results of each mode; (b) results of final fusion)

4 结论

本文设计了支持用图像、文本同时进行服装检索，并能检索相似风格服装的多模态服装风格检索方法。为了解决图像检索模态效率低下的问题，本文的检索方法设计了分层深度哈希检索模型，该模型与传统只基于图像特征检索的模型相比，其哈希编码网络生成的哈希特征可显著提高检索速度，而图像深层特征提取器因其迁移学习的特点可以以较低训练成本学习到符合目标图像域的图像深度特征。实验表明，该模型比使用传统图像特征具有更高的检索速度，同时具有效果相当的平均检索精度。为了解决文本检索模态检索速度慢的问题，本文提出文本分类语义检索模型，其中文本分类网络不仅可以对查询文本进行分类筛选以缩小检索范围，且其文本嵌入特征提取模型对传统的文档嵌入模型有一定改造，能有效提取文本特征。实验也表明，该模型比简单使用传统文本嵌入模型带来了速度和精度的提升。本文方法不仅能检索出视觉、描述这些传统概念的相似结果，还能检索出服装风格上的相似结果。本文方法还探讨了服装在词性与搭配上的相似性，并且横向对比了把多个模态的结果进行组合的方式，最终采用了使结果集风格相似度最高的融合方式。

然而，本文提出的分层深度哈希检索模型在检索相似服装时存在一定的局限性，当检索结果与服装类别关联性较强时，在区分某些同类服装细节上的差别时处于劣势，虽然提高了检索速度，但一定程度上降低了检索精度。因此将来可以通过把服装复杂的属性信息(包括文本描述、图像细节)加入训练目标去学习来尝试解决。此外，本文训练数据预处理的过程相对简单，部分图像的局部特征没有很好地捕捉到。下一步工作中需要对卷积神经网络进行改造以更好地捕获局部特征。

参考文献

Ak K E, Lim J H, Tham J Y and Kassim A. 2018. Efficient multi-attribute similarity learning towards attribute-based fashion search//Proceedings of 2018 IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe, USA: IEEE: 1671-1679[DOI: 10.1109/WACV.2018.00186]

Chen S, He L L, Zheng J H. 2019. Clothing image retrieval method based on deep learning. Computer Systems and Applications, 28(3): 229-234 (陈双, 何利力, 郑军红. 2019. 基于深度学习的服装图像检索方法. 计算机系统应用, 28(3): 229-234) [DOI:10.15888/j.cnki.csa.006826]

Furnas G W, Deerwester S, Durnais S T, Landauer T K, Harshman R A, Streeter L A, Lochbaum K E. 2017. Information retrieval using a singular value decomposition model of latent semantic structure. ACM SIGIR Forum, 51(2): 90-105 [DOI:10.1145/3130348.3130358]

Han X T, Wu Z X, Jiang Y G and Davis L S. 2017. Learning fashion compatibility with bidirectional LSTMs//Proceedings of the 25th ACM International Conference on Multimedia. Mountain View: ACM: 1078-1086[DOI: 10.1145/3123266.3123394]

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]

Kim D, Seo D, Cho S, Kang P. 2019. Multi-co-training for document classification using various document representations: TF-IDF, LDA, and Doc2Vec. Information Sciences, 477: 15-29 [DOI:10.1016/j.ins.2018.10.006]

Le Q and Mikolov T. 2014. Distributed representations of sentences and documents//Proceedings of the 31st International Conference on Machine Learning. Beijing, China: PMLR: 1188-1196

Li J, Lyu S H, Chen F, Yang G G, Dou Y. 2017. Image retrieval by combining recurrent neural network and visual attention mechanism. Journal of Image and Graphics, 22(2): 241-248 (李军, 吕绍和, 陈飞, 阳国贵, 窦勇. 2017. 结合视觉注意机制与递归神经网络的图像检索. 中国图象图形学报, 22(2): 241-248) [DOI:10.11834/jig.20170212]

Lin K, Yang H F, Hsiao J H and Chen C S. 2015. Deep learning of binary Hash codes for fast image retrieval//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Boston, USA: IEEE: 27-35[DOI: 10.1109/CVPRW.2015.7301269]

Liu H M, Wang R P, Shan S G and Chen X L. 2016a. Deep supervised hashing for fast image retrieval//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 2064-2072[DOI: 10.1109/CVPR.2016.227]

Liu Z W, Luo P, Qiu S, Wang X G and Tang X O. 2016b. DeepFashion: powering robust clothes recognition and retrieval with rich annotations//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1096-1104[DOI: 10.1109/CVPR.2016.124]

Lowe D G. 2004. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2): 91-110 [DOI:10.1023/B:VISI.0000029664.99615.94]

Luan T T, Zhu J H, Xu S Y, Wang J X, Shi X, Li Y C. 2019. Hashing method for image retrieval based on product quantization with Huffman coding. Journal of Image and Graphics, 24(3): 389-399 (栾婷婷, 祝继华, 徐思雨, 王佳星, 时璇, 李垚辰. 2019. 哈夫曼编码乘积量化的图像哈希检索方法. 中国图象图形学报, 24(3): 389-399) [DOI:10.11834/jig.180264]

Lun Z L, Kalogerakis E, Sheffer A. 2015. Elements of style: learning perceptual shape style similarity. ACM Transactions on Graphics, 34(4): #84 [DOI:10.1145/2766929]

Mikolov T, Chen K, Corrado G and Dean J. 2013. Efficient estimation of word representations in vector space//Proceedings of the 1st International Conference on Learning Representations. Scottsdale, USA: ICLR: 1-12

Peng Y F, Song X N, Wu H, Zi L L. 2019. Remote sensing image retrieval combined with deep learning and relevance feedback. Journal of Image and Graphics, 24(3): 420-434 (彭晏飞, 宋晓男, 武宏, 訾玲玲. 2019. 结合深度学习与相关反馈的遥感图像检索. 中国图象图形学报, 24(3): 420-434) [DOI:10.11834/jig.180384]

Pennington J, Socher R and Manning C. 2014. Glove: global vectors for word representation//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics: 1532-1543[DOI: 10.3115/v1/D14-1162]

Russakovsky O, Deng J, Su H, Krause J, Satheesh S, Ma S A, Huang Z H, Karpathy A, Khosla A, Bernstein M, Berg A C, Li F F. 2015. ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 115(3): 211-252 [DOI:10.1007/s11263-015-0816-y]

Salton G, Wong A, Yang C S. 1975. A vector space model for automatic indexing. Communications of the ACM, 18(11): 613-620 [DOI:10.1145/361219.361220]

Tautkute I, Trzciński T, Skorupa A P, Brocki Ł, Marasek K. 2019. Deepstyle: multimodal search engine for fashion and interior design. IEEE Access, 7: 84613-84628 [DOI:10.1109/ACCESS.2019.2923552]

van Kaick O, Xu K, Zhang H, Wang Y Z, Sun S Y, Shamir A, Cohen-Or D. 2013. Co-hierarchical analysis of shape structures. ACM Transactions on Graphics, 32(4): #69 [DOI:10.1145/2461912.2461924]

Wang Y X, Yang H, Qian X M, Ma L, Lu J, Li B and Fan X. 2019. Position focused attention network for image-text matching//Proceedings of the 28th International Joint Conference on Artificial Intelligence. [s. l. ]: IJCAI: 3792-3798[DOI: 10.24963/ijcai.2019/526]

Wang Y X, Zhu L, Qian X M, Han J W. 2018. Joint hypergraph learning for tag-based image retrieval. IEEE Transactions on Image Processing, 27(9): 4437-4451 [DOI:10.1109/TIP.2018.2837219]

Yuan W F, Guo J M, Su Z, Luo X N, Zhou F. 2019. Clothing retrieval by deep multi-label parsing and Hashing. Journal of Image and Graphics, 24(2): 159-169 (原尉峰, 郭佳明, 苏卓, 罗笑南, 周凡. 2019. 结合深度多标签解析的哈希服装检索. 中国图象图形学报, 24(2): 159-169) [DOI:10.11834/jig.180361]

Yumer M E, Kara L B. 2014. Co-constrained handles for deformation in shape collections. ACM Transactions on Graphics, 33(6): #187 [DOI:10.1145/2661229.2661234]

Zhang Y H, Pan P, Zheng Y, Zhao K, Zhang Y Y, Ren X F and Jin R. 2018. Visual search at alibaba//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. London, UK: ACM: 993-1001[DOI: 10.1145/3219819.3219820]