Print

发布时间: 2017-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20170310
2017 | Volume 22 | Number 3




    第十一届中国计算机图形学大会专栏    




  <<上一篇 




  下一篇>> 





结合层次分割和跨域字典学习的服装检索
expand article info 李宗民1, 李妍特1, 刘玉杰1, 李华2
1. 中国石油大学(华东) 计算机与通信工程学院, 青岛 266580;
2. 中国科学院计算技术研究所, 北京 100190

摘要

目的 针对现有的跨场景服装检索框架在服装躯干部分检索问题上,因服装款式识别优化存在服装信息丢失和跨场景款式识别的问题,提出一种新的服装分割方法和基于跨域字典学习的服装款式识别。 方法 首先,提出基于超像素融合和姿态估计相结合的方法分割出完整的服装,用完整的服装进行检索可以最大限度地保留服装信息。然后,在服装款式识别时,通过学习服装商品数据集与日常服装图像数据的中间数据集字典,使其逐渐适应日常服装图像数据的方式,调节字典的适应性,进而提高不同场景下的服装款式识别的准确性。另外,由于目前国际缺少细粒度标注的大型服装数据库,本文构建了2个细粒度标注的服装数据库。 结果 在公认的Fashionista服装数据集及本文构建的数据库上验证本文方法并与目前国际上流行的方法进行对比,本文方法在上下装检索中精度达到62.1%和63.4%,本文方法在服装分割、款式识别,检索方面的准确度要优于当前前沿的方法。 结论 针对现有的跨场景服装检索框架分割服装不准确的问题,提出一种新的层次服装过分割融合方法及域自适应跨域服装款式识别方法,保证了服装的完整性,提高了跨场景服装检索及款式识别的精度,适用于日常服装检索。

关键词

基于内容的图像检索; 服装检索; 超像素; 域自适应字典学习

Clothing retrieval combining hierarchical over-segmentation and cross-domain dictionary learning
expand article info Li Zongmin1, Li Yante1, Liu Yujie1, Li Hua2
1. College of Computer and Communication Engineering, China University of Petroleum (Huadong), Qingdao 266580, China;
2. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China
Supported by: National Natural Science Foundation of China (61379106); Natural Science Foundation of Shandong Province, China (ZR2009GL014, ZR2013FM036, ZR2015FM011)

Abstract

Objective The current cross-scenario clothing retrieval framework is based on the torso of the body. The retrieval results are refined by clothing recognition, which leads to lost clothing information and cross-scenario clothing recognition. We proposed a new clothing segmentation algorithm and clothing recognition method, which were based on domain-adaptive dictionary learning. Methods First, we proposed an over-segmentation hierarchical fusion algorithm with pose estimation to segment intact clothing items and retrieve similar clothing images. During clothing recognition, the intermediate domain dictionaries between product clothing dataset and daily clothing dataset were sequentially learned to improve the accuracy of classifiers and the adaptability of the dictionary for clothing style recognition in different scenarios. Results To verify the efficiency of the proposed method, experiments were performed with Fashionista dataset, which a large public datasets, and our developed datasets. Experiments showed that the precision of the proposed method was 62.1% and 63.4% for the upper body and lower body, respectively, which indicated that the proposed method outperformed state-of-the-art methods in terms of clothing segmentation, clothing recognition, and clothing retrieval. Conclusion To address the problem of current cross-scenario clothing retrieval, we proposed a novel hierarchical fusion clothing segmentation algorithm and domain-adaptive dictionary learning to recognize clothing attributes. The proposed method ensures the integrity of clothing and improves the precision of cross-scenario retrieval and style recognition.

Key words

context based image retrieval; clothing retrieval; super-pixel; adaptive domain dictionary learning

0 引言

当今社会,随着网上购物的普及,已经可以在网站上直接用图像检索多种商品,比如,书本,化妆品,电子设备,服装等。其中,在线服装检索近年来受到了很多学者的关注[1-5]。服装检索是图像检索领域检索难度较大的类别之一,主要有2个原因:1) 服装拥有多种属性,复杂的纹理,非刚性形变等;2) 周围环境的干扰,人的不同姿态、光线、背景等。这两个因素使服装款式识别(颜色、纹理、材料等) 变得非常困难。本文方法主要关注场景的服装检索及款式识别。跨场景服装检索由刘偲[1]提出,指查询的服装图像和数据库中的服装图像属于不同的场景。其中,查询服装图像是在日常生活中拍摄的,有复杂的背景。而用户在网上检索的相关服装商品图像一般都是在特定的环境下拍摄的,一般都有纯净的背景。另外,服装商品图像中的服装模特通常都有几种固定的专业姿势。然而,人们在日常生活中的拍照姿势是灵活多变的。以上所有的因素导致传统的基于内容的图像检索不再适用于服装图像检索。刘偲[1]提出,在服装躯干部分检索的基础上,再对通过人体姿态估计得到的服装局部区域进行款式识别得到服装属性,用服装属性对检索结果进行优化。但该方法在对服装局部区域进行款式识别时,用服装商品图像进行训练获得款式分类器,而本文输入的日常服装图像与服装商品图像背景上有很大差别,所以跨场景问题仍存在。针对此问题,本文提出基于域自适应字典学习的跨场景服装款式识别。本文将日常服装图像当作目标域,把在线服装商品当作源域,通过对目标域的学习优化源域,来消除跨场景的影响。另外,只用服装躯干部分检索会丢失大量的服装信息。本文提出基于超像素融合和姿态估计相结合的方法分割出完整的服装,用完整的服装进行检索。实验结果表明,本文的方法好于目前先进的方法。

本文提出一种新的跨场景服装检索及款式识别方法。首先,分割出完整的服装商品来检索相似商品,提取人体局部区域的特征来识别服装的款式,训练域自适应字典解决跨场景检索的问题。流程如图 1所示,其中,$\boldsymbol{Y}$代表目标域图像,${\boldsymbol{D}_k}$是字典,$\boldsymbol{\alpha} $是稀疏系数,$\Delta \boldsymbol{D}$是过渡字典。本文的主要工作总结如下:

图 1 跨域服装检索及款式识别的流程图
Fig. 1 The whole framework of the cross-sceniro clothing retrieval and recognition system

1) 提出一个新的跨场景服装检索框架。利用人体姿态估计方法分离出上下装区域,通过由粗到细的图像过分割,再进行超像素融合,进而分割出完整的服装商品以进行相似服装图像的检索。

2) 提出基于域自适应字典学习的跨场景服装款式识别。本文将日常服装图像当作目标域,把在线服装商品当作源域,通过对目标域的学习优化源域。

3) 本文构建了2个细粒度标注的服装数据库,服装商品数据库和日常服装数据库。这2个数据库中的服装图像存在很大的场景差异。根据论文[1, 4, 6]中的工作,本文手动标注11个与服装款式有关的属性。

1 相关工作

近期随着网上购物的发展,跨场景服装检索和服装款式识别已经成为了热点。早期的基于内容的服装检索,大部分都是通过人脸识别和皮肤检测,大致估计人体部分位置。大部分工作都只关注特定类别的服装检索,缺乏普遍性。通用性的服装检索框架是近几年才提出来的,目前的大部分工作是基于人体姿态估计或者提取骨骼点确定服装区域的。刘偲等人[1]使用人体姿态估计[7]得到人体区域,并且通过两步稀疏化编码实现跨场景服装检索;随后,又提出了一个服装推荐系统“Magic Closet”[2],引入了服装的中间属性特征,通过潜在支持向量机(latent SVM) 训练分类器,得到服装推荐排序。Fu等人[3]在文献[1]的基础上,利用稀疏编码过滤背景,提出了保留语义的视觉短语,用倒排索引提高检索效率。跟其他方法不同,本文利用分割出来的完整的服装做检索。因为,日常生活中人们关注服装的时候,通常先注意到服装的整体,然后才是细节。所以,准确分割出服装区域对服装检索是非常重要的。将超像素和人体姿态估计结合是目前主流的服装分割方法,然而由于服装的多变性和复杂的背景,简单的过分割很难达到好的分割效果。因此,本文提出一种由粗到细的超像素分割方法来精确地分割服装。

Kalantidis等人[5]从服装解析的角度出发,提出一种新的服装检索方法。通过,姿态估计指导服装分割,得到的人体分布的prior probability graph,然后,通过局部敏感哈希(locality sensitive Hashing) 标注服装像素,解析区域。在检索前先将服装分类是一个革命性的创新。

Chen等人[4]提出基于人体姿态的特征提取方法,通过姿态估计和应用条件随机场(conditional random field) 来计算服装的语义属性。Di等人[6]提出细粒度服装款式识别和检索系统。但是,这些都是在同一个场景内检索和款式识别,并不适用跨场的服装检索。本文提出基于域自适应字典学习方法,通过对目标数据集的不断学习优化源数据集,消除两个数据集间的鸿沟,达到好的跨域服装款式识别效果。

2 服装分割

对于在线服装检索,输入的查询图像通常是日常的复杂背景,而相关的在线服装图像通常都有纯净的背景。所以,日常和在线服装图像上存在域鸿沟,导致检索效果很差。去掉服装的背景能在一定程度上解决这个问题。日常服装图像中的人体经常有多种姿态,并且存在背包等装饰物遮挡的情况。利用简单的抠图,并不能解决遮挡的问题。

本文对服装图像由粗到细地过分割成连续的超像素块,再根据颜色连续性层次融合,以确保服装的完整性,再根据人体姿态估计确定人体位置,去掉背景及遮挡物,如图 2所示,本文方法去掉了背景及斜挎包。最后,通过学习E-SVM (exemplar-SVM)[8]来优化分割结果。

图 2 服装分割的流程
Fig. 2 The introduction of clothing segmentation ((a) coarse over-segmentation; (b) fine over-segmentation; (c) mergence of hierarchical superpixels)

2.1 人体姿态估计

在服装检索及款式识别中,第1步就是要确定服装位置[1, 4]。本文利用姿态估计方法[7]确定服装位置。在线下学习了上身和下身的模型,上身模型19片,下身模型11片。图 3展示了2个人体姿态估计结果。

图 3 人体姿态估计
Fig. 3 Pose estimation

对于一幅图像$I$, 在上身提取$N_u$=19个局部面片,下身$N_1$=11个局部面片,上下身面片分别记为${\boldsymbol{P}_{\rm{U}}}=\{ {\boldsymbol{p}_{{\rm{u1}}}}, \ldots, {\boldsymbol{p}_{{\rm{u19}}}}\}; {\boldsymbol{P}_{\rm{L}}}=\{ {\boldsymbol{p}_{{\rm{L1}}}}, \ldots, {\boldsymbol{p}_{{\rm{L11}}}}\} $。面片的顺序是固定的,例如:上身第1个面片是额头的位置;下身最后一个面片是左脚踝。

2.2 服装分割步骤

从复杂的背景分割出服装是精确服装检索的关键步骤。为了能快速分割出服装图像,首先对图像进行预处理,生成超像素块。由于服装图像相对复杂,粗的过分割会导致超像素块过小,很难通过姿态估计获得完整的服装。而细的过分割,容易导致服装区域和背景的错分。为了克服以上缺陷,本文用基于图论的方法[9]进行由粗到细的过分割,准确地预处理图像,得到相对整齐的超像素图像${\boldsymbol{S}_{{\rm{init}}}}=\{ {\boldsymbol{s}_1}, \ldots, {\boldsymbol{s}_k}\} $。其中,${\boldsymbol{s}_i}$代表第$i$个超像素。

尽管如此,实验中还发现,在分割过程中无论阈值函数以及超像素尺度设置的多宽泛,依然会存在不理想的分割区域,特别是不相邻的服装超像素,更是无法得到完整服装区域。所以,对超像素进行合并是很有必要的。

本文提出的层次超像素融合的具体方法步骤如下:

1) 将得到的所有超像素${\boldsymbol{s}_i}$,根据文献[10]中定义的图像区域尺度,计算每块超像素${\boldsymbol{s}_i}$的尺度。图像区域尺度定义为

$ {\mathit{\boldsymbol{S}}_C}\left( \mathit{\boldsymbol{R}} \right) = \mathop {\arg \min }\limits_t \left\{ {{\mathit{\boldsymbol{R}}_{t \times t}} \in \mathit{\boldsymbol{R}}} \right\} $ (1)

区域$\boldsymbol{R}$包含区域${\boldsymbol{R}_{t \times t}}$,意味着至少有一个${\boldsymbol{R}_{t \times t}}$要融合到区域$\boldsymbol{R}$中。

对于尺度小于阈值的超像素,通过将其与周围的LAB特征最相似的超像素进行融合的方式获得新的超像素图像。因为,这些小的超像素通常都不是独立的,一般都属于服装或者背景。将这些小的区域融合,有利于保证服装的完整性。

然后,再计算新的超像素在LAB特征空间的相似性即欧式距离,以0.15判断合并与否,形成更加完整的服装区域。

2) 利用人体姿态估计获得人体位置,根据人体面片位置(如图 3),将有20%及以上不在人身体面片内的超像素设为背景,以此保留下原图完整的服装区域。

3) 最后,本文利用E-SVM[8]模板,进一步完善服装分割。本文在Fashionista[11]服装数据库上训练了多个E-SVM分类器,每一个E-SVM分类器对应一种服装。

3 服装款式识别的跨域字典学习

正如之前介绍的,日常生活图像和在线服装图差别在于同类服装不属于同一个场景。由背景分布不同,直接在数据库上训练,不能达到好的效果。本文通过在分割的服装上用人体姿态估计得到的局部面片做款式识别的方式减小了背景的影响,另外通过域自适应字典学习方法在跨场景的环境下做服装款式识别。

域自适应方法解决源数据集数据和目标数据集中数据有不同的分布的问题[10, 12]。这种问题在日常情景中经常出现。在文献[12]的启发下,本文提出使用在字典学习过程中插入目标域子集的方法,建立在线服装商品数据集和日常服装图像数据集之间的关系,两个数据库在实验中有详细介绍。在线服装商品数据是源数据集,背景复杂的查询服装图像是目标域。

假设目标域${\boldsymbol{Y}_t}$是包含$N$个训练样本目标域,每个训练样本${\boldsymbol{y}_t}$是要输入的n维向量(本文中是指服装的局部特征),${\boldsymbol{Y}_t}$可以表示为${\boldsymbol{Y}_t}=\left\{ {{\boldsymbol{y}^1}_t, \ldots, {\boldsymbol{y}^N}_t} \right\} \in {{\rm{\boldsymbol{R}}}^{n \times N}}, {\boldsymbol{Y}_t}$的稀疏编码可以通过字典学习,优化下面问题得到

$ \begin{array}{*{20}{c}} {\left\langle {{\mathit{\boldsymbol{D}}_t},{\mathit{\boldsymbol{X}}_t}} \right\rangle = \mathop {\arg \min }\limits_{{\mathit{\boldsymbol{D}}_t},{\mathit{\boldsymbol{X}}_t}} \ge \left| {{\mathit{\boldsymbol{Y}}_t} - {\mathit{\boldsymbol{D}}_k}{\mathit{\boldsymbol{X}}_t}} \right|_{\rm{F}}^2}\\ {{\rm{s}}.{\rm{t}}.\;\;\;\forall i,{{\left| {x_t^i} \right|}_0} \le T} \end{array} $ (2)

式中,${\boldsymbol{D}_t}=\left\{ {{\boldsymbol{d}^1}_t, \ldots, {\boldsymbol{d}^M}_t} \right\} \in {{\rm{\boldsymbol{R}}}^{n \times M}}$代表从源目标学习到的字典,${\boldsymbol{X}_t}=\left\{ {{\boldsymbol{x}^1}_t, \ldots, {\boldsymbol{x}^N}_t} \right\} \in {{\rm{\boldsymbol{R}}}^{M \times N}}$代表稀疏信号。字典的条目数量$M$要远大于训练样本数量$N$,以确保字典的完整性。但是,这个仅从一个数据集中学习得到的字典,不能很好地适应另一个分布不同的数据集--目标域。假设源数据集和目标数据集之存在一个虚拟的通道,这个虚拟通道是一个过渡路径,通过过渡路径的中间表示可以构建保留不同数据集特性的特征表达。

${\boldsymbol{D}_0} \in {{\rm{\boldsymbol{R}}}^{n \times M}}$是用K-SVD [13]方法从源数据集${\boldsymbol{Y}_s}$中学到的字典。从源数据集开始,不断地学习中间数据集字典${\left\{ {{\boldsymbol{D}_k}} \right\}^K}_{k=1}$,使其逐渐适应目标数据,这同增量学习有些相似。重建误差即为目标域的字典,最终表示目标数据的字典${\boldsymbol{D}_k}$。已知$k$维字典${\boldsymbol{D}_k}$, $k \in {\rm{ }}\left[{0, K-1} \right]$可,通过学习下一个字典${\boldsymbol{D}_{k + 1}}$${\boldsymbol{D}_k}$的连续性,保留目标域余量得到的${\boldsymbol{D}_{k + 1}}$。根据论文[1]的方法,用${\boldsymbol{D}_k}$重建${\boldsymbol{Y}_t}$,得到余量${\boldsymbol{J}_k}$, 即

$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{X}}_k} = \mathop {\arg \min }\limits_\mathit{\boldsymbol{X}} \left| {{\mathit{\boldsymbol{Y}}_t} - {\mathit{\boldsymbol{D}}_K}\mathit{\boldsymbol{X}}} \right|_{\rm{F}}^2}\\ {{\rm{s}}.{\rm{t}}.\;\;\;\forall i,{{\left| {x_t^i} \right|}_0} \le T} \end{array} $ (3)

$ {J_k} = \left| {{\mathit{\boldsymbol{Y}}_t} - {\mathit{\boldsymbol{D}}_k}{\mathit{\boldsymbol{X}}_k}} \right|_{\rm{F}}^2 $ (4)

${\boldsymbol{X}_k}=\left\{ {{x^1}_k, \ldots, {x^N}_k} \right\} \in {{\rm{\boldsymbol{R}}}^{M \times N}}$是由${\boldsymbol{D}_k}$重建${\boldsymbol{Y}_t}$的稀疏系数,${\boldsymbol{D}_{k + 1}}$通过调整$\Delta {D_k}$得到,即

$ \Delta {\mathit{\boldsymbol{D}}_k} = \mathop {\min }\limits_{\Delta {\mathit{\boldsymbol{D}}_k}} \left| {{\mathit{\boldsymbol{J}}_k} - \Delta {\mathit{\boldsymbol{D}}_k}{\mathit{\boldsymbol{X}}_k}} \right|_{\rm{F}}^2 + \lambda \left| {\Delta {\mathit{\boldsymbol{D}}_k}} \right|_{\rm{F}}^2 $ (5)

这是一个岭回归问题,则下一个中间字典${\boldsymbol{D}_{k + 1}}$

$ \Delta {\mathit{\boldsymbol{D}}_{k + 1}} = {\mathit{\boldsymbol{D}}_k} + \Delta {\mathit{\boldsymbol{D}}_k} $ (6)

在文献[10]中,已经证明过了${\boldsymbol{J}_k}$在每一步中的非增属性。最终,新增的特征表示为$\boldsymbol{\tilde Y}=\{ {\left ({{\boldsymbol{D}_0}\boldsymbol{X}} \right)^{\rm{T}}}, {\left ({{\boldsymbol{D}_1}\boldsymbol{X}} \right)^{\rm{T}}}, \ldots, {\left ({{\boldsymbol{D}_K}\boldsymbol{X}} \right)^{\rm{T}}}\} $。如果,特征向量$\boldsymbol{Y}$属于源域,$\boldsymbol{X}$${\boldsymbol{D}_0}$分解得到的稀疏系数;如果$\boldsymbol{Y}$表示目标域,$\boldsymbol{X}$${D_k}$分解得到的稀疏系数。这种表示方法可以平滑的将过渡域合并到信号空间,将源域和目标域合并到一个通用的特征空间。最后,再使用PCA降维,达到优化特征,提高效率的目的。

本文中每种服装款式对应一个分类器。服装特征直接在姿态估计获得的区域面片上提取,选择不同的服装区域训练不同的服装款式分类器。比如,肩膀和胳膊部分用来训练袖子分类器;脖子部分用来训练衣领。

4 实验与分析

针对目前在服装跨域检索上缺乏通用的大数量的已标注的多场景服装数据库的问题。本文构建了2个服装数据库:服装商品数据库和日常服装数据库,如图 4所示。

图 4 服装数据库
Fig. 4 Clothing dataset ((a) product; (b) daily)

服装商品数据库:从淘宝,京东等网上购物网站上收集了15 690件不同款式,不同颜色的服装,数据库结构如表 1。所有的服装都按照颜色,花纹,材料,前襟,衣领,袖长,裤长,裙长,裤型等属性做了详细标注,以训练款式分类器和评价检索精度。

表 1 服装商品数据库结构
Table 1 The structure of product clothing dataset

下载CSV
/件
女上装 女下装 男上装 男下装
3 497 5 820 3 126 2 887

日常服装数据库:包括4 206张人们在不同环境下的生活照。照片中人体姿态多变,背景复杂,如图 4所示。

4.1 服装分割

在服装分割实验中,本文取Fashionista-dataset[11]中像素级标注的685幅图像做测试图像,验证本文服装分割算法的有效性。Fashionista dataset[11]中的685张人的日常相片,有53种服装标签及人体的头发,皮肤和空白的标签,图像中每个像素都作了标注。

测试685幅图像分割的服装的平均像素精度,Baseline是直接在过分割基础上,根据人体姿态估计得到的服装。由于服装更在乎分割出的服装的准确性,服装像素的召回率对服装检索的影响相对较小,所以这里只验证了服装分割的精度。表 2展示了本文方法与目前的先进的服装分割方法在Fashionista dataset上的分割精度。PARSING[11]是利用服装解析方法分割服装区域。GL[5]通过人体分布的prior probability graph确定服装像素。对比实验结果可以看出,本文方法好于目其他的服装分割方法。更多的本文方法的服装分割结果如图 5所示。

图 5 本文方法服装分割结果展示
Fig. 5 Examples of clothing segmentation

表 2 Fashionista dataset上的服装分割结果
Table 2 Clothing segmentation results on Fashionista dataset

下载CSV
本文 PARSING[1] GL[9] Baseline
精度/% 82.1 80.7 80.2 75.0

4.2 服装款式识别

在服装款式识别实验中,直接在通过人体姿态估计获得的30个人体局部面片中提取服装局部款式特征。由于局部款式更注重形状和颜色属性,所以这里使用279维HOG [14], 522维LBP[15]特征和97维LAB颜色直方图。为了有更好的识别效果,所有的人体局部面片均将大小归一化为48×48。

在实验部分比较了同场景下和跨场景的服装款式识别效果。同场景服装检索中,在服装商品数据库中选取10 000幅图作为训练集,剩下的5 690幅图像作为测试图像。在跨场景服装检索中,在日常服装数据库中选取1 000幅日常图像作为测试图像,剩下的3 206幅图像用来训练预自适应字典。图 6展示了服装款式识别的结果。CS-SVM代表的直接用SVM分类的跨场景服装款式识别比WS-SVM代表的同场景服装款式识别降低了10%。由此,可以看出,日常服装图像库和在线服装商品图像库确实存在很大差别。CSDL-SVM代表了用本文提出的域自适应字典学习方法来做服装跨场景检索的结果。可以看出,与直接训练的分类器相比,本文方法在服装款式识别上有显著提高。

图 6 跨场景款式识别比较
Fig. 6 Comparison of cross-scenario clothing recognition

4.3 服装检索

服装检索中,按照通用的服装检索标准,即刘偲[1]提出的基于排序的评价方法。给定一幅图像,通过确定检索到的最相近的$k$个图像相似性来评价检索精度,即

$ {P_k} = \frac{{\sum\limits_i^k {\mathit{Rel}\left( i \right)} }}{N} $ (7)

式中,$N$是归一化常数,${\mathop{\rm Re}\nolimits} l (i)$表示第$i$幅图像与查询图像相符合的正确属性数。比如,查询图像是“白色、长袖、棉”,第$i$幅图像是“白色、短袖、棉”,那么${\mathop{\rm Re}\nolimits} l (i)$的值为2。

本文在分割好的完整服装上提取特征检索。实验中,利用96维的LAB颜色特征,255维GIST[16]及DENSE-SIFT聚成的512维的词包(BoW) 特征联合表示服装。

在服装检索实验部分,选择400幅不同属性的日常服装,来分别检验上装和下装的检索效果。并用服装款式识别将不同图像按属性正确的数量赋予对应权重来优化服装检索效果。图 7展示了服装检索实验结果,Upper-Ours和Lower-Ours代表本文方法的上装和下装检索的实验结果,Upper-PAAS and Lower-PAAS代表文献[1]方法的实验结果。变量$k$表示返回的相似服装数量。可以看到,本文方法上下装检索精度高达62.1%和63.4%。

图 7 跨场景服装检索精度的比较
Fig. 7 Comparison of cross-scenario clothing retrieval

表 3所示为在返回前20幅服装图像上的,上下装的平均精度。由表 3可以看出,同目前先进的方法相比,本文检索方法高于目前先进的方法。

表 3 前20幅图像的平均检索精度
Table 3 3D forward scan cell

下载CSV
/%
方法
本文 WHERE[17] PAAS[3] GL[9]
上装 62.1 39.1 49.3 51
下装 63.4 45.9 61.1 62.5

表 4展示了本文方法在服装检索及款式识别中不同阶段所用的时间。从表 4可以看出,大部分时间都消耗在姿态估计上。更多的实验结果如图 8所示。

图 8 服装检索结果
Fig. 8 Examples of clothing retrieval

表 4 时间分析
Table 4 Time analysis

下载CSV
/%
姿态估计 服装分割 服装检索 款式识别 总计
2.1 0.91 1.53 0.04 4.58

5 结论

在服装检索中,检索的日常服装图像通常背景复杂,并且人体姿态随意多变。而购物网站上的服装图像通常背景都是简单纯净的。针对检索的服装图像和数据库中的服装图像不属于一个域的问题,提出一种新的层次服装过分割融合方法及域自适应跨域服装款式识别方法。对于跨场景服装检索和款式识别,本文提出域自适应学习的方法来提高款场景服装款式识别的精度。另外,本文还建立了两个完备的跨场景服装数据库。实验结果表明,本文方法上下装检索精度高达62.1%和63.4%,高于目前先进的检索方法。

参考文献

  • [1] Liu S, Song Z, Liu G C, et al. Street-to-shop: cross-scenario clothing retrieval via parts alignment and auxiliary set[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012: 3330-3337.[DOI: 10.1109/CVPR.2012.6248071]
  • [2] Liu S, Feng J S, Song Z, et al. Hi, magic closet, tell me what to wear[C]//Proceedings of the 20th ACM International Conference on Multimedia. New York, USA: ACM, 2012: 619-628.[DOI: 10.1145/2393347.2393433]
  • [3] Fu J L, Wang J Q, Li Z C, et al. Efficient clothing retrieval with semantic-preserving visual phrases[C]//Proceedings of 11th Asian Conference on Computer Vision. Berlin Heidelberg: Springer, 2013:420-431.[DOI: 10.1007/978-3-642-37444-9_33]
  • [4] Chen H Z, Gallagher A, Girod B. Describing clothing by semantic attributes[C]//Proceedings of the 12th European Conference on Computer Vision. Berlin Heidelberg: Springer, 2012: 609-623.[DOI: 10.1007/978-3-642-33712-3_44]
  • [5] Kalantidis Y, Kennedy L, Li L J. Getting the look: clothing recognition and segmentation for automatic product suggestions in everyday photos[C]//Proceedings of the 3rd ACM Conference on International Conference on Multimedia Retrieval. New York, USA: ACM, 2013:105-112.[DOI: 10.1145/2461466.2461485]
  • [6] Di W, Wah C, Bhardwaj A, et al. Style finder: fine-grained clothing style detection and retrieval[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Portland, OR: IEEE, 2013: 8-13.[DOI: 10.1109/CVPRW.2013.6]
  • [7] Yang Y, Ramanan D. Articulated pose estimation with flexible mixtures-of parts[C]//Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2011: 1385-1392.[DOI: 10.1109/CVPR.2011.5995741]
  • [8] Malisiewicz T, Gupta A, Efros A A. Ensemble of exemplar-SVMs for object detection and beyond[C]//Proceedings of 2011 IEEE International Conference on Computer Vision. Barcelona: IEEE, 2011: 89-96.[DOI: 10.1109/ICCV.2011.6126229]
  • [9] Felzenszwalb P F, Huttenlocher D P. Efficient graph-based image segmentation[J]. International Journal of Computer Vision, 2004, 59(2): 167–181. [DOI:10.1023/B:VISI.0000022288.19776.77]
  • [10] Zhu F, Shao L. Enhancing action recognition by cross-domain dictionary learning[C] // Proceedings British Machine Vision Conference 2013. Bristol: BMVA Press, 2013: 52.1-52.12.[DOI: 10.5244/C.27.52]
  • [11] Yamaguchi K, Kiapour M H, Ortiz L E, et al. Parsing clothing in fashion photographs[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012: 3570-3577.[DOI: 10.1109/CVPR.2012.6248101]
  • [12] Ni J, Qiu Q, Chellappa R. Subspace interpolation via dictionary learning for unsupervised domain adaptation[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 692-699.[DOI: 10.1109/CVPR.2013.95]
  • [13] Aharon M, Elad M, Bruckstein A. rmK-SVD: an algorithm for designing of overcomplete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311–4322. [DOI:10.1109/TSP.2006.881199]
  • [14] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005, 1: 886-893.[DOI: 10.1109/CVPR.2005.177]
  • [15] Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971–987. [DOI:10.1109/TPAMI.2002.1017623]
  • [16] Yan Q, Xu L, Shi J P, et al. Hierarchical saliency detection[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 1155-1162.[DOI: 10.1109/CVPR.2013.153]
  • [17] Hadi Kiapour M, Han X F, Lazebnik S, et al. Where to buy it: matching street clothing photos in online shops[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 3343-3351.[DOI: 10.1109/ICCV.2015.382]