Print

发布时间: 2021-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190655
2021 | Volume 26 | Number 2




    图像分析和识别    




  <<上一篇 




  下一篇>> 





融合视觉风格和标签约束的少数民族服装图像解析
expand article info 张茜1, 刘骊1,2, 甘霖1, 付晓东1,2, 刘利军1,2, 黄青松1,2
1. 昆明理工大学信息工程与自动化学院, 昆明 650500;
2. 云南省计算机技术应用重点实验室, 昆明 650500

摘要

目的 少数民族服装款式结构复杂,视觉风格各异。由于缺少民族服装语义标签、局部特征繁杂以及语义标签之间存在相互干扰等因素导致少数民族服装图像解析准确率和精度较低。因此,本文提出了一种融合视觉风格和标签约束的少数民族服装图像解析方法。方法 首先基于本文构建的包含55个少数民族的服装图像数据集,按照基本款式结构、着装区域、配饰和不同视觉风格自定义少数民族服装的通用语义标签和民族语义标签,同时设置4组标注对,共8个标注点;然后,结合自定义语义标签和带有标注对的训练图像,在深度完全卷积神经网络SegNet中加入视觉风格以融合局部特征和全局特征,并引入属性预测、风格预测和三元组损失函数对输入的待解析图像进行初步解析;最后,通过构建的标签约束网络进一步优化初步解析结果,避免标签相互干扰,得到优化后的最终解析结果。结果 在构建的少数民族服装图像数据集上进行验证,实验结果表明,标注对有效提升了局部特征的检测准确率,构建的视觉风格网络能够有效融合少数民族服装的全局特征和局部特征,标签约束网络解决了标签之间相互干扰的问题,在结合视觉风格网络和标签约束网络后,能够明显提升少数民族服装解析的平均精度,像素准确度达到了90.54%。结论 本文提出的融合视觉风格和标签约束的少数民族服装图像解析方法,能够提高少数民族服装图像解析的准确率和精度,对传承祖国文化、保护非物质文化遗产具有很好的意义。

关键词

少数民族服装; 图像解析; 语义标签; 视觉风格; 标签约束

Clothing parsing of Chinese minorities via the fusion of visual style and label constraints
expand article info Zhang Qian1, Liu Li1,2, Gan Lin1, Fu Xiaodong1,2, Liu Lijun1,2, Huang Qingsong1,2
1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China;
2. Computer Technology Application Key Laboratory of Yunnan Province, Kunming 650500, China
Supported by: National Natural Science Foundation of China (61862036, 61962030, 81860318)

Abstract

Objective Many minority groups live in China, and the visual styles of their clothing are different. The combination of clothing parsing and the clothing culture of these minority groups plays an important role in realizing the digital protection of the clothing images of these groups and the inheritance of their culture. However, a complete dataset of the clothing images of Chinese minorities remains lacking. The clothing styles of minority groups have complex structures and different visual styles. Semantic labels to distinguish the clothing of different minorities are lacking, and defining the semantic labels of ethnic accessories is a challenging task. Describing information, such as local details, styles, and ethnic characteristics of minority group clothing, is difficult when using existing clothing image parsing methods. Mutual interference between semantic labels leads to unsatisfactory accuracy and precision of clothing image parsing. Therefore, we proposed a clothing parsing method based on visual style and label constraints. Method Our method primarily parsed minority group clothing through their visual style by fusing local and global features. Then, the label constraint network was used to suppress redundant tags and optimized the preliminary parsing results. First, we defined the general semantic labels of minority group clothing. The distinctive semantic labels were defined in accordance with the combination preference of semantic labels. We set four sets of annotation pairs based on human body parts, with a total of eight label points. Each pair of annotations corresponds to a set of key points on the clothing structure. The upper body garment was marked with the left/right collar, left/right sleeves, and left/right top hem. The lower body garment was marked with the left/right bottom hem. We also marked the visibility of each annotation and used the label annotations to determine whether occlusion occurred in the clothing. Second, combining the training images with the annotation pairs and the self-defined semantic labels, a visual style network was added on the basis of a full convolutional network. A branch was built on the last convolutional layer in the SegNet network. The branch was divided into three parts, with each part respectively dealing with the position and visibility of the annotation pairs and the local and global characteristics of the clothes. The two parts of the local and global features of the clothing were outputted to "fc7_fusion" for fusion. The style features were returned to the SegNet network through a deconvolution layer, and preliminary parsing results were obtained. Finally, a label mapping function was used to convert the preliminary parsing result into a label vector in accordance with the number of labels. Each element indicates whether a corresponding label exists in the preliminary parsing result. Then, the label vector was compared with the true semantic labels in the training set, and the labels were corrected to suppress redundant label probability scores. The label constraint network eliminated redundant and erroneous labels by comparing the labels of the preliminary parsing results with those of the training images. The label constraint network avoided the mutual interference of labels and increased the accuracy of the parsing result. In addition, we constructed a clothing image dataset of 55 minority groups. The primary sources were online shopping sites, such as Taobao, Tmall, and JD. This dataset was expanded by including datasets from other platforms, such as Baidu Pictures, blogs, and forums. A total of 61 710 images were collected. At least 500 images were collected for each minority group. Result The proposed method was validated on an image dataset of minority group clothing. Experimental results showed that the detection accuracy of clothing visual style features was higher with annotation pairs. The visual style network efficiently fused local and global features. The label constraint network effectively solved the mutual interference problem of labels. The method proposed in this study improved parsing accuracy on large-scale clothing labels, particularly on skirts with considerable differences in pattern texture and color blocks. The method also improved the small labels of accessories, such as hats and collars. The results of the minority group clothing parsing improved significantly. The pixel accuracy of the parsing results reached 90.54%. Conclusion The clothing of minority groups is characterized by complicated styles and accessories, lack of semantic labels, and complex labels that interfere with one another. Thus, we proposed a clothing parsing method that fuses visual style with label constraints. We constructed a dataset of minority group clothing images and defined the generic and distinctive semantic labels of minority group clothing. We made pixel-level semantic annotations and set up annotation pairs on the training images. Then, we built a visual style network based on SegNet to obtain preliminary parsing results. Finally, the mutual interference problem of semantic labels was solved through a label constraint network to obtain the final parsing result. Compared with other clothing parsing methods, our method improved the accuracy of minority group clothing image parsing. Inheriting culture and protecting intangible cultural heritage are significant. However, some clothing parsing results of this method are not ideal, particularly the accuracy of small accessories. The semantic labels of minority group clothing are imperfect and insufficiently accurate. Subsequent work will continue to improve the dataset, focusing on the aforementioned issues to further improve the accuracy of minority group clothing parsing.

Key words

minority clothing; image parsing; semantic labels; visual style; label constraints

0 引言

服装图像解析(Yamaguchi等,2012)是将图像中的服装区域按像素级别分割成语义一致的区域。由于服装图像具有款式、纹理和配饰等复杂属性,而且人体姿态、拍摄角度和复杂背景会对服装图像产生视觉差异,给服装图像解析带来了挑战。Yamaguchi等人(2012)结合超像素分割和姿态估计,不断优化得到最终精确的语义分割结果。但是服装属性差异细微,仅对纹理、颜色和形状等简单款式的底层特征进行服装解析,容易出现解析误差,导致服装解析精度和准确率不高。

区别于时尚服装,少数民族服装具有服饰结构复杂、颜色鲜艳分明、配饰繁多、视觉风格各异、语义丰富及局部纹理细节更具民族特色等特点(吴圣美等,2019)。如藏族服饰在款式结构上分为内、外袍,颜色较鲜艳,色调层次明显,块间的对比和反差大,佩戴巴珠、毡帽等配饰。此外,同一民族因支系不同,其服装的细节属性也不尽相同。以蒙古族服饰为例,不同支系下蒙古族女性服饰亦有差异,其局部细节特征反映出其独特的风格。现有的语义标签只用于通用时尚服装,缺乏能区分不同民族服装款式的语义标签。仅依靠传统的图像解析方法难以描述少数民族服装的款式信息、视觉风格和局部细节等视觉特征,难以实现少数民族服装解析。

我国少数民族多,民族服装多姿多彩,服装视觉风格各异。将服装图像解析与民族服装文化相结合,对实现少数民族服装图像的数字化保护以及民族文化的传承起着重要作用。Huo等人(2016)提出高效健壮特征(distinctive efficient robust feature,DERF)方法,通过融合4种底层特征,实现了对苗族、独龙族和满族等11种代表性少数民族服装信息的描述。但由于提取到的特征向量维度较大,导致数据存储和计算成本较高,再加上底层特征与高层属性间的“语义鸿沟”,使得少数民族服装图像解析仍存在以下难点:1)由于现有少数民族服装图像资源较少,收集途径有限,已有的工作(吴圣美等,2019Huo等,2016)也只是搜集了某一地区不同种类的少数民族图像数据集,因此缺少较完整的中国少数民族服装图像数据集;2)由于缺乏区分不同民族服装的语义标签,且难以定义少数民族服装配饰的语义标签,影响了少数民族服装图像解析性能,现有时尚服装图像的解析方法难以描述少数民族服装的局部细节、款式样式和民族风格特征等信息,导致民族服装解析效果不佳;3)由于少数民族服装图像色块、款式类别差异大,服装和配饰的语义标签复杂繁多, 缺乏局部相关性,且语义标签存在相互干扰,影响了解析结果的准确率。

本文主要工作如下:1)针对现有少数民族服装图像资源少、质量差等问题,在吴圣美等人(2019)研究的基础上增加了30个少数民族,构建了一个包含55个中国少数民族服装图像的数据集,定义了民族服装通用语义标签、民族语义标签以及标注对,并对训练图像进行像素级语义标注;2)输入训练图像和待解析图像至构建的视觉风格网络,首先提取全局特征,然后通过标注对的位置及可见性学习少数民族服装的局部特征,再将局部特征与全局特征进行融合后训练解析模型,获得初步解析结果;3)通过标签约束将初步解析结果和带标签的训练图像转换成标签向量,校正标签向量和抑制冗余标签,得到最终的解析结果。

1 相关工作

服装的款式类型所包含的风格元素是提高解析准确率的关键。Hidayati等人(2018)定义了一组样式元素来识别服装款式的特定视觉特征。Vaccaro等人(2016)以服装属性信息为基础,建立服装风格文本用于实现服装风格搭配推荐。Vittayakorn等人(2016)从带噪服装数据中筛选合适的弱语义标签来分析视觉风格。Yamaguchi等人(2015)考虑服装款式间的兼容性,通过条件随机场(conditional random field,CRF)寻求服装款式组合的可能性。Simo-Serra和Ishikawa(2016)通过联合排名从弱监督数据中学习特征实现服装风格分类。Kiapour等人(2014)通过训练5种风格类别的分类模型实现服装的自动分类。Liu等人(2016)建立了DeepFashion数据集,通过大量的分类属性注释学习出不同服装的款式风格。这些方法对于时尚服装风格分类均具有较高的准确率,然而,不同民族的配饰和纹理图案具有特殊性和多样性,以上方法未考虑少数民族服装的款式结构差异和纹理图案位置分布,难以准确提取其视觉风格元素。针对不同的民族服装视觉风格,本文对训练图像进行语义标注,并设置标注对,构建视觉风格网络提高解析的精度和准确率。

服装图像解析侧重于解析细粒度的服装项目,消除标签的混淆歧义。Yamaguchi等人(2014)通过从标记过的大型时尚服装图像数据库中检索到类似的样式对服装进行解析。Liang等人(2016a)通过超像素分割对相同区域共同标记实现联合标注。Jammalamadaka等人(2013)解决了复杂场景下的服装解析。Zheng等人(2017)通过弱监督迁移学习捕获服装特征解决了视频中服装图像自动解析问题。Simo-Serra等人(2014)通过姿势感知条件随机场解决了服装图像解析问题。Ji和Yang(2017)改进了基于图形的分割方法和像素标记方法,通过多级特征训练成对CRF模型,解决了具有复杂纹理服装的过度分割和准确性差的问题。然而,以上方法只针对时尚服装,忽略了民族服装配饰的复杂性和语义标签的多样性等因素,难以实现少数民族服装图像解析。

为了提高解析精度和准确率,相关研究侧重于采用深度卷积网络实现服装图像的解析。Liang等人(2015a)提出主动模板网络与主动形状网络相结合的主动模板回归网络(active template regression,ATR)实现解析。Khurana等人(2018)在SegNet基础上,构建支系网络学习服装的纹理特征,实现时尚服装图像的解析。Ji等人(2018)基于可变形卷积神经网络,提取服装图像的非刚性几何特征实现解析。Guo等人(2018)提出一个具有深度端到端的特征耦合网络,包括粗略解析网络(coarse parsing network)、多姿势特征网络(multi-pose feature network,MFN)和耦合残差网络(coupling residual network,CRN),实现时尚着装场景中的多人图像解析。语境化卷积神经网络(contextualized convolutional neural network,Co-CNN)(Liang等,2015b)集成跨层上下文、全局图像上下文、超像素上下文和交叉超像素邻域上下文实现解析。Su等人(2019)提出条件渐进网络(conditional progressive network)来解析不同尺寸的服装图像并防止标签之间的相互干扰。图像长短期记忆网络(graph long short-term memory,Graph LSTM)(Liang等,2016b)将任意形状的超像素视为语义节点,自适应地学习相邻节点的语义相关性,实现服装图像解析。Liu等人(2015)构建匹配卷积神经网络(matching convolutional neural network,M-CNN),通过KNN(K-nearest neighbor)算法引入多幅已标注的相似图像对目标着装图像进行解析。由于这些方法缺乏对民族服装语义标签的定义和对服装局部区域的特征提取,因此在少数民族服装图像解析上仍然受到限制,且少数民族服装款式较为复杂,语义标签繁多容易造成相互干扰,导致解析结果不佳。本文定义了少数民族服装的通用语义标签和民族语义标签,结合训练图像,通过在SegNet基础上构建视觉风格网络充分学习局部区域特征,得到初步解析结果,再通过标签约束网络抑制冗余标签,得到最终优化的解析结果。

2 本文方法

本文方法流程如图 1所示,结合带有语义标签和标注对的训练图像,构建视觉风格网络汇集学习民族服装局部特征,然后通过标签约束网络优化解析结果。

图 1 少数民族服装图像解析流程图
Fig. 1 The framework of minority clothing parsing

2.1 语义标签

根据中国少数民族服饰(钟茂兰和范朴,2006)的结构,本文通过对人体着装部位的划分和不同民族之间相同服装款式的分析,按照款式结构、相同配饰定义了通用语义标签,包含上身9个标签、下身7个标签、全局3个标签、配饰17个标签和其他3个标签,如表 1所示。

表 1 通用语义标签
Table 1 The generic semantic labels of minority clothing

下载CSV
区域 语义标签 数量
上身 上衣、坎肩、短衫、披肩、背心、衬衣、套裙、马甲、肚兜 9
下身 裤子、筒裙、长裙、短裙、短裤、鞋子、靴子 7
全局 长衫、长袍、连衣裙 3
配饰 包头、筒帕、腰带、包、头帕、毡帽、腰刀、帽子、头巾、项圈、围裙、头饰、手帕、扇子、腰箍、伞、斗笠 17
其他 背景、皮肤、头发 3

通用语义标签的通用性和普遍性既表现了55个少数民族服装具有相同的基本款式结构,又体现了相同人体区域下各民族服装款式结构的一致性。然而,通过对各少数民族服装上身、下身和配饰等区域观察,不难发现少数民族服装按照不同民族的风格,具有特定的组合偏好,例如,包头和盖头不会出现在同一个民族,蒙古袍和满族旗袍也不会同时出现等。此外,部分民族由于地方区域的特点,具有大量相同的服装款式和配饰,例如珞巴族与佤族女性都穿筒裙,且有几何条纹图案;苗族、侗族、瑶族等民族女性都戴银冠,配银项圈;维吾尔族、保安族、东乡族等民族的女性都带盖头。因此,基于定义的通用语义标签,还定义了一些能够体现民族特征的语义标签,例如,满族的旗袍、大拉翅和高花底鞋,蒙古族的蒙古袍和藏族的藏袍等。通过归纳不同民族中相同的通用语义标签,并添加这些民族中带有民族特征的语义标签,定义了民族语义标签,如表 2所示。表 1表 2定义的语义标签是本文解析所用到的所有语义标签。

表 2 民族语义标签
Table 2 The distinctive semantic labels of minority clothing

下载CSV
民族 匹配语义标签
德昂族、拉祜族、独龙族、布朗族、阿昌族、珞巴族、佤族、高山族、傣族、基诺族 筒裙、几何条纹图案、包头、长裙、腰箍、裤子、长袍、上衣、短衫、短裙、贝壳装饰、银泡
回族、塔塔尔族、维吾尔族、乌孜别克族、保安族、东乡族、柯尔克孜族、撒拉族、塔吉克族、俄罗斯族 盖头、平顶圆帽、六棱形圆帽、连衣裙、马甲、长裙、裤子、花帽
蒙古族、藏族、裕固族、达斡尔族、鄂伦春族、鄂温克族、哈萨克族、赫哲族、门巴族、土族 长袍、腰带、靴子、坎肩、圆锥形帽、巴珠、藏袍、毡帽、裤子
苗族、侗族、水族、土家族、瑶族、黎族、景颇族 银冠、银项圈、银角、银帽、银围帕、银腰带、短裙、长裙、短衫、上衣、披肩、头帕、银镯
哈尼族、布依族、羌族、畲族、仡佬族、仫佬族、毛南族、白族 帽子、上衣、长裤、包头、绣鞋、围裙、绣花图案、长裙、风花雪月帽
彝族、纳西族、傈僳族、怒族、普米族、朝鲜族 上衣、长裙、长衫、头帕、帽子、裤子、包头、腰带、围裙、蝴蝶结
满族、壮族、京族、锡伯族 旗袍、大拉翅、壮族头巾、长裙、裤子、上衣、马褂、帽子、花盆底鞋

本文对训练图像进行了像素级的语义标注,并且对带有语义标签的训练图像进行成对标注,每对标注点与服装结构上的一组关键点对应。图 2以满族服装为例,给出了其服装的语义标签和标注对。上身服装标注左/右衣领、左/右袖子、左/右上衣下摆; 下身服装标注左/右下装下摆,同时还标记了每个标注点的可见性。以满族服装半身图像为例,其可见的标注点参数设置为1,而旗袍下摆标注不可见,则置为0,以此来判断该服装部位是否存在遮挡。这些标注对可以有效处理服装形变和姿态变化,集中学习民族服装的局部特征。

图 2 满族服装实例图
Fig. 2 Manchu clothing example

2.2 视觉风格

现有方法大多是直接基于像素分类对图像进行解析,但少数民族服装色块较多且纹理图案等局部细节导致像素分类产生误差,影响了解析结果。因此,本文在SegNet(Badrinarayanan等,2017)的基础上构建视觉风格网络,通过视觉风格网络汇集学习标注对的局部区域特征、位置可见性和全局特征,得到初步解析结果。

本文使用深度完全卷积神经网络SegNet作为解析的基础,其整体框架包括编码器网络、相应的解码器网络和像素级分类层。编码器网络的体系结构在拓扑上与VGG-16网络(visual geometry group 16-layer net)中的前13个卷积层相同,每个编码器由卷积层、批归一化层和修正线性单元组成,最大池化采用2×2的窗口,步长为2,如图 1所示。该网络在中到后层的处理区域能够覆盖足够大的输入区域,效率高,解析效果较好,本文将输入网络的图像分辨率设置为360×480像素。

图 3所示,本文从SegNet网络中的最后一个卷积层中引出一个分支,该分支分成3部分,分别表示标注对的位置及可见性、局部特征和全局特征,最终将标注对在待解析图像上的局部特征和服装的全局特征两部分输出到全连接层7中融合,通过一个反卷积层将风格特征返回到SegNet网络中。

图 3 视觉风格网络
Fig. 3 Visual style network

视觉风格网络特征提取过程主要包括3个阶段。首先,在将服装图像输入到位置及可见性阶段中预测标注对的位置;然后,将标注对特征汇集到局部特征分支的局部特征池化层5中,这样消除衣服形变和遮挡对局部特征的影响;最后,将全局特征分支中的全连接层6的全局特征与局部特征分支中的全连接层6的局部特征在全连接层7中进行融合,得到视觉风格特征矩阵。

视觉风格网络有5个损失函数,以迭代的方式进行,在位置及可见性部分定义了标注点位置、标注点可见性损失函数,定义的属性预测损失、风格预测损失和三元组损失函数用于融合局部特征和全局特征。标注点的可见性可以纠正少数民族服装图像中真实标注点位置是否丢失,为后续局部特征提取提供位置信息,通过L2回归损失对标注点位置进行定位,具体为

$ {L_{\rm{w}}}{\rm{ = }}\sum\limits_{i = 1}^{\left| T \right|} {\left\| {{\mathit{\boldsymbol{v}}_i} \cdot \left({{{\hat \ell }_i} - {\ell _i}} \right)} \right\|_2^2} $ (1)

式中,T表示训练图像的数量,${{{\hat \ell }_i}}$表示第$i$幅图像正确标注点的位置,${{\ell _i}}$表示预测标注点的位置,${{\mathit{\boldsymbol{v}}_i}}$表示第$i$个训练图像中标注点的可见性向量,1表示可见,0表示不可见。

由于不同民族出现的语义标签不同,即便是同一区域的语义标签属性差距也较大。例如满族的头饰为大拉翅,而苗族的头饰为银冠。通过对语义标签属性的学习能够提升解析结果的准确率,因此属性预测损失函数采用交叉熵损失来定义,具体为

$ {L_{\rm{a}}} = \sum\limits_{i = 1}^{\left| T \right|} {\left({{\phi _{\rm{p}}} \cdot {\mathit{\boldsymbol{a}}_i}\ln \;p\left({{\mathit{\boldsymbol{a}}_i}|{\mathit{\boldsymbol{g}}_i}} \right) + {\phi _{\rm{n}}} \cdot \left({1 - {\mathit{\boldsymbol{a}}_i}} \right)\ln \left({1 - p\left({{\mathit{\boldsymbol{a}}_i}|{\mathit{\boldsymbol{g}}_i}} \right)} \right)} \right)} $ (2)

式中,${{\phi _{\rm{p}}}}$${{\phi _{\rm{n}}}}$是两个系数,分别由正样本和负样本训练图像数量的比率确定。属于同一个民族的图像定义为正样本,不是同一民族的图像定义为负样本,${{\mathit{\boldsymbol{g}}_i}}$表示第$i$幅图像,${{\mathit{\boldsymbol{a}}_i}}$表示第$i$幅图像对应的语义标签向量。

由于共有8个标注点,不同图像中出现的标注点的个数不同,且每个标注点的可见性也不同,因此通过softmax损失将标注点可见性损失函数定义为

$ {L_{\rm{v}}} = - \sum\limits_{j = 1}^K {{\mathit{\boldsymbol{y}}_j}\ln \;{p_{{v_j}}}} $ (3)

式中,${{\mathit{\boldsymbol{y}}_j}}$是一个1×K的向量,K是标注点的个数,${{p_{{v_j}}}}$是第$j$个标注点可见性概率。

不同民族风格存在差异,如藏族和满族的视觉风格不同,其对应的语义标签也不同。通过提取不同民族的视觉风格特征可获得更高的解析精度,因此采用多标签分类的softmax损失将风格预测损失函数定义为

$ {L_{\rm{s}}} = - \sum\limits_{j = 1}^{55} {{\mathit{\boldsymbol{w}}_j}\ln \;{s_i}} $ (4)

式中,${{\mathit{\boldsymbol{w}}_j}}$是一个1×55的向量,${{s_i}}$表示该图像属于第$i$个民族的风格特征概率。

为了学习标注对对服装局部区域的特征描述,使用三元组损失计算来增强服装图像中正负样本训练图像的距离约束,具体为

$ {L_{\rm{r}}} = \sum\limits_{i = 1}^{\left| T \right|} {\max \left\{ {0, m + d\left({{\mathit{\boldsymbol{g}}_i}, \mathit{\boldsymbol{g}}_i^ + } \right) - d\left({{\mathit{\boldsymbol{g}}_i}, \mathit{\boldsymbol{g}}_i^ - } \right)} \right\}} $ (5)

式中,$d$为距离函数,${{\mathit{\boldsymbol{g}}_i}}$表示第$i$幅训练图像,${\mathit{\boldsymbol{g}}_i^ + }$表示与${{\mathit{\boldsymbol{g}}_i}}$相似的图像,${\mathit{\boldsymbol{g}}_i^ - }$表示与${{\mathit{\boldsymbol{g}}_i}}$不相似的图像,$m$为边缘参数。

通过不断地迭代训练,以满族服装下装下摆标注对为例,首先以训练标注对的位置及可见性为主要任务,给LvLw分配的权重较大,以其他两个分支为辅助任务,得到其下摆标注对是否被遮挡和位置信息;然后预测服装的属性和风格,学习服装图像中标注对的交互关联性,通过标注对的位置和可见性,汇集学习局部特征,得到服装属性为旗袍;最终将得到的视觉风格特征返回到SegNet网络中去,在softmax层中关联像素与语义标签得到初步解析结果。

2.3 标签约束

通过视觉风格网络可以得到初步的解析结果,但是该结果的特征彼此之间关联性较弱,而且少数民族服装图像色块差异较大、纹理图案较多。例如,纳西族白色长裙上的黄色、蓝色色块仅通过概率预测,容易将色块标注为上衣和腰带。由于像素和标签的匹配存在误差,会造成标签标注混乱的问题。因此,本文受条件渐进网络(Su等,2019)的启发,通过构建标签向量减少冗余标签,简化复杂标签之间的相关性,抑制标签混乱造成的解析结果错误。

本文设计了一个标签约束网络,整体流程如图 4所示。首先通过一个标签映射函数将初步解析结果按照标签数量转换成标签向量,每个元素表示解析结果中是否存在相应的标签;然后与训练集中的真实语义标签进行对比,校正标签向量,可以抑制冗余标签概率得分,将图像级的标签作为约束项加在损失函数中。例如,初步解析结果将纳西族长裙上的色块误解析为上衣,通过标签映射,将初步解析结果的语义标签与训练图像中的真实语义标签对比,将其纠正为正确语义标签。初步解析结果图表示为N1=[N11, N21, …, NH1],其中H表示标签的数量,Nh1表示标签$h$的概率图。映射后,语义标签向量表示成yp=[y1p, y2p, ···, yHp],其中yhp表示标签$h$在服装图像中的概率。标签映射函数表示为Fc:N1yp,并且可以通过反向传播将约束损失从yp传输到N1,将Fc定义为

$ {\mathit{\boldsymbol{y}}^p} = \left[ {\max \left({\mathit{\boldsymbol{N}}_1^p} \right), \max \left({\mathit{\boldsymbol{N}}_2^p} \right), \cdots, \max\left({\mathit{\boldsymbol{N}}_H^p} \right)} \right] $ (6)

图 4 标签约束流程图
Fig. 4 Flowchart of label constraint

利用图像级的最大池化层来实现映射Fc,输入图像的维度为m×m,输出图像维度为H×m×m的3维矩阵。经过最大池化后,将输出结果映射为H×1的向量,向量中第$n$个元素表示标签$n$的最大概率,如果概率值接近1表示其对应的标签在图像中存在的置信度高。使用sigmod交叉熵来评估初步解析结果的语义标签和训练图像中真实的语义标签之间的差异。

损失函数定义为

$ {L_{\rm{c}}} = \mu {l_{\rm{p}}} + \eta {l_1} $ (7)

式中,${l_{\rm{p}}}$表示少数民族服装图像初步解析结果的损失,${l_1}$是标签损失,$ \mu $$\eta$是权重。${l_{\rm{p}}}$使用softmax交叉熵损失,定义为

$ {l_{\rm{p}}} = - \frac{1}{M}\sum\limits_i^M {\sum\limits_h^H {X\left({{y_i} = h} \right)} \ln \left({\frac{{{{\rm{e}}^{{p_{{\rm{ih}}}}}}}}{{\sum\limits_j {{{\rm{e}}^{{p_{{\rm{jh}}}}}}} }}} \right)} $

式中,$H$是标签的数量,$M$是图像中像素的数量,$X$为指示函数,${y_i}$表示第$i$个像素的语义标签,$j$是标签映射向量中标签元素的个数,${p_{{\rm{ih}}}}$表示语义标签$h$在第$i$个像素的概率。

对于标签的损失${l_1}$使用sigmoid交叉熵损失,定义为

$ {l_1} = - \frac{1}{H}\sum\limits_h^H {\left[ {y_h^p\ln \left({\frac{1}{{1 + {{\rm{e}}^{ - {r_h}}}}}} \right) + \left({1 - y_h^p} \right)\ln \left({\frac{{{{\rm{e}}^{ - {r_h}}}}}{{1 + {{\rm{e}}^{ - {r_h}}}}}} \right)} \right]} $

式中,${y_h^p}$表示训练图像中是否有标签$h$,如果有,${y_h^p}$为1,没有则为0;${{r_h}}$是标签$h$在初步解析结果中存在的概率。

3 实验结果和分析

3.1 实验数据集

实验选用Inter Core i9-9900K CPU@3.60 GHz、GPU 2080Ti、32 GB DDR4 2 666 MHz Ram的硬件平台以及MATLAB、PyCharm软件平台。

本文构建的少数民族服装图像数据集主要来源是淘宝、天猫和京东等在线购物网站,还从百度图片、博客、论坛等其他途径进行了补充和扩展,共收集了61 710幅图像,每个民族至少收集了500幅图像。不同民族的服装图像数量差异较大,其中蒙古族、回族、苗族和朝鲜族等民族服装图像较多,其原因在于不同民族的人口数量差异影响了服装的保留和传承,风格相近的民族服装被整合归并难以区分。例如,保安族人口相对较少,但服装风格与回族相似,所以在数据集中保安族的服装图像数量相对较少,而回族的服装图像数量较多。数据集中数量排名前10的民族服装分布如图 5所示。该数据集中大部分是女性,因为女性少数民族服装款式、配饰较为复杂,也包括少量男性和小孩,部分图像背景存在较大的场景差异。

图 5 前10种民族服装图像数量分布图
Fig. 5 Top 10 minority clothing image number distribution

本文将数据集的80%用于训练,训练集的图像使用LabelMe(Russell等,2008)工具对不同民族的训练图像按照上身服装、下身服装、配饰和其他标签进行了精细的语义标注,并在图像上设置标注对。不同民族服装的语义标签差异较大,其原因在于民族之间服装款式较为丰富。如包头、上衣、长裤等这种民族服装通用语义标签相对较多,而银项圈、大拉翅等民族语义标签出现较少且具有代表性。数据集中原始图像的5%用于验证,15%用于测试,所有图像大小都设置为360×480像素的分辨率,格式统一为jpg格式。

3.2 解析实验结果分析

3.2.1 有效性分析

在视觉风格网络中,要检测标注对的位置信息,从而汇集学习民族服装的局部特征。图 6显示了在不同阈值下不同标注点的检测准确率,该阈值指待解析图像中标注点位置到真实标注点位置的归一化距离。通过实验,当归一化距离等于0.1时,8个标注点的检测准确率都基本达到0.8,甚至高于0.8,当阈值继续增大,检测准确率趋于稳定。可以看出,对于衣领的检测率要高于袖子、上衣下摆和下装下摆,主要原因是衣领处于人体颈部,遮挡和形变较少,而其他标注对受人体关节影响,容易发生形变和遮挡。

图 6 不同标注对的检测准确率
Fig. 6 Detection accuracy of different label pairs

同时,本文进一步对比了有标注对和无标注对两种情况对民族风格特征检测的准确率,如图 7所示。可以看出,有标注对的情况对民族风格特征的检测准确率较高。

图 7 风格特征检测率的分析
Fig. 7 Analysis of style feature detection rate

图 8显示了风格预测损失函数在训练和测试过程中的部分迭代变化,共迭代200 000次,由于不同民族服装训练样本差异较大,曲线出现了明显振荡,最终趋于稳定拟合。

图 8 损失函数变化曲线
Fig. 8 Change curves of loss function
((a) changes in training loss; (b) changes in test loss)

图 9是标签约束网络训练过程中标签检测准确率随训练迭代次数的变化过程,迭代次数在10 000次之前,变化幅度较大,主要受特征提取的影响,迭代10 000次以后,变化幅度较小,准确率基本在0.8以上。

图 9 训练过程语义标签检测准确率
Fig. 9 Semantic label detection accuracy during training

3.2.2 解析实验结果

本文对少数民族服装图像进行解析,不仅能体现具有民族特色的语义特征,又能解决部分民族服装在初步解析结果中存在的误解析现象。图 10展示了阿昌族等10个民族的解析结果。阿昌族的银泡、白族的风花雪月帽、满族的大拉翅和花盆底鞋等均具有一定的民族特色,选取实例中其他民族服装的初步解析结果均存在一定的误解析,通过标签约束能够获得优化后的解析结果。其中,SegNet+视觉风格是通过解析网络对少数民族服装图像的初步解析结果。可以看出,由于少数民族服装中色块差异较大且语义标签复杂,如傣族和纳西族服装上的纹理色块会导致语义标签之间相互干扰,使得解析结果不准确。为了克服这个问题,本文方法构建了标签约束网络,由SegNet+视觉风格+标签约束的实验结果可以看出,该方法能够有效改进初步解析结果。

图 10 解析结果实例
Fig. 10 Examples for parsing results

本文使用像素准确度、平均精度、平均召回率和平均F1分数来衡量少数民族服装解析的性能,表 3给出了本文方法与Yamaguchi等人(2012)、PaperDoll(Yamaguchi等,2014)、Khurana等人(2018)、M-CNN(Liu等,2015)、ATR(Liang等,2015a)和Co-CNN(Liang等,2015b)等6种方法的性能比较。与Yamaguchi等人(2012)提出的方法相比,本文使用的基础全卷积网络SegNet(Badrinarayanan等,2017)的像素准确度提升了3.8%,说明视觉风格网络可以明显改善少数民族服装图像解析实验结果的像素准确度。通过与Khurana等人(2018)、M-CNN(Liu等,2015)、ATR(Liang等,2015a)和Co-CNN(Liang等,2015b)等深度学习模型进行对比,验证了本文将视觉风格网络和标签约束网络相结合的方法能有效提升解析性能。

表 3 解析方法性能比较
Table 3 Performance comparison of parsing methods  

下载CSV
/%
方法 像素准确度 平均精度 平均召回率 平均F1分数
Yamaguchi等人(2012) 82.54 37.56 50.95 42.03
Paper Doll(Yamaguchi等,2014) 84.68 52.57 49.86 45.13
Khurana等人(2018) 86.53 64.73 63.53 62.81
M-CNN(Liu等,2015) 89.53 65.08 65.37 63.16
ATR(Liang等,2015a) 90.11 72.63 61.33 64.78
Co-CNN(Liang等,2015b) 90.02 84.63 77.68 80.09
SegNet(Badrinarayanan等,2017) 86.34 65.03 52.57 48.34
SegNet+视觉风格 88.68 66.52 64.84 68.49
SegNet+视觉风格+标签约束(本文) 90.54 83.72 79.97 81.23
注:加粗字体表示各列最优结果。

整个深度神经网络的时间复杂度为O($\sum\limits_{n = 1}^N {M_n^2 \cdot K_n^2 \cdot {C_{n - 1}} \cdot {C_n}} $),其中N是整个网络的深度,即卷积层数,$n$表示第$n$个卷积层,Mn2表示第$n$个卷积核输出的特征图面积,Kn2表示第$n$个卷积核面积,Cn表示第$n$个卷积层的输出通道数。由于时间复杂度受网络深度的影响较大,因此根据卷积层层数按高、中、低对时间复杂度进行衡量评价,大于30层为高,10~30层为中,小于10层为低。表 4给出了本文方法与对比的深度学习方法的时间复杂度对比。Khurana等人(2018)的网络框架以全卷积网络(fully convolutional networks,FCN)为基础,共19个卷积层;M-CNN(Liu等,2015)的卷积层层数受语义标签数影响,导致时间复杂度较高;ATR(Liang等,2015a)中主动模板网络和主动形状网络各有5个卷积层;Co-CNN(Liang等,2015b)共19个卷积层。本文方法共28个卷积层,相较于其他典型网络算法,本文在获得精度更好的解析结果下,具有相对较好的时间复杂度。

表 4 解析方法的时间复杂度比较
Table 4 Comparison of time complexity of parsing methods

下载CSV
方法 卷积层数 时间复杂度
Khurana等人(2018) 19
M-CNN(Liu等,2015) 14×N
ATR(Liang等,2015a) 10
Co-CNN(Liang等,2015b) 19
SegNet+视觉风格+标签约束(本文) 28
注:加粗字体表示最优结果,N为标签数。

图 11比较了Khurana等人(2018)的方法和本文方法对部分特色少数民族服装款式的F1分数。本文方法在对蒙古袍、旗袍和筒裙这一类大标签上解析效果提升明显,尤其是在图案纹理和色块差异较大的裙子上,本文方法通过标签约束可以有效消除错误干扰标签,对解析帽子、项圈等配饰类的小标签上,本文方法也有所提升。

图 11 特色民族服装款式F1分数
Fig. 11 F1 score of representative minority clothing styles

本文还对比了标签约束网络对解析结果的影响,如表 5所示。可以看出,运用标签约束的解析结果能够有效解决标签之间相互干扰的问题,抑制冗余标签,使得像素准确度和交并比(intersection over union,IoU)的效果更好,对服装区域的解析更加准确。

表 5 标签约束网络对解析结果的影响
Table 5 Impact of label constraint network on parsing results

下载CSV
方法 像素准确度/% IoU/%
初步解析结果 88.68 36.87
标签约束结果 90.54 42.40
注:加粗字体表示各列最优结果。

4 结论

本文首先通过定义少数民族服装的通用语义标签和民族语义标签,设置标注对,解决了目前民族服装语义标签缺少且互相干扰的问题。然后分别构建视觉风格网络和标签约束网络,实现了融合局部特征和全局特征,并能有效抑制冗余标签。最后将本文提出的融合视觉风格和标签约束的少数民族服装图像解析方法在构建的图像数据集上进行实验。实验结果表明,本文方法能够提高少数民族服装图像解析的平均精度,准确率达到90.54%。

虽然本文方法能够较准确地对少数民族服装图像进行解析,但对部分服装解析结果效果不理想,尤其对小件配饰等解析精度较低,民族服装语义标签还不够完善和精细。此外,当服饰图像存在侧面、遮挡和民族特征信息不全等现象时,需要提高算法的识别度。本文后续工作将着重围绕这些问题深入展开,继续完善数据集,细化不同民族分支的数据和特征,同时加强对民族语义特征的学习,从语义理解等方面进一步提高少数民族服装解析的准确率。

参考文献

  • Badrinarayanan V, Kendall A, Cipolla R. 2017. Segnet: a deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2481-2495 [DOI:10.1109/TPAMI.2016.2644615]
  • Guo J M, Su Z, Luo X H, Zhang G W and Liang X W. 2018. Conditional feature coupling network for multi-persons clothing parsing//Proceedings of the 19th Pacific-Rim Conference on Multimedia. Hefei, China: Springer: 189-200[DOI:10.1007/978-3-030-00776-8_18]
  • Hidayati S C, You C W, Cheng W H, Hua K L. 2018. Learning and recognition of clothing genres from full-body images. IEEE Transactions on Cybernetics, 48(5): 1647-1659 [DOI:10.1109/TCYB.2017.2712634]
  • Huo P, Wang Y H and Liu Q J. 2016. A part-based and feature fusion method for clothing classification//Proceedings of the 17th Pacific-Rim Conference on Multimedia. Xi'an, China: Springer: 231-241[DOI:10.1007/978-3-319-48890-5_23]
  • Jammalamadaka N, Minocha A, Singh D and Jawahar C V. 2013. Parsing clothes in unrestricted images//Proceedings of British Machine Vision Conference. Bristol, UK: BMVA Press: #88[DOI:10.5244/C.27.88]
  • Ji J and Yang R Y. 2017. An improved clothing parsing method emphasizing the clothing with complex texture//Proceedings of the 18th Pacific-Rim Conference on Multimedia. Harbin, China: Springer: 487-496[DOI:10.1007/978-3-319-77380-3_46]
  • Ji W, Li X, Zhuang Y T, El Farouk Bourahla O, Ji Y X, Li S H and Cui J B. 2018. Semantic locality-aware deformable network for clothing segmentation//Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm, Sweden: IJCAI: 764-770[DOI:10.24963/ijcai.2018/106]
  • Khurana T, Mahajan K, Arora C and Rai A. 2018. Exploiting texture cues for clothing parsing in fashion images//Proceedings of the 25th IEEE International Conference on Image Processing. Athens, Greece: IEEE: 2102-2106[DOI:10.1109/ICIP.2018.8451281]
  • Kiapour M H, Yamaguchi K, Berg A C and Berg T L. 2014. Hipster wars: discovering elements of fashion styles//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 472-488[DOI:10.1007/978-3-319-10590-1_31]
  • Liang X D, Lin L, Yang W, Luo P, Huang J S, Yan S C. 2016a. Clothes co-parsing via joint image segmentation and labeling with application to clothing retrieval. IEEE Transactions on Multimedia, 18(6): 1175-1186 [DOI:10.1109/TMM.2016.2542983]
  • Liang X D, Liu S, Shen X H, Yang J C, Liu L Q, Dong J, Lin L, Yan S C. 2015a. Deep human parsing with active template regression. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(12): 2402-2414 [DOI:10.1109/TPAMI.2015.2408360]
  • Liang X D, Shen X H, Feng J S, Lin L and Yan S C. 2016b. Semantic object parsing with graph LSTM//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 125-143[DOI:10.1007/978-3-319-46448-0_8]
  • Liang X D, Xu C Y, Shen X H, Yang J C, Tang J H, Lin L and Yan S C. 2015b. Human parsing with contextualized convolutional neural network//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1386-1394[DOI:10.1109/ICCV.2015.163]
  • Liu S, Liang X D, Liu L Q, Shen X H, Yang J C, Xu C S, Lin L, Cao X C and Yan S C. 2015. Matching-CNN meets KNN: quasi-parametric human parsing//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 1419-1427[DOI:10.1109/CVPR.2015.7298748]
  • Liu Z W, Luo P, Qiu S, Wang X G and Tang X O. 2016. DeepFashion: powering robust clothes recognition and retrieval with rich annotations//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 1096-1104[DOI:10.1109/CVPR.2016.124]
  • Russell B C, Torralba A, Murphy K P, Freeman W T. 2008. LabelMe: a database and web-based tool for image annotation. International Journal of Computer Vision, 77(1/3): 157-173 [DOI:10.1007/s11263-007-0090-8]
  • Simo-Serra E, Fidler S, Moreno-Noguer F and Urtasun R. 2014. A high performance CRF model for clothes parsing//Proceedings of the 12th Asian Conference on Computer Vision. Singapore, Singapore: Springer: 64-81[DOI:10.1007/978-3-319-16811-1_5]
  • Simo-Serra E and Ishikawa H. 2016. Fashion style in 128 floats: joint ranking and classification using weak data for feature extraction//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 298-307[DOI:10.1109/CVPR.2016.39]
  • Su Z, Guo J M, Zhang G W, Luo X H, Wang R M, Zhou F. 2019. Conditional progressive network for clothing parsing. IET Image Processing, 13(4): 556-565 [DOI:10.1049/iet-ipr.2018.5494]
  • Vaccaro K, Shivakumar S, Ding Z Q, Karahalios K and Kumar R. 2016. The elements of fashion style//Proceedings of the 29th Annual Symposium on User Interface Software and Technology. Tokyo, Japan, ACM: 777-785[DOI:10.1145/2984511.2984573]
  • Vittayakorn S, Umeda T, Murasaki K, Sudo K, Okatani T and Yamaguchi K. 2016. Automatic attribute discovery with neural activations//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer: 252-268[DOI:10.1007/978-3-319-46493-0_16]
  • Wu S M, Liu L, Fu X D, Liu L J, Huang Q S. 2019. Human detection and multi-task learning for minority clothing recognition. Journal of Image and Graphics, 24(4): 562-572 (吴圣美, 刘骊, 付晓东, 刘利军, 黄青松. 2019. 结合人体检测和多任务学习的少数民族服装识别. 中国图象图形学报, 24(4): 562-572) [DOI:10.11834/jig.180500]
  • Yamaguchi K, Kiapour M H and Berg T L. 2014. Paper doll parsing: retrieving similar styles to parse clothing items//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE: 3519-3526[DOI:10.1109/ICCV.2013.437]
  • Yamaguchi K, Kiapour M H, Ortiz L E and Berg T L. 2012. Parsing clothing in fashion photographs//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE: 3570-3577[DOI:10.1109/CVPR.2012.6248101]
  • Yamaguchi K, Okatani T, Sudo K, Murasaki K and Taniguchi Y. 2015. Mix and match: joint model for clothing and attribute recognition//Proceedings of British Machine Vision Conference (BMVC). Swansea, UK: BMVA Press: 51.1-51.12[DOI:10.5244/C.29.51]
  • Zheng Q, Chen J, Liang C, Fang W H, Jing X Y and Hu R M. 2017. Transferring clothing parsing from fashion dataset to surveillance//Proceedings of 2017 IEEE International Conference on Acoustics, Speech and Signal Processing. New Orleans, USA: IEEE: 1667-1671[DOI:10.1109/ICASSP.2017.7952440]
  • Zhong M L, Fan P. 2006. Chinese Minority Costumes. Beijing: China Textile Press (钟茂兰, 范朴. 2006. 中国少数民族服饰. 北京: 中国纺织出版社)