发布时间: 2019-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180500
2019 | Volume 24 | Number 4

图像分析和识别

结合人体检测和多任务学习的少数民族服装识别

吴圣美¹, 刘骊^1,2, 付晓东^1,2, 刘利军¹, 黄青松^1,2

1. 昆明理工大学信息工程与自动化学院, 昆明 650500;

2. 云南省计算机技术应用重点实验室, 昆明 650050

收稿日期: 2018-08-22; 修回日期: 2018-10-14

基金项目: 国家自然科学基金项目（61862036，61462051，61462056，81560296）；云南省应用研究基础计划面上项目（2017FB097）

第一作者简介: 吴圣美, 1992年生, 女, 硕士研究生, 主要研究方向为图形图像处理。E-mail:2415256921@qq.com;
付晓东, 男, 博士, 教授, 硕士生导师, 主要研究方向为服务计算、决策理论与方法。E-mail:xiaodong_fu@hotmail.com;
刘利军, 男, 硕士, 讲师, 主要研究方向为图像处理、云计算、信息检索。E-mail:cloneiq@126.com;
黄青松, 男, 硕士, 教授, 硕士生导师, 主要研究方向为机器学习、数据挖掘、智能信息系统。E-mail:1912443688@qq.com.

中图法分类号: TP301.6

文献标识码: A

文章编号: 1006-8961(2019)04-0562-11

摘要

目的少数民族服装色彩及样式种类繁多等因素导致少数民族服装图像识别率较低。以云南少数民族服装为例，提出一种结合人体检测和多任务学习的少数民族服装识别方法。方法首先通过$k$-poselets对输入的待识别图像和少数民族服装图像集中的训练图像进行人体整体和局部检测以及关键点的预测；其次，根据检测结果，从待识别图像和训练图像中分别提取颜色直方图、HOG（histogram of oriented gradient）、LBP（local binary pattern）、SIFT（scale invariant feature transform）以及边缘算子5种底层特征；然后，将自定义的少数民族服装语义属性与提取的底层特征进行匹配，采用多任务学习训练分类器模型，以学习少数民族服装的不同风格；最后实现少数民族服装图像的识别并输出识别结果。另外，由于目前缺少大型的少数民族服装数据集，本文构建了一个云南少数民族服装图像集。结果在构建的云南少数民族服装图像集上验证了本文方法，识别精度达到82.5%~88.4%，并与单任务学习方法进行比较，本文方法识别率更高。结论针对现有的少数民族服装识别率较低的问题，提出一种结合人体检测和多任务学习的少数民族服装识别方法，提高了少数民族服装图像识别的准确率和效率，同时能较好地满足实际应用需求。

关键词

少数民族服装; 图像识别; 人体检测; 语义属性; 多任务学习

Human detection and multi-task learning for minority clothing recognition

Wu Shengmei¹, Liu Li^1,2, Fu Xiaodong^1,2, Liu Lijun¹, Huang Qingsong^1,2

1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China;

2. Computer Technology Application Key Laboratory of Yunnan Province, Kunming 650500, China

Supported by: National Natural Science Foundation of China (61862036, 61462051, 61462056, 81560296); Applied Fundamental Research Project of Yunnan Province, China (2017FB097)

Abstract

Objective In view of the increasing number and diversity of minority clothing in the domains of multimedia, digital clothing, graphics, and images, understanding and recognizing minority clothing images automatically is essential. However, most previous works have used low-level features directly for classification and recognition, there by lacking local feature analysis and semantic annotation of clothing. The diversity of clothing colors and styles results in low recognition accuracy of minority clothing. Therefore, a minority clothing recognition method based on human detection and multitask learning was proposed for Yunnan minority clothing. Method The main idea of this work is to propose the $k$-poselets detection method to detect minority clothing image and define the semantic attributes of the low-level features of minority clothing matching. Moreover, the multi-task learning method is also applied to improve the accuracy of recognition of minority clothing images. First, the $k$-poselets approach was used to perform global and local human detection and key point predictions using a minority clothing dataset. Second, five types of low-level feature, including color histogram, HOG (histogram of oriented gradient), LBP(local binary pattern), SIFT(scale invariant feature transform), and edge, of the identifying and training image were extracted. Then, semantic attributes were defined to match the five low-level features, and a multitask learning classifier model was trained to obtain different styles of minority clothing. Finally, the recognition results of minority clothing were realized and outputted. Given the lack of minority clothing dataset, we also constructed a minority clothing dataset of Yunnan, including 25 minority clothing, which were collected mainly from online stores including Taobao, Tmall, Jingdong, and other platforms. Each ethnic group had 1 000 maps with a total of 25 000 images. The size of each image was set to 500×500 pixels, and different ethnic groups were classified and numbered. The background of the image was appropriately processed using.jpg format. Result The proposed method is validated on the dataset of Yunnan minority clothing. Results show that the human detection method not only achieves greater precise recall rate but also remarkably outperforms the DPM and the traditional poselet detection in the task of human prediction. At the same time, in comparison with the current detection method that uses the features extracted by the convolutional neural network, the experimental results are acceptable and demonstrate the effectiveness of the proposed approach. Moreover, the recognition accuracy of minority clothing images can reach 82.5%~88.4%. The proposed method has higher recognition rate than the single-task learning method. Conclusion Faced with a wide variety of colors and styles of minority clothing, the recognition rate of minority clothing is low. Thus, a minority clothing identification method based on human detection and multitask learning is proposed to improve the accuracy and efficiency of minority clothing image recognition for excellent practical applications. The research results can be used for the digital analysis, understanding, and identification of Chinese minority clothing, as well as provide an effective digital tool for recording, inheriting, and protecting the national culture and promote the development of tourism, economy, and culture in ethnic areas. Although the method has certain limitations, it can provide a clear direction for future research. We only consider major attributes and limited set of training images for detection, feature extraction, and classification. The diversity of human posture and occlusion issue can affect the recognition accuracy of minority clothing images. Furthermore, our current work focuses on the dataset with 25 minorities of Yunnan. In future works, we aim to extend our method to more applications and address the limitations in the current method. Further investigations and analysis are required for extreme situations, such as clothing accessories for minorities.

Key words

minority clothing; image recognition; human detection; semantic attributes; multi-task learning

0 引言

随着少数民族服装数字化的迅速发展，如何通过计算机对规模急剧增长的少数民族服装图像进行自动分析和识别，不仅已日趋成为研究热点，而且对了解、认识、弘扬和传承民族文化，并将民族元素融入现代时尚中起着重要的作用。区别于通用服装，少数民族服装具有以下特点：1)颜色较鲜艳、色调层次明显，色块间的对比和反差较大；2)款式较为简单，大体有长袍和短衣两种；3)服装局部包含很多细节属性，且局部图案纹样更具民族特色。

目前在服装识别领域，大多数方法直接采用底层特征进行分类和识别，对服装的局部特征分析以及语义标注较少^[1-2]。由于不同设计的服装形状、款式、风格变化多样，同一形状、款式、风格下的服装由于面料、纹理、颜色、褶皱细节等不同，展现出的视觉效果也不同。其中，虽然形状、纹理、图案、颜色等视觉特征可以量化表示，但是高层的视觉语义与低层几何特征之间存在着“语义鸿沟”，因此难以描述和抽象服装的款式和风格等特征。近期，研究者们提出结合服装语义属性来提高识别效果^[3-4]，这些方法虽然考虑了属性和对象间的关系，但都是针对通用服装图像。而少数民族服装图像特征较多且复杂，服装色彩及样式种类繁多，需提取全局特征和分析局部细节。此外，针对少数民族服装的这些属性，还需添加特定的语义标签以提高识别率。

利用属性进行识别的方法大都采用单任务学习，近期，Chen等人^[5]提出了一种多属性学习的框架，在属性之间建立了关联模型。由于少数民族服装的语义属性关联性强，仅仅直接使用底层特征和单属性学习进行服装识别，会导致视觉特征利用率低、识别不准确的问题。加之目前很难找到适合少数民族服装图像的识别方法, 因此，针对以上问题，本文构建了包含云南25个少数民族的服装数据集，将不同的民族服装款式定义为“民族风格(minority style)”。进而，提出了基于语义属性和多任务学习的少数民族服装识别方法。

本文方法流程如图 1所示。首先对输入的待识别和训练图像进行人体检测；其次，分别提取检测后图像的颜色直方图、HOG、LBP、SIFT以及边缘算子5种底层特征；然后，自定义能够描述少数民族服装风格的语义属性，采用多任务学习训练分类器；最后得到云南少数民族服装图像的识别结果。

图 1 少数民族服装识别的流程图

Fig. 1 The whole framework of minority clothing recognition

本文的主要工作总结如下:

1)提出一种基于$k$-poselets可变形部件模型的人体检测方法，对输入的少数民族服装的待识别图像和训练图像进行人体检测，实现人体的全局、局部检测和关键点预测。既避免了人体姿势和不同视角的影响，又提高了服装检测的效果。

2) 定义能够描述不同少数民族风格，并与提取到的颜色直方图、HOG、LBP、SIFT以及边缘算子5种底层特征相关联的语义属性，以学习不同的民族服装风格，提高了后续识别的准确率。

3) 采用多任务模型学习少数民族服装的不同风格，并训练多个支持向量机(SVM)分类器，以更好地利用特征之间的关联来减少高维度小样本的过度学习问题，提高了少数民族服装图像的识别效率。

4) 针对网上的少数民族服装图像资源较少，很多都是损坏后的甚至加有特定水印，且收集的途径有限等问题，构建了1个包含25种少数民族的服装图像数据集。由于该数据集中图像存在较大的场景差异，本文手动标注了13个与民族服装风格和款式有关的语义属性。

1 相关工作

检测人体服装区域是服装识别至关重要的预处理。早期的服装图像检测方法主要通过人体检测实现的。基于零件的模型对于遮挡情况下的检测效率和鲁棒性有较高的性能^[6-7]，但由于人体姿态变化和复杂背景的影响导致检测不准确。为了改善检测效果，Felzenszwalb等人^[8]提出了DPM (deformable parts model)，该模型已用于服装属性识别、服装样式检索和人类职业预测等应用中。然而，Divvala等人^[10-11]和Parikh等人^[12]认为由于DPM模型每个成分在不同数据下分别训练，从而影响了检测效果，需要提高对人体部位检测的准确性并需考虑非极大值抑制和场景信息对检测结果的影响。鉴于此，Bourdev等人^{[9, 13]}提出了poselets方法，该方法和DPM模型都是将服装区域分成几个部分，并提取典型的形状、颜色和纹理特征来表示服装信息。但poselets方法是将目标物体看做各个不同部位，分别对独立poselet进行检测，然后将同一目标物体的各个poselets聚类形成假设目标，但是对于区分度较小的poselets会在聚类时发生错误，从而导致人体检测效果不够理想。为了更准确地对输入的待识别图像和训练图像中的人体进行全局和局部检测，本文受DPM和poselets方法的启发，采用$k$-poselets($k$>1)可变形部件模型分别对少数民族服装人体的各个独立的poselet进行检测，既克服了单独采用poselets方法的缺点，又避免了人体姿势和不同视角的影响，具有较好的准确性和适应性，能较好地应用于后续少数民族服装识别中。

近年来针对服装图像的研究主要集中于解决服装的识别和检索问题^[14-16]，如在给出查询的情况下检索相似的服装图像, 以实现“以图搜图”；此外还有对监控视频中的服装进行解析和识别。Hidayati等人^[17]提出了一种基于视觉上可区分的服装设计元素以自动分类出不同服装风格的方法，对每个样式元素制定可计算的变量。Shen等人^[18]提出根据人体部位与服装属性之间存在的相关性，通过姿势估计来提高服装的识别性能。Bossard等人^[19]提出一套完整的识别自然场景中服装的流程，用一个上身检测器检测服装，然后采用随机森林和SVM对服装图像进行分类。Chen等人^[20]提出用语义属性描述服装外观，结合姿势自适应的方式提取低级特征，通过条件随机场探索属性之间的相互依赖性，建立服装风格规则。Di等人^[21]提出一个细粒度的学习模型和多媒体检索框架，在新的细粒度服装数据集上获得人体注释，同时建立属性词汇表以实现服装款式的细粒度视觉识别。而且目前大多数学习方法都是采用单任务模型单独学习每个属性，而不考虑属性之间的内在关联性。本文受文献[20]所提方法和文献[5]采用多任务学习框架进行属性标签预测方法的启发，自定义了包含全局和局部细节的语义属性。但与前者方法不同的是本文侧重针对少数民族服装的风格及款式定义语义属性，并将语义属性更好地与提取到的底层特征进行关联匹配，进一步提高少数民族服装图像的识别准确率。同时，本文针对少数民族服装不同的风格，采用多任务模型来学习少数民族服装的语义属性和底层特征之间的关系，以满足后续对少数民族服装图像的识别效率。

综上所述，本文提出结合人体检测和多任务学习的少数民族服装识别方法，采用改进的poselets检测方法对服装进行检测，并定义了与底层特征匹配的少数民族服装的语义属性，将多任务学习方法应用于少数民族服装图像识别中。

2 人体检测

由于少数民族服装图像识别受到人体姿势、视角以及遮挡的影响，因此人体检测是少数民族服装图像识别的重要步骤。$k$-poselets是具有$k$个部件的可变形部件模型(DPM)^[9]，能有效定位服装图像中的身体部位，以确定服装的位置，从而实现人体的整体、局部检测以及关键点姿态估计。首先搜集少数民族服装图像的$k$-poselets，用权向量表示每个$k$-poselets并进行训练，采用$k$-poselets($k$>1)可变形部件模型分别对各个独立的poselet进行检测，再聚类形成人体部位假设并进行关键点预测。$k$个检测框主要包含人体上身、下身躯干以及人体可见范围。

本文提出的人体检测的具体步骤如下：

1) 训练$k$-poselets。首先用权向量$\mathit{\boldsymbol{\omega }} = \left( {{\mathit{\boldsymbol{M}}_0}, \cdots, {\mathit{\boldsymbol{M}}_{k - 1}}, {d_1}, \cdots, {d_{k - 1}}, b} \right)$描述输入的待识别图像$\mathit{\boldsymbol{G}}$和云南少数民族服装图像库$\mathit{\boldsymbol{T}}\left( {{T_1}, {T_2}, \cdots, {T_n}} \right)$中的训练图像$T$的每个$k$-poselets，其中，${\mathit{\boldsymbol{M}}_i}$是外观模板，${d_i}$是$k$-poselets的第$i$个姿态的空间变形模型，$b$是偏差。训练检测模型时，通过收集到的补丁和随机负样本补丁构建HOG特征^[22]并训练线性SVM分类器。

使用$k$个单独的HOG模板模拟每个部分的外观模型，分别对各个独立的poselets进行人体检测，并从训练数据中的poselets位置和尺度的平均位置进行关键点预测。用平均最大精度(AMP)衡量一个$k$-poselets集$\mathit{\boldsymbol{C}}$是否实现高精度和高覆盖率

$ {f_{{\rm{AMP}}}}\left( \mathit{\boldsymbol{C}} \right) = \frac{1}{N}\sum\limits_{n = 1}^N {\mathop {\min }\limits_{c \in \mathit{\boldsymbol{C}}} pre{c_c}\left( {{s_{n, c}}} \right)} $

(1)

式中，$N$是实例的总数，$pre{c_c}\left( {{s_{n,c}}} \right)$是检测器$c$在${{S_{n, c}}}$处的精确度，${{S_{n, c}}}$是实例$n$中检测器$c$的最大分值，使用贪婪向前选择法来最大化近似该函数，从一个空的$\mathit{\boldsymbol{C}}$开始，直到选择固定数目的$k$-poselets检测器。$k$-poselets放置的分数可以分解成各个模板在其特定位置的分数、变形成本和偏差。其得分计算为

$ \begin{array}{l} {f_{{\rm{score}}}}\left( l \right) = \sum\limits_{i = 0}^{k - 1} {{\mathit{\boldsymbol{M}}_i} \cdot \mathit{\boldsymbol{F}}\left( {{p_i}} \right)} - \\ \;\;\;\;\sum\limits_{i = 1}^{k - 1} {{d_i} \cdot {\psi _d}\left( {\delta {x_i}, \delta {y_i}} \right) + b} \end{array} $

(2)

式中，${\mathit{\boldsymbol{F}}\left( {{p_i}} \right)}$是在位置${{p_i}}$处提取的外观特征，$\left( {\delta {x_i}, \delta {y_i}} \right) = \left( {\frac{{{x_i} - {x_0}}}{{{\sigma _0}}}, \frac{{{y_i} - {y_0}}}{{{\sigma _0}}}} \right) - {v_i}$是来自锚点${v_i}$的尺度标准化的空间位移。${\psi _d}\left( {\delta {x_i}, \delta {y_i}} \right) = \left( {\delta {x_i}, \delta {y_i}, {\delta ^2}{x_i}, {\delta ^2}{y_i}} \right)$是变形特征。

2) 检测与聚类。首先初始化人体假设对应的一组集群$\mathit{\boldsymbol{K}} = \left\{ \varepsilon \right\}$。其次，优化函数${k_j} = \arg \mathop {\min }\limits_{{k_j} \in \mathit{\boldsymbol{M}}} d\left( {{a_i}, {k_j}} \right)$找到最近的群集，其中，连续采取最高得分${Q_i}$的poselets激活${a_i}$到簇${k_j}$的距离$d$通过平均关联估计获得。当$d\left( {{a_i}, {k_j}} \right) < \tau $，$\tau$为训练集上从不一致的激活之间距离中最佳分离出一致激活之间距离的阈值，且${k_j} \leftarrow merge\left( {{k_j}, {a_i}} \right)$，则将$i$合并到现有的簇中。此外，如果$\left| \mathit{\boldsymbol{K}} \right| < t, \mathit{\boldsymbol{K}} \leftarrow \left\{ {\mathit{\boldsymbol{K}} \cup {a_i}} \right\}$，参数$t$是速度和误报率之间的权衡，那么则形成一个新的簇。最后将poselets激活分组成每个对应于人体假设的簇。此外，与任何聚类不一致的低分数poselets被标记为误报并被丢弃。

3) 关键点预测。采用关键点度量的平均精度(APK)^[23]进行关键点预测，将检测和姿势估计结合到单任务中。APK通过计算所有预测中每个关键点的精度—召回曲线来测量预测关键点的正确性。预测关键点位置时，由于不同的$k$-poselets具有不同的置信度，将式(2)的$k$-poselets分数映射到关键点检测中，最终实现人体的整体、局部检测以及关键点预测，得到检测后的服装图像。

3 服装识别

本文分别提取检测后图像各自的颜色直方图、HOG、LBP、SIFT以及边缘算子5种底层特征，并自定义了与底层特征相关联的少数民族服装语义属性，采用多任务学习实现服装识别。

3.1 语义属性

为了更好地区别不同民族服装风格, 提高后续识别的准确率，本文根据少数民族服装结构设计的知识^[24]，将少数民族服装分为上身、下身和全身部分，主要包括：上身款式11种，下身款式8种，全身款式3种，见表 1。

表 1 云南少数民族服装款式类型表
Table 1 The style of minority clothing in Yunnan

下载CSV

区域	款式类型	数量
上身	短上衣、马褂、背心、开衫、短衫、长衫、披肩、常规、黑色丝绒、皮坎肩、布坎肩	11
下身	长裙、短裙、统裙、百褶裙、统裤、短裤、大裤、大裆裤	8
全局	长袍、开衩长衣、开衩袍褂	3

同时，将不同的民族服装款式视为“民族风格(minority style)”，通过自定义与之对应的语义属性，来提高识别率。上身区域定义了领型、衣襟、袖型、袖长、衣长、围裙、腰带7个语义属性，下身区域有长度、裤型和裙型3个语义属性，全身有颜色、材质、图案3个语义属性。如图 2所示，对检测后的训练图像进行了语义标注。定义的语义属性及其对应的特征匹配如表 2所示，针对不同款式属性提取关联的底层特征。其中上衣考虑到服装的边缘形状，领子的边缘形状、花纹、刺绣，衣襟的大小，袖子的长短、花纹、褶皱等，所以对应提取的底层特征主要为HOG、边缘算子。针对各个民族的围裙和腰带上颜色和花纹等区别性较大，所以对应提取的底层特征主要为颜色直方图和HOG特征。而下身主要考虑服装的边缘形状、长度、褶皱类型等，所以对应提取的主要底层特征是边缘算子、HOG特征。全身款式考虑到服装的颜色、材质、图案，所以对应提取的底层特征主要为颜色直方图、LBP特征、SIFT特征。

图 2 民族服装语义属性标注示例图

Fig. 2 The examples of semantic attribute annotation

((a) Dai nationality; (b) Bai nationality; (c) Wa nationality)

表 2 云南少数民族服装语义属性及对应的特征匹配
Table 2 The semantic attributes of minority clothing in Yunnan

下载CSV

区域	属性	属性类型	匹配特征
上身	领型	高领、短领、圆领、无领、V领、立领、大领、敞领口、花边领、布条镶边领	HOG、边缘算子特征
	衣襟	敞襟、对襟、中襟、立襟、偏襟、大襟	HOG、边缘算子特征
	袖型	宽袖、窄袖	HOG、
	袖长	长袖、短袖、中袖、无袖	边缘算子特征
	衣长	短衣、长衣、中长衣	HOG、边缘算子特征
	围裙	百褶围裙、方格围裙、绣花围裙、彩色围裙、羊毛花围裙	HOG、颜色直方图特征
	腰带	百褶带、宽带、绣花带、条形带、彩色带	HOG、颜色直方图特征
下身	长度	长、中、短	HOG、边缘算子特征
	裤型	宽松、紧身、扎腿、开衩、百褶	HOG、边缘算子特征
	裙型	宽松、紧身、百褶、开衩	HOG、边缘算子特征
全局	颜色	红、橙、黄、绿、青、蓝、紫、白、黑、深蓝、浅色、灰、绊色、天蓝色、藏青色	颜色直方图特征
	材料	毛棉丝、麻布、土布、丝绸乔其纱、的确良、棉布、缎子、绸缎子、细麻布	LBP特征
	图案	几何形纹、动物、植物、水波、火焰、编织纹、地毯、蜡染、刺绣、自然景物、吉祥图案、织锦、竖条、横条、挑花、鸟虫鱼、蝴蝶、蜜蜂、七星	SIFT特征

3.2 多任务学习

针对定义少数民族服装语义属性与底层特征之间的关联性，本文采用多任务学习模型学习不同民族服装风格^[25]。

以白族服装为例，将躯干区域视为多任务学习。设定多任务$\mathit{\boldsymbol{S = }}\left\{ {{\mathit{\boldsymbol{S}}_1}, {\mathit{\boldsymbol{S}}_2}, \cdots, {\mathit{\boldsymbol{S}}_p}} \right\}$，其中，$\mathit{\boldsymbol{S}}$表示任务，即该少数民族服装的一个区域(例如上身脖子、肩膀、胳膊、腰部区域，下身区域，全局区域)对应一个任务。${\mathit{\boldsymbol{S}}_i}$表示其中一个任务，${\mathit{\boldsymbol{S}}_i} = {\left[{{\mathit{\boldsymbol{A}}^{\left( i \right)}}, \cdots, {\mathit{\boldsymbol{A}}^{\left( {{k_i}} \right)}}} \right]^{\rm{T}}} \in {{\bf{R}}^{N \times M}}, N = \sum\limits_{i = 1}^n {{N_i}} $为所有训练的白族服装图像样本数量。假设$k$为表 2中对应的少数民族服装语义属性类别，则每个任务${\mathit{\boldsymbol{S}}_i}$包含${k_i}$种语义属性，每个任务的语义属性总数为$n = \sum\limits_{i = 1}^p {{k_i}} $，第$i$类语义属性的$M$维训练样本表示${\mathit{\boldsymbol{A}}^{\left( i \right)}} = {\left[{z_1^{\left( i \right)}, \cdots, z_{{N_i}}^{\left( i \right)}} \right]^{\rm{T}}} \in {{\bf{R}}^{{N_i} \times M}}$，${\mathit{\boldsymbol{A}}^{\left( i \right)}}$的每行代表一个样本，${{N_i}}$为训练样本的数量。样本语义属性的标签向量表示为$\mathit{\boldsymbol{y}} = {\left[{\overbrace {{l_1}, \cdots, {l_i}}^{{N_1}}, \overbrace {{l_2}, \cdots, {l_i}}^{{N_2}}, \cdots, \overbrace {{l_n}, \cdots, {l_i}}^{{N_n}}} \right]^{\rm{T}}} \in {{\bf{R}}^n}$，$l$表示相应语义属性的标签。多任务特征学习模型的目标损失函数可定义为

$ \mathop {\min }\limits_\mathit{\boldsymbol{W}} \left\{ {\sum\limits_{i = 1}^p {{{\left\| {{\mathit{\boldsymbol{S}}_i}{\mathit{\boldsymbol{w}}_i} - {y_i}} \right\|}^2} + \lambda r\left( \mathit{\boldsymbol{W}} \right)} } \right\} $

(3)

式中，$\mathit{\boldsymbol{W}} = \left[{{\mathit{\boldsymbol{w}}_1}, \cdots, {\mathit{\boldsymbol{w}}_P}} \right] \in {{\bf{R}}^{m \times P}}$表示权重矩阵，其中第$i$行${{\mathit{\boldsymbol{w}}_i}}$表示任务${{\mathit{\boldsymbol{S}}_i}}$的权重向量，${\lambda > 0}$表示正则化参数，$\lambda \left( \mathit{\boldsymbol{W}} \right)$是一个模型特定的正则化器(如非凸正则化器)。通过优化该目标函数，得到训练特征的权向量$\mathit{\boldsymbol{w}}$，再根据$\mathit{\boldsymbol{w}}$从待识别白族服装图像和训练的白族服装图像中选取底层特征后训练多个任务的SVM分类器。对第$i$个任务${{\mathit{\boldsymbol{S}}_i}}$来说，${{\mathit{\boldsymbol{w}}_i}}$越高代表它的特征组件越有效。通过多任务学习模型选择对应提取的底层特征训练分类器。上身脖子区域提取的特征用来训练衣领分类器；肩膀和胳膊区域提取的特征用来训练袖子分类器；躯干腰部区域提取的特征用来训练围裙和腰带分类器；下身检测到的区域对应提取特征用来训练裤子和裙子分类器；全身部分对应提取的特征用来训练服装图案样式分类器。

分类器训练^[27]如下：${\mathit{\boldsymbol{X}}_i} \in {{\bf{R}}^d}$和${y_i} \in \left\{ { - 1, 1} \right\}$表示训练集的底层特征量和相应的语义标签。通过约束条件最小化构造最优超平面并以最优解得到最终判别函数

$ f\left( \mathit{\boldsymbol{x}} \right) = {\mathop{\rm sgn}} \left[ {\sum\limits_{i = 1}^m {{y_i}{\alpha _i}\mathit{\boldsymbol{K}}\left( {\mathit{\boldsymbol{x}} \cdot {\mathit{\boldsymbol{x}}_i}} \right) + b} } \right] $

(4)

式中，${{\alpha _i}}$为非负拉格朗日乘子$\alpha$对应的最优解，$\mathit{\boldsymbol{x}}$表示特征，$\mathit{\boldsymbol{y}}$为结果语义标签，$i$表示第$i$个样本，$b$为分类阈值，通过参数的符号判断输入向量的类别，${\mathit{\boldsymbol{K}}\left( {\mathit{\boldsymbol{x}} \cdot {\mathit{\boldsymbol{x}}_i}} \right)}$是属性空间向量内积形式，如果$f\left( \mathit{\boldsymbol{x}} \right) > 0$，则$ \mathit{\boldsymbol{x}}$属于该类。最后将待识别的图像通过训练后的分类器，实现服装的图像识别并输出识别结果。

4 实验结果和分析

4.1 实验数据集

实验选用Intel Core i7 CPU @ 7.70 GHz, 16 GB DDR4 Ram的硬件平台以及MATLAB的软件平台。针对目前缺乏大数量的已标注的少数民族服装数据集，本文构建了1个少数民族服装图像集：以具有代表性的青年女性为例，包含云南25个少数民族服装，主要从商店、人工拍摄、博客、论坛和其他如少数民族服装研究者手绘或电子制作而生成的少数民族服装图片、淘宝、天猫、京东等平台上收集，每个民族都有1 000幅图像，共25 000幅图像。将每幅图像的大小均设置为500×500像素，并对不同的民族进行归类和编号，为了便于后期实验，对收集的图像背景进行适当处理，将图片统一设置成JPEG格式，如图 3所示。由于该数据集中图像存在较大的场景差异，本文手动标注了13个与民族服装风格和款式有关的语义属性，包含了各个少数民族服装的款式和全身图像对应的信息，利用此数据集进行训练和识别。

图 3 少数民族服装数据库样例

Fig. 3 Minority clothing database

4.2 实验结果和性能分析

4.2.1 检测实验分析

本文首先以待训练的云南少数民族服装图像和待识别的云南少数民族图像为输入，对检测结果进行统计分析，图 4给出了具有代表性的纳西族、傣族、白族、苗族、彝族5个少数民族服装图像的人体检测结果示例图。

图 4 少数民族服装图像检测图

Fig. 4 Detection images of Minority clothing

((a)undetected images; (b)detected images)

本文从准确率、召回率、精确率分析人体检测结果, 具体公式为

$ A = \frac{{{R_i} \cap {r_i}}}{{{R_i} \cup {r_i}}}, \;\;\;\;R = \frac{{{\zeta _i}}}{{{r_i}}}, \;\;\;\;P = \frac{{{\zeta _i}}}{{{R_i}}} $

(5)

式中，$A$表示准确率，$R$表示召回率，$P$表示精准率，${{R_i}}$表示待识别服装所占整体的区域，${{r_i}}$是利用本文方法检测出的待识别图像$\mathit{\boldsymbol{G}} $中服装所占的区域，${{\zeta _i}}$表示被正确检测到的服装区域。本文中准确率和召回率是在像素级别上进行计算的。准确率是指检测出的真实服装区域的像素占检测出的服装像素与真实服装区域像素并集的比重，召回率是指检测出的正确服装像素占算法检测出的总服装像素的比重。如图 5所示，本文方法较DPM^[8]和传统poselets^[9]方法在精准—召回率上有较大的提高，躯干预测也明显优于DPM^[8]和传统poselets^[9]检测方法，图 5中，AP为平均精准率。

图 5 精准—召回率曲线

Fig. 5 Precision-recall curve

表 3给出了本文方法与目前检测效果较好的利用卷积神经网络提取特征实现检测的R-CNN^[26]方法的对比。本文检测方法虽然在准确率上略有劣势, 但是R-CNN^[26]方法的召回率结果不够理想。综合准确率和召回率指标, 本文方法检测效果更为理想。实验中检测准确率较低的原因是人体姿势变化幅度太大或服装遮挡等，造成难以准确定位人体位置。

表 3 本文方法与R-CNN^[26]检测方法比较
Table 3 Comparison of R-CNN^[26] and our method

下载CSV

检测方法	准确率($A$)	召回率($R$)
R-CNN^[26]	0.797 2	0.685
本文方法	0.784 8	0.815 4
注：加粗字体为最优结果。

4.2.2 特征提取及匹配分析

本文的识别方法是从多个视觉特征方面考虑的，将检测后的图像进行视觉特征提取，包括颜色特征、HOG、LBP、SIFT、边缘算子5种底层特征，这5种底层特征结合自定义的语义属性能够有效、高精度对应少数民族服装图像的颜色、纹理、形状以及全局的特征。因此本文对定义的语义属性和底层特征间的匹配准确率进行了分析。图 6给出了定义的13种语义属性和底层特征间的匹配准确率结果。由图 6可知，不同的语义属性匹配底层特征有不同的准确率，其中，上身的领型、衣襟、袖长属性与边缘算子特征匹配率最高，袖型属性和HOG特征匹配率最高，围裙、腰带属性与边缘算子特征匹配率最高，下身的长度属性与边缘算子特征匹配率最高，裤型、裙型属性与HOG特征匹配率最高。全身的颜色属性与颜色特征匹配率最高，材质属性与LBP特征匹配率最高。

图 6 属性和底层特征匹配准确率

Fig. 6 Attribute and low-level feature matching accuracy

表 4则展示了不同图像提取的每种特征在SVM下的识别准确率，从表中可以看出运用提取5种底层特征识别整个服装图像时，准确率是最高的。同时比较采用训练CPU时间评估少数民族服装图像上提取不同特征在SVM下的效率。

表 4 不同的图像特征在SVM下的准确率和效率
Table 4 Accuracy and efficiency of different image features under SVM

下载CSV

特征	准确率/%	时间/${\rm{s}}$
颜色直方图	83.912 5	13.06
HOG	84.470 5	13.11
LBP	84.062 5	12.81
边缘	83.184 5	10.96
SIFT	85.962 5	11.16
5种特征	87.838 5	17.96
注：加粗字体为最优结果。

4.2.3 识别对比结果实验

本文通过识别准确率来验证云南少数民族服装图像识别结果

$ A' = \frac{e}{N} $

(6)

式中，${A'}$表示少数民族服装识别的准确率，$N$表示测试样本的数量，$e$表示通过训练好的分类器返回的正确样本数量。

图 7展示了25个云南少数民族服装图像的识别结果，由图 7可看出，阿昌族、白族、壮族、傣族、苗族、阿昌藏族、满族识别准确率较高，其他民族由于服装的区分度不足导致识别准确率不够理想，但总的来说，本文方法的识别准确率基本都在82 %以上。

图 7 云南少数民族服装图像识别准确率

Fig. 7 Image recognition accuracy of minorities in Yunnan

此外，本文进一步分析和比较了采用多任务学习方法与单任务学习方法的识别结果。如表 5所示，分别给出了多任务和单任务学习下的13个语义属性的识别率，本文采用的多任务学习方法识别率较高。并且用CPU运行处理的平均时间来评估两种方法识别少数民族服装图像的效率，如表 6所示，可以看出本文方法处理时间较短，效率更高。

表 5 本文方法与单任务学习方法比较
Table 5 Comparison between single task learning method and our method

下载CSV

任务	属性	识别率/%
任务	属性	多任务	单任务
上身	领型	84.85	84.42
	衣襟	83.76	83.21
	袖型	83.28	83.01
	袖长	83.65	83.54
	衣长	83.75	83.58
	围裙	84.56	84.23
	腰带	84.21	84.18
下身	长度	83.75	83.58
	裤型	84.37	84.13
	裙型	84.57	84.37
全局	颜色	83.95	83.75
	图案	85.97	85.72
	材质	84.28	84.17

表 6 两种方法对少数民族服装图像识别的效率
Table 6 The efficiency of two methods for image recognition of minority costumes

下载CSV

方法	时间/${\rm{s}}$
单任务	124.07
多任务	73.91

5 结论

针对少数民族服装色彩及样式种类繁多导致识别率较低的问题，以云南少数民族服装为例，提出一种基于人体检测和多任务学习的少数民族服装图像识别方法。本文方法能够准确地检测和识别待识别的云南少数民族图像。另外，本文构建了一个云南少数民族服装图像集。实验结果表明，本文在构建的云南少数民族服装图像集上与单任务学习方法相比，采用多任务学习模型的总体识别效率更高，识别准确率达到82.5 % ~88.4 %，高于目前先进的识别方法。

然而，本文方法还有一些不足：一方面由于人体姿势变化以及服装遮挡等因素导致部分图像检测及底层特征提取的准确率较低，影响了识别结果的准确率。另一方面，本文仅针对云南25个少数民族构建了图像数据集，有一定的局限性，可进一步扩充和完善数据集。因此，本文的后续工作将着重围绕上述问题展开，同时考虑各个民族的服装配饰存在较大差别，将进一步研究少数民族服装配饰解析，以提高少数民族服装图像的识别准确率和效率。

参考文献

[1] Hu J Y, Kita Y. Classification of the category of clothing item after bringing it into limited shapes[C]//Proceedings of the 15th International Conference on Humanoid Robots. Seoul, South Korea: IEEE, 2015: 588-594.[DOI:10.1109/HUMANOIDS.2015.7363422]

[2] Yu Y T, Zhu Q. The method of multi-step dimensionality reduction and parallel feature fusion in clothing recognition[C]//Proceedings of International Conference on Artificial Intelligence and Robotics and the International Conference on Automation, Control and Robotics Engineering. Kitakyushu, Japan: ACM, 2016: #13.[DOI:10.1145/2952744.2952747]

[3] Yamaguchi K, Okatani T, Sudo K, et al. Mix and match: joint model for clothing and attribute recognition[C]//Proceedings of British Machine Vision Conference. Swansea, Wales: BMVA Press, 2015: 51.1-51.12.[DOI:10.5244/C.29.51]

[4] Wang F, Zhao Q Y, Liu Q J, et al. Attribute basedapproach for clothing recognition[C]//Proceedings of the 7th Chinese Conference on Pattern Recognition. Chengdu, China: Springer, 2016: 364-378.[DOI:10.1007/978-981-10-3005-5_30]

[5] Chen L, Zhang Q, Li B X. Predicting multiple attributes via relative multi-task learning[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE Computer Society, 2014: 1027-1034.[DOI:10.1109/CVPR.2014.135]

[6] Bourdev L, Maji S, Malik J. Describing people: a poselet-based approach to attribute classification[C]//Proceedings of 2011 IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE Computer Society, 2011: 1543-1550.[DOI:10.1109/ICCV.2011.6126413]

[7] Song Z, Wang M, Hua X S, et al. Predicting occupation via human clothing and contexts[C]//Proceedings of 2011 IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011: 1084-1091.[DOI:10.1109/ICCV.2011.6126355]

[8] Felzenszwalb P, McAllester D, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]//Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008, 8: 1-8.[DOI:10.1109/CVPR.2008.4587597]

[9] Bourdev L, Maji S, Brox T, et al. Detecting people using mutually consistent poselet activations[C]//Proceedings of the 11th European Conference on Computer Vision. Heraklion, Crete, Greece: Springer Science + Business Media, 2010: 168-181.[DOI:10.1007/978-3-642-15567-3_13]

[10] Divvala S, Efros A, Hebert M, et al. Object instance sharing by enhanced bounding box correspondence[C]//Proceedings of British Machine Vision Conference. Surrey: British Machine Vision Association, 2012: 60.1-60.11.[DOI:10.5244/C.26.60]

[11] Divvala S K, Efros A A, Hebert M. How important are "Deformable parts" in the deformable parts model?[C]//Proceedings of the 12th International Conference on Computer Vision. Florence, Italy: Springer, 2012: 31-40.[DOI:10.1007/978-3-642-33885-4_4]

[12] Parikh D, Zitnick C L. Finding the weakest link in person detectors[C]//Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE Computer Society, 2011: 1425-1432.[DOI:10.1109/CVPR.2011.5995450]

[13] Bourdev L, Maji S, Malik J. Poselets:a distributed representation for visual recognition[J]. Journal of Vision, 2011, 11: #891. [DOI:10.1167/11.11.891]

[14] Yang M, Yu K. Real-time clothing recognition in surveillance videos[C]//Proceedings of the 18th IEEE International Conference on Image Processing. Brussels, Belgium: IEEE, 2011: 2937-2940.[DOI:10.1109/ICIP.2011.6116276]

[15] Anandh A, Mala K, Suganya S. Content based image retrieval system based on semantic information using color, texture and shape features[C]//Proceedings of 2016 International Conference on Computing Technologies and Intelligent Data Engineering. Kovilpatti, India: IEEE, 2016: 1-8.[DOI:10.1109/ICCTIDE.2016.7725364]

[16] Li Z M, Li Y T, Liu Y J, et al. Clothing retrieval combining hierarchical over-segmentation and cross-domain dictionary learning[J]. Journal of Image and Graphics, 2017, 22(3): 358–365. [李宗民, 李妍特, 刘玉杰, 等. 结合层次分割和跨域字典学习的服装检索[J]. 中国图象图形学报, 2017, 22(3): 358–365. ] [DOI:10.11834/jig.20170310]

[17] Hidayati S C, You C W, Cheng W H, et al. Learning and recognition of clothing genres from full-body images[J]. IEEE Transactions on Cybernetics, 2018, 48(5): 1647–1659. [DOI:10.1109/TCYB.2017.2712634]

[18] Shen J, Liu G C, Chen J, et al. Unified structured learning for simultaneous human pose estimation and garment attribute classification[J]. IEEE Transactions on Image Processing, 2014, 23(11): 4786–4798. [DOI:10.1109/TIP.2014.2358082]

[19] Bossard L, Dantone M, Leistner C, et al. Apparel classification with style[C]//Proceedings of the 11th Asian Conference on Computer Vision. Daejeon, Korea: Springer Berlin Heidelberg, 2012: 321-335.[DOI:10.1007/978-3-642-37447-0_25]

[20] Chen H Z, Gallagher A, Girod B. Describing clothing by semantic attributes[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer, 2012: 609-623.[DOI:10.1007/978-3-642-33712-3_44]

[21] Di W, Wah C, Bhardwaj A, et al. Style finder: fine-grained clothing style detection and retrieval[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Portland, OR, USA: IEEE, 2013: 8-13.[DOI:10.1109/CVPRW.2013.6]

[22] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE Computer Society, 2005: 886-893.[DOI:10.1109/CVPR.2005.177]

[23] Yang Y, Ramanan D. Articulated human detection with flexible mixtures of parts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2878–2890. [DOI:10.1109/TPAMI.2012.261]

[24] Wei L. National Minority Women's Wear Design[M]. Beijing: China Minzu University Press, 2014: 3-28. [ 魏莉. 少数民族女装结构设计[M]. 北京: 中央民族大学出版社, 2014: 3-28.]

[25] Chang L, Fang Y C, Jiang X D. Multi-task attribute joint feature learning[C]//Proceedings of the 10th Chinese Conference on Biometric Recognition. Tianjin, China: Springer, 2015: 193-200.[DOI:10.1007/978-3-319-25417-3_24]

[26] Zhang N, Donahue J, Girshick R, et al. Part-based R-CNNs for fine-grained category detection[M]//Fleet D, Pajdla T, Schiele B, et al. Computer Vision-ECCV 2014. Zurich, Switzerland: Springer International Publishing, 2014: 834-849.[DOI:10.1007/978-3-319-10590-1_54]

[27] Chang C C, Lin C J. LIBSVM:a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): #27. [DOI:10.1145/1961189.1961199]