Print

发布时间: 2019-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180348
2019 | Volume 24 | Number 4




    图像分析和识别    




  <<上一篇 




  下一篇>> 





反映人的认知习惯的商品检索方法
expand article info 周亭亭, 曹卫群
北京林业大学信息学院, 北京 100083

摘要

目的 便捷的商品检索是用户网络购物体验良好的关键环节。由于电商对商品描述方式的规范性要求以及用户对商品属性理解差异等问题,基于关键词的检索方法在商品检索的应用并不理想。近年来,以图搜图的检索方式在各大电商平台上得到越来越多的应用,但检索结果往往不尽如人意。为此,提出了一种新的检索思路,从商品外观设计特征出发,将人们对商品的认知模式引入到商品图片的检索过程,从而获得更符合人们预期的检索结果。方法 以时尚女包商品为例,在分析设计师的设计规范的基础上,将外观设计特征分解为形状特征、颜色特征和设计元素特征。利用深度卷积神经网络建模、提取特征,并使用哈希方法和Top3类内检索算法加快检索速度。结果 利用建立的商品数据集构建3个对应的特征模型,并进行分类识别和图像检索实验。结果表明,各个模型Top1的识别准确率均小于95%,而Top3的识别准确率均在98.5%以上;商品检索速度加快了将近3.5倍。实验及用户调查结果表明,本文提出的检索方法与淘宝、百度图片等基于图像的检索工具相比,检索结果更为多样,与原图像相似度更高。结论 本文提出的从商品外观设计规范出发、与人的认知模式相结合的商品检索方法,更能满足用户的检索意图,可用于时尚女包商品检索,对基于图像的其他商品的检索方法的研究具有借鉴意义。

关键词

认知; 设计规范; 网络购物; 图像检索; 深度卷积神经网络; 哈希方法

Commodity retrieval method reflecting people's cognitive habits
expand article info Zhou Tingting, Cao Weiqun
School of Information Science and Technology, Beijing Forestry University, Beijing 100083, China
Supported by: Fundamental Research Funds for the Central Universities (2015ZCQ-XX)

Abstract

Objective Rapid and convenient product retrieval is the key for excellent user experience in online shopping. The application of keyword-based retrieval in commodity retrieval is ineffective because of problems, such as standardization of the description of goods and the differences in the understanding of the attributes of the goods by the users. In recent years, "search by image" has been increasingly used in e-commerce platforms. Retrieval technology is constantly improving, from text-based image retrieval to content-based image retrieval, and then to utilizing deep learning to achieve image retrieval. However, retrieval results are often unsatisfactory. These methods cannot rapidly and accurately retrieve results that satisfy people's expectations, thereby lacking excellent user experience. Therefore, a new method of commodity retrieval is proposed. From the features of the commodity design, the image feature is obtained using the complete picture information as well as the human cognition of the goods, which is introduced into the retrieval process of the commodity picture to obtain the desired results. Method Human cognition of commodities is a type of subconsciousness formed by human experience, which corresponds to the designers' norms. We can obtain results that are consistent with human cognitive retrieval results by studying the commodity design specifications and designing commodity features and then using these features for commodity retrieval. We select fashionable women's bags as the research object. Women's bags are a necessity and favorable to women; thus, bags have practical relevance to the study. Moreover, the design elements of women's bags are relatively independent and flexible. Thus, using traditional image retrieval methods is difficult to satisfy user's retrieval intentions. Therefore, studying similar searches of women's bags is necessary. The design features are decomposed into shape, color, and design element features based on the designers' specifications (such as tassel, chain, and zipper). A deep convolution neural network is used to construct classification models for the three features. The features of each picture are then extracted, and three feature sets are established for similarity comparison in retrieval. The shape, color, and design element picture sets are established to construct the feature models that correspond to shape, color, and local design elements, respectively. Each picture set must be marked in advance. The shape picture set is marked by 14 categories, including shell, Boston, and platinum bags. The color picture set is marked by 13 categories, including red, orange, and yellow. The design element picture set is marked by 11 categories, including strip closure, zipper decoration, and diamond grille. Adding a Hashing layer into the deep convolution neural network and extracting Hashing layer data as image features can provide feature binarization and simplify the calculation. At the same time, in the retrieval process, using the proposed Top3 within-class retrieval algorithm can reduce the algorithm complexity. Searching can be according to the classification features, namely, shape, color, and design elements, selected by users in real time. Thus, the retrieval results reflect the users' intention of commodity search. Given a picture of a fashion woman bag image to be retrieved, the corresponding classification model is called after the user selects the classification features. First, the classification of the image under a feature is recognized, and the image feature is then extracted. Subsequently, the Euclidean distance is calculated with all the images in Top3. Finally, the retrieval results are returned in order of similarity. Result The dataset is currently the only one dedicated to the search of fashionable women's bags. Notably, the design element picture set contains not only the overall picture of bags but also the segmented design element picture. The dataset and feature models are used for classification recognition and image retrieval experiments. Results show that the recognition accuracy of each model of the Top1 algorithm is less than 95%, whereas the recognition accuracy of the Top3 is more than 98.5%. Using Top3 within-class retrieval algorithm can speed up the retrieval and ensure the accuracy of the retrieval results as much as possible. At the same time, the use of Hashing method and Top3 within-class retrieval algorithm results in nearly 3.5 times faster retrieval speed and greatly improves the retrieval efficiency. When multiple features for commodity retrieval are used, the corresponding weights of color, shape, and design elements are 0.6, 0.2, and 0.2 respectively. These weights can be defined by the users in real time to reflect the changes of users' attention to different features during the retrieval process. Conclusion A method of commodity retrieval that is based on the commodity appearance design criterion and is combined with people's cognitive model, is proposed. In comparison with image-based retrieval tools, such as Taobao and Baidu, the retrieval results are more similar to the original image and more in line with people's expectations. At the same time, according to the user's preference, the proposed method can synthetically query according to single and multiple features, and the retrieval results are diversified. In addition, we use the global features of shape and color and the local feature of design elements to conduct a survey of online users' retrieval satisfaction. The survey results show that the user satisfaction of Taobao and Baidu pictures is similar. However, the user satisfaction of women's bag retrieval results obtained by the proposed method is remarkably higher than those of Taobao and Baidu pictures, which is more consistent with human cognition. The proposed method is suitable for the retrieval of fashionable women's bags and can be used for reference in the research of image-based retrieval methods for other goods. At present, for a given bag picture, the design elements are obtained by interactive manual segmentation in the process of similar bag retrieval. In future works, we can study the method of identifying the design elements of women's package to realize the automatic identification and segmentation of design elements, thereby improving the automation of women's package retrieval and the practical value of the proposed method.

Key words

cognitive; design specification; online shopping; image retrieval; deep convolution neural network (DCNN); Hashing method

0 引言

电子商务的快速发展,使人们可以突破地域限制快速获取海量商品信息进行采购。这一方面使人们有了更多的选择,另一方面,也带来了在海量信息中搜寻中意商品的难题。

人们对图像检索技术的研究[1],从基于文本的图像检索[2]到基于内容的图像检索[3],再到利用深度学习实现图像检索[4],已经有了很长的历史,至今已在很多领域得到了成功应用。对于商品检索而言,基于文本的图像检索依赖于人工标注,而电商人工标注的差异性和文字描述的局限性,使得该检索方法难以满足购物者的检索需求;基于内容的图像检索可以直接从商品图片的内容中提取特征进行检索,克服了基于文本检索的主观性,但该方法对图像的描述和表达是基于颜色、纹理等低层次的特征[5],与高层语义存在鸿沟,很难与商品属性产生映射关系,从而很难引起用户对商品属性特征的关注。

深度学习[6]的出现,吸引了大量研究者,人们尝试将其应用到语音识别[7]、相似图像检索[8]等不同领域。在商品检索方面,Liu等人[9]使用大量标注实现了具有强大鲁棒性的服装识别和检索;Huang等人[10]实现了街拍和网上商品的跨域检索;Kiapour等人[11]也在该方面取得了具有一定实用价值的研究成果。但目前已有的商品检索方法均未从设计师的设计规范角度关注商品外观的局部特征,检索到的商品在局部设计特征上与用户检索意图符合程度不高。

商品与一般对象不同,其外观设计依从于系统性的行业规范,而人们对商品的认知模式往往与之对应。基于认知的图像检索,如人脸识别[12]、人脸相似性检索[13]等,将人们对事物的认知模式引入检索算法,使检索结果能够更好地体现人们的检索意图。

本文以时尚女包这一商品为例,通过分析设计师的外观设计规范[14]对应的分类特征和训练方案,利用深度卷积神经网络(CNN)[15]建模、提取特征,并利用哈希方法[16]和Top3类内检索算法实现快速的体现用户意图的女包检索。本文的主要贡献有以下3个方面:

1) 提出了新的商品检索思路。以时尚女包为例,从专业的时尚女包设计规范出发,提出了与人的认知模式[17-18]相关联的检索方法。

2) 建立了时尚女包商品数据集。数据集与设计师的外观设计规范相对应,不仅包含女包整体图片,还包含分割后的设计元素图片。基于该数据集,可以方便地训练CNN模型,实现与设计元素相对应的分类建模。

3) 检索方法的优化。为了提高检索速度,本文在CNN网络结构中加入哈希层[19],并采用Top3类内检索的方法,降低了算法复杂度。

1 商品外观设计规范

商品设计是一项专业化很强的工作,设计师需要遵循专业的系统化的设计规范进行设计。就时尚女包商品而言,设计包括造型、色彩、材料、尺寸等关键设计因素和拉链、流苏、链条等局部设计元素[20]

造型是最基本的设计因素,由于主体的年龄、兴趣爱好、文化素养、生活的地域环境、风俗习惯等的不同产生的个性差异,都会在形状的审美情感上反映出一定的差异性[21]。色彩也是女包设计的主要内容之一,它是视觉的第一印象,常常具有先声夺人的力量。色彩在女包的设计、审美及营销过程中发挥着巨大的作用[21]。材料决定了女包的软硬程度,影响了女包的立体视觉效果。同时,不同的材料有着不同的质感,间接决定了女包的使用场合。女包的尺寸也是设计师设计中考虑的一大方面,功能性女包对女包容量有一定的要求。除此之外,女包还存在拉链、流苏、链条、压花、印花等细节设计。这些设计虽小,却在很大程度上影响了女包的风格定位,是女士们较为关注的细节。

在这些设计规范中,女包整体的造型和色彩是外观视觉特征,体现整体视觉属性,可方便地在商品图片中展示出来,而材料在商品图片中体现的差异并不显著,在没有参照物的情况下,尺寸也难以从图片中进行辨别。因此,本文只将女包的形状和颜色设定为全局特征。

根据女包设计规范,按照形状特征,可将女包分为贝壳包、波士顿包、铂金包、翅膀包、方形包、凯莉包、马鞍包、水桶包、梯形包、小方包、小圆包、新月包、信封包、医生包,共14种,如图 1所示;按照颜色特征,可将女包分为红色、橙色、黄色、绿色、蓝色、紫色、粉色、白色、黑色、灰色、金色、银色、花色,共13种,如图 2所示。

图 1 按形状特征分类
Fig. 1 Classification by shape ((a) shell bag; (b) Boston bag; (c) Birkin bag; (d) wing bag; (e) square bag; (f) Kylie bag; (g) saddle bag; (h) bucket bag; (i) trapezoidal bag; (j) small square bag; (k) small round bag; (l) Hobo bag; (m) envelope bag; (n) doctor's bag)
图 2 按颜色特征分类
Fig. 2 Classification by color ((a) red; (b) orange; (c) yellow; (d) green; (e) blue; (f) purple; (g) pink; (h) white; (i) black; (j) gray; (k) golden; (l) silvery; (m) variety of colors)

女包局部设计元素包括内袋设计、闭合方式设计、装饰设计和纹理设计等,其中含有很多美学设计因素,是女性消费者非常关注的部分。这些局部设计元素在女包上都有特定的位置,女包的设计也正是由这些特定元素的变换组合而形成。

由于内袋设计和拉链闭合方式等一般在女包整体图片中无法展示,所以本文未将其作为分类特征,而是设计了与另外几种局部设计元素相关的11种局部特征,如图 3所示。按照闭合方式,定义了抽带闭合、皮带扣闭合、磁扣闭合、锁扣闭合等4种特征;按照装饰设计,定义了拉链装饰、流苏装饰、链条装饰、铆钉装饰等4种特征;按照纹理设计,定义了菱格、压花、印花等3种特征。图 3中各设计元素图片的右侧为对应的女包源图片。

图 3 设计元素
Fig. 3 Design elements ((a) band closure; (b) belt buckle closure; (c) magnetic buckle closure; (d) lock buckle; (e) zipper decoration; (f) tassel decoration; (g) chain decoration; (h) rivet decoration; (i) sideric; (j) embossing; (k) printing)

上述分类只针对常见的女包,对特殊设计的女包没有进行单独分类。

2 商品数据集

为了构建与形状、颜色、局部设计元素等相对应的特征模型,本文分别建立了与这些特征相对应的女包形状图片集、女包颜色图片集和女包设计元素图片集。其中,设计元素为局部特征,图片数据为从包的整体图片中分割出的局部细节图片及包的源图片,详见图 3

商品图片数据大多来源于淘宝、天猫等购物网站,部分数据来自百度图片。为了减轻数据标记的工作量,在下载图片时,先分别按照各形状特征依次下载女包图片,并去除其中质量不佳的图片,建立标记形状特征的具有一定规模的形状数据集;然后在形状数据集的基础上建立颜色数据集,即将形状数据集中的图片按照颜色进行分类并予以标记,各颜色类若尚未达到规定数量,则从网络上补充;最后,在形状数据集、颜色数据集的并集基础上按照同样的方式建立设计元素数据集。

本文对局部设计元素特征建模是基于设计元素局部图片数据进行的,因此,对设计元素数据集中的各女包图片数据进行了分割,分别提取其中包含的各局部设计元素图片。

形状图片集中的女包按形状特征标记为14类;颜色图片集中的女包按颜色标记为13类;设计元素图片集中的女包标记为11类。形状数据集和颜色数据集中的各类图片数据对象均为500个;设计元素数据集中的各类数据对象为300个。所有图片大小均长为500像素或宽为500像素。

3 基于设计特征的商品检索

本文提出的商品检索方法,一方面依据专业的女包设计规范,定义女包分类特征,构建对应分类模型,提取图像特征;另一方面根据用户实时选择的分类特征(形状、颜色、设计元素等)进行检索,使检索结果体现用户商品查找意图。

3.1 总体思想

本文提出的检索方法流程如图 4所示,包含训练和检索两个阶段:

图 4 方法流程图
Fig. 4 Method flow chart

1) 在训练阶段,首先对输入的训练图像集进行图像预处理,然后训练分类模型,再提取特征集,建立对应的特征集库;

2) 在检索阶段,对给定的待检索女包图片,按照用户选择的分类特征(形状特征、颜色特征、局部设计元素特征)调用对应的训练获得的分类模型,识别女包所属类别,并提取图像特征,然后将该图像特征与识别获得的Top3图像特征进行欧氏距离[22]计算,按照相似性大小排序返回检索结果。当用户选择多个特征进行检索时,需要将多个特征进行欧氏距离加权求和处理。其中关键步骤详见第3.2节和第3.3节。

3.2 构建CNN分类模型

在训练阶段,为形状特征、颜色特征、设计元素特征分别构建CNN分类模型并提取特征。3个模型的训练均采用Lin等人[19]的方法,在CNN网络结构中加入哈希层,以提高检索效率。

CNN网络的训练对输入数据格式有一定的要求,因此给定某一类的训练图像集时,需要根据网络输入数据格式要求对图片数据进行预处理,再送入CNN网络进行训练构建分类模型。为了提取用于商品检索的图像特征,使用训练好的分类模型,对训练图像集中的每一幅图像提取网络结构中的哈希层数据,作为该图像的特征,可得到该类别图像的特征集。为每一分类特征进行建模,得到3个分类模型,即得到3个图像特征集,形成一个特征集库,用于检索时的特征相似性比较。

值得注意的是,设计元素特征的分类模型是用分割出的设计元素的局部图像构建的,因此对设计元素进行检索,应先分割出该设计元素的局部图像。

3.3 Top3类内快速检索

本文的检索方法不仅可以实现单一特征的检索,也可以实现形状特征、颜色特征和局部设计元素特征的综合检索。图 4中,在检索阶段,输入一幅待检索女包图片,用户根据个人关注点选择分类特征,首先需要判断用户选择特征的个数。不同的特征个数有不同的检索策略:

1) 若为单一特征,则系统直接调用该特征分类模型,识别商品所属类别,并提取哈希层特征,计算与识别Top3中每个图片的特征向量的欧氏距离,进行相似性比较,并按欧氏距离由小到大的顺序展示检索结果;

2) 若为两个特征,如设计元素特征和形状特征,系统首先调用设计元素模型,识别设计元素特征下图像所属类别,并提取特征,计算该特征与设计元素识别Top3中图像特征的欧氏距离,然后调用形状模型,执行同样的操作,最后计算两个特征欧氏距离的加权和,按欧氏距离由小到大的顺序展示检索结果;

3) 若为3个特征,则计算3个特征的欧氏距离加权和,返回检索结果。

此处的权值是经过反复试验获得的经验值,颜色、形状和设计元素3类特征对应的权值分别为0.6、0.2和0.2。实际上,还可以通过用户实时定义的权值,反映用户在检索过程中对不同特征关注程度的变化。

先识别类,然后在类别中查找,大大降低了检索的计算量,提高了检索速度。

使用数据集中的500×14张女包图片进行形状类建模,500×13张女包图片进行颜色类建模,300×11张分割图片进行设计元素类建模,并统计3类模型的Top1、Top2、Top3识别准确率,如表 1所示。由统计结果可知,各个模型Top1的识别准确率均小于95 %,而Top3的识别准确率均在98.5 %以上。由于前期分类识别的错误结果会导致检索的失败,综合考虑计算量和识别准确率两方面因素,选择在各模型Top3类内进行检索。

表 1 3类模型的识别准确率
Table 1 Identification accuracy of the three types of models

下载CSV
/%
计算方法 形状类 颜色类 设计元素类
Top1 90.07 94.5 91.66
Top2 97.5 97.14 97.17
Top3 98.57 98.93 98.83

同时,使用上述数据集分别对无哈希层和无Top3类内检索算法、只加入哈希层、只采用Top3类内检索算法、加入哈希层并采用Top3类内检索算法这4种检索方法的检索时间进行统计,如表 2所示。由统计结果可知,本文使用哈希方法和Top3类内检索算法,使得检索速度加快了将近3.5倍,在检索效率上有很大提升。

表 2 检索时间统计表
Table 2 Retrieval time statistics table

下载CSV
/s
检索方法 形状类 颜色类 设计元素类
无哈希层且无Top3类内检索 8.746 4 4.318 6 8.165 9
只加入哈希层 5.172 3 2.546 7 4.801 3
只采用Top3类内检索 4.999 8 2.418 4.792 8
加入哈希层且采用Top3类内检索 2.597 9 1.232 3 2.390 1

4 实验结果

本文通过反复建模,优化数据集,获得了较好的检索效果。实验的硬件:CPU为Intel(R) Core(TM) 2 Quad CPU Q8300 2.50 GHz,内存为4.00 GB,GPU为GTX 660。实验在Ubuntu系统下完成,配置了caffe框架,并使用GPU加速建模,利用MATLAB接口实现识别和检索功能。

实验首先利用本文建立的数据集分别构建形状、颜色和设计元素的特征分类模型,然后进行分类识别和图像检索。同时,本文设计了一个基于认知的相似商品检索系统,实现了实时交互检索。

4.1 相似商品检索结果

1) 分别进行颜色类、形状类和设计元素类的检索实验,结果如图 5图 7所示。

图 5 形状类的检索结果
Fig. 5 Retrieval results of the shape class
((a) input picture; (b) result 1;(c) result 2;(d) result 3)
图 6 颜色类的检索结果
Fig. 6 Retrieval results of the color class
((a) input picture; (b) result 1;(c) result 2;(d) result 3)
图 7 设计元素类的检索结果
Fig. 7 Retrieval results of the design elements class
((a) input picture; (b) result 1;(c) result 2;(d) result 3)

图 5图 7可以看出,实验检索出的女包与给定测试对象的颜色、形状和设计元素特征都具有很高的相似度。

2) 进行形状、颜色和设计元素多个特征的综合检索实验,并与淘宝和百度图片的检索结果进行对比,结果如图 8图 10所示。

图 8 检索结果对比1
Fig. 8 Comparison 1 of retrieval results
((a)image to be retrieved; (b)combination 1;(c)combination 2; (d)combination 3; (e)Taobao; (f)Baidu pictures)
图 9 检索结果对比2
Fig. 9 Comparison 2 of retrieval results
((a)image to be retrieved; (b)combination 3;(c)combination 4; (d)Taobao; (f)Baidu pictures)
图 10 检索结果对比3
Fig. 10 Comparison 3 of retrieval results
((a)image to be retrieved; (b)combination 3; (c)combination 4; (d)Taobao; (f)Baidu pictures)

图 8中的待检索图片是一个带有菱格设计元素的黑色贝壳包。实验分别按照组合1(形状特征)、组合2(形状特征+颜色特征组合)、组合3(形状特征+设计元素特征组合) 3种方式进行查询,并与淘宝和百度图片的检索结果进行对比。

图 8可以看出,按组合1查询,检索到数据集中最相似的贝壳包;按组合2查询,检索到黑色的贝壳包;按组合3查询,检索到带有菱格设计元素的贝壳包。查询方式不同,检索的结果也不同;筛选的特征越多,检索到的结果与原图像越相近。尤其是当使用组合3查询时,检索到的结果与原图像基本相同,仅颜色不同。而筛选的标准完全取决于用户的关注点,遵循用户的商品查找意图。

淘宝的检索结果1与本文按组合3进行查询的检索结果2相同,淘宝的检索结果2也检索到了贝壳包,检索结果与原图像比较相似;百度图片的检索结果1为带有压花设计元素的贝壳包,检索结果2为带有菱格设计元素的黑色医生包,该结果除了颜色与原图像相同之外,并无相似之处。

图 9中的待检索图片是一个带有抽带闭合设计元素的红色水桶包。实验分别按照组合3、组合4(形状特征+颜色特征+设计元素特征组合)两种方式进行查询,并与淘宝和百度图片的检索结果进行对比。

图 9可以看出,实验中的4种方式均检索到带有抽带闭合设计元素的水桶包,与原图像比较相似。而按本文提出的组合4进行查询,检索结果相似程度更高。

图 10中的待检索图片是一个带有压花设计元素的粉色波士顿包。实验分别按照组合3和组合4两种方式进行查询,并与淘宝和百度图片的检索结果进行对比。

图 10可以看出,实验中的4种方式均检索到带有压花设计元素的波士顿包,淘宝的检索结果1与原图像的颜色不同,但前两个检索结果与原图像均比较相似,而百度图片的检索结果2与原图像差距较大。按照本文提出的组合4进行查询,检索结果相似程度最高。

实验表明,与淘宝和百度图片相比,本文的检索方法能够获得更符合人的预期的结果。淘宝和百度图片的数据集庞大,无法全部获取。实际上,本文建立的女包数据集均来自淘宝和百度图片,检索到的女包也存在于淘宝或百度图片数据库中。虽然无法得到淘宝和百度图片的算法代码,但从搜索引擎获得的检索结果可以看出,本文检索结果很大程度上反映了本文方法在体现人的认知习惯上的优势。同时,本文方法能够根据用户的选择,分别按照单个特征和多个特征综合查询,检索结果更加多样化。

4.2 用户满意度调查

本文针对使用全局特征和局部特征的组合检索结果,对网上用户进行检索满意度调查。由于青年女性和中年女性对女包的关注度要高,因此本次调查对象主要为年龄在18~50岁的女性。

调查设计了5个样本,每个样本采用3种方法进行检索,分别为本文的3类特征融合检索方法、淘宝检索方法、百度图片检索方法,每种方法展示两个检索结果。

问卷调查要求调查者在3种检索方法获得的3组检索结果中选择最满意、最符合个人预期的1组,反馈组别编号。调查样例如图 11所示。

图 11 调查样例
Fig. 11 The survey sample((a)image to be retrieved; (b)our method(1); (c)Taobao(2); (d)Baidu pictures(3))

本文方法、淘宝、百度图片的检索结果对应的组别编号分别为1、2、3。每个调查者反馈5个样本的最满意编号序列,如12312。本次用户满意度调查共获得535份反馈结果,用户满意度调查柱状图如图 12所示。

图 12 用户满意度调查柱状图
Fig. 12 User satisfaction survey bar char

从调查结果可以看出,淘宝和百度图片的用户满意度相近,而本文方法获得的女包检索结果的用户满意度明显高于淘宝和百度图片。

5 结论

本文设计并实现了一个女包检索方法。该方法在分析设计师的外观设计规范的基础上,将女包外观设计特征分解为形状特征、颜色特征和设计元素特征3大类,通过设计相对应的训练数据集,构建CNN分类模型,使检索结果体现用户意图。同时,通过在CNN网络结构中添加哈希层,以及采用Top3类内检索算法使检索速度得到了优化。

目前,对于一个给定的女包商品,在相似女包检索过程中,设计元素是通过交互手动分割获得的。在未来的工作中,可以对女包设计元素的识别方法进行研究,实现设计元素的自动识别及分割,提高数据集扩展以及女包检索的自动化程度,进一步提高所提出方法的实用价值。

参考文献

  • [1] Yu J Q, Wu Z B, Wu F, et al. Multimedia technology 2016:advances and trends in image retrieval[J]. Journal of Image and Graphics, 2017, 22(11): 1467–1485. [于俊清, 吴泽斌, 吴飞, 等. 多媒体工程:2016——图像检索研究进展与发展趋势[J]. 中国图象图形学报, 2017, 22(11): 1467–1485. ] [DOI:10.11834/jig.170503]
  • [2] Li W, Duan L X, Xu D, et al. Text-based image retrieval using progressive multi-instance learning[C]//Proceedings of 2011 International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011: 2049-2055.[DOI:10.1109/ICCV.2011.6126478]
  • [3] Baysal S, Kurt M C, Aydogdu G, et al. Content-based image retrieval in store catalogs[C]//Proceedings of the 17th IEEE Signal Processing and Communications Applications Conference. Antalya, Turkey: IEEE, 2009: 808-811.[DOI:10.1109/SIU.2009.5136519]
  • [4] Jain S, Dhar J. Image based search engine using deep learning[C]//Proceedings of the 10th International Conference on Contemporary Computing. Noida, India: IEEE, 2017: 1-7.[DOI:10.1109/IC3.2017.8284301]
  • [5] Juan L, Gwon O. A comparison of SIFT, PCA-SIFT and SURF[J]. International Journal of Image Processing, 2009, 3(4): 143–152.
  • [6] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: ACM, 2012: 1097-1105.
  • [7] Hinton G, Deng L, Yu D, et al. Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82–97. [DOI:10.1109/MSP.2012.2205597]
  • [8] Dong Y, Zhang T, Hou X D, et al. A new steganalysis paradigm based on image retrieval of similar image-inherent statistical properties and outlier detection[C]//Proceedings of 2015 International Conference on Wireless Communications & Signal Processing. Nanjing, China: IEEE, 2015: 1-5.[DOI:10.1109/WCSP.2015.7340977]
  • [9] Liu Z W, Luo P, Qiu S, et al. DeepFashion: powering robust clothes recognition and retrieval with rich annotations[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 1096-1104.[DOI:10.1109/CVPR.2016.124]
  • [10] Huang J S, Feris R, Chen Q, et al. Cross-domain image retrieval with a dual attribute-aware ranking network[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1062-1070.[DOI:10.1109/ICCV.2015.127]
  • [11] Kiapour M H, Han X F, Lazebnik S, et al. Where to buy it: matching street clothing photos in online shops[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 3343-3351.[DOI:10.1109/ICCV.2015.382]
  • [12] Wright J, Ganesh A, Zhou Z H, et al. Demo: robust face recognition via sparse representation[C]//Proceedings of the 8th IEEE International Conference on Automatic Face & Gesture Recognition. Amsterdam, Netherlands: IEEE, 2008: 1-2.[DOI:10.1109/AFGR.2008.4813404]
  • [13] Li T, Cao W Q, Liu J J, et al. Similar face search based on face cognition[J]. Journal of Image and Graphics, 2016, 21(10): 1365–1375. [李彤, 曹卫群, 刘晶晶, 等. 基于人脸认知模式的相似脸搜索[J]. 中国图象图形学报, 2016, 21(10): 1365–1375. ] [DOI:10.11834/jig.20161011]
  • [14] Wang L X. Luggage Making Technology and Production Management[M]. Beijing: Chemical Industry Publishing House, 2008: 176-177. [ 王立新. 箱包制作技术与生产经营管理[M]. 北京: 化学工业出版社, 2008: 176-177.]
  • [15] Liu Y, Pan Y, Xia R K, et al. FP-CNNH:a fast image hashing algorithm based on deep convolutional neural network[J]. Computer Science, 2016, 43(9): 39–46, 51. [刘冶, 潘炎, 夏榕楷, 等. FP-CNNH:一种基于深度卷积神经网络的快速图像哈希算法[J]. 计算机科学, 2016, 43(9): 39–46, 51. ] [DOI:10.11896/j.issn.1002-137X.2016.09.007]
  • [16] Wen Z K, Zhu W Z, Ouyang J, et al. A robust and discriminative image perceptual hash algorithm[C]//Proceedings of the 4th International Conference on Genetic and Evolutionary Computing. Shenzhen, China: IEEE, 2011: 709-712.[DOI:10.1109/ICGEC.2010.180]
  • [17] Shi Z Z. Cognitive Science[M]. Hefei: University of Science & Technology of China Press, 2008: 15-18. [ 史忠植. 认知科学[M]. 合肥: 中国科学技术大学出版社, 2008: 15-18.]
  • [18] Zhong Y P, Ye M L. Cognitive Psychology[M]. Hefei: Anhui Peoples Publishing House, 2010: 1-4. [ 钟毅平, 叶茂林. 认知心理学高级教程[M]. 合肥: 安徽人民出版社, 2010: 1-4.]
  • [19] Lin K, Yang H F, Hsiao J H, et al. Deep learning of binary hash codes for fast image retrieval[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Boston, MA, USA: IEEE, 2015: 27-35.[DOI:10.1109/CVPRW.2015.7301269]
  • [20] Cheng Y Q. Bag Design and Out of Print[M]. Guangzhou: South China University of Technology Press, 2005: 6-8. [ 程远强. 包袋设计与出格[M]. 广州: 华南理工大学出版社, 2005: 6-8.]
  • [21] Wang L X. Luggage and Art Design[M]. Beijing: Chemical Industry Press, 2006: 56-58. [ 王立新. 箱包艺术设计[M]. 北京: 化学工业出版社, 2006: 56-58.]
  • [22] Shi H K. Similarity measurement in image retrieval[J]. Fujian Computer, 2010, 26(3): 50–51. [时慧琨. 图像检索中的相似性度量方法[J]. 福建电脑, 2010, 26(3): 50–51. ] [DOI:10.3969/j.issn.1673-2782.2010.03.033]