网刊加载中。。。

论文引用格式：Wang Y Z， Liu L， Fu X D， Liu L J and Huang Q S. 2023. Fashion clothing matching by global-local feature optimization. Journal of Image and Graphics， 28（04）：1104-1118（引用格式:汪芸竹，刘骊，付晓东，刘利军，黄青松. 2023. 全局—局部特征优化的时尚服饰搭配. 中国图象图形学报， 28（04）：1104-1118）［0　引言随着人们对时尚着装需求的日益增长，时尚服饰搭配已成为计算机视觉中时尚领域的重要问题之一（Cheng等，2022）。服饰搭配需要将多件不同类别时尚单品（如上衣、鞋子等）组合在一起，而衡量服饰搭配是否得当的关键在于不同类别服饰之间的匹配度，即时尚服饰间的兼容性（Han等，2017；Pang等，2021）。Cucurull等人（2019）利用服饰视觉特征学习服饰间视觉兼容性，以评估服饰间颜色、形状等视觉搭配情况；Zhang等人（2020）基于服饰文本特征构建服饰间文本兼容性，以评估服饰间品牌、类别等文本搭配情况。因此，服饰搭配任务的核心是：1）不同服饰的特征表示；2）服饰的兼容性学习。如何有效地提取服饰特征并利用它们构建复杂的服饰兼容性，以提高时尚服饰搭配的性能和准确率，成为获得高质量搭配结果、辅助人们自主进行服饰搭配的关键问题。服饰图像和文本内容的特征表征是时尚服饰搭配的基础。大多数方法通过神经网络提取时尚服饰的视觉特征和文本特征，以表征服饰内容。Liu等人（2018）利用时尚服饰的图像数据，通过卷积神经网络提取视觉特征。Zhang等人（2020）采用时尚服饰的文字描述（即标题句子），通过长短期记忆网络来提取文本特征。Song等人（2019）同时利用图像和文本数据，运用不同的卷积网络分别提取视觉和文本特征。然而，随着时尚服饰的样式、设计款式越来越丰富，除了服饰整体外观（如风格、形状），局部设计逐渐成为时尚服饰搭配的关注点。如上衣的藏蓝色罗圈刺绣花纹、波浪式袖边/衣边，项链的环形编织、木质装饰，鞋面的几何镂空等。服饰图像的局部特征能更细致地表示服饰内容。周前前等人（2021）利用局部特征丰富了服饰图像表示，提升了服饰图像检索的性能，但是时尚服饰图像的局部特征在时尚搭配任务中的运用仍有局限。Li等人（2020c）提出区域分割方法，提取时尚服饰图像局部区域的颜色、纹理直方图特征，能较好地表示服饰图像局部的颜色、纹理信息，有利于后续时尚服饰兼容性建模，但该方法仅提取了局部的底层特征，未利用图像局部卷积特征表示深层语义。Yang等人（2021）通过时尚服饰的局部属性和图像局部区域的对齐，获得上衣和下装的区域感知属性特征，为上下装属性的兼容性建模提供了计算载体。然而，由于其局部属性标签数量有限，很难在实际应用中准确描述不同服饰的局部细粒度属性，限制了时尚服饰图像局部信息的表示。分析不同时尚服饰特征间的关系，构建服饰兼容性，是衡量时尚服饰搭配效果的关键因素。刘玉杰等人（2019）通过共享参数的Siamese网络，模拟两件服饰视觉特征间的兼容性。Li等人（2019）在服饰特征空间中，通过Wasserstein距离函数度量相互搭配的服饰特征从而建模服饰兼容性。这些工作基于时尚服饰的全局特征（图像、文本），仅构建了全局兼容性，缺乏服饰局部兼容性，未分析不同服饰图像局部特征之间的搭配关系，不能全面地度量不同服饰的匹配度，导致服饰搭配准确率不高。Li等人（2020c）在时尚服饰图像全局兼容性建模基础上，运用多个多头注意力（multi-heads attention，MHA）模块学习服饰的局部颜色、纹理兼容性，通过结合服饰全局、局部兼容性，提高了时尚服饰搭配的准确率。然而，由于其提取到的时尚服饰局部特征表示范围有限，未考虑不同服饰在兼容性学习中的权重，加之忽略了全局和局部兼容性对时尚搭配的不同促进作用，使得时尚服饰准确搭配仍然存在以下难点：1）针对时尚服饰丰富的局部细节，如何不依赖明确的属性标签，有效地提取服饰图像的局部特征；2）由于缺乏时尚服饰局部的特征表示以及不同服饰在全局和局部搭配关系中的权重信息，现有方法难以全面学习时尚服饰的全局和局部兼容性，导致服饰兼容性建模效果不佳；3）现有时尚服饰搭配模型仅利用全局兼容性进行时尚服饰搭配，未结合局部兼容性，且缺乏全局兼容性和局部兼容性对搭配的不同增益，导致模型的性能和时尚服饰搭配的准确率较低。针对以上问题，本文提出全局—局部特征优化的时尚服饰搭配方法。本文的主要贡献有：1）构建全局—局部特征提取模块，分别提取时尚服饰的全局特征（图像、文本特征）和图像局部特征，实现在不依赖明确的属性标签下对时尚服饰丰富细节信息的表示；2）定义时尚服饰全局—局部兼容性学习模块，学习不同时尚服饰间的全局、局部搭配关系，并引入不同服饰在全局—局部兼容性建模中的权重，增强兼容性建模的完备性；3）提出时尚服饰搭配优化模型，基于时尚服饰搭配中全局兼容性和局部兼容性的不同组合，对服饰搭配进行优化，提高时尚服饰搭配中兼容性建模的质量和准确率。1　相关工作获得服饰内容的特征表示是构建服饰搭配方法的根本。早期工作依赖人工定义的视觉特征表示时尚服饰。例如，Liu等人（2012）定义了方向梯度直方图（histogram of gradient，HOG）、局部二值模式（local binary pattern，LBP）、颜色矩和颜色直方图特征来表示服饰内容，以便于面向场合搭配服饰。McAuley等人（2015）基于手工定义的颜色、纹理和SIFT（scale invariant feature transform）等3种视觉特征来表示时尚杂志中的时尚服饰，进而构建服饰搭配方法为上衣搭配合适的下装。随着深度学习的发展，越来越多的工作通过神经网络提取更为丰富的深度卷积特征来有效地表示服饰内容。Veit等人（2015）利用Siamese CNN（Siamese convolutional neural network）提取共同购买的服饰的视觉特征进行服饰搭配研究。Iwata等人（2011）提出一个神经相容性排序模型（neural compatibility ranking，NCR），通过建模不同类别服饰文本特征之间的兼容性来进行服饰搭配。为增强视觉特征的表示能力，Shin等人（2019）引入了无监督的风格提取模块，提取服饰图像的风格特征，并合并到视觉特征中。Vasileva等人（2018）和Li等人（2020b）将服饰的类别信息作为补充，强化文本特征。Li等人（2020a）则将服饰的ID（identification）号融入服饰特征中，提升嵌入质量。这些工作都围绕服饰的全局特征（图像、文本），以学习服饰的整体印象。在进一步工作中，Li等人（2020c）和Yang等人（2021）考虑到时尚服饰局部特征描述了服饰的设计细节，对服饰搭配也有贡献，因此，提取了服饰图像局部特征以补充服饰内容的表示。然而，Li等人（2020c）仅提取了时尚服饰图像局部的颜色、纹理直方图特征，Yang等人（2021）依赖代价高昂的属性标签获得服饰局部特征，使得时尚服饰局部特征的获取不全面，降低了后续服饰兼容性学习的质量。本文在提取图像特征的卷积网络基础上，构建了一个局部特征提取网络，在不依赖属性标签的情况下提取时尚服饰图像局部特征，有效表示时尚服饰局部信息。服饰兼容性学习是利用时尚服饰特征理解服饰间抽象复杂的搭配关系。Song等人（2017）基于视觉、文本特征，通过内积度量函数模拟上衣和下装之间的兼容性。杨争妍等人（2021）通过对抗网络挖掘搭配的颜色、款式等视觉规律。Han等人（2017）和Dong等人（2020）借鉴自然语言处理中的Bi-LSTM（bi-directional long short-term memory）模型，将多件服饰看成一个序列，通过前向传播和反向传播捕获单件服饰与前后项视觉特征之间的关联信息。进一步研究中，Pang等人（2021）在用Bi-LSTM学习服饰兼容性的同时，对服饰搭配进行可解释分析。Chen等人（2019）将视觉、文本特征分别输入双向Transformer编码器，构建多件服饰之间的关联。Lin等人（2020b）构建全连接网络拼接服饰特征来模拟单件服饰之间的搭配关系。Cucurull等人（2019）和Cui等人（2019）利用图神经网络捕获时尚服饰图像特征之间的交互信息，建模时尚服饰兼容性。这些方法未利用时尚服饰的局部特征学习局部兼容性，因此忽略了时尚服饰间的局部搭配关系对时尚服饰搭配的影响，导致搭配结果不够准确。尽管Li等人（2020c）和Yang等人（2021）同时利用服饰的全局和局部特征，进行了全局和局部兼容性建模的初步探索，但其兼容性建模不全面，缺乏对不同时尚服饰在搭配中的不同权重的捕获，且未考虑全局、局部兼容性对时尚服饰搭配的不同贡献，导致时尚服饰搭配的结果不够准确。本文在图网络基础上，定义时尚服饰全局—局部兼容性学习模块，充分建模服饰兼容性，再利用服饰全局和局部兼容性构建时尚服饰搭配优化模型，以优化时尚搭配结果。2　服饰兼容性建模本文对服饰兼容性进行建模，建模过程如图1所示。首先，构建全局—局部特征提取模块，利用不同的卷积网络提取时尚服饰的全局特征（文本、图像）。同时，在提取图像特征的卷积网络基础上构建局部特征提取网络，无监督地学习服饰图像局部特征。然后，将全局和局部特征输入兼容性学习模块，利用图网络分别学习不同服饰全局搭配关系和局部搭配关系，并在不同搭配关系中通过自注意力机制为不同服饰加权，得到完善的时尚服饰全局和局部兼容性。10.11834/jig.211170.F001图1服饰兼容性建模Fig.1Clothing compatibility modeling2.1　全局-局部特征提取2.1.1　全局特征提取时尚服饰的整体印象（如风格、品牌）由服饰的图像和文本进行描述。本文分别提取服饰的图像特征和文本特征作为表示服饰整体印象的全局特征。数据集中共有I件服饰，利用TextCNN（text convolutional neural network）（Wang等，2019）和ResNet50（deep residual network 50）（He等，2016）分别提取每件服饰的文本特征和图像特征，这两个架构在各种自然语言处理任务和时尚学习任务中因结构简单、特征提取效果好而得到广泛使用。对每件服饰的标题文本数据，通过预训练的300维word2vector向量对每个单词进行编码。再将词向量进行连接，输入TextCNN，从该模型的最后一个最大池化层得到该件服饰的400维文本特征，用fti表示，i∈1,2,⋅⋅⋅,I。对每件服饰的图像数据，将图像送入ResNet50，从ResNet50最后一个平均池化层得到2 048维输出向量，将其作为服饰的图像特征，用fvi表示，i∈1,2,⋅⋅⋅,I。2.1.2　局部特征提取由于基于ResNet50最后一个平均池化层得到的图像特征无法表示服饰图像的局部信息，且通过监督方法提取局部特征会导致人工标注成本升高，为了节约成本，有效定位局部区域提取局部特征，受到Liu等人（2017）方法的启发，本文在卷积神经网络的基础上构建局部网络，以获得图像局部特征。与该方法不同的是，本文在ResNet50网络基础上构建局部特征提取网络，用以捕获时尚服饰丰富的局部特征。该网络由5个分支构成，每个分支由1 × 1的卷积层、BN（batch normalization）层和ReLU（rectified linear unit）激活函数组成，用来提取不同兴趣区域的局部特征。首先，将ResNet50的卷积块层conv5_x输出的特征图T∈RH×W×C输入到局部特征提取网络DETn·。局部特征提取网络中的第n∈1,5个分支为特征图估计一幅权重图Wn∈RW×C，用于定位关注的时尚服饰局部区域，估计过程形式定义为Wn=DETnT （1）然后，将不同权重图分别与服饰特征图进行按位乘积，经过池化运算φ得到不同局部区域的特征向量fn。即fn=φT×Wn （2）最后，连接5个不同的特征向量，以表示一幅服饰图像的局部特征，具体为fpi=concatf1, f2,⋅⋅⋅, f5, i∈1, 2,⋅⋅⋅, I （3）本文从有高级语义内容的深层卷积块层中提取局部特征，不依赖任何属性标签，通过无监督学习提取服饰图像局部特征，不仅能有效节省大量的人工标注成本，还使服饰局部特征具有深层语义。2.2　全局—局部兼容性学习时尚服饰搭配存在较复杂的关系。例如，一组搭配的时尚服饰中任意一件服饰和其余服饰单品，从全局到局部都存在搭配关系，并且不同服饰在全局和局部搭配关系中有不同的影响权重。因此，在建模时尚服饰间全局、局部搭配关系的同时融入不同服饰的权重信息是兼容性学习的关键。为更好地实现全局—局部兼容性学习，本文先将不同服饰映射到同一个潜在兼容空间，即f˜=δωlatf+blab （4）式中，ωlat和blab是映射函数的参数，δ是sigmoid激活函数，f表示服饰的原始特征fvi， fti， fpi。f˜则表示3种原始特征对应的潜在特征f˜vi， f˜ti， f˜pi。时尚服饰之间的搭配关系不是单一、有序的。因此，图网络比序列模型和度量函数更适合用来建模复杂的时尚服饰全局和局部搭配关系。通过构建无向图GS,E来表示时尚服饰搭配关系，S是节点集，E是节点之间的边集。图中每个节点si∈S表示一件单品，相邻节点si和sj之间的边(si,sj)∈E表示两件单品之间的搭配关系，i,j∈1,2,⋅⋅⋅,I。一件单品和其余单品的搭配关系通过图网络（Teney等，2017）的K次传播步骤（节点通信）进行学习。以节点si和其所有相邻节点sj之间第k次通信为例，说明服饰i的全局—局部兼容性建模过程。图网络中节点的初始状态是服饰的潜在特征，即h0=f˜。节点si的初始状态为hi0。经过K次传播步骤，节点si的状态由hi0变为hik，第k次传播步骤定义为qik=∑(sj,si)∈EQωjihjk-1+bjizik=δ(ωzqik+Uzhik-1)rik=δ(ωrqik+Urhik-1)h˜ik=tanh(ωhqik+Uh(rik⊙hik-1))hik=zik⊙h˜ik+(1-zik)⊙hik-1 （5）式中，Q是邻接矩阵，表示节点si和节点sj的关联，即服饰i与服饰j的搭配关系。hjk-1表示第k-1次节点通信后相邻节点sj的状态，qik表示节点si接受了所有相邻节点sj传播来的信息，也就是qik存储了服饰i和相邻服饰的所有搭配信息。大量搭配信息需要经过几次更新和重置才能被确定，因此，通过更新门zik和重置门rik决定保留和丢弃哪些搭配信息，节点si的最终状态变为hik，它存储了服饰i和所有相邻服饰的搭配信息。将服饰i的3种潜在特征f˜vi，f˜ti，f˜pi分别作为图节点的初始状态，分别经过图网络信息传播后得到节点si的3种最终状态，即服饰i与不同相邻的服饰j的图像搭配关系hvik、文本搭配关系htik和图像局部搭配关系hpik。至此，将hvik和htik视为服饰i的全局兼容性，hpik则为其局部兼容性。不同时尚服饰在全局、局部兼容性学习中有着不同的重要程度，需要获取不同服饰的权重来进一步完善服饰兼容性表示。例如，加权前，在全局和局部兼容性学习中，裙子的权重值与鞋子相同；增加权重信息后，在全局兼容性学习中，裙子的权重值比鞋子大，而在局部兼容性中，裙子的权重值比鞋子小，说明不同权重信息的引入更符合实际的搭配情况。本文用自注意力机制自适应地为节点增加权重信息，即学习不同服饰在全局和局部搭配关系中的权重，对图网络中z个节点的最终状态Asvk=hv1k,hv2k,⋯,hvzk，Astk=ht1k,ht2k,⋯,htzk，Aspk=hp1k,hp2k,⋯,hpzk增加权重信息，定义为Asv'k=fsoftmaxAsvkωa1Asvkωa2DAsvkωa3Ast'k=fsoftmaxAstkωa1Astkωa2DAstkωa3Asp'k=fsoftmaxAspkωp1Aspkωp2DAspkωp3 （6）式中，参数ωa1，ωa2和ωp1，ωp2与节点的最终状态通过softmax函数分别计算服饰在全局和局部兼容性中的权重。ωa3和ωp3则是将服饰的全局和局部权重信息加至节点状态中的参数，经过加权运算得到输出结果Asv'k=Hv1k,Hv2k,⋯,Hvzk， Ast'k=Ht1k,Ht2k,⋯,Htzk，Asp'k=Hp1k,Hp2k,⋯,Hpzk。任意一个向量Hvik表示服饰i的图像兼容性，向量Htik表示服饰i的文本兼容性，将二者视为服饰i的全局兼容性，向量Hpik则表示服饰i的局部兼容性。3　时尚服饰搭配优化模型时尚服饰搭配需通过套装中多件服饰的兼容性生成套装兼容性，并计算搭配得分，对一组服饰组成的套装是否搭配进行准确判断（Li等，2020a）。本文通过时尚服饰全局—局部特征构建服饰全局—局部兼容性，实现了服饰内容的低层表示（全局—局部特征）到服饰搭配关系的高层表示（全局—局部兼容性）的优化。为获得准确的时尚服饰搭配结果，本文基于服饰全局和局部兼容性定义时尚服饰搭配优化模型，如图2所示。首先，分别融合套装中所有时尚服饰的全局兼容性和局部兼容性，得到套装的全局和局部兼容性得分。然后，根据套装全局兼容性和局部兼容性对服饰搭配的不同重要程度，学习权衡参数融合两种兼容性得分，得到套装的搭配得分。最后，通过贝叶斯个性排名（Bayesian personalized ranking，BPR）损失函数训练模型，使模型正确计算出套装的搭配得分，并根据不同套装搭配得分的相对高低，输出优化后的时尚搭配结果。10.11834/jig.211170.F002图2时尚服饰搭配优化模型Fig.2The model of fashion clothing matching本文对套装中所有服饰的3种兼容性（图像兼容性、文本兼容性和局部兼容性）分别进行融合。以图像兼容性融合为例，定义为Fv=∑i=1mδHvik⊙tanhHvik （7）式中，δ和tanh为融合过程加入非线性因素，m表示套装中时尚服饰的数量。Fv表示套装的图像兼容性。同理，可以得到套装的文本兼容性Ft和套装的局部兼容性Fp。服饰搭配同时受到3种套装兼容性的影响，因此组合套装的3种兼容性以更好地进行训练。由于Fv和Ft从全局角度衡量了套装的兼容性，将其进行组合表示套装的全局兼容性Fa，即Fa=Fv+Ft （8）Fa将多件单品的全局信息组合起来描述了套装的整体搭配是否得体，是套装的全局兼容性得分。Fp将多件单品的局部信息组合起来描述了套装中一些局部设计是否搭配，是套装的局部兼容性得分。Li等人（2020c）直接将套装全局兼容性和局部兼容性进行加权计算获得套装搭配得分。与Li等人（2020c）方法不同，本文受Zhou等人（2020）启发改进了其方法，按照套装中存在的全局和局部兼容性对服饰搭配重要性的不同学习参数α，对套装的全局和局部兼容性进行权衡，以更有效地结合两种兼容性，进而提升服饰搭配模型的搭配准确率和性能。本文的套装兼容性得分Fo计算式为Fo=αFa+1-αFp （9）在实际服饰搭配中，通常认为搭配套装的兼容性得分比不搭配的套装高。因此，本文采用贝叶斯个性化排名（BPR）损失函数最大化后验概率，定义为Lbpr=∑o,o'∈D-lnδFo-Fo'+λ2θ2 （10）式中，D=o,o'是训练集，o是搭配的正样本套装，数据集中的每一组套装视为正样本，o'是不搭配的负样本套装，为了获得o'，对每个正样本中的任意一件服饰进行替换，即从数据集中随机抽取一件服饰替换正样本中的一件服饰。经过训练，模型能计算出测试集中正样本套装o的搭配分数Fo以及负样本套装o'的搭配分数Fo'，若二者满足FoFo'，则说明套装o搭配得当，而套装o'搭配不正确，否则反之。此外，在表示套装的全局兼容性时，Fv和Ft之间存在一致性，本文定义一致性损失函数为Luni=∑i=1m-ln(δ(Hvik)ΤHtik) （11）本文通过优化时尚服饰搭配的目标函数获得最终准确的服饰搭配结果。具体为L=Lbpr+Luni （12）本文时尚服饰搭配方法构建步骤如下：1）服饰兼容性建模。首先，将训练集中时尚服饰的图像和文本数据输入全局—局部特征提取模块中，提取服饰全局特征（图像、文本）。在提取服饰图像特征时保存高层卷积层的输出特征图，作为局部特征提取网络的输入。然后，将存储的特征图输入局部特征提取网络，通过式（3）提取服饰图像的局部特征。最后，将全局特征和局部特征输入构建的兼容性学习模块，通过式（5）对服饰特征间的关系进行建模，得到初步的服饰兼容性表示。再按照式（6）增加不同服饰的权重信息，完善服饰兼容性的表示。2）服饰搭配优化。根据式（7），分别对正、负样本中所有服饰的全局—局部兼容性进行融合，得到套装的全局—局部兼容性。采用式（9）对正、负样本的套装全局—局部兼容性进行组合，分别计算出正样本套装的高搭配得分和负样本套装的低搭配得分，根据得分高低实现服饰的准确搭配。4　实验结果与分析4.1　实验设置及数据集实验选用Intel Core i9-9900 k CPU@3.60 GHz，GPU 2080Ti，32 GB DDR4 2 666 MHz RAM的硬件平台以及采用PyCharm等集成式开发环境，通过Tensorflow深度学习框架构建本文方法。实验在公开数据集Maryland Polyvore（Han等，2017）上进行。该数据集来自流行时尚网站Polyvore.com，由服饰的图像和文本描述信息构成，已用于时尚分析等研究工作（Shin等，2019）。maryland polyvore数据集中共有21 889组套装，每组套装包含多件服饰图像以及对应的文本描述。为了保证训练质量以及套装的完整性，加之实际生活的套装中服饰数量不止两件，本文去掉服饰件数不到3项的套装。最终将数据集中剩下套装中的16 983组作为训练集D，1 497组作为验证集Dvalid，2 697组作为测试集Dtest，共计126 054幅服饰图像、2 757个文本描述单词，一组套装服饰件数至多8件，最少3件，所有套装平均服饰件数为6.2件。本文采用Adam优化器来优化参数，并通过网格搜索策略确定最优超参数，通过多次实验，将传播次数K和学习率分别设置为3和0.001。由于GPU内存限制，模型训练时的批量大小设置为16，每个小批量包含16套服饰，约128幅图像及其对应的文本描述。4.2　实验结果与性能分析4.2.1　对比方法本文基于以下对比方法的开源代码，并在本文使用的数据集上重新进行了训练，并将对比模型与本文模型在各项实验任务中进行性能对比与分析。1）Siamese LSTMs（Zhang等，2020）。该方法通过LSTM提取服饰标题的文本特征，利用距离度量函数计算多个服饰对的兼容性得分并求平均值。2）Bi-LSTM（Han等，2017）。该方法将一组服饰视为一个序列，并使用双向LSTM来学习服饰图像兼容性。3）GCN（graph neural network）（Cucurull等，2019）。该方法采用图神经网络对时尚图进行建模，通过服饰图像特征学习服饰上下文和成对兼容关系进行服饰搭配。4）NGNN（node-wise graph neural networks）（Cui等，2019）。该方法采用具有多模态信息的图网络，从图像信息和文本信息角度获得兼容性评分，以构建服饰搭配模型。5）CANN（content attentive neural network）（Li等，2020c）。该方法利用服饰图像特征和图像局部区域颜色、纹理直方图特征通过多头注意力（multi-heads attention，MHA）机制学习全局兼容性和局部兼容性，进而进行服饰搭配建模。4.2.2　服饰搭配兼容性预测类似于Song等人（2019）的方法，本文采用AUC（area under curve）对提出的时尚服饰搭配方法的兼容性预测性能进行评估，AUC的定义为AUC=1Dtest∑o,o'∈DtestσFoFo' （13）式中，Dtest为评估数据集，o和o'是正负套装样本，其构建过程同训练集。表1给出了本文方法与其他方法的性能对比结果。从实验结果可以看出，本文方法的预测性能优于对比方法Siamese LSTMs，Bi-LSTM，CANN。这是因为这些对比方法未采用图结构对服饰的搭配关系进行建模，而本文方法受益于图网络的信息传播机制，能更好地提取有用的特征交互信息并建模复杂的服饰兼容性，提高套装兼容性得分的预测能力。GCN、NGNN和本文方法都采用了图网络，但GCN和NGNN仅学习了全局兼容性以构建时尚服饰搭配模型，而本文方法进一步考虑了局部兼容性对搭配的影响，提升了时尚服饰搭配的性能。10.11834/jig.211170.T001表1本文方法与其他方法的性能对比Table 1The performance comparison of our method and related methods方法AUCSiamese LSTMs0.790 7Bi-LSTM0.862 9GCN0.928 3NGNN0.969 3CANN0.931 0本文0.978 2注：加粗字体表示最优结果。4.2.3　服饰填空任务服饰填空是对时尚服饰搭配准确度进行评估的任务（Han等，2017）。其目标是从候选服饰中选择搭配最兼容的服饰来填补套装中缺失的服饰。具体地，针对测试数据集Dtest中每组正样本套装，随机将套装中的1件服饰用空白替代，然后从其他套装中随机选择3件服饰与被替代的服饰形成服饰候选集。将被替代的服饰视为正确选项，随机选择的3件服饰是错误选项，正确选项比其他候选项兼容性更高，即模型给出的搭配得分在4个选项中最高。本文将4个选项分别放入空白中通过服饰搭配方法计算套装兼容性得分，得分最高的选项即为给出的搭配方案。通过FITB（fill in the blank）评估服饰搭配方法的准确率。具体为fFITB=1Dtest∑x=1DtestΡx （14）式中，Ρx表示服饰搭配方法为每套服装选择正确选项的准确率。表2给出了本文方法与以上对比方法的准确率比较结果。Siamese LSTMs仅利用服饰的文本信息，Bi-LSTM和GCN仅采用服饰的图像信息分别探究了服饰的兼容性，说明不同服饰图像、文本之间均存在搭配关系，这对于服饰的准确搭配是不可或缺的。相较于Siamese LSTMs和Bi-LSTM，本文方法有更高的服饰搭配准确率，这得益于利用图网络分别建模不同服饰图像、文本特征之间的复杂交互，以推断出服饰的图像、文本兼容性信息。与同样采用图网络学习兼容性的GCN和NGNN方法相比，本文方法除了利用服饰的全局特征构建全局兼容性，还通过服饰图像的局部特征构建了服饰局部兼容性，同时捕获了不同服饰在全局—局部兼容性中的不同权重信息，因此，服饰搭配准确率优于前者。本文和CANN都同时关注了不同服饰全局、局部信息之间的搭配关系，但是CANN仅采用服饰的图像作为全局信息，忽略了文本信息，并且未考虑套装全局兼容性和局部兼容性对服饰搭配的不同增益，导致其服饰搭配准确率低于本文方法。10.11834/jig.211170.T002表2本文方法与对比方法的准确率比较Table 2The accuracy comparison of our method and related methods方法文本特征图像特征局部特征FITB/%Siamese LSTMs有无无56.86Bi-LSTM无有无68.24GCN无有无76.51NGNN有有无79.46CANN无有有84.91本文有有有86.89注：加粗字体表示最优结果。为进一步说明本文模型的有效性，将本文方法的收敛速度与其他对比方法进行比较。图3是不同方法在不同训练周期的准确率表现。其中，横坐标表示训练周期，纵坐标表示时尚服饰搭配准确率。从图3可以看出，随着训练周期的增加，所有方法的准确率都有提高。相较于Siamese LSTMs和NGNN，本文模型收敛速度稍慢，但具有更高的时尚服饰搭配准确率。与收敛速度差不多的Bi-LSTM，GCN，CANN相比，本文具有更高的准确率。10.11834/jig.211170.F003图3不同方法在不同训练周期的准确率表现Fig.3The performance of different models in terms of accuracy in different epochs为进一步验证本文方法的准确率，通过3个服饰填空示例，将本文方法与性能较高的其他两个模型CANN和NGNN进行，结果如图4所示。其中，问题中的“？”表示缺失1件服饰的套装；答案中的绿框表示正确搭配服饰，下方的分数表示通过本文方法计算的套装兼容性得分；选择结果展示了不同模型搭配的结果，红色表示搭配错误，绿色代表搭配正确。示例1中，套装缺失1件上装，4个选项中只有A选项属于上装，3个方法均选择正确的服饰类别进行搭配。示例2中，套装缺少1双鞋，选项A和C均属于运动鞋。从服饰全局兼容性考虑，二者均能和其余服饰搭配形成运动风格的套装，然而，结合服饰的局部兼容性考虑，有迷彩色彩的选项A比C更好搭配其余服饰。因此，本文方法得到正确的搭配，而NGNN得到错误的搭配。示例3中，套装也缺失1双鞋，选项A，B，C属于高跟鞋且A和B十分相似。由于本文方法能较好地捕获局部高层语义信息（如款式、设计等），相比于CANN更有效地区分了A和B搭配的优劣，输出了正确搭配方案。以上对比进一步验证了本文方法的准确率。10.11834/jig.211170.F004图4本文方法与CANN和NGNN方法在服饰填空任务中的对比示例Fig.4Real examples of our method and two strong baselines （CANN and NGNN） on fill-in-the-blank task4.2.4　时尚服饰搭配优化结果本文通过在时尚服饰搭配中常用的检索方法（Dong等，2020）来展示搭配结果，如图5所示。其中，图5（a）表示待搭配的4组查询服饰，每组缺少1种服饰完成搭配；图5（b）表示时尚服饰搭配结果排序，绿框代表每组查询服饰的真实搭配服饰。真实搭配服饰的排名越靠前，说明搭配越准确。本文方法-L和本文方法-G分别代表不建模全局兼容性和局部兼容性，实验结果对比表明，同时建模服饰全局和局部兼容性的方法明显提高了真实搭配服饰的排名，优化了时尚服饰搭配结果。10.11834/jig.211170.F005图5时尚服饰搭配结果Fig.5The results of clothing matching（（a）query clothing；（b）sorting of clothing matching results）图6和表3展示了本文方法使用的参数α如何影响搭配得分。图6有4组正、负样本对，绿框表示正确的搭配，红框表示错误的搭配，表3记录4组搭配的得分。事实上，在结合套装全局兼容性和局部兼容性后，模型预测的正样本搭配得分应该高于负样本搭配得分。本文方法使用了参数α，在4组示例中都正确预测了正、负样本的搭配得分，正样本的分数高于负样本的分数。然而，没有使用参数α的方法在第1、4组中预测错误，使得正样本分数低于了负样本分数，导致第1、4组搭配不正确。10.11834/jig.211170.F006图6服饰搭配正负样本示例Fig.6The positive and negative samples of clothing matching10.11834/jig.211170.T003表3参数对搭配得分的影响Table3The effect of parameter on compatibility score搭配得分第1组第2组第3组第4组正样本负样本正样本负样本正样本负样本正样本负样本Fa0.931 20.710 70.895 40.676 30.737 20.750 60.562 80.540 7Fp0.583 30.892 60.920 10.459 60.961 80.483 50.540 70.609 9Fa+Fp1.513 51.603 31.815 51.135 91.699 01.234 11.137 71.150 6αFa+1-αFp0.826 80.765 30.902 80.611 30.804 60.670 50.566 40.561 5为进一步说明参数α对服饰搭配的性能和准确率的影响，本文比较了有无参数α时，AUC和FITB值的变化，对比结果如表4所示。从表4可以看出，当本文方法学习了参数α，服饰搭配的性能AUC和准确率FITB都高于没有学习参数α的方法。这说明在结合套装全局兼容性和局部兼容性时，使用参数α能提升服饰搭配的性能和准确率，优化服饰搭配结果。10.11834/jig.211170.T004表4有无参数α对服饰搭配的性能和准确率的影响Table 4The influence of parameter α on AUC performance and FITB accuracy参数αAUCFITB/%无（Fa+Fp）0.961 780.53有（αFa+1-αFp）0.978 286.89注：加粗字体表示各列最优结果。4.3　消融实验分析为了更好地说明本文方法的有效性，将本文方法-L和本文方法-G与本文方法进行性能和准确率对比，结果如图7所示。可以看出，本文方法在两个指标上均优于本文方法-L和本文方法-G，说明同时利用服饰全局特征和局部特征学习全局、局部兼容性的重要性和有效性。本文方法-L比本文方法-G的性能和准确率更高，表明用服饰全局特征建模全局兼容性是影响时尚服饰搭配的主要因素。10.11834/jig.211170.F007图7不同方法性能和准确率对比Fig.7Comparison of performance and accuracy of different methods（（a）performance；（b） accuracy）全局、局部兼容性对时尚服饰搭配的性能和准确率有不同的影响。图8给出了当α取不同值时，本文方法性能和准确率的变化。α取不同值时，本文方法的性能和准确率各不相同。当α=0.7时，全局兼容性的权重为0.7，局部兼容性的权重为0.3，此时本文方法的性能、准确率最高。实验表明，全局兼容性和局部兼容性对时尚服饰搭配有不同的影响程度，且当α=0.7时，二者结合能使服饰搭配模型取得最高的AUC和FITB值。为了进一步说明学到的α=0.7的普适性，本文在Vasileva等人（2018）公开的数据集Polyvore Outfits上用α=0.7，1-α=0.3重新训练本文模型。将本文方法和采用Polyvore Outfits数据集的3个方法（Vasileva等，2018；Tan等，2019；Lin等，2020a）进行比较，对比结果见表5。从表中可以看出，当α=0.7，1-α=0.3时，本文方法在Polyvore Outfits数据集上也能有较高的AUC值和FITB值。10.11834/jig.211170.F008图8α取不同值对时尚服饰搭配性能和准确率的影响Fig.8AUC performance and FITB accuracy of our method with different α10.11834/jig.211170.T005表5本文方法与其他方法在Polyvore Outfits数据集上的性能对比Table 5Comparison of AUC and FITB between our method and related methods on Polyvore Outfits dataset方法AUCFITB/%CSN（Vasileva等，2018）0.8656.2SCE-Net（Tan等，2019）0.9161.6CSA-Net（Lin等，2020a）0.9163.7本文0.9479.3注：加粗字体表示各列最优结果。通过自注意力机制区分了不同服饰在全局—局部兼容性建模中的权重。图9展示了3套搭配套装中不同服饰权重的可视化结果示例。服饰内容对兼容性影响越大，则权重值越大，该服饰右下角颜色块的颜色越深，反之越浅。如图9所示，全局信息越丰富、越有风格的服饰对全局兼容性的影响越大（如套装1中的连衣裙和高跟鞋），局部设计越特别的服饰对局部兼容性的影响越大（如套装2中的包和戒指）。实验结果表明，本文的搭配结果较合理，符合实际生活中的搭配。10.11834/jig.211170.F009图9服饰权重可视化结果示例Fig.9The visualization of clothing weight5　结论针对时尚服饰搭配问题，本文首先提取服饰的全局特征（图像、文本），同时构建局部特征提取网络得到服饰图像的局部特征，以表示丰富的服饰内容。然后构造服饰全局—局部兼容性学习模块，进行服饰全局—局部兼容性建模，学习不同服饰间全局特征的交互和局部特征的交互以及不同服饰的权重信息。最后通过时尚服饰搭配优化模型，融合时尚套装中多件服饰的兼容性生成套装兼容性，并对套装的全局和局部兼容性进行组合，实现服饰的准确搭配。在公开数据集上的实验验证了本文方法的有效性。然而，本文方法的时尚服饰搭配方法收敛速度较慢，且仅考虑了时尚套装全局和局部兼容性的线性组合，而实际生活中，对于不同时尚套装，其全局、局部兼容性的权重不同，需要根据搭配需要动态地调整全局和局部兼容性的权重。后续工作将继续提升方法的收敛速度，并进一步对全局—局部兼容性进行组合优化，以继续提高时尚服饰搭配的准确率。