网刊加载中。。。

论文引用格式：Cheng W Y， Zhou Y， Tao C Y， Liu L， Li Z G and Qiu T R. 2023. Multi-loss siamese convolutional neural network for Chinese calligraphy font and style classification. Journal of Image and Graphics， 28（08）：2370-2381（引用格式:程文炎，周勇，陶承英，刘丽，李志刚，邱桃荣. 2023. 多损失融合网络的中国书法字体与风格分类. 中国图象图形学报， 28（08）：2370-2381）［0　引言书法是中国传统文化的精粹，是中华民族珍贵的文化遗产。中国历史上涌现出许多著名的书法家，他们的作品享誉全球，对世界书法艺术产生了深远影响。随着数字化时代的到来，越来越多的书法作品扫描成数字图像格式存储，避免了因保存不当造成的破损及老化等问题。同时，吸引了学者们尝试用机器学习以及模式识别等方法辅助书法图像的分类、识别以及检索等相关问题的研究。本文研究目标为中国书法分类，具体来说包括书法字体和书法风格分类。目前大部分研究通常将书法字体和书法风格两个概念混淆（Zhang等，2019）。著名书画家、教育家启功先生在《古代字体论稿》中提到可以从字体和风格两个不同角度来描述书法文字。书法字体指汉字本身的不同体式、体裁，主要包括5类，即篆书、隶书、草书、楷书以及行书。书法中每一种字体在形态特征和总体风貌方面都有各自明显的特点。例如，篆书是早期的汉字，不易辨识，笔画圆润、瘦劲，粗细变化较少，结体多纵长，常呈左右对称状；隶书由篆书演变而来，笔画多波挑，一个明显特征是“蚕头雁尾”，形体多呈宽扁之势；草书点画连绵，形态自由草率，不易识别；楷书是现在通行的字体，笔画类型多样，结构接近长方形，中规中矩，有如楷模，故称“楷书”。行书介于楷书和草书之间，字中有一定的牵连笔画，灵动活泼，有如行云流水，容易辨识，便于书写，是人们日常手写体最常用的字体。图1展示了不同书法字体的示例。10.11834/jig.220252送排稿.F001图1不同书法字体示例Fig.1Samples of different calligraphy fonts （（a）cursive；（b）standard；（c）clerical；（d）seal；（e）semi-cursive）相比较书法字体而言，书法风格主要指由有代表性的著名书法家形成的独特风格，更侧重于书法家个体在其书迹中展现的个性鲜明的风格特色，书法家书法风格的形成受天赋、阅历以及师承等多方面因素的影响。例如，同为楷书字体，“楷书四大家”（欧阳询、颜真卿、柳公权、赵孟頫）的书法风格各异，欧体楷书笔画多用方笔，结构严谨；颜体楷书用笔丰腴、圆润，体态宽博，给人以大气磅礴之感；柳体楷书点画有如斧劈刀削，富于骨力，体势开张挺拔；赵体楷书笔法秀媚，结体活泼，于庄重中见潇洒。图2给出了上述4位书法家的书法风格示例。10.11834/jig.220252送排稿.F002图2不同书法风格示例Fig.2Samples of different calligraphy styles（（a） Liu Gongquan；（b） Ouyang Xun；（c） Yan Zhenqing；（d） Zhao Mengfu）书法字体和书法风格分类在书法图像组织存储、识别、检索、书法鉴赏、书法教育，乃至书法文物鉴定等领域，均起到了非常重要的作用。此外，书法字体和书法风格分类能为名家书法作品的鉴定提供重要参考，对提高文博部门的工作效率和准确性很有裨益。然而，由于较大的类内差异及较小的类间差异使得这两个问题均具有较大的挑战性。相比较书法字体分类，书法风格分类难度更大。主要原因在于不同书法风格之间的差异通常来说非常细微，对于未经专业训练的普通人来说很难觉察，给分类带来困难。因此，书法风格分类问题属于细分类问题。由于经过数字化后的书法图像样本通常数量较多，依靠专业人士进行人工分类不仅存在成本问题，而且人工作业易疲劳进而导致误分类。因此研究一种自动的书法字体和风格分类方法具有非常重要的意义。本文提出了一个端到端融合多损失的孪生卷积神经网络，能同时解决中国书法字体和风格分类问题。网络由两个共享权重的分支构成，与传统孪生神经网络不同的是，本文将网络中每个分支扩展为一个分类网络。主要贡献如下：1）网络训练时融合不同类型的损失，可以从不同角度对网络进行监督，起到良好的互补作用。具体来说，为了使来自同一类的两幅输入图像特征之间的距离尽可能小，使来自不同类的两幅输入图像特征之间的距离尽可能大，采用对比损失作为损失函数。此外，在网络每个分支上利用交叉熵作为损失函数，可以充分利用每幅输入图像的类别信息。2）每个分支利用卷积神经神经网络提取输入图像特征，并将Haar小波嵌入到每个分支中，获得不同尺度下的图像特征表示，能较好地捕捉不同类别图像之间的细微差异。3）与对比方法相比，本文方法在中国字体与风格分类两个任务上均取得了令人满意的效果，优于对比方法。1　相关工作1.1　中国书法字体分类目前，中国书法字体分类方法大致可以分为两类，即基于传统手工特征的方法以及基于深度学习的方法。基于传统手工特征的方法主要包括特征提取以及分类器设计两个步骤。例如，Ding等人（2007）首先提取图像中的小波特征，然后用修正二次判别函数（modified quadratic discriminative function，mqdf）进行分类。Zhang等人（2013）首先检测图像中的Harris角点，并在每个角点上提取其Gabor特征，然后利用支持向量机（support vector machine， SVM）分类器进行分类。Song等人（2015）利用多尺度稀疏表示来解决字体分类问题。然而手工特征提取不仅烦琐复杂，具有较强的主观性，而且特征泛化能力较弱。与基于传统手工特征的方法不同的是，基于深度学习的方法能自动学习图像表示（夏梦等，2017）。Tao等人（2016）将字体分类看成一个序列分类问题，提出一个名为PC-2DLSTM（principal component-2D long short-term memory）的网络解决该问题。Huang等人（2018）提出IFN （inception font network）网络，整合了一个改进的Inception模块、CCCP（cascaded cross-channel parametric pooling）层以及全局平均池化，并提出一种新的数据增强方法DropRegion且能有效地嵌入到上述IFN网络中。Dai等人（2018）提出3种不同的卷积神经网络模型用于解决字体分类问题，包括局部卷积神经网络（local convolutional neural network，LCNN）、全局卷积神经网络（global convolutional neural network，GCNN）和双通道卷积神经网络（two pathway convolutional neural network，TPCNN）。Zhang等人（2019）同样利用卷积神经网络解决字体分类问题，并在网络中嵌入注意力机制SE（squeeze-and-excitation）模块（Hou等，2021）以及Haar小波分解（Cao等，2020）。1.2　中国书法风格分类相比较中国书法字体分类，目前针对中国书法风格分类的研究较少，现有方法均为基于深度学习的方法。上述Dai等人（2018）以及Zhang等人（2019）将提出方法同时用于解决风格分类问题。此外，Zhang等人（2019）提出的方法得到进一步改进，具体来说，利用CBAM（convolutional block attention module）模块（Woo等，2018）替换网络中原来的SE模块（Zhang等，2021），主要原因在于SE模块仅在通道上应用了注意力机制，而CBAM模块在通道和空间上均应用了注意力机制。Liu等人（2021）提出一种基于孪生神经网络的书法风格分类方法，在实验中将所提出方法用于解决4种不同书法风格的分类问题。1.3　孪生神经网络传统孪生神经网络一般由两个共享权重的分支构成，主要用于衡量输入图像之间的相似性。将两个输入样本用相同的方法映射成两个特征向量，进而通过判断二者特征是否相似来衡量输入图像的匹配度（王德港等，2021）。孪生神经网络通常采用对比损失函数来优化网络，在图像检索（Dubey，2022）、目标跟踪（Sun等，2022）等领域具有广泛应用。与传统孪生神经网络不同的是，本文将孪生神经网络每个分支扩展为一个分类网络。网络训练时融合了对比损失和分类损失，不仅可以利用两个输入图像的相似性关系，而且能充分利用每幅输入图像的类别信息。2　本文方法本文采用基于深度学习的方法，提出了一个融合多损失的孪生卷积神经网络，能同时解决中国书法与风格的分类问题。具体网络结构如图3所示，包括两个共享权重的分支。网络训练时同时优化对比损失以及分类损失。10.11834/jig.220252送排稿.F003图3本文网络架构示意图Fig.3Architecture of the proposed network2.1　图像特征提取网络中每个分支采用卷积神经网络提取图像特征。受Zhang等人（2019）的启发，本文采用的卷积神经网络包含5个卷积层，其中每个卷积层后面紧跟一个最大池化层，在每个最大池化层后面引入批归一化（batch normalization，BN）层（蔡哲栋等，2021），从而加快网络训练的收敛速度。每层均采用ReLU（rectified linear unit）作为激活函数，利用全局平均池化将特征聚合，具体如图3所示。由于小波具有良好的时频局部化、多分辨率分析等特性，在很多领域具有广泛应用，例如图像降噪（Liu等，2020）、图像分类（Khatami等，2020）等。考虑到Haar小波具有计算简单的特点，而且在许多任务中取得了令人满意的结果（Cao 等，2020），本文利用Haar小波将上述提取的特征进一步进行多分辨率分解，获得不同尺度下的特征表示。具体来说，给定特征向量F，假设其维数为T，对其进行K层Haar小波分解的算法表示为：while K0；T←T/2；for j←0 to j←T-1；F'[j]←(F[2×j]+F[2×j+1])/2；F'[j+1]←(F2×j-F[2×j+1])/2；end for；F←F'；K←K-1；end while。其中，F′为经过K层Haar小波分解的特征。本文实验中验证了将Haar小波分解嵌入到网络每个分支中的有效性，具体见3.4节。2.2　多损失融合本文网络融合了两类不同的损失，即分类损失以及对比损失。这两类损失分别从不同角度对网络训练进行监督，起到了良好的互补作用。2.2.1　分类损失本文网络的每个分支扩展为一个分类网络。具体来说，将上述提取的图像特征输入到一个包含N个神经元的全连接层，其中N为图像类别数目。每个分支采用常用的交叉熵作为损失函数，其定义为LCE=-1M∑i=1M∑k=1Nyiklog pik （1）式中，M为样本个数， pik代表第i个训练样本属于第k（k = 1， 2， …， N）类的预测概率；而yik为真实概率，若第i个训练样本属于第k类，则yik=1；若第i个训练样本不属于第k类，则yik=0。2.2.2　对比损失本文所提出孪生网络输入为两幅图像，为了使来自同一类的两个图像特征之间的距离尽可能小，而来自不同类的两个图像特征之间的距离尽可能大，采用对比损失作为孪生神经网络的损失函数，具体定义为LCT=12M∑i=1Myd2+(1-y)×max(m-d, 0)2 （2）式中， M为样本个数， y = 1代表两幅输入图像来自同一类，即正样本； y = 0代表两幅输入图像来自不同类，即负样本；超参数m为人工设定阈值， d为两个输入图像特征F1和F2之间的欧氏距离，即d=F1-F2 （3）本文比较了采用上述网络分支中不同层作为图像特征时的性能。实验结果表明，当选取全连接层作为输入图像特征时效果最好。2.2.3　融合两类损失网络训练时同时优化交叉熵损失以及对比损失。具体来说，网络损失函数定义为Ltotal=LCE1+LCE2+λ×LCT （4）式中， LCE1和LCE2分别代表两个分支的分类损失， LCT为对比损失，参数λ为权重，通过调节该参数可以实现两类不同损失之间的权衡。网络训练好后，可以将测试图像输入网络的任意一个分支进行分类。3　实验本节介绍实验数据集以及实现细节，通过消融实验验证所提出网络中各个模块的有效性，并将本文方法与现有中国书法字体和风格分类方法进行比较。3.1　数据集由于目前没有公开的用于中国书法字体和风格分类的数据集，本文采用自建的数据集，每个数据集的信息如表1所示。10.11834/jig.220252送排稿.T001表1本文自建数据集信息Table 1Details of the datasets built in our study数据集每类图像数/幅类别数目/个CNCalliFont6 0005CNCalliNoisyFont12 0005CNCalliStyle3 0004CNCalliNoisyStyle6 00041） CNCalliFont（Chinese calligraphy font）数据集。该数据集为字体数据集，包含5种中国书法字体：隶书，草书，篆书，行书和楷书。每类字体的图像数目为6 000幅，并且混合了多种书法风格。其中，隶书字体由4位隶书书法家赵孟頫、席夔、黄葆戊和刘炳森的隶书组成，每位书法家的样本数目为1 500幅；草书字体由4位草书名家智永、怀素、赵孟頫和孙过庭的草书组成，每位书法家的样本数目为1 500幅；篆书字体由4位篆书书法家李阳冰、赵孟頫、吴叡和邓石如的篆书组成，每位书法家的样本数目为1 500幅；行书字体由4位行书大家欧阳修、赵孟頫、文征明和启功的行书组成，每位书法家的样本数目为1 500幅；楷书字体由楷书四大家欧阳询、颜真卿、柳公权和赵孟頫的楷书组成，每位书法家的样本数目为1 500幅。因此，该数据集共包含30 000幅图像，图像尺寸为96 × 96像素。所有图像均为灰度图，图像格式为JPEG。图4给出了该数据集中不同字体的示例。10.11834/jig.220252送排稿.F004图4CNCalliFont数据集上来自不同类的图像示例Fig.4Sample images from each category on CNCalliFont dataset （（a） clerical；（b） cursive；（c） seal；（d） semi-cursive；（e） standard）2）CNCalliNoisyFont数据集。为了使数据集中的图像更接近现实世界中的书法图像，对上述CNCalliFont数据集进行扩展，即针对每幅图像添加均值为0、方差为0.01的高斯噪声，具体如图5所示。故每类字体图像数目为12 000，扩展后的数据集命名为CNCalliNoisyFont。10.11834/jig.220252送排稿.F005图5CNCalliNoisyFont数据集上添加高斯噪声的图像示例Fig.5Sample images contaminated with Gaussian noise fromCNCalliNoisyFont dataset3）CNCalliStyle数据集。CNCalliStyle为风格数据集，本文主要考虑楷书四大家欧阳询、颜真卿、柳公权和赵孟頫的书法风格。每种风格3 000幅图像，因此该数据集共包含12 000幅图像。图像尺寸为96 × 96像素。所有图像均为灰度图，图像格式为JPEG。图6中给出该数据集上来自4种不同风格的图像示例。10.11834/jig.220252送排稿.F006图6CNCalliStyle数据集上来自不同书法家的图像示例Fig.6Sample images from each calligrapher on CNCalliStyle dataset （（a） Liu Gongquan；（b） Ouyang Xun；（c） Yan Zhenqing；（d） Zhao Mengfu）4）CNCalliNoisyStyle数据集。对CNCalliStyle数据集进行扩展，将每幅图像添加均值为0、方差为0.01的高斯噪声，如图7所示。因此该数据集中每种风格有6 000幅图像，扩展后数据集命名为CNCalliNoisyStyle。10.11834/jig.220252送排稿.F007图7CNCalliNoisyStyle数据集上添加高斯噪声的图像示例Fig.7Sample images contaminated with Gaussian noise fromCNCalliNoisyStyle dataset3.2　评价指标在中国书法字体数据集CNCalliFont与CNCalliNoisyFont上分别随机采用其中两位书法家的样本作为训练集，另外一位书法家的样本作为验证集；一位书法家的样本作为测试集。其中训练集用于学习网络中的参数，验证集用于调试网络中的超参数，最后将在验证集上获得最好性能的超参数应用于测试集。在训练集和测试集上采用不同书法家的样本，可以有效验证本文提出方法的拓展性。在中国书法风格数据集CNCalliStyle与CNCalliNoisyStyle上，分别按6∶2∶2划分训练集、验证集和测试集。本文将数据集进行随机10次划分，并且利用平均分类准确率作为评价指标。3.3　实现细节如2.1节所示，本文所提出孪生网络每个分支中包括卷积层、池化层等。表2给出了具体每一层的参数，例如卷积核大小、个数以及步长等。这些参数的取值主要通过在验证集上的实验而得，具体来说，比较了参数取不同值时网络在验证集上的性能，最终选取性能最优的一组参数。其中，对于卷积层，W × H × S表示卷积核的宽度为W，高度为H，卷积核的个数为S。对于池化层，池化窗口大小用W' × H'表示。针对网络分支中的其他层，括号中给出了神经元个数。如果是针对中国书法字体分类这一任务，则最后一层有5个神经元；如果是针对中国书法风格分类这一任务，最后一层有4个神经元。10.11834/jig.220252送排稿.T002表2本文网络中每一层具体的参数Table 2The parameters in each stream ofthe proposed network网络层参数步长Convolutional layer5 × 5 × 321MaxPooling+BatchNormalization+ReLU3 × 32Convolutional layer5 × 5 × 321MaxPooling+BatchNormalization+ReLU3 × 32Convolutional layer5 × 5 × 641MaxPooling+BatchNormalization+ReLU3 × 32Convolutional layer5 × 5 × 1281MaxPooling+BatchNormalization+ReLU3 × 32Global average pooling layer(128)-Haar wavelet decomposition(128)-Fully-connected layer(4/5)-注：参数步长中括号数据代表神经元个数。网络训练时采用随机梯度下降算法，其中，学习率初始设置为0.000 1，当验证集上的损失不在下降时，将学习率降低为原来的1/10。动量设置为0.9，minibatch的大小为64。在验证集上比较了式（2）中参数m取不同值时的网络性能。实验结果表明，在CNCalliFont和CNCalliNoisyFont数据集上m设置为1.5，在CNCalliStyle和CNCalliNoisyStyle数据集上m设置为0.4时，取得了最高的准确率。式（4）中的权重λ在4个数据集上均设置为0.5时，在验证集上取得了最高的准确率，因此在后续实验中将λ设置为0.5。网络共训练100个epoch。3.4　消融实验为了验证本文网络中各个模块的有效性，进行了消融实验，以每个分支上的卷积神经网络作为基准网络，网络训练时仅采用交叉熵损失。表3中对比了如下几个网络的性能：1）基准网络；2）基准网络 + Haar小波分解；3）基准网络 + 对比损失；4）基准网络 + Haar小波分解 + 对比损失，即本文网络。10.11834/jig.220252送排稿.T003表3四个数据集上的消融实验结果分类准确率Table 3Accuracy results of ablation experiments on four datasets网络CNCalliFontCNCalliNoisyFontCNCalliStyleCNCalliNoisyStyle1)95.0187.8872.6069.272)97.1790.0189.1480.063)97.4592.8790.0289.854）99.9094.0999.3893.28注：加粗字体表示各列最优结果。%对比表3中的1）和2）可以看出，在基准网络中加入Haar小波分解在4个数据集上均提高了分类准确率，尤其是在CNCalliStyle和CNCalliNoisyStyle数据集上，嵌入Haar小波分解相较基准网络的分类准确率分别提高了16.54%与10.79%，验证了在网络中嵌入小波分解的有效性。从表3中1）和3）的对比可以看出，融合了对比损失后4个数据集上的准确率分别提高了2.44%、4.99%、17.42%和20.58%，证明了两类损失起到了良好的互补作用。网络4）即本文网络融合了交叉熵损失与对比损失，并且在网络每个分支上嵌入Haar小波分解，在两个数据集上的性能较基准网络均得到了较大的提升。3.5　与现有方法比较表4展示了本文方法与现有中国书法字体和风格分类方法的比较结果。具体来说，一方面将本文方法与传统基于手工特征的方向梯度直方图（histogram of oriented gradient，HOG）（Omid-Zohoor等，2018）、局部二值模式（local binary pattern，LBP）（Liu 等，2016）以及Gabor（Zhang等，2013）的方法进行比较。针对所提取的特征，比较了采用不同分类器时的性能，实验结果表明，当采用SVM分类器时上述3种手工特征均取得了最高的分类性能，故本文实验中采用SVM分类器。另一方面，将本文方法与基于卷积神经网络的书法字体和风格分类方法（Dai等，2018；Zhang等，2019，2021；Liu等，2021）进行比较，由于本文解决的中国书法字体与风格分类问题本身也是一个分类问题，将其与目前常用于图像分类的经典卷积神经网络模型AlexNet（Krizhevsky等，2012）、VGG-16（Visual Geometry Group）（Simonyan和Zisserman，2015）、ResNet-50（residual neural network）（He等，2016）以及Xception（Chollet，2017）进行了比较。此外，将本文方法与两种基于ViT（vision transformer）的图像分类方法（Dosovitskiy等，2021；Chen等，2021）进行了比较。10.11834/jig.220252送排稿.T004表4本文方法与现有方法在不同数据集上准确率性能比较Table 4Accuracy comparison between proposed approach and other methods in the literature on different datasets类别方法数据集CNCalliFontCNCalliNoisyFontCNCalliStyleCNCalliNoisyStyle基于传统手工特征的方法Omid-Zohoor等人（2018）97.0479.9278.8769.17Liu 等人（2016）96.8979.0175.8770.12Zhang等人（2013）97.0080.0872.3770.07基于ViT的方法Dosovitskiy等人（2021）98.0987.1989.9182.03Chen等人（2021）97.8984.3187.2381.12基于卷积神经网络的方法Krizhevsky等人（2012）99.0183.9675.5070.12Simonyan和Zisserman（2015）99.1285.9184.8779.23He等人（2016）98.7587.2974.5068.12Chollet（2017）97.8987.0369.8862.12Dai等人（2018）99.0188.9298.0188.57Zhang等人（2019）99.1291.2998.3886.81Zhang等人（2021）99.0391.2197.6388.30Liu等人（2021）99.4291.0298.0889.08本文99.9094.0999.3893.28注：加粗字体表示各列最优结果。%从表4可以得出如下结论：1）所有方法在CNCalliFont和CNCalliNoisyFont数据集上的性能优于在CNCalliStyle和CNCalliNoisyStyle数据集上的性能，主要原因在于相比较书法字体而言，不同书法风格之间的差异非常细微，具有更大的挑战性。2）在CNCalliFont数据集上，基于卷积神经网络以及基于ViT的方法均优于传统基于手工特征的方法。在CNCalliNoisyFont数据集上，所有方法的性能较在CNCalliFont数据集上均有所下降。虽然训练集和测试集上样本来自不同的书法家，本文方法在CNCalliFont和CNCalliNoisyFont数据集上分别取得了99.90%以及94.09%的准确率，说明其具有良好的拓展性。3）传统基于手工特征的方法在CNCalliStyle数据集上的性能大幅降低。此外，4个经典卷积神经网络模型以及基于ViT的方法在CNCalliStyle数据集上的分类准确率同样大幅降低，说明这些方法对于不同书法风格之间的细微差别具有较低的区分度。相比之下，Dai等人（2018）、Zhang等人（2019，2021）和Liu等人（2021）方法在CNCalliStyle数据集上的性能均具有小幅下降。具体来说，这4种方法的准确率分别为98.01%、98.38%、97.63%和98.08%，较其在CNCalliFont数据集上的准确率分别下降了1.00%、0.74%、1.40%和1.34%。在CNCalliNoisyStyle数据集上，所有方法的准确率均低于在CNCalliStyle上的准确率。4）本文提出的融合多损失的孪生卷积神经网络在4个数据集上分别取得了99.90%、94.09%、99.38%和93.28%的准确率，高于对比方法。3.6　讨论对其他工作在表4中CNCalliFont数据集和CNCalliNoisyFont数据集上的结果进一步分析可知，在中国书法字体分类任务中，易将楷体和行书两类字体混淆，主要原因在于行书是在楷书的基础上发展起源的，仅在笔画上增加了节奏感，使笔画活跃了。以CNCalliFont数据集为例，图8中给出了其他工作分类错误的例子，图中的行书字体均被误分为楷书这一类。10.11834/jig.220252送排稿.F008图8其他工作在CNCalliFont数据集上分类错误样本示例Fig.8Sample images misclassified by the other methods on CNCalliFont dataset对其他工作在表4中CNCalliStyle数据集和CNCalliNoisyStyle数据集上的结果进一步分析可知，在中国书法风格分类任务中，易将柳公权和颜真卿两位书法家的书法风格混淆。这是因为柳公权书法曾取经于颜真卿书法，二者具有较高的相似性。图9中给出了其他工作在CNCalliStyle数据集上分类错误的例子，其中图9（a）中的样本被误分为颜真卿书法风格，而图9（b）中的样本被误分为柳公权书法风格。10.11834/jig.220252送排稿.F009图9其他工作在CNCalliStyle数据集上分类错误样本示例Fig.9Sample images misclassified by the other methods on CNCalliStyle dataset （（a） ground-truth label： Liu Gongquan；（b） ground-truth label： Yan Zhenqing）从上述分析可知，其他工作难以区分不同类别图像之间的细微差异，针对这一问题，本文提出的融合多损失的孪生卷积神经网络模型在训练时由两种不同的损失共同监督，除了常用的分类损失，采用对比损失可以使来自同一类的两个输入图像特征之间的距离尽可能小，而来自不同类的两个输入图像特征之间的距离尽可能大，并且由于网络每个分支中采用Haar小波对特征进行分解，所提取的图像特征具有更高的区分度，能有效捕捉图像之间的细微差异。为了更好地说明这一点，针对本文网络所提取的图像特征利用t-SNE（t-distributed stochastic neighbor embedding）方法（Sun等，2021）进行降维并且可视化。图10展示了在CNCalliStyle数据集上的可视化结果，可以看出，所提取的特征能较好地实现将同一风格的图像进行聚类，并且能有效地区分不同风格的图像。10.11834/jig.220252送排稿.F010图10CNCalliStyle数据集上的特征可视化Fig.10Feature visualization on CNCalliStyle dataset4　结论本文主要研究了中国书法分类问题，具体包括中国书法字体和风格分类。首先将书法字体和风格两个概念进行了区分，并且提出了一个融合多损失的孪生神经网络，能同时解决这两个问题。网络包括两个分支，每个分支利用卷积神经网络提取图像特征，并且嵌入了Haar小波分解对提取的图像特征进行分解。与传统孪生神经网络不同的是，本文将孪生网络每个分支扩展为一个分类网络。网络训练时同时优化对比损失以及分类损失，可以从不同角度对网络训练进行监督。具体来说，通过采用对比损失可以保证来自同一类的两个输入图像特征之间的距离尽可能小，而来自不同类的两个输入图像特征之间的距离尽可能大。在网络每个分支上利用交叉熵作为分类损失，可以充分利用每幅输入图像的类别信息。为了验证本文方法的有效性，在两个中国书法字体数据集CNCalliFont、CNCalliNoisyFont和两个中国书法风格数据集CNCalliStyle、CNCalliNoisyStyle上进行了大量的实验。实验结果表明，本文网络采用的两类损失起到了良好的互补作用，在网络分支中嵌入Haar小波可以有效捕捉不同类别图像之间的细微差异，提升了网络的分类性能，尤其是在书法风格数据集上。本文方法在4个数据集上的分类准确率分别为99.90%、94.09%、99.38%以及93.28%。可以看出，在书法风格数据集CNCalliStyle以及CNCalliNoisyStyle上的性能低于在书法字体数据集CNCalliFont以及CNCalliNoisyFont上的性能，主要原因在于相比较书法字体而言，不同书法风格之间的差异非常细微，给分类带来挑战。此外，将本文方法与现有中国书法字体和风格分类方法进行了比较，结果显示本文方法取得了最高的分类准确率。下一步工作，尤其是在中国书法风格分类这一任务中，将继续提高本文方法的性能。本文方法目前同等地对待书法文字的各个组成部分，然而文字的起笔和收笔部分在区分不同书法风格方面起到了非常重要的作用，在后续工作中，将引入注意力机制重点关注这些部分。此外，本文采用的4个数据集包含的样本数目较小，下一步将对数据集进行扩展，并探索本文提出方法在扩展后数据集上的性能。