网刊加载中。。。

0引言输电线路是电能高效传输的重要通道(江秀臣等，2019)。螺栓是输电线路中广泛存在的重要紧固件，其长期受自然环境、外部机械负荷张力和电力系统内部电力负荷影响(赵振兵等，2019)，使螺栓易产生螺母松动、缺失，脱销等缺陷，进而严重威胁电能平稳传输。因此，及时将输电线路中螺栓表面状态分类，对保障输电线路电能传输具有重大意义。直升机、无人机巡检现已成为输电线路日常巡检的主要手段之一(仝卫国等，2010；彭向阳等，2015)，巡检图像背景复杂、成像距离与角度多变以及螺栓目标微小，导致螺栓图像具有分辨率较低、视觉信息不充分等特点。为了充分挖掘螺栓图像中的特征信息，王凯等人(2019)利用深度学习RetinatNet算法提取正常与缺陷螺栓特征，然后融合底层特征与顶层特征，实现螺栓缺陷识别。薛阳等人(2020)将深度残差网络ResNet-50作为Faster CNN(faster region convolutional neural network)螺栓图像特征提取网络，提高螺栓缺陷识别精度。针对螺栓尺寸小的特点，顾超越等人(2020)利用ResNet-101提取的多尺度特征建立特征金字塔，再以K-means算法优化初始锚框，完成螺栓缺陷识别。李雪峰等人(2020)利用残差网络变体SCNet(self-calibrated convolutions net)提取特征，然后设计PinFPN(pin feature pyramid networks)，增强识别Faster RCNN螺栓等小目标的能力。多种算法的结合使用增加了模型复杂度，提升了图像识别准确率(赵永强等，2020)。但复杂的模型引入了大量参数(戴铂等，2016)，在分析海量数据时耗费大量计算资源和时间，降低了任务效率，难以使模型进行大规模部署。因此，Hinton等人(2015)首次提出了知识蒸馏概念，将复杂度高、性能好的模型称为教师网络(大模型)；结构简单，性能较差的模型称为学生网络(小模型)。通过计算两个网络输出的软目标的距离，实现教师网络向学生网络的知识迁移，从而提升学生网络推理性能。为了提高学生网络的性能，Romero等人(2015)将多个教师网络的软目标进行加权组合、随机选择和样本扩充，再分别指导学生网络学习。Park等人(2019)提出了关系型蒸馏学习法，将多个教师网络的输出组成结构单元指导学生网络学习教师网络的结构信息。Heo等人(2019)利用对抗攻击策略将基准样本转为目标样本，然后通过目标样本指导学生网络训练。耿增民等人(2020)将二值化注意力机制与知识蒸馏相融合来提升学生网络性能。为了提升更纤细的学生网络性能，Fukuda等人(2017)提出计算教师网络与学生网络特征图距离，实现性能迁移。Cho和Hariharan(2019)提出提前终止蒸馏法来解决教师网络与学生网络的能力匹配问题。Wan等人(2020)利用学生网络模仿教师网络自注意力模块，实现纤细学生网络的性能提升。Chung等人(2020)从特征图空间相关性角度出发，提出使用对抗训练的方法在线相互学习特征图的分布。Ye等人(2020)在教师网络与学生网络标签空间不同的情况下进行样本间的关系蒸馏，提高了学生网络的样本鉴别能力。在直升机、无人机巡检图像的边缘计算以及输电线路的在线监测等嵌入式设备中都需要参数量小且性能良好的模型支撑；在输电线路监测站多任务并行分析大量数据时，也需要降低资源消耗来保证实时性监测。知识蒸馏技术能够较大程度地提升小模型的性能，其目的为保证小模型足够小的条件下，大模型指导小模型训练后的小模型性能尽可能逼近大模型。本文针对输电线路螺栓图像的特点，提出了最优知识传递宽残差网络输电线路螺栓缺陷图像分类方法，大幅度降低了网络参数量，提升了小模型的性能，实现了螺栓缺陷图像分类精度与资源消耗的平衡。1研究方法知识蒸馏的本质是知识迁移，其网络由教师网络和学生网络两部分组成。教师网络具有螺栓缺陷图像分类精度高、参数量大和资源消耗大的特点；而学生网络结构简单，参数量小，能够实现大规模部署，但螺栓缺陷图像的分类精度较低。因此，提高学生网络分类精度和充分简化学生网络结构都是十分必要的。针对螺栓图像分辨率较低和视觉信息较差的特性导致教师网络参数量大、学生网络精度低的问题，提出了一种最优知识传递宽残差网络输电线路螺栓缺陷图像分类方法，其中主要贡献有：1) 改变教师网络宽度即拓宽卷积通道维度，来提高教师网络对螺栓图像的特征表达能力，达到增加向学生网络传递螺栓缺陷知识的目的；同时将学生网络简化至含有3个残差块的10层残差网络，以大幅度降低学生网络参数量。2) 为了确定最优知识传递网络，提出了知识偏差的概念来衡量教师网络与学生网络的差异性，将不同宽度的教师网络与学生网络性能以准确率的形式在数轴上进行映射，通过计算已知宽度的教师网络与被指导学生网络的精度差和教师网络与无指导学生网络的精度差的比值来可视化教师网络向学生网络的螺栓缺陷知识传递程度。知识偏差越小，知识传递程度越大，反之越小。最后综合分析知识偏差和不同算法下学生网络的精度提升程度，确定最优知识传递网络。3) 为了最大程度提升学生网络螺栓缺陷分类性能，将最优知识传递的教师网络采用隐藏层注意力转移(attention transfer, AT)算法和输出层知识蒸馏(knowledge distillation, KD)算法相结合指导学生网络训练后，得到螺栓缺陷分类精度最佳的学生网络。依据自建螺栓缺陷图像分类数据集对所提方法有效性进行了验证。教师—学生网络螺栓缺陷分类流程如图 1所示，其中教师网络选用深度为40的宽残差网络(Zagoruyko和Komodakis，2016)，学生网络简化为只有3个残差块的残差网络，$K$为宽残差网络即教师网络的宽度。图1 教师—学生网络螺栓缺陷图像分类流程 Flow of bolt defect image classification in teacher-student networkFig 11.1螺栓知识转移方式1.1.1输出层知识蒸馏知识蒸馏算法主要原理是通过教师网络输出的软标签与学生网络输出的软标签一起辅助学生网络对硬标签训练，完成教师网络的知识迁移。完整原理如图 2所示，其过程是首先训练教师网络，然后利用训练完成的教师网络指导学生网络训练，最后利用训练完成的学生网络进行分类；$T$是网络Softmax层引入的温度系数，用于生成软标签。图2 知识蒸馏原理 Schematic diagram of knowledge distillationFig 2通常神经网络输出的硬标签只有标注数据时的0和1，忽略了除正确类别下的其他隐藏信息；而教师网络输出的软标签用0和1之间的数据来标注图像，这样软标签不仅有类别信息，同时也具有不同类别间的关系信息。软标签即在网络的Softmax层引入温度系数$T$得到软化的概率分布，计算公式为 1 $S_{i}=\frac{\exp \left(z_{i} / T\right)}{\sum\limits_{j} \exp \left(z_{j} / T\right)}$ 式中，${z_j}$为前一级第$j$个神经元的输出值；$j \in {{\bf{N}}^ + }$；${S_i}$表示第$i$个神经元输出值的指数与所有神经元输出值指数和的比值；温度系数$T$取值越大，概率分布越平缓；$T$值减小，容易放大错误分类概率，本文在计算软标签时$T$取4。知识蒸馏算法整个训练过程的损失函数为 2 $L_{\mathrm{KD}}=a L_{1}\left(P_{\mathrm{t}}, P_{\mathrm{s}}\right)+(1-a) L_{2}\left(Q_{\mathrm{s}}, y_{\text {true }}\right)$ 式中，$\alpha $为两部分损失函数的权重系数，为了充分学习教师网络性能，通常设为0.9；${L_1}$为教师网络输出的软标签${P_{\rm{t}}}$和学生网络输出的软标签${P_{\rm{s}}}$的KL散度(Kullback-Leibler divergence)损失函数(Hershey和Olsen，2007)；${L_2}$为计算学生网络输出的硬标签${Q_{\rm{s}}}$与真实标签${y_{{\rm{true}}}}$距离的交叉熵损失函数(Li和Lee，1993)。1.1.2隐藏层注意力转移注意力的本质是一个空间映射，即把对输出空间决策影响大的输入空间进行编码。在网络中一个隐藏神经元输出的激活函数值的绝对值越大，表明这个神经元越重要，越值得对其进行注意力生成(Zagoruyko和Komodakis，2017)。注意力图的生成方式是将激活函数输出的张量$\mathit{\boldsymbol{A}}$在卷积通道维度压平，得到张量$\mathit{\boldsymbol{A}}$中各元素在卷积核通道维度的绝对值统计量，即 3 $F: \boldsymbol{R}^{C H W} \rightarrow \boldsymbol{R}^{H W}$ 4 $F(\boldsymbol{A})=\sum\limits_{i=1}^{C}\left|\boldsymbol{A}_{i}\right|^{U}$ 式中，$\mathit{\boldsymbol{R}}$为空间中$C$个特征平面的集合；$F$是3维到2维向量的变换；$F$($\mathit{\boldsymbol{A}}$)是以$\mathit{\boldsymbol{A}}$为变量的$F$函数；$C$为卷积通道数；$H$和$W$为特征平面的尺寸；${\mathit{\boldsymbol{A}}_i}$为张量$\mathit{\boldsymbol{A}}$中第$i$维的特征平面，张量$\mathit{\boldsymbol{A}} \in \mathit{\boldsymbol{R}}$；$U$为正整数，本文$U$取1。在网络隐藏层中不同位置注意力图的关注点不同，低层网络关注螺栓缺陷的低梯度点；中层网络关注螺栓缺陷高差异的区域，即激活函数输出大的区域；高层网络关注整体螺栓缺陷。为了使学生网络充分学习教师网络的螺栓缺陷特征表达能力，本文在网络隐藏层低、中、高3个位置分别进行注意力转移，如图 3所示。图3 教师—学生网络注意力转移示意图 Diagram of attention transfer in teacher-student networkFig 3教师网络在网络隐藏层向学生网络进行注意力转移，其隐藏层的损失函数为 5 $L_{\mathrm{AT}}=\frac{\beta}{2} \sum\limits_{j}\left\|\frac{\boldsymbol{W}_{\mathrm{S}}^{j}}{\left\|\boldsymbol{W}_{\mathrm{S}}^{j}\right\|}-\frac{\boldsymbol{W}_{\mathrm{T}}^{j}}{\left\|\boldsymbol{W}_{\mathrm{T}}^{j}\right\|}\right\|_{P}$ 式中，$\beta $为权重，常取1 000；$P$取2表示2范数；$\mathit{\boldsymbol{W}}_{\rm{S}}^j$和$\mathit{\boldsymbol{W}}_{\rm{T}}^j$分别表示第$j$组的学生网络和教师网络的注意力图的矢量化形式，$\mathit{\boldsymbol{W}}_{\rm{S}}^j$和$\mathit{\boldsymbol{W}}_{\rm{T}}^j$的计算公式为 6 $\boldsymbol{W}_{\mathrm{S}}^{j} =\operatorname{vec}\left(F\left(\boldsymbol{A}_{\mathrm{S}}^{j}\right)\right)$ 7 $\boldsymbol{W}_{\mathrm{T}}^{j} =\operatorname{vec}\left(F\left(\boldsymbol{A}_{\mathrm{T}}^{j}\right)\right)$ 式中，vec表示向量化操作; $\mathit{\boldsymbol{A}}_{\rm{S}}^j$和$\mathit{\boldsymbol{A}}_{\rm{T}}^j$分别表示第$j$组的学生网络和教师网络的3维张量。教师网络通过注意力转移机制指导学生网络训练螺栓缺陷图像分类数据集的损失函数为 8 $L_{3}=L_{2}\left(Q_{\mathrm{s}}, y_{\text {true }}\right)+L_{\text {AT }}$ 综上所述，本文最优知识传递网络采用注意力转移算法与知识蒸馏算法相结合指导学生网络训练，其损失函数为 9 $L=L_{\mathrm{AT}}+L_{\mathrm{KD}}$ 1.2教师—学生网络优化1.2.1拓宽教师网络巡检图像成像背景复杂，距离与角度多变，使螺栓缺陷图像数据集内部分螺栓图像具有如阴影、遮挡等视觉信息不充分的特点；另外，螺栓图像在巡检图像中占比小，使螺栓图像普遍具有分辨率低的特点；因此，螺栓缺陷图像分类数据集中存在大量阴影、模糊和遮挡等困难样本，大大增加了螺栓缺陷图像分类任务的难度，数据集中困难样本如图 4所示。图4 螺栓缺陷图像分类数据集中的困难样本 Difficult samples in bolt defect image classification datasetFig 4 ((a) shaded bolts with missing pin; (b) occluded normal bolts; (c)blurred bolts with missing nut) 针对螺栓图像分辨率低和视觉信息较差的特点，通过改变教师网络宽度即拓宽螺栓图像的特征表达维度来充分提取螺栓图像中的特征信息，从而增加教师网络向学生网络的可传递性螺栓缺陷知识，提高学生网络分类精度。本文教师网络中的残差块如图 5所示。图5 残差块 Residual blockFig 5 ((a) conventional residual block; (b) widened residual block) 图 5中Conv[3×3]表示卷积核的大小为3×3；为了方便说明，引入了宽度系数$K$，表示教师网络的宽度；$N$为每层卷积核的基础数量；${\mathit{\boldsymbol{X}}_L}$为当前残差块的输入，${\mathit{\boldsymbol{X}}_{L + 1}}$为当前残差块的输出。在网络中每一卷积层的卷积核数量为 10 $M=N \times K, N \in[16,32,64]$ 式中，$N$取16、32和64分别表示网络低层、中层和高层卷积核的基础数量，$M$表示每一层卷积核的数量；因此，网络低、中、高层卷积核数量不同，关注的螺栓缺陷图像特征信息不同。将网络宽度加宽后，每一卷积层的卷积核依然采用并联方式，能够充分挖掘螺栓图像中的特征信息。但可以预见，网络宽度与分类效果并不是正比关系，不能无限增大宽度。这是因为在螺栓图像中存在着除螺栓信息外的其他冗杂信息，过于增大网络宽度，会导致螺栓图像特征与其他信息过分提取而加大网络的错误学习概率，影响最终的学生网络分类结果。1.2.2简化学生网络结构为了大幅度降低学生网络参数，将学生网络简化至含有3个残差块的10层残差网络，且学生网络没有进行拓宽。为了确保学生网络在隐藏层充分拟合教师网络的特征表达能力，学生网络(ResNet-10-1)在网络低、中、高层分别保留16、32、64的卷积核数量，学生网络结构如图 6所示。图6 学生网络结构 Diagram of student network structureFig 6学生网络为基本的残差网络，选择3个不同卷积核数量残差块的目的是降低参数量的同时，使整个学生网络仍具备较为明显的低、中、高层网络特性来充分学习教师网络的螺栓缺陷知识。因此，教师—学生网络优化的逻辑流程为：1) 输入螺栓图像；2) 增大教师网络宽度；3) 增加卷积通道数，即拓宽螺栓图像的特征表达维度；4) 教师网络充分提取螺栓缺陷图像中的特征信息；5) 增加教师网络可传递性螺栓缺陷知识；6) 最优教师网络指导简化后的学生网络训练；7) 提高简化后学生网络螺栓缺陷图像分类精度。2实验与结果2.1实验准备目前没有公共的输电线路螺栓缺陷图像分类数据集，在实验室课题组长期努力下，根据PASCAL VOC(patterm analysis, statistical modeling and computational learning visual object classes)数据格式对巡检图像进行标注，标注依据为《架空输电线路设备缺陷影像标注规范(试行)》。通过对标注后的巡检图像依据标注框进行剪裁构建实验所需的螺栓缺陷图像分类数据集，数据集中的各个类别标准螺栓图像样本如图 7所示。图7 各个类别标准螺栓图像样本 Sample image of each type of standard boltFig 7 ((a)normal bolts; (b) bolts with missing pin; (c) bolts with missing nut) 自建螺栓缺陷图像分类数据集共有6 420幅图像，其中正常螺栓3 136幅，脱销螺栓2 820幅，螺母缺失螺栓464幅，共3类。数据集分为训练集和测试集，且训练集与测试集比例为4∶1。教师网络是在ImageNet进行了预训练的ResNet-40-K，学生网络采用只含有3个残差块的ResNet-10-1；使用GPU版Pytorch进行训练；初始学习率设为0.1，batch-size为64，epoch为100；采用随机梯度下降法进行优化；采用水平翻转和随机方向旋转进行数据集扩充(马岽奡等，2021)。实验过程主要步骤为：1) 利用螺栓缺陷分类图像数据集训练不同宽度的教师网络，并统计准确率；2) 利用已训练完成的不同宽度的教师网络指导学生网络训练螺栓缺陷图像分类数据集，并统计准确率。步骤2)中为了保证实验的严谨性，在统计不同宽度教师网络准确率后，将不同宽度的教师网络分别采用隐藏层注意力转移、输出层知识蒸馏和注意力转移与知识蒸馏相结合3种方式指导学生网络训练；将分类准确率、参数量和提出的知识偏差作为评价指标，来确定最优传递知识网络；最后将最优宽度教师网络通过隐藏层注意力转移与输出层知识蒸馏相结合指导学生网络训练后的分类准确率作为学生网络的最佳结果。2.2结果与分析为了验证改变教师网络宽度以提高教师网络所包含的螺栓缺陷知识，利用自建螺栓缺陷图像分类数据集分别对学生网络和不同宽度的教师网络进行了实验研究，其结果如表 1所示。本文所有实验结果均取测试集分类准确率收敛后前10名的均值。表1 不同参数量网络的分类准确率残差网络分类准确率/% 参数量字节数/MB ResNet-10-1 83.26 78 330 0.30 ResNet-40-1 89.14 566 650 2.16 ResNet-40-2 89.71 2 248 954 8.58 ResNet-40-3 90.11 5 046 650 19.25 ResNet-40-4 90.47 8 959 994 34.17 ResNet-40-5 90.99 13 988 986 53.36 ResNet-40-6 90.63 20 133 626 76.80 ResNet-40-7 90.71 27 393 914 104.50 ResNet-40-8 89.89 35 769 850 136.45 Classification accuracy of network with different parametersTable 1 加粗字体为最优结果。从表 1可得，通过增大卷积通道维度，使网络螺栓缺陷图像的特征表达能力增强，提高了螺栓缺陷图像的分类准确率。宽度为5的教师网络(ResNet-40-5)的分类效果最理想，比没有加宽的教师网络(ResNet-40-1)，螺栓缺陷图像的分类准确率提高了1.85%。随着网络宽度增大至5，螺栓缺陷图像的分类准确率逐渐提升，但宽度进一步增大时，螺栓缺陷图像的分类准确率开始呈下降趋势。这是因为螺栓图像对比度、分辨率较低以及螺栓图像中除了螺栓目标外，还具有其他影响螺栓判别的冗杂信息，随着教师网络的卷积特征通道数增加对其过分表达，影响了螺栓缺陷分类精度的提高。由于不同宽度教师网络的螺栓缺陷分类性能相差较小，仅根据其分类准确率并不能确定螺栓知识传递最优的教师网络。因此，为了选取最优教师网络来提高学生网络的螺栓缺陷分类精度，将宽度1~8的教师网络分别指导学生网络训练。同时为了确保选取最优教师网络的实验严谨性，教师网络分别采用在隐藏层注意力转移算法和输出层知识蒸馏算法两种指导方式进行了实验验证，其结果如表 2所示。表2 指导训练后的学生网络分类准确率教师网络学生网络螺栓缺陷图像分类准确率/% 注意力转移知识蒸馏 ResNet-40-1 85.06 84.15 ResNet-40-2 85.35 84.75 ResNet-40-3 85.36 85.31 ResNet-40-4 85.55 85.64 ResNet-40-5 87.51 86.23 ResNet-40-6 86.48 85.85 ResNet-40-7 87.53 85.06 ResNet-40-8 85.96 85.33 Classification accuracy of the student network after being instructed to trainTable 2 加粗字体为每列前2名的最优结果。从表 2分析可得，拓宽螺栓缺陷图像的特征表达维度即增加教师网络的螺栓缺陷知识后，教师网络采用的两种方式指导学生网络训练，均提高了学生网络的分类精度，且随着教师网络卷积通道数的增加，学生网络的分类精度与教师网络分类精度变化趋势相仿。同时，宽度5，6，7的教师网络对比宽度1的教师网络指导的学生网络训练，使得学生网络的准确率有了明显提升，验证了增加螺栓缺陷图像的特征表达通道数对提升学生网络螺栓缺陷分类精度的有效性。目前，知识蒸馏领域的主要评价指标为参数量和分类准确率。参数量是度量模型的大小，学生网络分类准确率的提升是度量知识传递方法优劣的关键，而仅从学生网络的分类准确率变化判断知识传递程度会造成性能优秀的教师网络知识传递不充分等问题。为了选出最优知识传递网络，最大程度提高学生网络的螺栓缺陷分类性能，本文提出了知识偏差的概念来度量教师网络与学生网络的差异性，进而可视化教师网络向学生网络螺栓缺陷知识传递的程度，避免仅依据网络分类准确率而误判最优教师网络的问题。将教师网络与学生网络分类准确率映射在数轴上，如图 8所示。图8 映射教师—学生网络的螺栓缺陷图像分类准确率 Mapping of bolt defect classification accuracy in teacher-student networksFig 8图 8中，${T_W}$是宽度为$w$的教师网络螺栓缺陷分类准确率；$A{S_W}$是学生网络经宽度为$w$的教师网络指导训练后的螺栓缺陷分类准确率；$BS$是学生网络单独训练后的螺栓缺陷分类准确率；$\Delta TBS$是${T_W}$与$BS$的差；$\Delta TAS$是${T_W}$与$A{S_W}$的差。知识偏差的计算公式为 11 $T S_{W}=\frac{T_{W}-A S_{W}}{T_{W}-B S}=\frac{\Delta T A S}{\Delta T B S}, A S_{W} \in\left(B S, T_{W}\right)$ 式中，$T{S_W}$是教师网络宽为$w$时指导学生网络训练后的知识偏差，$w \in {{\bf{N}}^ + }$，本文$w$最大值为8；根据$A{S_W}$的取值可得$T{S_W}$的值域，即 12 $\lim \limits_{A S_{W} \rightarrow B S} T S_{W}=1$ 13 $\lim \limits_{A S_{W} \rightarrow T_{W}} T S_{W}=0$ 由式(12)(13)得，$T{S_W} \in \left({0, 1} \right)$。故当$T{S_W}$=1时，$\Delta TAS$=$\Delta TAS$表示教师网络螺栓缺陷知识没有传递；当$T{S_W}$=0时，$\Delta TAS$=0，表示教师网络螺栓缺陷知识完全传递并覆盖了学生网络性能。通过式(11)—式(13)分析了本文定义的知识偏差的合理性。知识偏差越小，表明教师网络向学生网络传递的螺栓缺陷知识程度越大；反之越小。综合分析不同指导方式下的$A{S_W}$和$T{S_W}$，其结果如图 9所示。图9 不同指导方式的结果曲线 The result curves of different guidance methodsFig 9 ((a) attention transfer algorithm; (b) knowledge distillation algorithm) 图 9中, BS-AT和BS-KD分别为学生网络单独训练后的螺栓缺陷分类准确率；AS-AT和AS-KD分别为教师网络通过隐藏层注意力转移算法和输出层知识蒸馏算法指导学生网络训练后的学生网络螺栓缺陷分类准确率；TS-AT和TS-KD分别是注意力转移算法的知识偏差和知识蒸馏算法的知识偏差。在注意力转移算法中分析AS-AT曲线可得，最大的两个值是$A{S_5}$和$A{S_7}$，表明宽度为5和7的教师网络对学生网络的性能提升最为显著，分别提高了学生网络4.25%和4.26%的精度，且TS-AT曲线中最小的两个值为$T{S_5}$和$T{S_7}$分别是0.45和0.43；在输出层知识蒸馏算法中分析AS-KD曲线可得，最大的两个值是$A{S_5}$和$A{S_6}$，分别提高了学生网络2.97%和2.59%的精度，且TS-KD曲线中最小的两个值为$T{S_5}$和$T{S_6}$分别是0.61和0.64。因此, 综合分析$A{S_W}$和$T{S_W}$可知，宽度为5的教师网络(Resnet-40-5)是最优知识传递网络。从以上分析可得，ResNet-40-5作为最优知识传递网络能够最大化地向学生网络(ResNet-10-1)传递螺栓缺陷知识，进而最大程度地提高学生网络的螺栓缺陷分类性能。因此，本文教师网络(ResNet-40-5)采用隐藏层注意力转移与输出层知识蒸馏相结合的方式指导学生网络(ResNet-10-1)训练后，学生网络的螺栓缺陷分类准确率为最佳结果，学生网络的损失函数曲线如图 10所示。图10 最佳学生网络的损失函数曲线 The loss function curves of the best of student networkFig 10图 10中，train_loss是训练集损失函数曲线，test_loss是测试集损失函数曲线。在epoch大约为83时，训练集与测试集均平稳收敛，没有出现过拟合或欠拟合现象，验证了利用自建螺栓缺陷图像分类数据集所得结果的科学性，其结果如表 3所示。表3 最佳教师网络与学生网络的分类准确率残差网络分类准确率/% 参数量字节数/MB ResNet-10-1 83.26 78 330 0.30 ResNet-10-1(AT+KD) 88.82 78 330 0.30 ResNet-40-5 90.99 13 988 986 136.45 The classification accuracy of best teacher network and student networkTable 3 加粗字体为本文学生网络分类最优结果。从表 3可得，教师网络采用隐藏层注意力转移与输出层知识蒸馏相结合的方式指导学生网络训练后，使学生网络准确率提高了5.56%，与教师网络准确率仅差2.17%，知识偏差为0.28，而学生网络的参数量仅为教师网络的0.56%。从实验结果可知，针对输电线路螺栓图像的特性，提出的螺栓缺陷图像分类方法提升了学生网络的分类性能，但螺栓缺陷图像分类任务仍较为困难，主要有以下几点原因：1) 螺栓缺陷图像分类数据集中总的样本较少，且样本不平衡是造成分类精度普遍较低的主要原因。2) 螺栓缺陷图像分类数据集中存在着类内差异性较大问题，如螺母缺失螺栓图像中存在着带销螺母缺失和脱销螺母缺失两种，如图 11所示。图11 带销螺母缺失螺栓和脱销螺母缺失螺栓 Missing bolt with pin nut and missing bolt with unthreaded nutFig 113) 螺栓缺陷数据集中除了存在困难样本外，还存在着部分类别间容易混淆样本，如图 12所示。图12 螺母缺失螺栓和正常螺栓 Nut missing bolt and normal boltFig 12因此，提高螺栓缺陷图像分类数据集的样本数量、质量和增强网络对螺栓图像类间差异性的关注性是解决螺栓图像分类任务难的重要手段。为了进一步验证研究方法的有效性，在CIFAR-10(Canadian Institute for Advanced Research)数据集进行了基于最优知识传递网络的图像分类方法的实验探究，如表 4所示。表4 教师—学生网络的分类准确率和知识偏差残差网络分类准确率/% AT+KD/% 知识偏差 ResNet-10-1 87.68 - - ResNet-40-1 93.58 87.90 0.96 ResNet-40-2 94.78 88.01 0.95 ResNet-40-3 95.20 88.32 0.91 ResNet-40-4 95.51 88.54 0.89 ResNet-40-5 95.78 88.65 0.88 ResNet-40-6 95.75 89.09 0.83 ResNet-40-7 95.90 88.26 0.93 ResNet-40-8 95.89 88.78 0.87 The classification accuracy and knowledge deviation of teacher-student networksTable 4 加粗字体为每列最优结果，“-”表示原文中未给出实验结果。从表 4可得，通过对教师网络加宽后，宽为7的教师网络的准确率为95.90%，比宽为1的教师网络准确率提高了2.32%；宽为7的教师网络准确率最高，但并不是CIFAR-10数据集的最优知识传递网络，根据本文方法确定了宽为6的教师网络为最优知识传递网络。表 4实验结果验证了依据本文方法选定宽为6的教师网络作为最优知识传递网络指导学生网络训练的有效性，最佳学生网络分类准确率为89.09%，提高了1.41%，知识偏差为0.83, 是所有教师—学生网络中的最小值。学生网络是ResNet-10-1时，在自建螺栓缺陷图像分类数据集中最优知识传递网络是ResNet-40-5；在CIFAR-10数据集中最优知识传递网络是ResNet-40-6，均验证了方法的有效性。因此，本文提出的基于最优知识传递网络的螺栓缺陷图像分类方法能够充分提高学生网络的螺栓缺陷图像分类性能，实现了资源消耗与精度的平衡。3结论利用自建螺栓缺陷数据集验证了本文提出的基于最优知识传递网络的螺栓缺陷图像分类方法，该方法能够极大程度缓解因螺栓图像特性导致的教师网络参数量大、学生网络精度低的问题。1) 通过拓宽教师网络的宽度来增加螺栓图像的特征表达通道数，使教师网络的分类精度最高达90.99%，提升了1.85%；同时将学生网络简化至含有3个残差块，参数量仅有78 330个。2) 提出了知识偏差的概念来可视化不同宽度教师网络向学生网络传递螺栓缺陷知识的程度；综合分析知识偏差和学生网络被不同宽度教师网络利用不同指导方式训练后的螺栓缺陷图像分类精度，确定了宽度为5即ResNet-40-5是最优知识传递网络。3) 将最优知识传递网络利用注意力转移算法与知识蒸馏算法相结合的方式指导学生网络训练，使学生网络螺栓缺陷分类精度提高了5.56%，知识偏差为0.28，学生网络参数量仅是最优知识传递网络的0.56%。本文模型可以针对其他模型在巡检图像中检测到的螺栓目标，进行2阶段的螺栓缺陷图像分类，降低资源消耗。在后续研究中，将利用知识蒸馏技术实现整幅巡检图像中螺栓缺陷的检测。