发布时间: 2021-11-16
DOI: 10.11834/jig.200703
2021 | Volume 26 | Number 11




expand article info 张珂1,2, 何颖宣1, 赵凯1, 冯晓晗1, 赵振兵1,2, 马占宇3
1. 华北电力大学电子与通信工程系, 保定 071003;
2. 华北电力大学河北省电力物联网技术重点实验室, 保定 071003;
3. 北京邮电大学人工智能学院, 北京 100086


目的 螺栓是确保输电线路安全牢靠的基石,螺栓缺销、松动和锈蚀等缺陷是造成输电线路损坏甚至重大事故的重要原因之一。本文针对螺栓缺陷存在视觉不可分的问题,提出了一种改进NTS-Net(navigator-teacher-scrutinizer network)的螺栓属性多标签分类方法。方法 为了增强模型对不规则轮廓的处理能力,采用可变形卷积的ResNet-50网络作为特征提取网络从原图中提取全局特征。利用NTS-Net学习得到图像信息量最大的判别性局部区域。为了考虑不同局部特征对不同属性标签的不同影响,在局部特征与全局特征融合时引入通道注意力机制,提取特征的通道权重,获取关键通道特征以改善多标签分类效果。结果 实验结果表明,本文在螺栓多属性分类数据集上的平均分类精确率为84.5%,比采用传统的多标签分类精确率提升了10%~20%。结论 本文通过可变形卷积提升网络的特征提取能力以及引入通道注意力机制实现了对NTS-Net提供的局部特征的高效利用,为解决螺栓多属性分类中存在的问题提供了一种新的思路。


螺栓缺陷; 可变形卷积; NTS-Net网络; 多标签分类; 通道注意力

Multi-label classification method of bolt attributes based on deformable NTS-Net
expand article info Zhang Ke1,2, He Yingxuan1, Zhao Kai1, Feng Xiaohan1, Zhao Zhenbing1,2, Ma Zhanyu3
1. Department of Electronic and Communication Engineering, North China Electric Power University, Baoding 071003, China;
2. Hebei Key Laboratory of Power Internet of Things Technology, North China Electric Power University, Baoding 071003, China;
3. School of Artificial Intelligence, Beijing University of Posts and Telecommunication, Beijing 100086, China
Supported by: National Natural Science Foundation of China (62076093, 61871182, 61922015, 61773071, 61302163);Natural Science Foundation of Hebei Province, China (F2020502009, F2015502062, F2016502062);Beijing Municipal Natural Science Foundation (4192055); Fundamental Research Funds for the Central Universities (2020YJ006, 2020MS099)


Objective Unmanned aerial vehicle(UAV)-based transmission line inspection technology has achieved long-term progress and development. The use of computer vision technology to automatically and accurately locate line equipment, such as wires, insulators, and bolts, from aerial inspection images under complex natural backgrounds and accurately detect their defects has become animportant technical issue. The defects inspected by transmission lines mainly include tower, wire, insulator, and metal fitting defects. Given the large size of metal fittings and insulators, their defects are obvious and easy to identify. By contrast, numerous bolts are present in poles, insulators, and metal fittings. Bolts change easily from the normal state to the defect state due to the large number of bolts and complex stress conditions. The use of deep learning has achieved good results in visual detection, identification, and classification of tower, wire, insulator, and metal fitting defects, but only a few studies have been conducted on bolt defects. In addition, bolt defects are not completely visually separable problems; they are visually inseparable, and they can not be solved by object detection algorithms alone. Thus, we believe that the bolt defect detection problem is not only an object detection problem, but also an image classification problem. Multi-label classification of bolts must be implemented efficiently and quickly to provide a basis for defect detection. The convolutional neural network (CNN) is inherently limited by model geometry transformation due to its fixed geometric structure. An offset variable must be added to the position of each sampling point in the convolution kernel to weaken this limitation and improve the feature extraction capability of bolts. By adding these variables, the convolution kernel is given random sampling near the current position and is no longer limited to the previous regular grid points. The convolution operation after expansion is called deformable convolution. Deformable convolution changes the sampling position of the standard convolution kernel by adding an additional offset to the sampling point. The compensation obtained can be learned through training without additional supervision. Method The object to be inspected in the transmission line bolt multi-label classification task has similar overall characteristics as those of the object in the general image multi-label classification task. The classification model needs to capture the key local features that can distinguish the attributes of different categories. The idea of using local regions to assist in classification belongs to fine-grained classification. Several studies on fine-grained classification algorithms used detailed local area labels to train the model so that the model can accurately locate the regions containing detailed semantic information. However, this approach requires a huge amount of work in the production of labels. In other studies, unsupervised learning was used to locate key areas. Although this strategy eliminates tedious label-making work, the accuracy of the model in locating key details can not be ensured. The multi-label classification method proposed in this study is mainly divided into three steps.First, navigator-teacher-scrutinizer network(NTS-Net) is used as the basic network, and the feature extraction network is improved into a deformable ResNet-50 network in accordance with the various properties of the bolt target shape. Second, the navigator network in NTS-Net continuously learns and provides k regions with the most information under the guidance of the teacher network to obtain the discriminative region of the bolt target. Lastly, to make the model use discriminant features effectively, the input features of the k regions receiving the most information from the navigator network are extracted, and corresponding feature vectors are generated and connected to the feature vectors of the entire input image. Afterward, the features need to be passed through the channel attention module, which can enhance the feature with a large weight and suppress the feature with a small weight. Result This study uses the bolt multi-attribute classification dataset to evaluate the model. The bolt defect images are from samples obtained by UAV line inspection. The data sample has a total of 2 000 pictures, of which 1 500 are used as training samples and 500 are used as test samples. The bolt defect attributes are divided into six categories based the idea of visual separability. Each bolt defect image contains one or more defect attributes, which can be divided into the following six categories: a pin hole is present, shim is present, a nut is present, rust is present, the nut is loose, and the pin is loose; they are labeled 0-5 respectively. In the multi-label classification task in this study, a 1×6 matrix is constructed for each picture as the label of the picture. If the corresponding attribute category exists, the value is set to 1 and vice versa. Experimental results show that the mean average precision of the proposed method in the bolt multi-attribute classification dataset is 84.5%, which is 10%~20% higher than the accuracy of multi-label classification using traditional networks. Conclusion The feature extraction capability of the network is improved through deformable convolution, and the channel attention mechanism is introduced to realize the efficient utilization of the local features provided by NTS-Net. Experimental results show that the proposed method performs better than the traditional method in the bolt multi-attribute classification dataset. The proposed method provides a new idea for applying multi-attribute information to bolt defect reasoning and realizing bolt defect detection.

Key words

bolt defect; deformable convolution; NTS-Net network; multi-label classification; channel attention

0 引言


目前,深度学习技术在杆塔缺陷、导地线缺陷、绝缘子缺陷和金具缺陷的视觉检测、识别和分类的研究中均取得了很好的效果,但在螺栓缺陷检测方面的研究相对较少。Chen等人(2018)提出基于SSD(single shot multibox detector)与YOLO(you only look once)网络构建三级缺陷检测结构,首先在定位支撑装置后对螺栓进行检测,随后单独构建深度神经网络用于缺陷的识别,以完成接触网支撑装置上螺栓缺陷的检测。Zhong等人(2019)在缺销缺陷上展开更深入的研究,通过构建优化的PVANET(performance vs accuracy net)结构以统一不同深度神经网络的结构,将最后一级的识别改为对多个局部区域的检测,综合多个区域的视觉信息来判断开口缺销的缺陷,得到很好的效果。Zhao等人(2020)提出了一种针对缺销缺陷自动检测模型AVSCNet,该模型提出一种可视化螺栓形状的无监督聚类方法,并应用该方法构建一种能够学习视觉形状差异的缺陷检测模型。然后,在模型中使用3种深度卷积神经网络优化方法对区域特征进行回归计算和分类,得到缺陷检测结果。薛阳等人(2020)提出了一种基于改进Faster R-CNN(region convolutional nerual network) 模型的检测方法,首先对图像数据进行翻转、旋转和平移等方式进行数据扩增,再通过增加网络深度的方式提高模型的特征提取能力以解决螺栓体积小问题。


Krizhevsky等人(2012)提出AlexNet后,越来越多的深度卷积神经网络相继被提出,这些网络的深度不断提升。残差卷积神经网络(residual networks, ResNets)(He等,2016)通过越层连接将输入直接传到输出,故底层可以直接接收到顶层的信息,缓解了梯度消失的问题。为进一步提升ResNets的性能,研究人员提出诸多残差网络变体,如宽残差网络(wide residual networks, WRNs)(Zagoruyko和Komodakis,2016)、ResNeXt(Xie等,2017)、多级残差神经网络(residual networks of residual networks, RoR)(Zhang等,2018)和金字塔残差网络(pyramidal RoR, PRoR)(Zhang等,2019)等。这些具有强大表征能力的卷积神经网络的快速发展,使其在单标签图像分类任务中取得了突破性的进展,为多标签图像分类提供了一定的思路。然而,由于图像中存在目标不显著、目标差异较小以及背景复杂等问题,基于深度卷积神经网络的单标签图像分类方法不适合直接应用于多标签图像分类任务中。

处理多标签图像分类任务的常见方法是将其转换为多个单标签图像分类任务。Razavian等人(2014)首先使用大规模数据集ImageNet(Deng等,2009)预训练网络模型,随后将该网络模型的参数迁移到多标签网络模型,并使用网络模型输出的图像特征来训练每个标签的支持向量机分类器,取得了一定的分类效果。Wei等人(2016)提出了HCP(hypotheses-CNN-pooling)网络模型,该模型首先利用BING(binarized normed gradients)(Cheng等,2014)算法提取一系列的候选块,并假设每一块候选块都包含单个目标,随后通过聚类方式从所有候选块中挑选一定量的候选块作为网络的输入,网络会对每个输入候选块输出一个分类结果,最终通过类别最大池化的方式进行融合得到多标签预测结果。另一方面,研究人员利用递归神经网络(recurrent neural network, RNN)对标签之间的依赖性进行建模(Wang等,2016)。但是,无论是直接将多标签分类任务转化为单标签分类任务,还是利用RNN建模标签的相关性,上述方法在构建多标签分类模型时都不加区别地分析整个图像,以便平等地考虑无用和多余的信息。


针对上述问题,本文提出了一种改进NTS-Net的螺栓属性多标签分类方法,本文模型利用NTS-Net(navigator-teacher-scrutinizer network)(Yang等,2018)作为基本框架,通过引入可变形卷积实现对几何变换幅度较大的螺栓目标关键局部区域准确定位,并在最后将局部特征与全局特征融合后引入通道注意力机制,最终实现螺栓多属性分类。

1 本文方法

本文方法网络模型结构如图 1所示,所提出的多标签分类方法主要分为3个步骤:首先采用NTS-Net作为主干网络,并针对螺栓目标形状变化多样的属性将特征提取网络改进为可变形ResNet-50网络;随后,为了获取螺栓目标的判别性区域,NTS-Net中的导航器网络在教师网络的指导下不断学习并提供信息量最多的$k$个区域;最后,为让模型能够更加有效地利用判别性特征,在将从导航器网络接收到的信息量最多的$k$个区域输入特征提取网络生成对应的特征向量并与整个输入图像的特征向量相连接后,将其经过通道注意力模块以获取通道权重,增强权重大即更重要的特征并抑制权重小即更不重要的特征。图 1中,⊗表示矩阵相乘,⊕表示特征相加。

图 1 本文模型的具体实现过程
Fig. 1 The concrete realization process of our model

1.1 可变形卷积以及特征提取网络


可变形卷积通过在采样点添加额外的偏移量来更改标准卷积内核的采样位置,获得的补偿可以通过训练来学习而不需要额外的监督。图 2显示了标准卷积核与可变形卷积核之间的区别。图 2中左图显示标准卷积的采样网络是规则的,右图是将可学习的偏移量添加到标准卷积核之后的可变形卷积核。可以看出,可变形卷积的采样位置是不规则的。

图 2 标准卷积与可变形卷积
Fig. 2 Standard convolution and deformable convolution

图 3展示了可变形卷积层的实现过程,在输入层中原本固定采样区域分别加入偏移向量,然后在卷积核中通过双线性插值算法将带有偏移向量的采样点集中在一起,并且使得带偏移向量的输出特征图与输入的特征图具有一致的空间分辨率,最终传递给下一个网络层。这样,在不改变空间分辨率的情况下,实现对不规则图像特征的提取。

图 3 可变形卷积层的实现过程
Fig. 3 Implementation process of deformable convolutional layer

本文提出的网络模型以ResNet-50作为特征提取网络,残差网络的关键是引入了残差块,在网络中增加了跃层连接,允许原始输入信息直接传到后面的层。本文设计的可变形ResNet-50网络如图 4所示,设计将conv5_$x$层中的3个3×3传统卷积替换为可变形卷积,构成可变形卷积的ResNet-50网络。所以,经过改进后,原来规则网格$\mathit{\boldsymbol{R}}$会附加一个偏移量$\{ \Delta \left. {{p_s}} \right|\left. {s = 1, \ldots, A} \right|\} $$A = \left| \mathit{\boldsymbol{R}} \right|$,对于输出特征图$\mathit{\boldsymbol{U}}$中的每个位置${p_0}$$\mathit{\boldsymbol{U}}({p_0})$计算为

$ \mathit{\boldsymbol{U}}({p_0}) = \sum\limits_{{p_s} \in \mathit{\boldsymbol{R}}} {w({p_s})} \cdot\mathit{\boldsymbol{I}}({p_0} + {p_s} + \Delta {p_s}) $ (1)

图 4 特征提取网络
Fig. 4 Feature extraction network

式中, $w$表示权值,$\mathit{\boldsymbol{I}}$(·)表示输入特征图。根据可变形卷积的原理,首先在输入特征图的每一个位置生成一个偏移量,并将其前向传播;在后向传播过程中,新增的偏移位置${p_s} + \Delta {p_s}$会被同时学习,然后经过双线性插值得到整数的空间位置,进而执行可变形卷积。由此可知,可变形卷积的ResNet-50网络能够提取到更加丰富的判别性特征,增强网络对目标形变的检测能力。

1.2 导航器网络与教师网络

本文方法所基于的假设是:信息丰富的区域有助于更好地表达对象,融合信息丰富区域和全图将获得更好的效果。因此,目标在于定位信息最丰富的区域。假设所有区域都是矩形,定义$\mathit{\boldsymbol{A}}$来表示给定图像中所有信息区域的集合。定义信息函数$\mathcal{J}:\mathit{\boldsymbol{A}} \to \left({ - \infty, \infty } \right)$以评估区域$\mathit{\boldsymbol{R}} \in \mathit{\boldsymbol{A}}$的信息值,定义置信函数$\mathcal{C}:\mathit{\boldsymbol{A}} \to \left[ {0, 1} \right]$作为分类器以评估该区域属于真实类别的置信度。因此,对于信息更加丰富的区域应该具有更高的置信度,即对任何${\mathit{\boldsymbol{R}}_1}, {\mathit{\boldsymbol{R}}_2} \in \mathit{\boldsymbol{A}}$,如果$\mathcal{C}({\mathit{\boldsymbol{R}}_1}) > \mathcal{C}({\mathit{\boldsymbol{R}}_2})$,则$\mathcal{J}({\mathit{\boldsymbol{R}}_1}) > \mathcal{J}({\mathit{\boldsymbol{R}}_2})$成立。

在本文方法中,分别使用导航器网络和教师网络来近似信息函数$\mathcal{J}$以及置信度函数$\mathcal{C}$。在区域空间$\mathit{\boldsymbol{A}}$中选择$M$个区域${\mathit{\boldsymbol{A}}_M}$,对于每个区域${\mathit{\boldsymbol{R}}_i} \in {\mathit{\boldsymbol{A}}_M}$,通过导航器网络评估其信息量$\mathcal{J}({\mathit{\boldsymbol{R}}_i})$,教师网络评估其置信度$\mathcal{C}({\mathit{\boldsymbol{R}}_i})$

导航器网络的任务是找到可能提供信息的区域,如何导航到信息区域可以视为区域建议问题,已获得广泛研究。导航器网络在对原图中所有局部区域预测信息量时需要提取每个区域的特征向量,为了减少重复计算,导航器网络首先对全图提取全局特征,再由全图到特征图的映射关系在全局特征图上抠取局部区域的局部特征。受到锚点的启发,导航器网络在不同尺度特征图上设置了在固定位置上固定尺度和不同比例的锚点框,锚点框的作用是更好地确定局部区域的范围以抽取局部特征来进行信息量的预测。也说明了导航器网络的作用是通过预测信息量来选取其中可能包含最多语义信息的区域。导航器网络能够生成一系列矩形区域$\{ \mathit{\boldsymbol{R}}_1', \mathit{\boldsymbol{R}}_2', \ldots, \mathit{\boldsymbol{R}}_A'\} $,每个区域都有对应的分数代表该区域的信息量,随后生成一个列表来表示所有锚点的信息量。按照式(2)对信息列表进行排序,即

$ \mathcal{J}({\mathit{\boldsymbol{R}}_1}) \ge \mathcal{J}({\mathit{\boldsymbol{R}}_2}) \ge \ldots \ge \mathcal{J}({\mathit{\boldsymbol{R}}_A}) $ (2)

为了减少区域冗余,本文基于区域的信息量对区域采用非极大值抑制(non-maximum suppression, NMS),然后选择前$M$个信息区域$\{ {\mathit{\boldsymbol{R}}_1}, {\mathit{\boldsymbol{R}}_2}, \ldots, {\mathit{\boldsymbol{R}}_M}\} $输入教师网络。教师网络接收到从导航器网络产生的信息量最大的$M$个局部区域后,通过调整这些局部区域的尺度为固定大小,并送入特征提取网络以得到局部特征图,在对每个局部区域的特征图完成全局池化后送入全连接层预测置信度,得到对应的置信度$\{ \mathcal{C}({\mathit{\boldsymbol{R}}_1}), \mathcal{C}({\mathit{\boldsymbol{R}}_2}), \ldots, \mathcal{C}({\mathit{\boldsymbol{R}}_M})\} $

在本文的训练过程中,利用网络模型预测排序和正确排序计算损失函数,并通过优化损失函数以使网络模型预测的排序更加接近正确排序。导航器网络提取信息量最大的$M$个局部区域表示为$\mathit{\boldsymbol{R}} = \{ {\mathit{\boldsymbol{R}}_1}, {\mathit{\boldsymbol{R}}_2}, \ldots, {\mathit{\boldsymbol{R}}_M}\} $,其对应的信息量集合为$\mathit{\boldsymbol{\mathcal{J}}} = \{ \mathcal{J}({\mathit{\boldsymbol{R}}_1}), \mathcal{J}({\mathit{\boldsymbol{R}}_2}), \ldots, \mathcal{J}({\mathit{\boldsymbol{R}}_M})\} $,由教师网络预测得到的置信度集合为$\mathit{\boldsymbol{\mathcal{C}}} = \{ \mathcal{C}({\mathit{\boldsymbol{R}}_1}), \mathcal{C}({\mathit{\boldsymbol{R}}_2}), \ldots, \mathcal{C}({\mathit{\boldsymbol{R}}_M})\} $。其中$\mathit{\boldsymbol{\mathcal{J}}}$$\mathit{\boldsymbol{\mathcal{C}}}$分别对应于网络的预测排序和正确排序。则导航器网络损失函数可以定义为

$ {L_N}\left({\mathit{\boldsymbol{\mathcal{J}}}, \mathit{\boldsymbol{\mathcal{C}}}} \right) = \sum\limits_{\left({i, j} \right):\mathcal{C}({\mathit{\boldsymbol{R}}_i}) > \mathcal{C}({\mathit{\boldsymbol{R}}_j})} {g(\mathcal{J}({\mathit{\boldsymbol{R}}_i}) - \mathcal{J}({\mathit{\boldsymbol{R}}_j}))} $ (3)

式中,$f$函数为合页损失函数$f\left(x \right) = {\rm{max}}\left\{ {1 - x, 0} \right\}$。若导航器网络提取某两个局部区域的信息量和教师网络对该两个局部区域预测的置信度大小一致,则该损失函数对导航器网络产生激励;反之,损失函数则对网络进行惩罚。


$ \begin{array}{*{20}{l}} {{L_T} = - \sum\limits_{i = 1}^M {[{P_d}\cdot\log \;\mathcal{C}\left({{\mathit{\boldsymbol{R}}_i}} \right) + } }\\ {\left({1 - {P_d}} \right)\cdot{\rm{log}}\left({1 - \mathcal{C}\left({{\mathit{\boldsymbol{R}}_i}} \right)} \right)]} \end{array} $ (4)


1.3 审查网络与通道注意力模块

随着导航器网络逐渐收敛,审查网络将接收到的信息丰富排名前$k$的区域输入特征提取器以生成它们的特征向量, 并将此$k$个特征与输入图像的全局特征相连接。若将连接后的特征直接输入全连接层中,这会对图像所有特征平均地处理。为了有选择性地加强包含有用信息的特征并抑制无用特征,本文引入了如图 5所示的通道注意力机制模块。

图 5 通道注意力机制模块
Fig. 5 Channel attention mechanism module

传统算法压缩激活网络SENet(Hu等,2017)、BAM(bottleneck attention module)(Park等,2018)在实现通道注意力时采用平均池化对空间维度进行压缩,不能有效提取纹理特征;CBAM(convolutional block attention module)(Woo等,2018)将平均池化结果与最大池化结果直接相加,结合方式过于简单。为了充分保留背景和纹理信息,本文采取将两个池化结果进行拼接的方法,如图 5所示。

假设输入特征$\mathit{\boldsymbol{X}}$的维度为($B, H, W, C$),在维度$C$上对$\mathit{\boldsymbol{X}}$中每幅特征图的重要程度进行权重分配。具体做法是:为了去除空间位置信息的干扰,需要先对原有特征图的空间进行压缩,将其从空间($B, H, W, C$)映射到空间($B$, 1, 1, $C$)当中;随后分别使用全局最大池化和全局平均池化的方法,将二者的池化结果进行拼接,得到的特征图维度为($B$, 1, 1, $2C$)。由于原始输入特征图的通道数为$C$,需要通过两个1×1大小的卷积核来实现通道数的降维,以进一步提取通道特征。通道压缩率表示为$r$,在本文实验中取$r$=16。上述过程可表示为

$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{F}}_a} = Conv(ReLU(BN}\\ {\left({Conv\left({concat\left({maxpool, avgpool} \right)} \right)} \right)))} \end{array} $ (5)

式中,${\mathit{\boldsymbol{F}}_a}$代表通道特征矩阵,$BN$为归一化,$ReLU$为激活函数,$Conv$表示卷积,$concat$为拼接函数,$maxpool$为最大池化操作,$avgpool$为平均池化操作。${\mathit{\boldsymbol{F}}_a} \in {{\bf{R}}^{(B, 1, 1, C)}}$,经过softmax后,得到相应的权重矩阵${\mathit{\boldsymbol{W}}_a} \in {{\bf{R}}^{(B, 1, 1, C)}}$。然后通过元素相乘逐通道加权到原先的特征图上,从而完成通道维度的注意力机制。


2 定量实验结果与分析

2.1 数据集

本文使用螺栓多属性分类数据集对模型进行评估,螺栓缺陷图像均由无人机线路巡检拍摄的样本截取而来,数据样本一共有2 000幅图像,其中1 500幅为训练样本,500幅为测试样本。利用视觉可分性的思想,将螺栓缺陷属性分为6类,每幅螺栓缺陷图像包含1类或以上缺陷属性。螺栓样本的属性及其对应标签如表 1所示,具体可分为以下6类:是否有销孔、是否有垫片、是否有螺母、是否锈蚀、螺母是否松动、销子是否松动,并将其分别设置为标签0~5。

表 1 6种螺栓属性及其标签
Table 1 Six kinds of bolt attributes and their labels

标签 属性
0 是否有销孔
1 是否有垫片
2 是否有螺母
3 是否锈蚀
4 螺母是否松动
5 销子是否松动

在本文多标签分类任务中,可以为每幅图像构建一个1×6的矩阵作为图像的标签,其中对应的属性类别如果存在,则置1,反之置0。例如以下编号为501的螺栓图像中存在销孔和螺母,其对应的标签矩阵为(1,0,1,0,0,0)。一些螺栓缺陷图像样本及其对应标签矩阵如图 6所示。

图 6 螺栓缺陷图像样本及其对应标签矩阵
Fig. 6 Picture samples and corresponding label matrix of bolt defects

2.2 实验细节

本文实验使用PyTorch框架实现,并使用单个NVIDIA Geforce GTX Titan X GPU对本文方法进行训练和测试。在所有实验中,将超参数$k$固定为2,即使用2个区域来训练导航器网络。本文使用可变形卷积的ResNet-50网络作为特征提取器,对输入图像进行随机水平翻转,并使用批处理规范化作为正则化。模型训练的初始学习率设置为0.001,且在每60个周期降低为之前的1/10,权重衰减为0.000 5,NMS的阈值设置为0.25,使用动量梯度下降法进行优化。

2.3 实验结果

为了充分验证本文提出模型的性能,将螺栓多属性分类数据集在VGG(Visual Geometry Group)、ResNets等其他基础网络上进行多标签分类,记录其结果作为对比数据。表 2显示了本文提出模型与其他网络模型之间的精确率比较。从表中可以看出,ResNet-50是效果较好的基准,本身就可以达到77.2%的平均精确率。另外,使用基于ResNet-50的NTS-Net模型进行多标签分类时,能够获得82.6%的平均精确率,相较于基准获得了5.4%的提升,而本文提出的模型能达到84.5%的平均精确率,明显优于NTS-Net近2个百分点。而且从表 2中可以看出,在螺栓多属性分类数据集的6个标签的精确率中,所有标签的精确率都相较于以往的方法有着更好的表现,这说明通过本文的改进方法能够有效提升对螺栓多属性分类数据集的多标签分类效果。

表 2 螺栓多属性分类数据集分类结果
Table 2 Classification result of bolt multi-attribute classification dataset  

方法 0 1 2 3 4 5 mAP
AlexNet 72.5 66.5 69.1 80.5 67.6 58.5 68.9
VGG16 74.3 69.4 71.5 81.8 71.1 60.1 71.3
ResNet18 77.8 71.2 74.2 83.2 72.1 63.4 74.7
ResNet34 78.6 71.9 75.3 84.4 73.2 63.5 75.4
ResNet50 80.0 74.3 77.4 88.3 74.8 64.8 77.2
NTS-Net 83.5 79.9 82.8 91.1 82.7 72.3 82.6
本文 84.7 81.1 84.0 93.5 84.5 74.3 84.5

2.4 消融实验


1) 为了验证在不同位置嵌入可变形卷积对于特征提取效果的影响,本文设计了分别使用标准卷积的ResNet-50网络与不同位置嵌入可变形卷积的ResNet-50网络作为特征提取网络的NTS-Net对螺栓多属性分类数据集多标签分类的对比实验,实验结果如表 3所示。实验结果表明,可变形卷积增强了网络对于几何变换的建模能力,平均分类精确率获得了不同幅度的提升。另外,将ResNet-50不同位置的3×3传统卷积替换为可变形卷积对实验结果产生不同的影响,位置越靠后对于模型性能的提升幅度越大。因此,在本文其他实验中将Conv5_$x$层中的3个3×3传统卷积替换为可变形卷积,构成可变形卷积的ResNet-50网络。

表 3 各模块对图像分类效果的影响
Table 3 The influence of each model on image classification  

方法 0 1 2 3 4 5 mAP
ResNet-50 83.5 79.9 82.8 91.1 82.7 72.3 82.6
dcn-Conv2 83.7 80.2 82.7 91.1 83.2 73.1 83.1
dcn-Conv3 83.7 80.3 83.2 91.3 83.0 72.9 83.2
dcn-Conv4 83.5 80.5 83.4 91.3 83.7 73.1 83.5
dcn-Conv5 83.9 80.5 83.5 92.1 83.9 73.5 83.7

2) 为分析NTS-Net模型中不同组件以及超参数$k$的作用,本文设计了以下对比实验并将结果记录在表 4中。实验结果表明,当没有教师网络的指导(即NS-Net),仅让导航器网络提出区域建议时,模型准确率下降为76.8%,这说明没有受到指导时,导航器随意地提出区域建议是不利于分类的。另外,为研究超参数$k$(即使用多少个局部区域来帮助分类),本文分别设置$k$的不同取值来进行对比实验。由表 4可知,当用来辅助分类的局部区域数$k$从0增加到2时,平均精确率提升了2.1%。当$k$再增加时,平均精确率的提升几乎可以忽略,而特征维度几乎增加了一倍,所以本文设置超参数$k$的值为2。

表 4 超参数$k$对实验结果的影响
Table 4 The influence of hyperparameter $k$ on experimental  

方法 0 1 2 3 4 5 mAP
ResNet-50 80.0 74.3 77.4 88.3 74.8 64.8 77.2
NS-Net 79.2 74.1 76.9 88.2 74.5 64.6 76.8
本文($k$=0) 83.5 79.7 82.7 91.0 82.6 72.5 82.4
本文($k$=1) 83.8 80.6 83.3 91.5 83.2 73.1 83.2
本文($k$=2) 84.7 81.1 84.0 93.5 84.5 74.3 84.5
本文($k$=3) 84.8 81.0 84.2 93.1 84.7 74.6 84.7
本文($k$=4) 84.7 81.3 84.4 93.3 84.5 74.7 84.8

3) 为验证本文通道注意力机制的有效性,分别在使用标准卷积和可变形卷积的ResNet-50网络作为特征提取网络的NTS-Net上加入通道注意力机制。从表 5可以看出,在加入通道注意力机制后(在表 5中以att表示),最终的mAP为83.0%和84.5%,分别获得了0.4%和0.8%的提升,说明了本文提出的通道注意力机制的有效性。

表 5 通道注意力机制对分类效果的影响
Table 5 The influence of channel attention on classification  

方法 0 1 2 3 4 5 mAP
ResNet-50 83.5 79.9 82.8 91.1 82.7 72.3 82.6
ResNet-50+att 83.7 80.1 82.8 91.3 83.1 72.7 83.0
dcn-ResNet-50 83.9 80.5 83.5 92.1 83.9 73.5 83.7
dcn-ResNet-50+att 84.7 81.1 84.0 93.5 84.5 74.3 84.5

另外,为了验证本文采用的通道注意力机制方法相较于SENet、BAM以及CBAM具有优越性,本文设计在使用可变形卷积的ResNet-50网络作为特征提取网络的NTS-Net上分别加入4种注意力机制进行对比实验,实验结果如表 6所示。从表中可以看出,本文方法在各类精确率和平均精确率上都能够获得更好的表现,验证了本文通道注意力机制的优越性。

表 6 不同通道注意力机制对分类效果的影响
Table 6 The influence of different channel attention on classification  

方法 0 1 2 3 4 5 mAP
SENet 83.9 80.7 83.7 92.4 83.1 73.7 83.8
BAM 83.9 80.7 83.5 92.8 83.1 73.9 83.9
CBAM 84.3 80.9 83.7 93.4 83.9 74.1 84.2
本文 84.7 81.1 84.0 93.5 84.5 74.3 84.5

2.5 通用性实验

本文所提出的模型是基于螺栓目标的多标签分类任务,也适用于其他场景,为了验证本模型的通用性,使用包含20个类别和9 963幅图像的PASCAL VOC2007(pattern analysis, statistical modeling and computational learning visual object classes)数据集进行测试,分别对5 011幅图像进行训练和4 952幅图像进行测试。结果如表 7所示。从表 7可以看出,本文方法相较于ResNet-50基础网络在PASCAL VOC2007数据集上的效果有一定程度的提升,验证了本文模型的通用性。

表 7 PASCAL VOC2007数据集分类结果
Table 7 Experimental results of the PASCAL VOC2007 dataset  

方法 mAP
ResNet-50 88.3
本文 93.7

3 定性实验结果与分析


1) 为了分析本文模型的导航器网络所提供的判别性区域,将$k$取值为2和3时,网络所提供的判别性区域绘制在图 7中。其中,第1行是原始图像;第2行是$k$=2时的判别性区域;第3行是$k$=3时的判别性区域;并用红色、橙色、绿色矩形分别表示网络提供的信息量前3的区域。可以看出,当$k$=2时,信息量较大的局部区域能够对螺栓不同属性的分类提供有效信息,如第2行第2幅图像中,重点关注了销子和螺母是否松动的区域,这与人类的感知行为是类似的。然而,当$k$=3时,绿色框提供的判别性区域出现重叠冗余,对分类效率的提升不大,这验证了定量分析中$k$取值大于2时,分类精确率提升有限的问题。

图 7 导航器网络提供的判别性区域
Fig. 7 The most informative regions proposed by navigator network

2) 为了证明不同判别性区域对不同属性分类决策的影响,本文还进行了可视化实验,如图 8所示。采用Grad-CAM(gradient-weighted class activation mapping)算法(Selvaraju等,2017),该算法将判别性区域图像(第2行和第4行图像)作为输入,通过将热力图和反向传播进行逐元素相乘,得到Grad-CAM可视化图(第3行和第5行图像)。从图中可以看出,当$k$=2时,导航器网络提供的两个判别性区域上注意到的信息是不一样的,如第1列,两个判别性区域分别关注销孔和螺母区域。

图 8 判别性区域特征图可视化
Fig. 8 Visualization of discriminative regional feature map

3) 本文利用Grad-CAM算法可视化了模型改进前后的特征图注意力区域,如图 9所示。其中,第1行图像为原始图像,第2行图像为模型改进前特征图注意力区域的可视化效果,第3行图像为经过本文模型改进后的特征图注意力区域的可视化效果。从图中可以看出,第3行图像与第2行图像相比,网络能够重点关注更具显著性和判别性的特征,同时能够有效去除冗余信息,效果提升较为明显。如第3列的第3行图片相比第2行图像,模型关注区域更加集中在销孔位置。

图 9 特征图注意力区域可视化
Fig. 9 Visualization of areas of attention in feature map

4 结论




  • Chen J W, Liu Z G, Wang H R, Núñez A, Han Z W. 2018. Automatic defect detection of fasteners on the catenary support device using deep convolutional neural network. IEEE Transactions on Instrumentation and Measurement, 67(2): 257-269 [DOI:10.1109/tim.2017.2775345]
  • Cheng M M, Zhang Z M, Lin W Y and Torr P. 2014. BING: binarized normed gradients for objectness estimation at 300 fps//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE: 3286-3293[DOI: 10.1109/CVPR.2014.414]
  • Dai J F, Qi H Z, Xiong Y W, Li Y, Zhang G D, Hu H and Wei Y C. 2017. Deformable convolutional networks//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 764-773[DOI: 10.1109/ICCV.2017.89]
  • Deng J, Dong W, Socher R, Li L J, Li K and Li F F. 2009. ImageNet: a large-scale hierarchical image database//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE: 248-255[DOI: 10.1109/CVPR.2009.5206848]
  • Fu J L, Zheng H L and Mei T. 2017. Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 4476-4484[DOI: 10.1109/CVPR.2017.476]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]
  • Hu J, Shen L, Albanie S, Sun G and Wu E H. 2017. Squeeze-and-Excitation networks[EB/OL]. [2020-10-11].
  • Krizhevsky A, Sutskever I and Hinton G E. 2012. ImageNet classification with deep convolutional neural networks//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, USA: Curran Associates Inc. : 1097-1105[DOI: 10.5555/2999134.2999257]
  • Park J, Woo S, Lee J Y and Kweon I S. 2018. BAM: Bottleneck attention module[EB/OL]. [2020-10-11].
  • Razavian A S, Azizpour H, Sullivan J and Carlsson S. 2014. CNN features off-the-shelf: an astounding baseline for recognition//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Columbus, USA: IEEE: 512-519[DOI: 10.1109/cvprw.2014.131]
  • Selvaraju R R, Cogswell M, Das A, Vedantam R, Parikh D and Batra D. 2017. Grad-CAM: visual explanations from deep networks via gradient-based localization//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 618-626[DOI: 10.1109/ICCV.2017.74]
  • Shih K J, Mallya A, Singh S and Hoiem D. 2015. Part localization using multi-proposal consensus for fine-grained categorization//Proceedings of the British Machine Vision Conference (BMVC). Guildford, UK: BMVA Press: #128[DOI: 10.5244/c.29.128]
  • Wang J, Yang Y, Mao J H, Huang Z H, Huang C and Xu W. 2016. CNN-RNN: a unified framework for multi-label image classification//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 2285-2294[DOI: 10.1109/CVPR.2016.251]
  • Wei Y C, Xia W, Lin M, Huang J S, Ni B B, Dong J, Zhao Y, Yan S C. 2016. HCP: a flexible CNN framework for multi-label image classification. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(9): 1901-1907 [DOI:10.1109/TPAMI.2015.2491929]
  • Woo S, Park J, Lee J Y and Kweon I S. 2018. CBAM: Convolutional block attention module//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 3-19[DOI: 10.1007/978-3-030-01234-2_1]
  • Xie S N, Girshick R, Dollár P, Tu Z W and He K M. 2017. Aggregated residual transformations for deep neural networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5987-5995[DOI: 10.1109/CVPR.2017.634]
  • Xue Y, Wu H D, Zhang N, Yu Z C, Ye X K, Hua X. 2020. Detection of insulation piercing connectors and bolts on the transmission line using improved faster R-CNN. Laser and Optoelectronics Progress, 57(8): #081008 (薛阳, 吴海东, 张宁, 俞志程, 叶晓康, 华茜. 2020. 基于改进Faster R-CNN输电线穿刺线夹及螺栓的检测. 激光与光电子学进展, 57(8): #081008) [DOI:10.3788/LOP57.081008]
  • Yang Z, Luo T G, Wang D, Hu Z Q, Gao J and Wang L W. 2018. Learning to navigate for fine-grained classification[EB/OL]. [2020-10-11].
  • Zagoruyko S and Komodakis N. 2016. Wide residual networks//Proceedings of British Machine Vision Conference 2016. Guildford, UK: BMVA Press: 87. [DOI: 10.5244/C.30.87]
  • Zhang K, Guo L R, Gao C, Zhao Z B. 2019. Pyramidal RoR for image classification. Cluster Computing, 22(S2): 5115-5125 [DOI:10.1007/s10586-017-1443-x]
  • Zhang K, Sun M, Han T X, Yuan X F, Guo L R, Liu T. 2018. Residual networks of residual networks: multilevel residual networks. IEEE Transactions on Circuits and Systems for Video Technology, 28(6): 1303-1314 [DOI:10.1109/TCSVT.2017.2654543]
  • Zhao Z B, Qi H Y, Nie L Q. 2019. Research overview on visual detection of transmission lines based on deep learning. Guangdong Electric Power, 32(9): 11-23 (赵振兵, 齐鸿雨, 聂礼强. 2019. 基于深度学习的输电线路视觉检测研究综述. 广东电力, 32(9): 11-23) [DOI:10.3969/j.issn.1007-290X.2019.009.002]
  • Zhao Z B, Qi H Y, Qi Y C, Zhang K, Zhai Y J, Zhao W Q. 2020. Detection method based on automatic visual shape clustering for pin-missing defect in transmission lines. IEEE Transactions on Instrumentation and Measurement, 69(9): 6080-6091 [DOI:10.1109/tim.2020.2969057]
  • Zhong J P, Liu Z G, Han Z W, Han Y, Zhang W X. 2019. A CNN-based defect inspection method for catenary split pins in high-speed railway. IEEE Transactions on Instrumentation and Measurement, 68(8): 2849-2860 [DOI:10.1109/tim.2018.2871353]