Print

发布时间: 2021-11-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200793
2021 | Volume 26 | Number 11




    电力视觉前沿技术    




  <<上一篇 




  下一篇>> 





嵌入双注意力机制的Faster R-CNN航拍输电线路螺栓缺陷检测
expand article info 戚银城1,2, 武学良1, 赵振兵1,2, 史博强1, 聂礼强3
1. 华北电力大学电气与电子工程学院, 保定 071003;
2. 华北电力大学河北省电力物联网技术重点实验室, 保定 071003;
3. 山东大学计算机科学与技术学院, 青岛 266237

摘要

目的 螺栓是输电线路上最普遍、数量最多的部件,螺栓缺陷检测是输电线路视觉检测任务的一大难点。针对螺栓目标存在背景复杂、目标过小、不同类别之间差异小以及精细特征难以提取的问题,提出一种双注意力机制方法,分别对不同尺度和不同位置的视觉特征进行分析和增强。方法 对于不同尺度的特征,网络使用不同尺度的特征图计算出相应的注意力图,然后将相邻层的注意力图差异性作为正则化项加入网络中,从而增强螺栓区域的精细特征。对于不同位置的特征,先使用特征图计算出图像的空间注意力图,注意力图中每个元素表示两个空间位置的相似程度,然后利用注意力图将局部特征与全局特征融合,从而在全局视野上增强相似的区域,达到增大螺栓与背景的特征差异程度,实现提高螺栓区域的预测效果。结果 本文在航拍输电线路典型螺栓数据集上进行测试,与基线相比,结合双注意力机制的航拍输电线路螺栓检测方法的平均准确率提高了2.21%,其中正常螺栓类提升了0.29%,缺销螺栓类提升了5.23%,螺母缺失螺栓类提升了1.1%。结论 本文提出的基于双注意力机制的航拍输电线路螺栓缺陷检测方法取得了良好的效果,有效避免了螺栓缺陷检测中的误判漏判问题,为进一步对输电线路其他缺陷任务奠定了良好的基础。

关键词

双注意力机制; 多尺度; 空间位置; 螺栓缺陷检测; 深度学习

Bolt defect detection for aerial transmission lines using Faster R-CNN with an embedded dual attention mechanism
expand article info Qi Yincheng1,2, Wu Xueliang1, Zhao Zhenbing1,2, Shi Boqiang1, Nie Liqiang3
1. School of Electrical and Electronic Engineering, North China Electric Power University, Baoding 071003, China;
2. Hebei Key Laboratory of Power Internet of Things Technology, North China Electric Power University, Baoding 071003, China;
3. School of Computer Science and Technology, Shandong University, Qingdao 266237, China
Supported by: National Natural Science Foundation of China (61871182, 61773160); Beijing Municipal Natural Science Foundation (4192055); Natural Science Foundation of Hebei Province, China (F2020502009); Fundamental Research Funds for the Central Universities (2018MS095, 2020YJ006); Open Project Program of the National Laboratory of Pattern Recognition(NLPR) (201900051)

Abstract

Objective In transmission lines, bolts are widely used as a kind of fasteners to connect various parts of transmission lines and make the overall structure stable and safe. However, bolts are easily damaged because of their complex working environment. The damage or loss of a bolt may cause a large area of transmission line failure, which seriously threatens the safety and stability of the power grid. Bolts are the most common components of transmission lines. Thus, bolt defect detection is an important task in transmission line inspection. Good features are difficult extract because of the complex background, small target, small difference between categories, and loss of gradient information. This study proposes a dual-attention scheme to enhance the visual features of different scales and positions. Method First, for different scales, the network extracts the feature map of each layer, uses the multi-scale attention model to obtain the corresponding attention map, calculates the difference of the attention map for adjacent layers, and adds it to the loss function as a regularization term to enhance the fine features of the bolt area. The trained network continuously reduces the difference in the attention maps of different layers. The learned attention maps of different scales are introduced into the network as a kind of context information. This procedure can avoid the loss of important information in the process of feature extraction. No additional regulatory information is required because the attention map is from the network itself. Second, for different positions, bolts appear in specific positions of the accessories, but due to light blocking and other reasons, the characteristics of these positions are not obvious. In this study, we use the feature map to derive a spatial attention map of the image. Each element in the attention map indicates the degree of similarity between two spatial locations. Then, the attention map is used to combine the features of each position with the global feature. This process enhances the features in similar regions and improves the difference degree between dissimilar areas. Hence, the difference between the bolt and the background is increased, and the detection accuracy of the bolt area is improved. Result The method is tested on a typical bolt data set for aerial transmission lines. The typical bolt data set contains 1 483 images of three types of bolts. Each image has a size of approximately 3 000×4 000 pixels. A total of 2 692 targets are labeled, and they include 1 443 normal bolt samples, 670 missing bolt samples, and 579 missing nut bolt samples. The ratio of the training set to the test set is 8:2. The baseline model used in this study is the faster region convolutional neural network(Faster R-CNN) model. Experimental results show that compared with the baseline, the proposed model's mean average precision (mAP) is increased by 0.29% when the multi-scale attention module is added. Normal, missing and missing nut bolts increase by 0.62%, 2.54%, and 0.69%, respectively. After the addition of the spatial attention module, the mAP of the model increases by 0.61%; specifically, the AP of normal bolts increases by 0.3%, that of missing bolts increases by 2.05%, and that of missing nut bolts increases by 0.52%. This result is obtained because several shaded nuts of missing bolts are confused with the nuts of normal bolts, leading to misjudgment. After introducing multi-scale attention and spatial attention at the same time, the model's mAP is increased by 2.21%; the AP of the normal, missing, and missing nut bolts is increased by 0.29%, 5.23%, and 1.10%, respectively. These experimental results prove the effectiveness of the bolt defect detection method for aerial transmission lines based on the dual attention mechanism. This study also conducts visualization experiments, including the establishment of feature maps, model training loss function curve, precision-recall(PR) curve, and bolt defect detection result map, to prove that the proposed method can be applied to feature extraction. Conclusion Experimental results prove that the proposed detection method for aerial transmission line bolt defects based on the dual attention mechanism is effective. The process of supervising feature extraction can ensure that abundant useful information is retained when extracting features. For the bolt defect detection task, increasing the difference between the target and the background can improve the detection accuracy of the target area. The visualization experiments verify that the proposed method can retain abundant useful information in the process of feature extraction. The visualized test examples also prove that the proposed method can effectively avoid the problem of misjudgment in bolt defect detection.

Key words

dual attention mechanism; multi-scale; spatial position; bolt defect detection; deep learning

0 引言

螺栓是输电线路上最常见的部件,用于紧固各种部件,但由于输电线路整体长期暴露在野外,容易受到环境、挤压、拉伸和扭转等影响,螺栓极易出现销子、螺母缺失等情况。一旦紧固部件出现问题,被禁锢部件随着也会产生各种问题,进而产生安全隐患,因此及时检测螺栓缺陷对保障输电网安全运行十分重要(赵振兵等,2019Nguyen等,2018)。但螺栓分布广泛、无人机拍摄的图像中螺栓占比过小、背景复杂等问题都会加大螺栓检测的难度,同时在拍摄螺栓图像时,由于无人机无法近距离拍摄,导致缺陷螺栓与正常螺栓在视觉上的差异极小,单纯使用螺栓的视觉特征检测螺栓缺陷具有极高的挑战性。

螺栓缺陷检测是输电线路上的特定任务,目前螺栓缺陷检测方法较少,且模型与数据集均不公开,因此本文的相关文献均为输电线路相关方向或结合了计算机视觉的缺陷自动检测研究,如汤踊等人(2018)基于Faster R-CNN(region convolutional neural network)(Ren等,2017)模型对输电线路的金具部件进行检测,通过调整CNN模型的卷积核大小和图像的旋转变换扩充数据集,证实了此两种方法有利于提高模型的检测精度;Mei等人(2018)为了检测布料纹理的缺陷,在DCNN(deep convolutional neural network)的基础上,提出了一种无监督的纹理表面缺陷检测方法,并构造了多尺度的卷积神经网络来提取特征和反重构表面缺陷;Chen等人(2018)为了检测接触网支架紧固件是否出现缺陷,提出了基于SSD(single shot detector)(Liu等,2016)和YOLO(you only look once)(Redmon等,2016)网络三级检测方法,先定位支撑装置,然后对螺栓进行检测,最后基于深度神经网络对缺陷进行识别,实现了对支撑装置上螺栓缺陷的检测;戚银城等人(2019)为了解决输电线路中螺栓缺陷数据不易获得的问题,提出一种基于改进DCGAN(deep convolutional generative adversarial networks)的螺栓图像生成方法,通过加入相对均值鉴别器和梯度惩罚,并在生成器和鉴别器中引入注意力机制来捕获图像中长距离的像素特征,实现了缺陷样本的扩增。Zhong等人(2018)为了检测高速铁路悬链线支撑装置的开口销(split pins)是否出现缺陷的问题,提出一种改进的深层卷积神经网络的三级自动缺陷检测系统PVANET++,同时引入一种新的锚机制并使用多个隐藏层特征构建更具有区分性的新特征,提升了检测精度。Liu等人(2018)为了定位接触网支撑元件,分别对4种代表性的深度学习网络进行对比分析,并讨论了接触网支撑元件的定位与故障检测的问题,对缺陷识别任务的发展前景进行了展望。乔丽等人(2017)利用卷积神经网络的中间参数定义表面缺陷分辨率的概念作为衡量缺陷的程度,通过判断缺陷分辨率的水平识别是否存在缺陷,有效提升了缺陷检出率。Han等人(2017)使用Faster R-CNN来检测复杂背景图像中轮毂上的划痕和点。赵振兵等人(2020)为了解决绝缘子缺陷任务中不同缺陷之间样本数量不平衡以及困难样本学习效率低下问题,提出一种动态焦点损失函数和基于二阶矩的样本平衡方法,可以有效学习到不同样本的深度特征。Zhao等人(2020)为了学习螺栓的视觉形状差异,提出了一种自动视觉形状的聚类方法,并结合多个神经网络优化方法提出了一个基于Faster R-CNN的二级目标检测模型,从而检测正常螺栓与缺销螺栓。

通过对航拍输电线路典型螺栓数据集的分析以及大量实验发现,不同于MS-COCO(Microsoft common objects in context)(Lin等,2014)、PASCAL VOC(pattern analysis, statistical modeling and computational learning visual object classes)(Everingham等,2010)等公共数据集,航拍螺栓图像数据集存在背景复杂、螺栓占比过小和不同缺陷螺栓的视觉特征差异不大等问题,这些问题会使得网络在提取特征时难以提取到精确的视觉特征,从而导致螺栓等小目标重要特征信息的丢失。本文从航拍螺栓图像特点出发,提出一种双注意力机制的航拍输电线路螺栓图像检测方法。首先,为了避免螺栓图像在特征提取阶段由于螺栓目标小、背景复杂等问题导致的信息丢失,本文提出利用多尺度注意力模块对特征提取阶段进行监督,使用ResNet-101(He等,2016)作为特征提取网络,并选取通道数256、512和1 024将ResNet-101分为3个层次,结构如图 1所示。其中7×7conv表示卷积核大小为7×7,64→64表示输入和输出通道的维度,/2表示步长为2,×2表示相同的结构有两个。根据每个层次的特征图利用多尺度注意力模型得到相应的注意力图,计算相邻层的注意力图差异性,并将其作为正则化项加入损失函数中,由于该注意力图来自于网络本身,因此不需要额外的监督信息。其次,为了解决检测过程中螺栓区域检测效果不佳的问题,本文提出利用空间注意力模块使得每个位置特征都与全局特征加权相加,相似区域特征得到增强,不相似区域特征进行弱化,螺栓区域与背景区域的特征差异程度变大,从而提高螺栓区域的检测精度。最后,本文在航拍输电线路典型螺栓数据集上验证了本文方法的有效性与可靠性。

图 1 特征提取网络——ResNet-101
Fig. 1 Feature extraction network——ResNet-101

1 研究方法

本文的检测模型框架如图 2所示。在特征提取过程中使用ResNet-101为特征提取网络,提取每个卷积层的注意力图,计算两个相邻卷积层的注意力图的差异性作为正则化项,提取出的每层注意力图不仅包含目标信息还保留了编码后的丰富上下文信息,同时相邻层注意力图可以互相促进,进一步提高网络的学习能力。考虑到螺栓与所属的金具存在较小的差异,以及不同类别的螺栓差异不大,这些问题都会导致螺栓区域检测效果不佳。因此本文利用全局特征计算任意两个位置的相似程度作为注意力系数,从而增强相似区域的特征,提高局部特征对全局特征的依赖性。

图 2 本文检测模型框架
Fig. 2 Detection framework for this article

1.1 多尺度注意力

多尺度注意力模块主要是为了避免在提取螺栓图像视觉特征时由于螺栓图像背景复杂、目标较小等问题导致的信息丢失。本文以ResNet-101网络的前3个Layer为特征提取网络,依次提取每层的注意力图,提取出的注意力图从网络本身得到,因此不需要多余的标签或者额外信息,随着训练的进行,网络不断学习显著区域的特征以及目标的上下文信息,通过不同尺度上注意力图表现出的显著区域可以使得网络在特征提取时更关注显著区域。

本文使用特征提取阶段的第$k$个卷积层输出特征${\mathit{\boldsymbol{A}}_k} \in {{\bf{R}}^{{C_k} \times {H_k} \times {W_k}}}$作为多尺度注意力模块的输入,其中${C_k}$${H_k}$${W_k}$表示特征通道、高度和宽度。生成一个注意力图相当于找到一个映射函数$P \in {{\bf{R}}^{{C_k} \times {H_k} \times {W_k}}} \to {{\bf{R}}^{{H_k} \times {W_k}}}$, 将每个卷积层视觉特征映射为对应的注意力图,其中每个元素的绝对值表示该元素影响最终输出的重要程度。本文主要探讨了求和、平方求和以及最大值3种方法构建的映射函数的效果

$ P_{s} =\sum\limits_{i=1}^{C_{k}}\left|A_{k i}\right| $ (1)

$ P_{s}^{2} =\sum\limits_{i=1}^{C_{k}}\left|A_{k i}\right|^{2} $ (2)

$ P_{\max }^{2} =\max \limits_{i=1, \cdots, C}\left|A_{k i}\right|^{2} $ (3)

式中,${A_{ki}}$表示输出特征${\mathit{\boldsymbol{A}}_k}$的第$i$个通道。

本文对这3种映射函数进行了可视化,结果如图 3所示。

图 3 3种映射函数的特征图
Fig. 3 Feature map of three mapping functions
((a) original image; (b)sum; (c)sum of squares; (d) max)

图 3所示为使用3种映射方法得到的特征图,其中, 图 3(a)为原图像,图 3(b)(c)(d)依次为使用求和、平方求和、最大值方法得到的特征图。由图 3可以看出,平方求和方法得到的特征图比其他两种方法效果更好,保留了最重要的区域,具有更少的噪声,同时与真实标签更接近。

多尺度注意力的目标是每一层的注意力图都可以从连续层的注意力图中得到有用的上下文信息。本文提取ResNet-101的3个主要输出层特征作为学习目标来得到3个注意力图,考虑到每个尺度的注意力图尺度不同,利用双线性上采样(upsampling)放大到原始图像尺寸,即

$ \varphi\left(\boldsymbol{A}_{k}\right)={softmax}\left({ upsampling }\left(P_{s}^{2}\left(\boldsymbol{A}_{k}\right)\right)\right) $ (4)

式中,$\varphi ({\mathit{\boldsymbol{A}}_k})$表示特征提取网络的第$k$层特征图对应的注意力图。

图 4所示为多尺度注意力模块,本文利用多尺度注意力图对网络学习的目标区域进行监督,使用平方损失函数作为相邻层之间的学习函数

$ L_{k, k+1}\left(\boldsymbol{A}_{k}, \boldsymbol{A}_{k+1}\right)=L_{2}\left(\varphi\left(\boldsymbol{A}_{k}\right), \varphi\left(\boldsymbol{A}_{k+1}\right)\right) $ (5)

图 4 多尺度注意力模块
Fig. 4 Multi-scale attention module

式中, ${L_2}$为均方差损失函数。

最终,多尺度注意力模块的总损失函数由3个层次注意力图聚合得到

$ L_{\mathrm{sum}}=L_{1,2}+L_{2,3} $ (6)

式中,${L_{1, 2}}$表示Layer1与Layer2之间的损失函数,${L_{2, 3}}$表示Layer2与Layer3之间的损失函数。

图 4中,视觉特征$\mathit{\boldsymbol{A}}$$\mathit{\boldsymbol{B}}$均为特征提取网络ResNet-101的Layer1、Layer2和Layer3的输出特征。

1.2 空间注意力

螺栓作为输电线路上的紧固部件,其在金具上通常存在于固定的位置,在航拍螺栓图像中的空间布局上也呈现一定规则性。由于无人机拍摄螺栓图像时距离过远导致螺栓区域占比不大,同时受到拍摄角度、光照强度和遮挡等影响,在对特征图生成候选区域后无法准确预测到螺栓目标。原始的Faster R-CNN在检测螺栓时是在整个特征图上生成20 000个大小不一的候选框,通过不断训练找到最可能存在目标的候选区域。这种方式只关注图像的局部区域,并没有考虑到输电线路金具上的螺栓的空间规律性。本文从空间位置维度引入全局信息,通过建模特征图中任意两个位置的空间注意力图来表明位置之间的空间依赖性,通过空间注意力图可以使得具有相似特征的区域互相增强,从而在全局视野中突出螺栓区域。

本文以ResNet-101第3个Layer输出特征${\mathit{\boldsymbol{A}}_3} \in {{\bf{R}}^{C \times H \times W}}$为空间注意力模块的输入,由于该模块是为了学习特征在空间位置上的空间依赖性,首先利用输出特征${\mathit{\boldsymbol{A}}_3}$计算出所有位置的位置注意力图,然后利用位置注意力图对特定位置特征进行更新加权,最后将局部特征与全局特征相结合,实现螺栓与上下文信息相融合,即

$ \boldsymbol{E} =f\left(\boldsymbol{A}_{3}\right) $ (7)

$ \boldsymbol{F} =f\left(\boldsymbol{A}_{3}\right) $ (8)

式中,$f$(·)为一个卷积层,$\mathit{\boldsymbol{E}}, \mathit{\boldsymbol{F}} \in {{\bf{R}}^{C \times H \times W}}$。将$\mathit{\boldsymbol{E}}, \mathit{\boldsymbol{F}}$平铺到$\mathit{\boldsymbol{E}}^\prime, \mathit{\boldsymbol{F}}^\prime \in {{\bf{R}}^{C \times N}}$,其中$N = H \times W$,得到全局视野上的每个位置的图像特征,将$\mathit{\boldsymbol{E}}^\prime $的转置与$\mathit{\boldsymbol{F}}$相乘后, 利用$softmax$函数激活获得空间注意力图$\mathit{\boldsymbol{S}} \in {{\bf{R}}^{N \times N}}$,即

$ \boldsymbol{S}={softmax}\left(\boldsymbol{E}^{\prime \mathrm{T}} \cdot \boldsymbol{F}^{\prime}\right) $ (9)

$ s_{j i}=\frac{\exp \left(\boldsymbol{E}_{i}^{\prime \mathrm{T}} \cdot \boldsymbol{F}_{j}^{\prime}\right)}{\sum\limits_{i=1}^{N} \exp \left(\boldsymbol{E}_{i}^{\prime \mathrm{T}} \cdot \boldsymbol{F}_{j}^{\prime}\right)} $ (10)

式中,空间注意力图$\mathit{\boldsymbol{S}}$中元素${s_{ji}}$表示第$i$个位置对第$j$个位置的影响程度,${s_{ji}}$越大表明两个位置的依赖性越强。与式(7)相同,将经过一个卷积层得到$\mathit{\boldsymbol{G}} \in {{\bf{R}}^{C \times H \times W}}$并映射到$\mathit{\boldsymbol{G}}\prime \in {{\bf{R}}^{C \times N}}$,将注意力图$\mathit{\boldsymbol{S}}$的转置与$\mathit{\boldsymbol{G}}\prime $相乘后映射到${{\bf{R}}^{C \times H \times W}}$,最后与原始特征${\mathit{\boldsymbol{A}}_3}$相加得到最终增强后的视觉特征$\mathit{\boldsymbol{T}}, \mathit{\boldsymbol{T}}$中每个元素表示为

$ T_{j}=\alpha \sum\limits_{i=1}^{N} s_{j i} G_{i}^{\prime}+A_{3 j} $ (11)

式中,$\alpha $代表了局部特征与全局特征的融合程度,初始化为0,并作为模型训练参数参与训练。

1.3 损失函数

本文损失函数共包含两部分:一是网络的预测结果,采用交叉熵损失函数;二是多尺度注意力模块表征的相邻层之间特征分布差异, 即

$ L o s s=L(y, \hat{y})+\lambda L_{\mathrm{sum}} $ (12)

式中,$y$为真实标签,$\hat y$为网络的预测标签,$L\left(\cdot \right)$表示交叉熵损失函数,$\lambda $为正则化项超参数。

2 实验结果及分析

2.1 数据集

本文的研究内容为输电线路上的螺栓缺陷检测,由于现今的螺栓缺陷检测方法较少,且模型与数据集均不公开,因此需要构建螺栓数据集,本文以中国电力出版社出版的《架空输电线路设备缺陷影像标注规范(试行)》为标准,参考PASCAL VOC2007数据集的构建方法,构建了航拍输电线路螺栓数据集。本文的螺栓目标仅为金具上的螺栓,不考虑金具外的螺栓,在标注螺栓数据集时,以螺母和销子的存在情况为依据将螺栓分为3类,其中螺母与销子均存在为正常螺栓;销子丢失而螺母存在为缺销螺栓;螺母和销子均丢失或只螺母不存在为螺母缺失螺栓。最终数据集共1 483幅图像,每幅图像尺寸大约在3 000×4 000像素,共标注2 692个目标,包括正常螺栓(1 443个样本)、缺销螺栓(670个样本)以及螺母缺失螺栓(579个样本)3类螺栓,每幅图像均包含1~5个标注样本,训练集和测试比例为8∶2。航拍输电线路螺栓图像如图 5所示。

图 5 航拍输电线路螺栓图像
Fig. 5 Aerial image of transmission line bolts

本文采用的数据集为自建的输电线路螺栓数据集,其包含正常螺栓、缺销螺栓与螺母缺失螺栓3类。由于现今针对输电线路上的螺栓缺陷检测研究不多且数据集不一致,如Zhao等人(2020)的数据集中只含有正常螺栓与缺销螺栓,而本文引言中的相关文献的实验对象为输电线路的金具部件或其他领域的缺陷目标,如布料纹理缺陷、接触网支架紧固件缺陷和高速铁路悬链线支撑装置的分叉销缺陷等,因此无法与本文方法对比。

本文采用端到端的Faster R-CNN作为基线,利用在ImageNet(Everingham等,2010)上预训练的ResNet-101作为特征提取网络。训练时,对输入图像进行预处理,调整图像尺寸为600×600像素,在区域生成网络中得到256个候选区域。模型的基本参数设置为:初始学习率为0.001,epoch数为20,batch size为1,使用随机梯度下降优化。实验室服务器GPU型号为GTX1080ti,深度学习框架为Pytorch1.0。

2.2 实验结果与分析

本文使用准确率(precision,P)、召回率(recall,R)、平均准确度(average precision,AP)以及所有类别的平均准确率(mean average precision,mAP)作为评价标准。首先将预测结果与真实标签比较后,将检测结果分为4类:模型预测为正例且预测正确的为真阳性(true positive,TP);模型预测为正例但预测错误的为假阳性(false positive,FP);模型预测为负例且预测正确的为真阴性(true negative,TN);模型预测为负例但预测错误的为假阴性(false negative,FN),即

$ P =\frac{T P}{T P+F P} $ (13)

$ R =\frac{T P}{T P+F N} $ (14)

$ m A P =\frac{\sum\limits_{i=1}^{N_{\mathrm{cls}}} \int_{0}^{1} P_{i}\left(R_{i}\right) \mathrm{d} R}{N_{\mathrm{cls}}} $ (15)

式中,${N_{{\rm{cls}}}}$为一类的检测对象总数。

为了验证本文提出的双注意力机制的有效性,采用上述评价指标对各模块进行对比实验,并列出了每类螺栓的AP以及mAP,实验结果如表 1所示。从表 1可以看出,与基线相比,加入多尺度注意力模块,模型mAP提升了0.29%,其中正常螺栓类提升了0.62%,缺销螺栓类提升了2.54%,螺母缺失螺栓提升了0.69%;加入空间注意力模块后,mAP值提升了0.61%,其中正常螺栓类的AP值提高了0.3%,缺销螺栓类提高了2.05%,螺母缺失螺栓类下降了0.52%,这是由于有的螺母缺失螺栓存在阴影会与正常螺栓的螺母混淆,从而导致误判;在同时引入多尺度注意力和空间注意力后模型mAP值提高了2.21%,其中正常螺栓类提升了0.29%,缺销螺栓类提升了5.23%,螺母缺失螺栓类提升了1.1%。由此可见,本文提出的双注意力机制对于检测螺栓状态十分有效,利用多尺度注意力在特征提取过程的不同尺度进行监督,相邻层次的注意力图的差异作为正则化项引入模型,随着训练次数的增加,模型将不断学习的上下文信息融合,引入下一层的学习当中,保证模型在特征提取环节保留更多的有用信息;利用空间注意力对每个位置进行全局视野的上下文信息融合,进而相似的区域互相增强,在生成候选区域时更容易区分前景与背景,同时表 1中缺销螺栓的AP值提升最大也证明了模型在特征提取时保留了如销子区域的更精确特征。

表 1 消融实验
Table 1 Ablation experiment  

下载CSV
/%
模型 AP mAP
正常螺栓 缺销螺栓 螺母缺失螺栓
基线 86.35 66.12 87.06 79.84
基线+多尺度注意力 86.97 68.66 87.75 81.13
基线+空间注意力 86.65 68.17 86.54 80.45
本文 86.64 71.35 88.16 82.05

多尺度注意力模块是为了避免网络在提取螺栓图像特征时信息丢失而对特征提取过程进行监督,最终以正则化项方式加入到损失函数。超参数$\lambda $作为表征多尺度注意力监督力度的表达,本文对$\lambda $的取值进行了实验,超参数$\lambda $的实验结果如表 2所示。本文主要针对$\lambda \in (0, 1$内取值,由表 2可以看出, 当λ为0.01时效果最好,其次是$\lambda $为0.7时,而当$\lambda $为0.5时效果最差。可以看出,选择合适的正则化系数对于多尺度注意力模块监督特征提取阶段是十分重要的。

表 2 不同$\lambda $值的mAP
Table 2 mAP with different $\lambda $ value  

下载CSV
/%
$\lambda $ 0.001 0.005 0.01 0.05 0.1 0.5 0.6 0.7 0.8 0.9 1.0
mAP 79.42 78.92 82.05 78.80 78.98 77.98 79.08 81.49 80.74 80.73 79.59

为了验证模型的整体性能,本文采用PR(precision-recall)曲线作为衡量指标。图 6所示为基线与本文方法的PR曲线,其中横坐标为召回率(recall,R),纵坐标为准确率(precision,P),每类的PR曲线围成的面积即为对应类的mAP值。由图 6可以明显看出,本文方法与基线相比在所有类别上都有一定程度的提升,尤其在缺销螺栓类上增长最大;通过观察正常螺栓类的曲线可以看出,准确率在0.4~0.9范围之内,本文方法的PR曲线比Faster R-CNN的PR曲线更加外凸,这表明在相同的准确率下,本文方法的召回率更高,检测结果中的正确比例更大,同时图 3的特征图也显示了本文方法可以提取更精确的特征。

图 6 不同方法的PR曲线对比
Fig. 6 PR curves with different methods
((a) Faster R-CNN; (b) ours)

图 7所示为基线Faster R-CNN、多尺度注意力模块、空间注意力模块以及本文模型在训练过程中loss值随迭代次数变化的曲线,由图 7可以看出, 本文的每个模块均已收敛。本文方法在基线基础上引入了多尺度注意力监督特征提取过程和空间注意力聚合相似特征,在与基线相比模型的参数量和复杂程度都有一定的提升,由图 7可以看出, 本文方法在训练开始初始值较低,训练中波动较小,整体收敛过程没有较大改变。

图 7 模型训练过程loss收敛曲线图
Fig. 7 Loss convergence curve of the training process

图 8为4幅不同位置螺栓图像的测试结果,第1幅中螺栓位于重锤左下侧, 第2幅中螺栓位于重锤右上侧, 第3幅和第4幅中螺栓均位于联板左上侧但两者安装正好相反。图 8(a)为基线Faster R-CNN的测试结果,图 8(b)为本文方法的测试结果。由图 8可以看出,第2幅测试图像,基线仅根据一个销子尾部便识别为正常螺栓,本文采用的典型螺栓数据集中正常螺栓为同时具有螺母与销子,单独根据销子尾部识别为正常螺栓是一种误判,本文方法则避免了这种误判。类似地,在第4幅测试图像中存在螺栓的尾部,在数据集标注时,螺栓尾部是不参与标注的,但基线将螺杆尾部误判为缺销螺栓,而通过本文方法则成功地避免了这种误判,同时对于测试图中判断正确的正常螺栓的得分提高了0.004。

图 8 Faster R-CNN与本文方法螺栓缺陷检测结果
Fig. 8 The bolt defect detection results of Faster R-CNN and the method proposed
((a)Faster R-CNN; (b)ours)

3 结论

为了准确检测输电线路中的螺栓缺陷,本文提出了一种双注意力机制的航拍输电线路螺栓检测模型,主要研究对象为正常螺栓、缺销螺栓以及螺母缺失螺栓。主要贡献有:

1) 为了避免螺栓图像在特征提取阶段由于螺栓目标小、背景复杂等问题导致的信息丢失,本文提出利用多尺度注意力模块对特征提取阶段进行监督,同时用于监督的注意力图来自于网络本身,因此不需要额外的外部监督信息。

2) 为了解决检测过程中螺栓区域检测效果不佳的问题,本文提出利用空间注意力模块对螺栓图像在空间上加权,相似特征互相增强,提高螺栓区域与背景区域的差异程度。

本文方法的存在一些问题需要解决,如丰富螺栓缺陷定义需与所处的结构场景相结合,从而更好地区分带销正常螺栓与不带销正常螺栓。对于螺栓缺陷检测任务,本文从螺栓特征和位置入手虽然降低了螺栓缺陷检测的误判率,但由于拍摄角度和光照等因素仍存在误检,因此探究一种数据预处理方式处理光照和阴影的影响是十分必要的。同时由于知识推理的兴起,探究螺栓领域知识辅助其缺陷检测也会成为未来的主要途径之一。

参考文献

  • Chen J W, Liu Z G, Wang H R, Núñez A, Han Z W. 2018. Automatic defect detection of fasteners on the catenary support device using deep convolutional neural network. IEEE Transactions on Instrumentation and Measurement, 67(2): 257-269 [DOI:10.1109/TIM.2017.2775345]
  • Everingham M, Van Gool L, Williams C K I, Winn J, Zisserman A. 2010. The PASCAL visual object classes (VOC) challenge. International Journal of Computer Vision, 88(2): 303-338 [DOI:10.1007/s11263-009-0275-4]
  • Han K, Sun M Y, Zhou X G, Zhang G H, Dang H and Liu Z C. 2017. A new method in wheel hub surface defect detection: object detection algorithm based on deep learning//Proceedings of 2017 International Conference on Advanced Mechatronic Systems. Xiamen, China: IEEE: 335-338[DOI: 10.1109/ICAMechS.2017.8316494]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]
  • Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Dollá P and Zitnick C L. 2014. Microsoft COCO: common objects in context//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 740-755[DOI: 10.1007/978-3-319-10602-1_48]
  • Liu W, Anguelov D, Erhan D, Szegedy C, Reed S, Fu C Y and Berg A C. 2016. SSD: single shot multibox detector//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 21-37[DOI: 10.1007/978-3-319-46448-0_2]
  • Liu Z G, Zhong J P, Lyu Y, Liu K, Han Y, Wang L Y and Liu W Q. 2018. Location and fault detection of catenary support components based on deep learning//Proceedings of 2018 IEEE International Instrumentation and Measurement Technology Conference (I2MTC). Houston, USA: IEEE: 1-6[DOI: 10.1109/I2MTC.2018.8409637]
  • Mei S, Yang H, Yin Z Q. 2018. An unsupervised-learning-based approach for automated defect inspection on textured surfaces. IEEE Transactions on Instrumentation and Measurement, 67(6): 1266-1277 [DOI:10.1109/TIM.2018.2795178]
  • Nguyen V N, Jenssen R, Roverso D. 2018. Automatic autonomous vision-based power line inspection: a review of current status and the potential role of deep learning. International Journal of Electrical Power and Energy Systems, 99: 107-120 [DOI:10.1016/j.ijepes.2017.12.016]
  • Qi Y C, Lang J Y, Zhao Z B, Jiang A X, Nie L Q. 2019. Relativistic GAN for bolts image generation with attention mechanism. Electrical Measurement and Instrumentation, 56(19): 64-69 (戚银城, 郎静宜, 赵振兵, 江爱雪, 聂礼强. 2019. 结合注意力机制的相对GAN螺栓图像生成. 电测与仪表, 56(19): 64-69) [DOI:10.19753/j.issn1001-1390.2019.019.011]
  • Qiao L, Zhao E D, Liu J J, Cheng B. 2017. Research of workpiece defect detection method based on CNN. Computer Science, 44(S11): 238-243 (乔丽, 赵尔敦, 刘俊杰, 程彬. 2017. 基于CNN的工件缺陷检测方法研究. 计算机科学, 44(S11): 238-243) [DOI:10.11896/j.issn.1002-137X.2017.11A.050]
  • Redmon J, Divvala S, Girshick R and Farhadi A. 2016. You only look once: unified, real-time object detection//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 779-788. [DOI: 10.1109/CVPR.2016.91]
  • Ren S Q, He K M, Girshick R, Sun J. 2017. Faster R-CNN: towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(6): 1137-1149 [DOI:10.1109/TPAMI.2016.2577031]
  • Tang Y, Han J, Wei W L, Ding J, Peng X J. 2018. Research on part recognition and defect detection of trainsmission line in deep learning. Electronic Measurement Technology, 41(6): 60-65 (汤踊, 韩军, 魏文力, 丁建, 彭新俊. 2018. 深度学习在输电线路中部件识别与缺陷检测的研究. 电子测量技术, 41(6): 60-65) [DOI:10.19651/j.cnki.emt.1701266]
  • Zhao Z B, Qi H Y, Nie L Q. 2019. Research overview on visual detection of transmission lines based on deep learning. Guangdong Electric Power, 32(9): 11-23 (赵振兵, 齐鸿雨, 聂礼强. 2019. 基于深度学习的输电线路视觉检测研究综述. 广东电力, 32(9): 11-23) [DOI:10.3969/j.issn.1007-290X.2019.009.002]
  • Zhao Z B, Li Y X, Qi Y C, Kong Y H, Nie L Q. 2020. Insulator defect detection method based on dynamic focus loss function and sample balance method. Electric Power Automation Equipment, 40(10): 205-211 (赵振兵, 李延旭, 戚银城, 孔英会, 聂礼强. 2020. 基于动态焦点损失函数和样本平衡方法的绝缘子缺陷检测方法. 电力自动化设备, 40(10): 205-211) [DOI:10.16081/j.epae.202010008]
  • Zhao Z B, Qi H Y, Qi Y C, Zhang K, Zhai Y J, Zhao W Q. 2020. Detection method based on automatic visual shape clustering for pin-missing defect in transmission lines. IEEE Transactions on Instrumentation and Measurement, 69(9): 6080-6091 [DOI:10.1109/TIM.2020.2969057]
  • Zhong J Q, Liu Z G, Han Z W, Han Y, Zhang W X. 2018. A CNN-based defect inspection method for catenary split pins in high-speed railway. IEEE Transactions on Instrumentation and Measurement, 68(8): 2849-2860 [DOI:10.1109/TIM.2018.2871353]