发布时间: 2022-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210164
2022 | Volume 27 | Number 8

图像分析和识别

面向航拍图像中工程车辆检测与识别的改进胶囊网络

钟映春¹, 郑海阳¹, 张文祥¹, 王波², 罗志勇³

1. 广东工业大学自动化学院，广州 510006;

2. 广东省机械技师学院机电工程系，广州 510450;

3. 广州市优飞信息科技有限公司，广州 510630

收稿日期: 2021-03-16; 修回日期: 2021-05-25; 预印本日期: 2021-06-01

基金项目: 广东省自然科学基金项目(2018A0303130137)；国家自然科学基金项目(61975248)；广州市科技计划项目(202007040004)

作者简介: 钟映春，1973年生，男，副教授，硕士生导师，主要研究方向为深度学习、目标检测、无人机飞行控制。E-mail: gzzhw@126.com
郑海阳，通信作者，男，硕士研究生，主要研究方向为深度学习、图像处理、目标检测。E-mail：2444019386@qq.com
张文祥，男，硕士研究生，主要研究方向为无人机飞行控制。E-mail：1637707626@qq.com
王波，男，讲师，主要研究方向为无人机飞行控制。E-mail：hykyzy@163.com
罗志勇，男，高级工程师，主要研究方向为无人机飞行控制，目标检测。E-mail：haya66@126.com
*通信作者: 郑海阳 2444019386@qq.com

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2022)08-2380-11

摘要

目的利用无人机(unmanned aerial vehicle, UAV)巡检识别航拍图像中的工程车辆对于减少电力安全事故的发生具有重要意义。采用人工提取特征的经典模式识别方法或YOLOv5(you only look once v5)等深度学习算法识别无人机电力巡检航拍图像中的工程车辆，存在识别准确率低、模型参数规模大等问题。针对上述问题，提出一种改进的胶囊网络识别航拍图像中的工程车辆。方法采用多层密集连接型方法改进原始胶囊网络结构，以提取图像中工程车辆更多的特征；改进了胶囊网络的动态路由方法，以提高胶囊网络的抗干扰能力；探索了网络层数和动态路由算法中关键参数对识别准确率的影响，以找到识别准确率最高时的参数。结果实验结果表明：1)在所采用的算法模型中，本文方法的平均识别率(mean average precision, mAP)达到94.56%，明显高于其他方法。2)网络层数对识别准确率有很大影响，但二者之间并非单调线性关系。在本文的应用场景中，5层胶囊网络的识别准确率最高；此外，动态路由算法改进与否并不会影响识别准确率跟随网络层数的变化趋势。3)胶囊网络层数增加会降低识别效率，但是并不会明显增加参数规模，且参数规模与mAP无明显关联。结论本文方法在获得较高识别准确率的同时具有参数规模较小的特点，为无人机在机载端识别目标物奠定了基础。

关键词

无人机航拍图像; 工程车辆识别; 胶囊网络; 动态路由算法; 密集连接型网络

Improved capsule network method for engineering vehicles detection and recognition in aerial images

Zhong Yingchun¹, Zheng Haiyang¹, Zhang Wenxiang¹, Wang Bo², Luo Zhiyong³

1. School of Automation, Guangdong University of Technology, Guangzhou 510006, China;

2. Department of Electro-Mechanical Engineering, Guangdong Machinery Technician College, Guangzhou 510450, China;

3. Guangzhou Ufly Technology Co., Ltd., Guangzhou 510630, China

Supported by: Natural Science Foundation of Guangdong Province, China(2018A0303130137); National Natural Science Foundation of China(61975248); Guangzhou Science and Technology Program, Guangdong Province, China(202007040004)

Abstract

Objective Electrical power lines construction, plays an important role in the urban development, especially the high-voltage power lines. Engineering vehicles are composed of excavators and wheeled cranes contexts, which are used in construction sites. If the engineering vehicle is working on site surrounding the high-voltage power line, its bucket or boom would probably enter the high-voltage breakdown range when they are lifted, which is very easy to result in accidents such as short circuit breakdowns. So, it is necessary to find out the adequate engineering vehicles working scenario near high-voltage power line. The multiple rotors unmanned aerial vehicle (UAV) is widely used to acquire amounts of aerial images for power lines inspection. The engineering vehicle information should be recognized from these aerial images manually in common. The classical pattern recognition methods and some deep learning models like you only look once version 5 (YOLOv5) has been challenged to some issues of recognizing the engineering vehicle in acquired aerial image, such as inefficiency and inaccuracy. The classical pattern recognition method needs to manually extract the features. Some deep learning models usually have large parameter scale and complex network structure, and are not accurate enough while the training set is small. In order to solve these problems, our research demonstrated an improved capsule network model to recognize engineering vehicles from aerial images. Capsule network improvement is mainly on the two aspects as mentioned below: one is to improve the network structure of the capsule network model, and the other one is to improve the dynamic routing algorithm of the capsule network. Method First, we built up an image dataset, which includes 1 890 aerial images in total. The dataset is then separated into training set and testing set at a ratio of 4 ∶1. Next, we improved the network structure of capsule network through a multi-layer densely connected method to extract more features of the engineering vehicle from the image, named improved model No.1. The multi-layer densely connected capsule network has 3 layers, 5 layers or 7 layers probably. Third, we facilitated the dynamic routing method of the capsule network by replacing the softmax function with the leaky-softmax function to improve the anti-interference performance of the capsule network, named improved model No.2. We named the model with multi-layer densely connected network and the leaky-softmax function as the improved model No.3. Fourth, we embedded several key parameters on those models. The key parameters are related to the number of layers in the capsule network, the routing coefficient and squeeze coefficient in the dynamic routing algorithm. Result The aim of first group of experiments is to validate whether the two improved approaches are effective or not. We compared the mean average precision (mAP) of the original capsule network model with improvement model No.1, improvement model No.2 and improvement model No.3. All models use the 3-layer densely connected capsule network. Our experimental results illustrate that the mAP of the improvement model No.1 is 91.70%, and the mAP of the model with improvement No.2 is 90.01%, which are 2.21% and 0.54% each better than the original capsule network. The improvement model No.3 further improves the recognition accuracy, whose mAP reaching 92.10%. The aim of second group of experiments is to classify the issue of the number of network layers influence the mAP of those models. The experimental results demonstrate that the number of network layers influences the mAP greatly. When the number of network layers is small, the mAP increases while the number of network layers increasing. After a peak mAP of recognition shown, the mAP often decreases while the number of network layers increasing. So, their relationship is non-monotonic and nonlinear. In the application case, a 5-layer capsule network has the best recognition mAP. Additionally, the various trends of mAP are not affected by the improvement of dynamic routing algorithm. Furthermore, the efficiency of those improved models all decreased dramatically while the number of capsule network layers increase. And the parameter volume of those improved models is not obviously various, which means that the volume of parameter is irrelevant to the target recognition precision. The aim of third group of experiments is to find out the optimal model with appropriate routing coefficient and squeeze coefficient. This group of experimental results show that the mAP of 5-layer densely connected capsule network reaches up to 94.56% while the routing coefficient is 5 and the squeeze coefficient is l, which is an increase of 5.07% compared to the original capsule network. Meanwhile, the parameter volume of this optimal model is close to original model. Therefore, this optimal model has quite qualified mAP and small parameter volume. The aim of fourth group of experiments is to compare the performance of optimal model with other models. This kind of result shows that our optimal model is better than the classical pattern recognition model and YOLOv5x model in mAP, and the parameter volume of the optimal model is smaller. Conclusion Our research harnessed two approaches to improve the capsule network model for the engineering vehicles recognition derived of UAV aerial images. Our demonstrated experiments illustrate that this improved model has the small parameter volume and quite good recognizing precision, which is very significant for the UAV to recognize the airborne target information.

Key words

aerial image of unmanned aerial vehicle(UAV); recognition of engineering vehicle; capsule network; dynamic routing algorithm; densely connected network

0 引言

电网安全运行对于国家和社会都具有极为重要的意义，对输电线路进行巡检是确保电网安全的关键措施之一(闫春江等，2018)。近年来，为了提高巡检效率和人员的安全性，广泛采用无人机进行电力输电线的巡检。

工程车辆是包括挖掘机、起重机等在内的大型机械, 这些车辆在施工现场得到广泛应用。当工程车辆在高压输电线网下方或附近进行施工时，由于经常需要举升挖斗或起重臂，极有可能出现挖斗或起重臂进入电网安全距离的情况，引起击穿短路等安全事故。为了防止这类情况的发生，非常有必要对无人机航拍图像中在高压输电线网附近作业的工程车辆进行准确识别，以尽早给出预警信号。

目前对图像中工程车辆的识别方法主要包括经典模式识别方法和深度学习方法(武金婷等，2019)。在经典模式识别方法中，邵宇等人(2013)提出了一种基于视频序列的工程车辆识别算法，结合方向梯度直方图(histogram of oriented gradients, HOG)和支持向量机(support vector machine, SVM)来对智能监控中的工程车辆进行识别，张全发等人(2013)则在此基础上提出使用Hough变换直线检测的方法来提高对智能监控中工程车辆的检测率，但是这种方法只有在背景环境较为单一的条件下才能够保证较高的识别准确率。在深度学习方法方面，闫春江等人(2018)将PBAS(pixel-based adaptive segmenter)算法和VGGNet-16(Visual Geometry Group network-16)网络模型相结合，提出一种基于深度学习的工程车辆入侵的检测方法，能够在提高检测速度的同时保持较高的检测准确率，但是对于背景比较复杂的场景，依旧存在一定的漏检率。目前关于无人机航拍图像中工程车辆识别的研究甚为罕见。Zhang等人(2018)提出使用Faster R-CNN(faster region-convolutional neural network)来对无人机航拍图像中的工程车辆进行识别，该方法能够实现较好的目标识别准确率，但是其推理时间较长，且要求有足够大的数据集对模型进行训练。

胶囊网络是Sabour等人(2017)为解决卷积神经网络(convolutional neural networks，CNN)池化操作丢失图像大量特征信息而提出的一种网络结构。为了提取图像中更多的特征，Phaye等人(2018)提出将特征提取网络改进为3层特征提取网络。Zhang等人(2019)提出了CNN-CapsNet，将CapsNet和VGG16(Simonyan和Zisserman，2015)或Inception3(Szegedy等，2016)结合，以提取图像更多的特征，但是增加了网络复杂度。Yang等人(2020)则是将胶囊网络和Res2Net相结合，利用Res2Net提取图像更多的特征。Bhamidi和El-Sharkawy(2020)结合了胶囊网络和残差网络，提出了一种3层残差胶囊网络，实现了对复杂数据更好的识别效果。为了测量胶囊网络分类时预测结果的不确定指数，Afshar等人(2020)提出将胶囊网络与贝叶斯算法相结合，该方法提高了胶囊网络的计算成本。动态路由算法是胶囊网络的核心算法，Wang和Liu(2018)改进了动态路由算法中耦合系数的初始化方式和更新方式，有效提升了胶囊网络的分类性能。Hinton等人(2018)提出将胶囊网络改进为基于EM(expectation maximization)路由算法的矩阵型胶囊网络，输出用矩阵表示，可以更好地表征图像的特征。Zhao等人(2019)则将动态路由算法中的softmax函数替换为max-min函数，在目标特征较为简单的图像识别中可以提高分类准确率。Basu等人(2020)则提出了一种将胶囊网络的挤压函数去除，并在胶囊网络中加入池化层的改进胶囊网络，提高了胶囊网络的识别准确率。目前胶囊网络在小型数据集的相关领域得到了广泛应用，如文本识别(Wu等，2020)、白细胞分类(Baydilli和Atila，2020)、行为检测(Ha和Chen，2021)和心脏图像分割(刘畅等，2021)等。

针对当前各种算法在识别无人机电力巡检航拍图像中的工程车辆过程中，存在识别准确率低、参数规模大以及训练集样本需求大等问题，本文提出一种改进的胶囊网络方法对无人机巡检航拍图像中工程车辆进行识别，主要包括对其网络结构和动态路由算法进行改进，并探索网络层数、动态路由算法中关键参数等因素对识别准确率、效率和参数规模的影响。

1 总体架构设计

本文设计的无人机航拍图像中工程车辆识别算法总体架构如图 1所示。

图 1 总体架构设计

Fig. 1 Design of research architecture

从图 1可见，无人机航拍图像中工程车辆识别改进算法的总体架构包括构建数据集、构建图像识别模型以及测试、对比和评估3大过程。

构建数据集包括图像标注、图像分块、图像尺寸归一化和图像分组等过程。

构建图像识别模型阶段对原始胶囊网络算法进行了两个方面的改进：改进网络结构和改进动态路由算法。同时构建了经典模式识别算法模型和YOLOv5算法模型，用于后续对比实验。

测试、对比和评估阶段如下：1)确定两种改进的有效性；2)探索胶囊网络层数、动态路由算法关键参数等对算法识别性能的影响；3)将本文算法获取的胶囊网络最优模型分别与经典模式识别方法、YOLOv5(you only look once v5)方法进行对比。

2 构建图像数据集

2.1 图像获取与标注

本文的图像使用大疆“御”Mavic 2无人机搭载LID-20c哈苏航拍相机采集，航拍图像分辨率为2 592×1 944像素，共采集包含不同场景的2 069幅图像。本文采用PowerLabelImg进行图像标注。航拍图像中的工程车辆主要有挖掘机Excavator、起重机Crane以及塔吊机Tower crane等3种类别。

2.2 图像分块与归一化

无人机航拍图像经过标注，得到工程车辆的ground-truth以及对应存储的工程车辆类别信息和位置信息，根据这些信息从无人机航拍原图像中裁剪出ground-truth对应的图像子块，并对所有图像子块进行图像尺寸归一化处理，得到对应分辨率为64×64像素的无人机航拍图像子块，任选其中一个样例如图 2所示。

图 2 图像分块和归一化案例

Fig. 2 A case of image subblock and normalization

2.3 图像分组

本文构建了两个数据集。第1个数据集由图像分块和归一化后的图像子块构建，主要用于胶囊网络实验以及后续对比实验，简称为数据集1，共有1 890幅图像子块，将该数据集按照4 ∶1的比例随机分为训练集和测试集。第2个数据集不需要经过图像分块和归一化，直接由经过标注的无人机航拍高分辨率原图像构建而成，简称为数据集2。按照4 ∶1的比例将数据集2随机分为训练集和测试集。

3 胶囊网络识别方法及其改进

3.1 原始胶囊网络

CNN由于池化操作而使得大量图像信息丢失，因此存在对空间信息不敏感、无旋转不变性等问题，胶囊网络可以有效解决此问题。胶囊网络对64×64像素的彩色图像子块进行处理的网络结构如图 3所示。胶囊网络主要由3部分组成，分别为特征提取层、主胶囊层和数字胶囊层，其中数字胶囊层是胶囊网络的核心层，其通过动态路由算法实现对目标的分类。

图 3 原始胶囊网络结构

Fig. 3 Architecture of original capsule network

胶囊网络去除了CNN中常用的池化层，首先通过单层的特征提取网络提取图像特征；接着通过主胶囊层，将提取出来的特征转换为向量表示，作为数字胶囊层的输入；数字胶囊层通过动态路由算法，不断更新输入向量，经过一定的迭代次数后，数字胶囊层输出一组向量，有多少个类别则对应多少个输出向量，每个输出向量的模值代表了图像中某一实体属于某一类别的概率。胶囊网络使用动态路由机制代替池化操作，从而避免了图像信息的大量丢失，适用于数据集较小的目标识别场景。工程车辆识别的无人机航拍图像数据集较小且获取困难，因此考虑使用胶囊网络对无人机航拍图像中的工程车辆进行识别。

胶囊网络在某些复杂数据集中具有良好的识别效果(Xi等，2017)，在识别航拍图像中的工程车辆过程中，可以通过对胶囊网络进行改进以进一步提高其目标识别准确率。

3.2 原始胶囊网络方法的改进

3.2.1 网络结构的改进

无人机航拍工程车辆图像数据集具有较为复杂的图像特征，因此本文将胶囊网络的单层卷积特征提取网络改进为多层卷积特征提取网络，以提取图像中更复杂的特征。

考虑到网络深度的增加会使得网络的参数大幅增加，将严重影响神经网络训练的效率。本文提出采用密集连接型网络的跳跃式连接方式，实现不同层之间的特征级联(Huang等，2017)。具有3层密集连接型的胶囊网络结构如图 4所示。

图 4 3层密集连接型胶囊网络结构

Fig. 4 Architecture of 3-level densely connected capsule network

由图 4可以看出，3层密集连接型网络依旧由3部分组成，分别是特征提取网络、主胶囊层以及数字胶囊层。特征提取网络由3个连续的多层密集连接型网络结构块构成，对应输出3个特征图；与原始胶囊网络方法类似，主胶囊层由3个子块构成，分别以特征提取网络得到的3个特征图作为输入，对应输出3个8维的向量组，对这3个向量组进行级联得到主胶囊层的第4个输出向量组；在数字胶囊层中，通过动态路由算法分别对主胶囊层的4个输出进行路由计算，得到存储着图像特征信息的另外4组向量，将这4组向量进行级联即得到最终的输出结果。

本文将原始胶囊网络分别改进为3层、5层、7层的密集连接型胶囊网络，以探索网络层数对识别效果的影响。分别设计3层、5层、7层的密集连接型胶囊网络卷积核，如图 5所示。

图 5 不同层数胶囊网络的卷积核

Fig. 5 Convolution kernel of capsule network with different layers

3.2.2 动态路由算法的改进

softmax函数在原始胶囊网络的动态路由算法中主要用于更新子胶囊与父胶囊之间的耦合系数，加强两者之间的连接。其原理是，假设动态路由过程共有$n$个输出，动态路由过程中softmax的具体计算过程为：

对于第$i$个输入胶囊，有logits系数

$ \boldsymbol{b}_{i}=\left[b_{i 1}, b_{i 2}, b_{i 3}, \cdots\right] $

(1)

对$\boldsymbol{b}_{i}$进行softmax计算，则得到耦合系数

$\boldsymbol{c}_{i}=\left[\frac{\exp \left(b_{i 1}\right)}{\sum\limits_{k=0}^{n-1} \exp \left(b_{i}[k]\right)}, \frac{\exp \left(b_{i 2}\right)}{\sum\limits_{k=0}^{n-1} \exp \left(b_{i}[k]\right)}, \right.\\ \left.\frac{\exp \left(b_{i 3}\right)}{\sum\limits_{k=0}^{n-1} \exp \left(b_{i}[k]\right)}, \cdots\right] $

(2)

包含工程车辆的无人机航拍图像的背景较为复杂，容易对识别过程造成较大的干扰。研究表明，在耦合系数的更新过程中，在logits系数$\boldsymbol{b}_{i}$中加入leak值可以有效地减少背景噪声的干扰(Zhao等，2018)，针对工程车辆识别背景噪声较大的问题，本文提出将多层密集连接型胶囊网络中动态路由过程的softmax函数替换为leaky-softmax函数。

同样假设动态路由过程共有$n$个输出，leaky-softmax函数的具体计算过程为：

对于第$i$个输入胶囊，对应的有leak值$\boldsymbol{l}_{i}$为

$ \boldsymbol{l}_{i}=[0, 0, 0, \cdots] $

(3)

将logits系数$\boldsymbol{b}_{i}$和leak值$\boldsymbol{l}_{i}$进行级联，则得到

$ \boldsymbol{l} \boldsymbol{b}_{i}=\left[b_{i 1}, b_{i 2}, b_{i 3}, \cdots, 0, 0, 0, \cdots\right] $

(4)

对应地，有

$\begin{aligned} &\boldsymbol{l} \boldsymbol{c}_{i}=\left[\frac{\exp \left(b_{i 1}\right)}{\sum\limits_{k=0}^{2 n-1} \exp \left(l b_{i}[k]\right)}, \frac{\exp \left(b_{i 2}\right)}{\sum\limits_{k=0}^{2 n-1} \exp \left(l b_{i}[k]\right)}, \right.\\ &\frac{\exp \left(b_{i 3}\right)}{\sum\limits_{k=0}^{2 n-1} \exp \left(l b_{i}[k]\right)}, \cdots, \frac{\exp (0)}{\sum\limits_{k=0}^{2 n-1} \exp \left(l b_{i}[k]\right)}, \\ &\left.\frac{\exp (0)}{\sum\limits_{k=0}^{2 n-1} \exp \left(l b_{i}[k]\right)}, \frac{\exp (0)}{\sum\limits_{k=0}^{2 n-1} \exp \left(l b_{i}[k]\right)}, \cdots\right] \end{aligned} $

(5)

$\boldsymbol{l} \boldsymbol{c}_{i}$是对$\boldsymbol{l} \boldsymbol{b}_{i}$进行softmax计算后得到的结果。则对应的耦合系数$ \boldsymbol{c}_{i}$取$\boldsymbol{l} \boldsymbol{c}_{i}$的前$n$项，有

$\boldsymbol{c}_{i}=\left[l c_{i}[0], l c_{i}[1], l c_{i}[2], \cdots, l c_{i}[n-1]\right] $

(6)

由耦合系数的最终取值可知，通过在logits系数加入leak值，有望减少耦合系数中的干扰成分，从而减少噪声干扰，提高识别准确率。

此外，在动态路由算法中有两个关键参数：路由系数$r$和挤压系数$\lambda $，其中路由系数$r$是指动态路由算法进行路由计算的迭代次数，挤压系数$\lambda $是指动态路由算法中用于归一化的挤压函数中的一个可变参数。这些参数可能会影响识别准确率或者效率等。本文将探索这些参数对胶囊网络性能的影响。

4 实验及结果分析

4.1 实验环境配置

实验硬件平台：CPU为i7-6700K，32 GB内存，GPU为英伟达公司的GTX1070显卡，8 GB显存，硬盘1 TB，1 920个CUDA核心，内存带宽256 GB/s。

实验软件平台：Linux操作系统，深度学习专用编程框架CUDA9.0以及cuDNN7.0，高层神经网络API库Keras，TensorFlow和Python 3.6。

4.2 评价指标

本文采用mAP(mean average precision)、检测速率等指标作为对各个算法性能的主要评价指标。

AP(average precision)值常用于评价目标识别算法对某一类别识别效果，主要由精确度(precision)和召回率(recall)共同确定, 即

$ \begin{gathered} p=T P /(T P+F P) \end{gathered} $

(7)

$ r=T P /(T P+F N) $

(8)

$ A P=\int_{0}^{1} p(r) \mathrm{d} r $

(9)

式中，$P$为精确度，$r$为召回率，$TP$为预测正确的正样本数量，$FP$为预测为正样本的负样本数量，$FN$为预测为负样本的正样本数量，则$TP$+$FP$表示所有被预测为正样本的样本数量，$TP$+$FN$表示所有样本中的ground-truth数量。

mAP是所有类别的AP值的平均值，本文以mAP作为主要评价指标之一。

为了评价算法的识别效率，本文使用每秒帧率(frames per second，FPS)，即每秒处理图像数来作为检测速度的评估指标，FPS越大，算法的识别效率越好。

4.3 实验与结果分析

为了避免训练阶段中配置信息不同带来的测试结果误差，本文均采用相同的迭代次数与学习率调整方式，共进行50轮迭代训练，学习率为0.000 1。

本文主要对比以下4种算法的性能：

1) 原始胶囊网络方法。

2) 多层密集连接型胶囊网络方法，简称改进1算法。

3) 原始胶囊网络方法+leaky_softmax函数，简称改进2算法。

4) 将改进1和改进2融合在一起，简称改进3算法。

4.3.1 确定对原始算法的两个改进的有效性

为了评估改进后算法能否提高识别准确率或者效率，设定改进1算法和改进3算法均为3层密集连接型胶囊网络，4种算法均设置为路由系数$r$=3，挤压系数$\lambda $=1。本文在数据集1上进行如下实验：

1) 采用数据集1中的训练集对原始胶囊网络、改进1算法、改进2算法和改进3算法等4种算法分别进行训练，记录随着epoch数的增加4种算法验证准确率的变化曲线。

2) 对比评估4种算法在训练阶段的数据结果，分析算法的性能。

实验结果如表 1所示。

表 1 4种算法性能对比
Table 1 Comparison of four algorithms' performance

下载CSV

算法	mAP/%	FPS/(帧/s)	参数规模/M
原始胶囊网络	89.49	28.77	27.96
改进1	91.70	19.67	19.76
改进2	90.03	35.11	27.96
改进3	92.10	17.95	19.76
注：加粗字体表示各列最优结果。

从表 1可见，4种算法的识别准确率具有以下关系：

$ m A P_{3}>m A P_{1}>m A P_{2}>m A P_{\text {org }} $

(10)

式中，$m A P_{\text {org }}$为原始胶囊网络的识别准确率，$m A P_{1}$为改进1算法的识别准确率，其余符号以此类推。

从表 1和式(10)可见：1)本文提出的2种改进方法的识别准确率均高于原始算法，说明本文提出的两种改进是有效的；2)改进1的准确率比改进2的准确率高，说明多层密集连接的改进效果比动态路由改进的效果更好；3)改进3的准确率比改进1和改进2都高，说明将两种改进结合在一起可以进一步提升胶囊网络的识别准确率，但是识别效率有所降低。

4.3.2 网络层数对胶囊网络识别性能的影响

为了探索网络层数对胶囊网络性能的影响，设置路由系数$r$=3，挤压系数$\lambda $=1，本文在数据集1中进行了如下实验：

令改进1算法和改进3算法中网络的层数分别为1层(原始胶囊网络)、3层、5层和7层，而后分别对各个算法进行训练和测试。实验结果如图 6所示。

图 6 网络层数对算法性能的影响

Fig. 6 Effect of network layers on algorithm performance

((a)change curves of mAP; (b) changes curve of FPS; (c) change curves of parameter scale)

由图 6(a)可见，首先，网络层数对识别准确率有很大影响，二者之间存在非单调非线性的关系。在本文的应用场景中，5层的网络识别准确率最高；其次，动态路由算法的改进与否不会影响识别准确率跟随网络层数的变化趋势。由图 6(b)可见，首先，网络层数与识别效率之间是单调递减的关系。层数越多，效率越低；其次，动态路由算法的改进与否对于胶囊网络的识别效率影响不大。由图 6(c)可见，网络结构的改进并不一定会增加胶囊网络的参数规模，但是随着多层密集连接型胶囊网络层数的增加，参数规模会逐步增加。同时结合mAP变化曲线可知，胶囊网络的目标识别准确率并不会随着参数规模的增大而提高，两者之间没有明显的关联性。

4.3.3 动态路由算法中关键参数对胶囊网络性能的影响

为了探索动态路由算法中的路由系数$r$和挤压系数$\lambda $对胶囊网络算法识别性能的影响，令$\lambda $=1时, $r$=3、$r$=5；再令$\lambda $=0.5时, $r$=3、$r$=5，胶囊网络中的动态路由算法分别采用softmax函数和leaky_softmax函数，采用数据集1进行训练和测试。实验结果如图 7所示。

图 7 动态路由算法中关键参数对胶囊网络性能的影响

Fig. 7 Effects of key parameters in dynamic routing algorithms on capsule network performance

((a)change curves of mAP when $\lambda $=1;(b)change curves of mAP when $\lambda $=0.5)

对图 7实验结果进行分析: 1)当挤压系数$\lambda $固定不变时，softmax型胶囊网络和leaky_softmax型胶囊网络在路由系数$r$=5时的mAP大体上均要高于$r$=3时的mAP，只有在$\lambda $=0.5且网络层数为7时，$r$=3时的mAP要高于$r$=5时；2)挤压系数$\lambda $不同取值对算法目标识别准确率会有一定的影响，但是并没有固定的规律，当路由系数和网络层数分别取不同值时，挤压系数的改变对目标识别准确率的影响效果是不同的；3)在本文所做的测试实验中，当$r$=5、$\lambda $=1时，leaky_softmax型的5层密集连接型胶囊网络的目标识别准确率为94.56%，在本文的实验中为最优值，命名此时的胶囊网络算法模型为本文中的最优算法模型。

4.3.4 本文最优算法与其他算法的性能对比

为了评估本文的最优算法与经典模式识别方法以及YOLOv5方法之间的性能差异，分别在数据集1和数据集2上进行了如下实验：

1) 使用数据集1中的训练集对HOG+局部二值模式(local binary pattern，LBP)+SVM的经典模式识别方法进行训练；使用数据集2中的训练集对YOLOv5方法进行训练，获得对应的模型。YOLOv5选择进行对比的版本是YOLOv5x, YOLOv5x在YOLOv5各个版本中mAP最高，但是对应的参数规模也最大。

2) 使用数据集1和数据集2中的测试集分别测试各个模型，记录识别mAP和FPS。

实验结果如表 2所示, 本文最优算法的mAP性能最好，但是识别效率FPS最低，参数规模中等偏小。

表 2 与其他算法性能对比
Table 2 Comparing performance with other algorithms

下载CSV

算法	mAP/%	FPS/(帧/s)	epoch	参数规模/M
原始胶囊网络	89.49	28.77	≈20	27.96
本文最优算法	94.56	10.05	≈20	28.48
YOLOv5x	71.61	-	≈150	87.71
经典模式识别方法	88.72	20.22	-	-
注：加粗字体表示各列最优结果；“-”表示无对比数据。

在mAP性能方面，原始胶囊网络的识别准确率为89.49%，比YOLOv5x高了17.88%，同时也比经典模式识别方法高0.77%；本文最优算法模型有效提升了原始胶囊网络的识别准确率mAP，达到了94.56%，相比原始胶囊网络提高了5.07%。可见，胶囊网络算法经过两个方面的改进，并探索网络层数和动态路由算法的两个关键参数的最佳搭配后，其识别性能得到显著改进。

对比各个算法的FPS值可见，原始胶囊网络的FPS为28.77帧/s，相比较于经典模式识别方法提升了8.55帧/s；经过改进后的胶囊网络随着网络层数的增加FPS有所下降，本文最优算法模型的FPS为10.05帧/s，相比原始胶囊网络下降了20.78帧/s。可见，增加层数的代价主要是识别效率降低。

对比各个算法的epoch数以及网络的参数规模可知，YOLOv5x训练过程中收敛所需要的epoch数为150，而胶囊网络仅为20，可见，本文算法能够较快达到收敛。YOLOv5x算法的参数规模为87.71 M, 原始胶囊网络的参数规模为27.96 M，本文最优算法模型为28.48 M，二者都远低于YOLOv5x算法的参数规模。这说明，虽然最优算法模型中胶囊网络的层数增加，但是由于采用跳跃式连接的网络机制，其参数规模与原始胶囊网络的参数规模相近。

任意选取采用本文最优算法模型识别工程车辆的两个案例如图 8所示。对本文最优算法在不同光照、角度等外界因素影响下的鲁棒性进行分析。首先从图 8(a)(b)可以看出，无人机航拍图像的背景颜色与工程车辆相近，对于工程车辆的识别具有较大干扰，但是在测试案例中仍识别出了挖掘机；其次图 8(a)(b)是在不同光照条件下的工程车辆识别结果，均识别出了工程车辆；图 8(c)(d)是对旋转不同角度的塔吊机进行识别，对于不同角度的塔吊机，本文算法均能够将其识别出来。因此本文算法在不同光照、角度以及背景等外界因素的影响下仍具有较好的鲁棒性。

图 8 最优算法模型识别的两个案例

Fig. 8 Two recognizing cases by optimal algorithm in this paper

((a)recognition of extractor under light condition 1; (b) recognition of extractor under light condition 2; (c) recognition of tower crane under angle 1; (d) recognition of tower crane under angle 2)

5 结论

采用人工提取图像特征的经典模式识别方法和YOLOv5等深度学习算法识别无人机电力巡检航拍图像中的工程车辆，难以达到实际应用的要求，为此本文提出采用胶囊网络识别无人机电力巡检航拍图像中的工程车辆并提出两种改进方法。本文的主要贡献有：1)采用多层密集连接型方法改进原始胶囊网络结构；2)采用leaky-softmax函数改进原始胶囊网络的动态路由算法; 3)本文还探索了网络层数和动态路由算法关键参数与识别准确率的相互关系，以找到识别准确率最高时的参数。

实验结果表明：1)经过本文改进的胶囊网络模型在最佳参数情况下的mAP达到94.56%，显著优于原始胶囊网络、人工提取图像特征的模式识别方法和YOLOv5x识别算法。2)当网络层数较少时，mAP随网络层数增加而增加。达到峰值后，mAP随网络层数增加而减少。在识别航拍图像中的工程车辆时，5层胶囊网络的识别准确率最高；此外，识别准确率随网络层数的变化趋势不受动态路由算法改进的影响。3)胶囊网络层数增加会降低识别效率，但是并不会显著增加参数规模，且参数规模增加，目标识别准确率不一定增加，说明参数规模与目标识别准确率无关。

需要指出的是，胶囊网络在进行目标检测的过程中，识别效率有待提高，因此下一步将把胶囊网络算法与端到端的目标检测方法结合，以提高算法的识别效率。

参考文献

Afshar P, Mohammadi A, Plataniotis K N. 2020. BayesCap: a Bayesian approach to brain tumor classification using capsule networks. IEEE Signal Processing Letters, 27: 2024-2028 [DOI:10.1109/LSP.2020.3034858]

Basu A, Kaewrak K, Petropoulakis L, Di Caterina G and Soraghan J J. 2020. Modified capsule neural network (Mod-CapsNet) for indoor home scene recognition//Proceedings of 2020 International Joint Conference on Neural Networks (IJCNN). Glasgow, UK: IEEE: 1-6 [DOI: 10.1109/IJCNN48605.2020.9207084]

Baydilli Y Y, Atila V. 2020. Classification of white blood cells using capsule networks. Computerized Medical Imaging and Graphics, 80: #101699 [DOI:10.1016/j.compmedimag.2020.101699]

Bhamidi S B S and El-Sharkawy M. 2020. 3-level residual capsule network for complex datasets//Proceedings of the 11th IEEE Latin American Symposium on Circuits and Systems (LASCAS). San Jose, USA: IEEE: 1-4 [DOI: 10.1109/LASCAS45839.2020.9068990]

Ha M H, Chen O T C. 2021. Deep neural networks using capsule networks and skeleton-based attentions for action recognition. IEEE Access, 9: 6164-6178 [DOI:10.1109/ACCESS.2020.3048741]

Hinton G E, Sabour S and Frosst N. 2018. Matrix capsules with EM routing [DB/OL]. [2022-05-23]. https://openreview.net/pdf?id=HJWLfGWRb

Huang G, Liu Z, Van Der Maaten L and Weinberger K Q. 2017. Densely connected convolutional networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 2261-2269 [DOI: 10.1109/CVPR.2017.243]

Liu C, Lin N, Cao Y J, Yang C. 2021. Seg-CapNet: neural network model for the cardiac MRI segmentation. Journal of Image and Graphics, 26(2): 452-463 (刘畅, 林楠, 曹仰杰, 杨聪. 2021. Seg-CapNet: 心脏MRI图像分割神经网络模型. 中国图象图形学报, 26(2): 452-463) [DOI:10.11834/jig.190626]

Phaye S S R, Sikka A, Dhall A and Bathula D. 2018. Dense and diverse capsule networks: making the capsules learn better [EB/OL]. [2020-08-07]. https://arxiv.org/pdf/1805.04001.pdf

Sabour S, Frosst N and Hinton G E. 2017. Dynamic routing between capsules [EB/OL]. [2020-08-07]. https://arxiv.org/pdf/1710.09829.pdf

Shao Y, Zhang Q F, Pu B M. 2013. Vehicle detection algorithm used in intelligent surveillance. Journal of Chinese Computer Systems, 34(4): 864-867 (邵宇, 张全发, 蒲宝明. 2013. 智能监控中的工程车辆识别算法. 小型微型计算机系统, 34(4): 864-867) [DOI:10.3969/j.issn.1000-1220.2013.04.035]

Simonyan K and Zisserman A. 2015. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-08-07]. https://arxiv.org/pdf/1409.1556.pdf

Szegedy C, Vanhoucke V, Ioffe S, Shlens J and Wojna Z. 2016. Rethinking the inception architecture for computer vision//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 2818-2826 [DOI: 10.1109/CVPR.2016.308]

Wang D L and Liu Q. 2018. An optimization view on dynamic routing between capsules [DB/OL]. [2022-5-23]. https://openreview.net/pdf?id=HJjtFYJDf

Wu J T, Zhao X G, Yuan D C. 2019. Detection of construction vehicles under the transmission corridor in UAV inspection. Control Engineering of China, 26(2): 246-250 (武金婷, 赵晓光, 袁德才. 2019. 无人机巡检输电走廊施工车辆识别方法研究. 控制工程, 26(2): 246-250) [DOI:10.14107/j.cnki.kzgc.161172]

Wu Y J, Li J, Wu J, Chang J. 2020. Siamese capsule networks with global and local features for text classification. Neurocomputing, 390: 88-98 [DOI:10.1016/j.neucom.2020.01.064]

Xi E, Bing S and Jin Y. 2017. Capsule network performance on complex data[EB/OL]. [2020-08-07]. https://arxiv.org/pdf/1712.03480.pdf

Yan C J, Wang C, Fang H L, Wang Y X, Du J X, Xiang X Z, Guo X L. 2018. Intrusion detection for engineering vehicles under the electric transmission line based on deep learning. Information Technology, 38(7): 28-33, 38 (闫春江, 王闯, 方华林, 王毅轩, 杜觉晓, 项学智, 郭鑫立. 2018. 基于深度学习的输电线路工程车辆入侵检测. 信息技术, 38(7): 28-33, 38) [DOI:10.13274/j.cnki.hdzj.2018.07.007]

Yang S, Lee F, Miao R, Cai J W, Chen L, Yao W, Kotani K, Chen Q. 2020. RS-CapsNet: an advanced capsule network. IEEE Access, 8: 85007-85018 [DOI:10.1109/ACCESS.2020.2992655]

Zhang M J, Li H W, Xia G J, Zhao W H, Ren S and Wang C Y. 2018. Research on the application of deep learning target detection of engineering vehicles in the patrol and inspection for military optical cable lines by UAV//The 11th International Symposium on Computational Intelligence and Design (ISCID). Hangzhou, China: IEEE: 97-101 [DOI: 10.1109/ISCID.2018.00029]

Zhang Q F, Pu B M, Li T R, Sun H G. 2013. Vehicles detection based on histograms of oriented gradients and machine learning. Computer Systems and Applications, 22(7): 104-107 (张全发, 蒲宝明, 李天然, 孙宏国. 2013. 基于HOG特征和机器学习的工程车辆检测. 计算机系统应用, 22(7): 104-107) [DOI:10.3969/j.issn.1003-3254.2013.07.023]

Zhang W, Tang P, Zhao L J. 2019. Remote sensing image scene classification using CNN-CapsNet. Remote Sensing, 11(5): #494 [DOI:10.3390/rs11050494]

Zhao W, Ye J B, Yang M, Lei Z Y, Zhang S F and Zhao Z. 2018. Investigating capsule networks with dynamic routing for text classification [EB/OL]. [2020-08-07]. https://arxiv.org/pdf/1804.00538.pdf

Zhao Z, Kleinhans A, Sandhu G, Patel I and Unnikrishnan K P. 2019. Capsule networks with max-min normalization[EB/OL]. [2020-08-07]. https://arxiv.org/pdf/1903.09662.pdf