expand article info 王囡1, 侯志强1, 蒲磊2, 马素刚1, 程环环1
1. 西安邮电大学计算机学院,西安 710121;
2. 空军工程大学信息与导航学院,西安 710077


目的 为满足语义分割算法准确度和实时性的要求,提出了一种基于空洞可分离卷积模块和注意力机制的实时语义分割方法。方法 将深度可分离卷积与不同空洞率的空洞卷积相结合,设计了一个空洞可分离卷积模块,在减少模型计算量的同时,能够更高效地提取特征;在网络输出端加入了通道注意力模块和空间注意力模块,增强对特征的通道信息和空间信息的表达并与原始特征融合,以进一步提高特征的表达能力;将融合的特征上采样到原图大小,预测像素类别,实现语义分割。结果 在Cityscapes数据集和CamVid数据集上进行了实验验证,分别取得70.4%和67.8%的分割精度,速度达到71帧/s,而模型参数量仅为0.66 M。在不影响速度的情况下,分割精度比原始方法分别提高了1.2%和1.2%,验证了该方法的有效性。同时,与近年来的实时语义分割方法相比也表现出一定优势。结论 本文方法采用空洞可分离卷积模块和注意力模块,在减少模型计算量的同时,能够更高效地提取特征,且在保证实时分割的情况下提升分割精度,在准确度和实时性之间达到了有效的平衡。


实时语义分割; 深度可分离卷积; 空洞卷积; 通道注意力; 空间注意力

Real-time semantic segmentation analysis based on cavity separable convolution and attention mechanism
expand article info Wang Nan1, Hou Zhiqiang1, Pu Lei2, Ma Sugang1, Cheng Huanhuan1
1. College of Computer, Xi'an University of Posts and Telecommunications, Xi'an 710121, China;
2. College of Information and Navigation, Air Force Engineering University, Xi'an 710077, China
Supported by: National Natural Science Foundation of China (62072370)


Objective Image semantic segmentation is an essential part in computer vision analysis, which is related to autonomous driving, scenario recognitions, medical image analysis and unmanned aerial vehicle (UAV) application. To improve the global information acquisition efficiency, current semantic segmentation models can summarize the context information of different regions based on pyramid pooling module. Cavity-convolution-based multi-scale features extraction can increase the spatial resolution at different rates without changing the number of parameters. The feature pyramid network can be used to extract features and the multi-scale pyramid structure can be implemented to construct networks. The two methods mentioned above improve the accuracy of semantic segmentation. The practical applications are constrained of the size of the network and the speed of reasoning. Hence, a small capacity, fast and efficient real-time semantic segmentation network is a challenging issue to be designed. To require accuracy and real-time performance of semantic segmentation algorithm, a real-time semantic segmentation method is illustrated based on cavity separable convolution module and attention mechanism. Method First, the depth separable convolution is integrated to the cavity convolution with different rates to design a cavity separable convolution module. Next, the channel attention module and spatial attention module are melted into the performance of ending network-to enhance the representation of the channel information and spatial information of the feature, and integrate with the original features to obtain the final fused features to further improve the of the feature illustration capability. At the end, the fused features are up-sampled to the size of the original image to predict the category and achieve semantic segmentation. The targeted implementation can be segmented into feature extraction stage and feature enhancement stage. In the feature extraction stage, the input image adopts the cavity separable convolution module for intensive feature extraction. The module first uses a channel split operation to split the number of channels in half, splitting them into two branches. The following standard convolution is substituted to extract features more efficiently and shrink the number of model parameters based on deep separable convolution for each branch while. Meanwhile, the cavity convolution with different rates is used in the convolution layer of each branch to expand the receptive field and obtain multi-scale context information effectively. In the feature augmenting stage, the extracted features are re-integrated to enhance the demonstration of feature information. Our demonstration is illustrated as bellows: First, channel attention module and spatial attention module branch are melted into the model to enhance the expression of channel information and spatial information of features. Next, the global average pool branch is integrated to global context information to further improve the semantic segmentation performance. At the end, the branching features are all fused and the up-sampling process is used to match the resolution of the input image. Result Cityscapes dataset and the CamVid dataset are conducted on our method in order to verify the effectiveness of our illustrated method. The segmentation accuracy of Cityscapes dataset and CamVid dataset are 70.4% and 67.8% each. The running speed is 71 frame/s, while the model parameter amount was only 0.66 M. The demonstration illustrated that our method improves the segmentation accuracy to 1.2% and 1.2% each compared with the original method without low speed. Conclusion To customize the requirements of accuracy and real-time performance of semantic segmentation algorithm, a real-time semantic segmentation method is facilitated based on the cavity separable convolution module and the attention mechanism. This redesign depth method the can be combined with an efficient separation of convolution and cavity convolution in the depth of each separable branches with different cavity rate of convolution to obtain a different size of receptive field. The channel attention and spatial attention module are melted. Our method shrinks the number of model parameters and conducts feature information learning. Deeper network model and context aggregation module are conducted to achieve qualified real-time semantic segmentation simultaneously.

Key words

real-time semantic segmentation; depth separable convolution; hole convolution; channel attention; spatialattention

0 引言

图像语义分割(青晨等,2020)是计算机视觉领域的一个重要研究内容,广泛应用于自动驾驶、场景识别与理解和机器人等领域。在图像语义分割任务中,深度卷积神经网络的使用大幅提高了分割的准确性。Zhao等人(2017)提出的金字塔池化模块能够聚合不同区域的上下文信息,从而提高全局信息的获取能力;Chen等人(2017, 2018)提出了采用不同速率的空洞卷积提取多尺度特征,在增大空间分辨率的同时不改变参数数量;Kirillov等人(2019)Lin等人(2017)采用特征金字塔网络进行特征提取,利用多尺度金字塔结构构建网络。但是上述网络的规模、推理速度限制了它们在实际中的应用。因此,如何设计一个容量小、速度快并且高效的实时语义分割网络是一个亟需解决的问题。




1 本文工作

1.1 网络总体框架

本文提出的基于空洞可分离卷积模块和注意力机制的实时语义分割主要分为特征提取阶段和特征增强阶段,如图 1所示。其中,特征提取阶段由下采样模块(down-sampling unit)和空洞可分离卷积模块(dilated separable convolution module,DSCM)组成。特征增强阶段由通道注意力模块(channel attention module,CAM)、空间注意力模块(spatial attention module,SAM)、全局平均池化(global average pooling,GAP)和上采样(upsampling)组成。

图 1 网络总体框架图
Fig. 1 Overall framework of the network



1.2 空洞可分离卷积模块

通过深度可分离卷积和残差连接的组合提取网络特征是轻量级网络常用的方法。如Romera等人(2017)提出的Non-bottleneck-1D模块和Wang等人(2019)提出的SS-nbt模块,如图 2所示。Non-bottleneck模块采用两组1维分解卷积代替标准卷积,使精度和参数量获得一个平衡,是一个单分支模块。SS-nbt模块采用双分支结构,每个分支使用两组1维卷积,在最后一组卷积中使用相同空洞率(dilation rate,D)的空洞卷积,最后合并两个分支。然而这些方式在网络学习能力和效率方面依然会有一些限制,没有考虑到多尺度信息的获取。在Chen等人(2018)对多尺度信息工作研究的启发下,在本文的模块(DSCM)中,同样采用双分支结构,并且在每个分支结合了不同大小空洞率(D1D2)的空洞卷积,有效获取多尺度信息,如图 2(c)所示。

图 2 不同类型模块的比较(w为通道数)
Fig. 2 Comparison of different types of modules (w is the number of channels)
((a) Non-bottleneck-1D;(b) SS-nbt; (c) DSCM)

首先,对于输入,使用通道分离操作将通道数分为原来的一半,分成两个分支。针对每个分支采用一组可分离卷积代替标准卷积,以此减少参数量。然而,简单地使用深度可分离卷积代替标准卷积会导致性能下降,并且在语义分割中多尺度信息的获取同样重要。所以本文将深度可分离卷积与空洞卷积相结合,在每个分支上的卷积层使用不同大小空洞率的空洞卷积扩大感受野,有效获取多尺度信息。在第1个分支采用空洞率为D1的空洞卷积,在第2个分支采用空洞率为D2的空洞卷积。在结构参数的选择上,与Yu和Koltun(2016)的选择相同,每个分支采用不同空洞率的空洞卷积大小依次以2、4、8、16为基准进行设计,按此顺序逐渐扩大感受野。然后,使用concat操作将两个分支进行合并,恢复原有通道数。因为两个分支考虑了不同大小感受野信息,所以使用1 × 1卷积促进融合两个分支之间的信息,加强信息之间的交流,增强特征表达,并且将输入特征和两个分支融合后的特征进行残差连接操作,便于训练。

与其他可分离卷积模块(图 2(a)(b))相比,本文模块不仅具有足够的感受野,密集地利用多尺度信息,而且具有更少的参数量和更强的特征表达能力。

1.3 通道注意力模块


通道注意力模块如图 3所示。首先,对于输入的特征图F,在空间维度上使用平均池化和最大池化操作提取空间和通道权重,得到两个不同的特征描述,分别表示平均池化特征和最大池化特征。然后,将两个描述特征送到多层感知(multi-layer perceptron,MLP)中,将MLP输出的特征进行融合操作。具体为

$ \boldsymbol{F}_{\mathrm{avg}}=\operatorname{MLP}(AvgPool(\boldsymbol{F})) $ (1)

$ \boldsymbol{F}_{\max }=\operatorname{MLP}(MaxPool(\boldsymbol{F})) $ (2)

$ \boldsymbol{F}_{\mathrm{m}}=\boldsymbol{F}_{\mathrm{avg}}+\boldsymbol{F}_{\max } $ (3)

图 3 通道注意力模块
Fig. 3 Channel attention module



$ \boldsymbol{F}_{\mathrm{c}}=\sigma\left(\boldsymbol{F}_{\mathrm{m}}\right) \cdot \boldsymbol{F} $ (4)


1.4 空间注意力模块

不同于通道注意力模块,空间注意力模块更加侧重于关注空间位置信息,由于卷积运算通过将通道和空间信息混合在一起提取特征,因此在分割任务中起着重要作用。本文采用空间注意力模块,如图 4所示,在获取特征图的不同通道间的重要程度时,还能获取特征图的空间位置信息的重要程度,突出关键特征的位置,从而增强特征图表示能力。

图 4 空间注意力模块
Fig. 4 Spatial attention module


$ \boldsymbol{F}_{\mathrm{avg}}^{\mathrm{c}}=Avg\left(\boldsymbol{F}_{\mathrm{c}}\right) $ (5)

$ \boldsymbol{F}_{\max }^{\mathrm{c}}=Avg\left(\boldsymbol{F}_{\mathrm{c}}\right) $ (6)


其次,使用concat操作将这两个不同表示的特征图进行直接拼接,再使用大小为7 × 7的卷积层进行卷积,再经过sigmoid激活函数得到空间注意力特征图。具体为

$ \boldsymbol{F}_{\mathrm{ss}}=\sigma\left(f\left[\boldsymbol{F}_{\mathrm{avg}}^{\mathrm{c}} ; \boldsymbol{F}_{\max }^{\mathrm{c}}\right]\right) $ (7)

式中,f[Favgc; Fmaxc]表示卷积操作,Fss为经过激活后的特征。


2 实验结果与分析

2.1 数据集及评价指标


Cityscapes是一个大型城市街道场景数据集,在语义分割领域广泛使用,包含5 000幅精细标注的图像和20 000幅粗略标注的图像。本文实验只使用精细标注的图像,包含2 975幅用于训练的精细注释图像、1 525幅用于测试的图像和500幅用于验证的图像。


本文采用的评价指标为平均交并比(mean intersection over union,mIoU)和每秒处理帧数(frames per second,FPS),这两种评价指标为当前语义分割应用较多的标准度量。

mIoU计算两个集合为真实值和预测值的交集与并集之比,用于评价算法精度。IoU(intersection over union)是每一个类别的交集与并集之比,而mIoU则是所有类别的平均IoU,具体计算为

$ f_{\mathrm{mIoU}}=\frac{1}{k+1} \sum\limits_{i=0}^{k} \frac{p_{i j}}{\sum\limits_{j=0}^{k} p_{i j}+\sum\limits_{j=0}^{k} p_{j i}-p_{i i}} $ (8)



$ f_{\mathrm{FPS}}=\frac{N}{\sum\limits_{j=1}^{N} T_{j}} $ (9)


2.2 实验结果

2.2.1 算法消融实验

为了验证模块的性能,对各模块分别进行实验,由于本文方法采用的通道注意力模块和空间注意力模块均为轻量级,几乎不增加参数量,因此采用mIoU和FPS为评价标准,同步进行分析,验证各模块对提升整体方法的性能表现,实验结果如表 1所示。包括空洞可分离卷积模块(dilated separable convolution module,DSCM)、通道注意力模块(channel attention module,CAM)、空间注意力模块(spatial attention module,SAM)以及全局平均池化(global average pooling,GAP)。

表 1 引入各模块的性能比较
Table 1 Performance comparison of the introduced modules

模块 mIoU/% FPS/(帧/s)
DSCM 69.2 73
DSCM+CAM 69.9 72
DSCM+SAM 69.8 72
DSCM+CAM+SAM 70.2 71

首先,仅采用空洞可分离卷积模块(DSCM)提取图像特征并上采样进行输出,得到69.2%的精度和73帧/s的速度。然后,在此基础上仅引入通道注意力模块(DSCM + CAM),对特征不同通道间的信息进行增强,得到69.9%的精度和72帧/s的速度。随后,考虑空间注意力模块(DSCM + SAM),增强特征的空间位置信息,在特征提取后,仅引入空间注意力模块,得到69.8%的精度和72帧/s的速度。受Woo等人(2018)将通道注意力模块和空间注意力模块组合使用的启发,将通道注意力模块和空间注意力模块(DSCM + CAM + SAM)级联使用,在特征提取后,先引入通道注意力模块,再通过级联的方式引入空间注意力模块,同时增强通道和空间特征之间的表达,得到70.2%的精度和71帧/s的速度。最后,引入全局平均池化模块(DSCM + CAM + SAM + GAP)以获得一个大的感受野,最终得到70.4%的精度和71帧/s的速度。

为了更加直观地显示各模块的性能,图 5给出了加入不同模块的分割结果图。可以看出,加入通道注意力模块后,当图像中有相似目标出现时,不会互相造成干扰,减少了分割错误;加入空间注意力模块后,对于一些细小类别可以在一定程度上正确分割出来;因此同时引入通道注意力模块和空间注意力模块,可以对图像中重要目标的位置和特征种类有所侧重,能够更好地理解图像中的内容;最后在此基础上加入全局平均池化模块,获得图像中的全局信息,有效改善分割结果。

图 5 引入各模块的结果比较
Fig. 5 Comparison of results with introduced modules
((a)input images; (b)DSCM; (c)DSCM + CAM; (d)DSCM + SAM; (e)DSCM + CAM + SAM; (f)DSCM + CAM + SAM + GAP)


2.2.2 Cityscapes数据集上的结果

为了验证本文方法的性能,在Cityscapes数据集中选取4幅图像与CGNet(context guided network)(Wu等,2020)、ERFNet(efficient residual factorized ConvNet)(Romera等,2017)、ICNet(image cascade network)(Zhao等,2018a)、ESPNetV2(efficient spatial pyramid network V2)(Mehta等,2019)和LEDNet(light encoder-decoder network)(Wang等,2019)等实时语义分割方法分别进行定性和定量实验对比,结果如图 6表 2所示。

图 6 不同方法在Cityscapes数据集上的实验结果对比
Fig. 6 Comparison of experimental results among different mothods on the Cityscapes dataset
((a)input images; (b)ground truth; (c)CGNet; (d)ERFNet; (e)ICNet; (f)ESPNetV2;(g)LEDNet; (h)ours)

表 2 不同方法在Cityscapes数据集上的对比结果
Table 2 Comparison of results among different methods on the Cityscapes dataset

方法 mIoU/% FPS/(帧/s) 参数量/MB
CGNet 64.8 50 0.5
ERFNet 68.1 42 2.1
ICNet 69.5 30 26.5
ESPNetV2 66.2 67 1.25
LEDNet 69.2 71 0.94
本文 70.4 71 0.66

图 6的定性对比结果可以看出,第1行图像中,与其他方法相比,本文方法对路中间的人可以很清晰地分割出来;第2行图像中,本文方法对图像中的一群人能很好地进行分割,不会互相造成干扰;第3行图像中,本文对一些细小类别,比如电线杆、路标具有更好地分割效果;第4行图像中,对比方法对车辆分割存在相似类别信息干扰,而本文方法可以避免相似类别信息干扰。实验结果表明,本文方法具有良好的语义分割能力和识别能力。

表 2的定量实验结果可以看出,与对比方法相比,本文方法的分割精度分别提升了5.6%、2.3%、0.9%、4.2%和1.2%。在模型参数量上,虽然CGNet有较小的参数量,略低于本文方法,但本文方法的分割精度明显高于CGNet,比CGNe提升了5.6%。在分割速度上,CGNet为50帧/s,本文方法达到71帧/s。与基准算法LEDNet相比,在保持分割速度相等的情况下,本文方法的分割精度提高了1.2%,参数量降低了0.28 MB。通过实验比较,本文方法在准确度和实时性之间取得了有效平衡。

2.2.3 CamVid数据集上的结果

在CamVid数据集上同样选取4幅图像进行实验验证,与CGNet(Wu等,2020)、ICNet(Zhao等,2018a)和LEDNet(Wang等,2019)等实时语义分割方法分别进行定性和定量实验对比,结果如图 7表 3所示。

图 7 不同方法在CamVid数据集上的实验结果对比
Fig. 7 Comparison of experimental results among different mothods on the CamVid dataset
((a)input images; (b)ground truth; (c)CGNet; (d)ICNet; (e)LEDNet; (f)ours)

表 3 不同方法在CamVid数据集上的对比结果
Table 3 Comparison of results among different methods on the CamVid dataset

方法 mIoU/% FPS/(帧/s) 参数量/MB
CGNet 65.6 50 0.5
ICNet 67.1 30 26.5
LEDNet 66.6 71 0.94
本文 67.8 71 0.66

图 7的定性对比结果可以看出,本文方法基本能够准确识别图像中物体位置并且分割出物体,而CGNet在第1、2行的图像中未能识别出路灯,ICNet和LEDNet在第3行的图像中未能很好地分割出广告牌,在第4行的图像中对比方法对路面以及远距离小物体路灯未能很好地识别出来。实验结果表明,本文方法具有良好的语义分割能力和识别能力。

表 3的定量实验结果可以看出,与对比方法相比,本文方法的分割精度分别提升了2.2%、0.6%和1.2%。在模型参数量上,CGNet有较小的参数量,而本文方法的参数量略高于CGNet,但本文方法的分割精度比CGNet提升了2.2%。与基准算法LEDNet相比,在保持分割速度相等的情况下,本文方法的分割精度提高了1.2%,参数量降低了0.28 MB,在保持实时的情况下提升分割精度。从实验结果分析可以发现,本文方法在参数量较少的条件下,具有较高的分割精度,同时保持了较好的分割速度。可见,本文方法在图像语义分割的实时性和准确性之间取得了很好的平衡,是一种性能优良的实时语义分割算法。

3 结论

为满足对语义分割算法准确度和实时性的要求,本文提出一种基于空洞可分离模块和注意力机制的实时语义分割方法。基于考虑到多尺度信息的获取,本文方法将深度可分离卷积与不同空洞率的空洞卷积有效结合,在每个深度可分离卷积分支上采用不同空洞率的空洞卷积获取不同大小的感受野,并且引入通道注意力模块和空间注意力模块,增强特征的表达。在Cityscapes和CamVid数据集上进行实验验证,精度分别为70.4%和67.8%,分割速度达到71帧/s,模型参数量仅为0.66 MB。本文方法在参数量较少的条件下,具有较高的分割精度,同时保持了较好的分割速度,在语义分割实时性和准确度之间取得了很好的平衡。在下一步工作中,将考虑使用更深的网络模型和引入上下文聚合模块进行实时语义分割,进一步提高语义分割算法的性能。


