发布时间: 2021-02-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190576
2021 | Volume 26 | Number 2

图像分析和识别

DeepLabv3plus-IRCNet：小目标特征提取的图像语义分割

刘文, 王海荣, 周北京

北方民族大学计算机科学与工程学院, 银川 750021

收稿日期: 2019-11-11; 修回日期: 2020-06-05; 预印本日期: 2020-06-12

基金项目: 宁夏高等学校一流学科建设资助项目（电子科学与技术学科）（NXYLXK2017A07）；宁夏回族自治区重点研发计划项目（2018BEB04002）；大学生创新创业项目（2019-11407-017）

作者简介: 刘文，1993年生，男，硕士研究生，主要研究方向为图像分割。E-mail：624754299@qq.com;
王海荣，通信作者，女，副教授，主要研究方向为大数据知识工程。E-mail：bmdwhr@163.com;
周北京，男，本科生，主要研究方向为软件工程。E-mail：838262020@qq.com

中图法分类号: TP309

文献标识码: A

文章编号: 1006-8961(2021)02-0391-11

摘要

目的为了解决经典卷积神经网络无法满足图像中极小目标特征提取的准确性需求问题，本文基于DeepLabv3plus算法，在下采样过程中引入特征图切分模块，提出了DeepLabv3plus-IRCNet（IR为倒置残差（inverted residual，C为特征图切分（feature map cut））图像语义分割方法，支撑图像极小目标的特征提取。方法采用由普通卷积层和多个使用深度可分离卷积的倒置残差模块串联组成的深度卷积神经网络提取特征，当特征图分辨率降低到输入图像的1/16时，引入特征图切分模块，将各个切分特征图分别放大，通过参数共享的方式提取特征。然后，将每个输出的特征图进行对应位置拼接，与解码阶段放大到相同尺寸的特征图进行融合，提高模型对小目标物体特征的提取能力。结果本文方法引入特征图切分模块，提高了模型对小目标物体的关注，充分考虑了图像上下文信息，对多个尺度下的各个中间层特征进行融合，提高了图像分割精度。为验证方法的有效性，使用CamVid（Cambridge-driving labeled video database）数据集对提出的方法进行验证，平均交并比（mean intersection over union，mIoU）相对于DeepLabv3plus模型有所提升。验证结果表明了本文方法的有效性。结论本文方法充分考虑了图像分割中小目标物体的关注度，提出的DeepLabv3plus-IRCNet模型提升了图像分割精度。

关键词

空洞卷积; 深度可分离卷积; 特征图切分; 特征提取网络; 特征融合

DeepLabv3plus-IRCNet: an image semantic segmentation method for small target feature extraction

Liu Wen, Wang Hairong, Zhou Beijing

School of Computer Science and Engineering, North Minzu University, Yinchuan 750021, China

Supported by: Ningxia First-Class Discipline and Scientific Research Projects (Electronic Science and Technology) (NXYLXK2017A07)

Abstract

Objective A huge amount of image data have been generated with the development of the Internet of things and artificial intelligence technology and their widespread application to various fields. Understanding image content quickly and accurately and automatically segmenting the target area of an image in accordance with the requirements of the application scene have become the focus of many researchers. In recent years, image semantic segmentation methods based on deep learning have been developed steadily. These methods have been widely used in automatic driving and robot engineering, and have become the primary research task in computer vision. Common convolutional neural networks (CNNs) can efficiently extract the features of an image. They typically operate directly on the entire feature map. However, extremely small targets frequently occur in a local area of an image. The common convolution operation cannot efficiently extract the features of small targets. To solve this problem, the feature image cut module is introduced into the down-sampling process. Method At present, the spatial pyramid pool module and codec structure of a deep CNN (DCNN) have become the mainstream method for image semantic segmentation. The former network can extract the features of an input feature map by using filters or pooling operations with multiple rates and effective fields, and thus, encode the multi-scale context information. Meanwhile, the latter network can capture clearer object boundaries by gradually recovering spatial information. However, many difficulties and challenges persist. The first problem is that the DCNN model has extremely high requirements for the hardware platform and is unsuitable for real-time engineering applications. The second problem is that the resolution of the feature image shrinks after the image is encoded, resulting in the loss of the spatial information of some pixels. The third problem is that the segmentation process cannot effectively consider the image context information (i.e., the relationship among pixels) and cannot fully utilize rich spatial location information. The fourth problem is that DCNNs are not good at capturing feature expression, and thus, achieving a better semantic segmentation effect is difficult. To solve these problems, this study proposes an improved image semantic segmentation algorithm DeepLab IRCNet based on DeepLabv3+ to solve the problem in which DCNNs experience difficulty in extracting the features of small and medium-sized objects. In the encoder part, a DCNN composed of a series of ordinary convolutional layers and multiple inverted residual modules is used to extract features. In the inverted residual module, deep separable convolutions are used instead of ordinary convolutions. When the resolution of the feature image is reduced to 1/16 of the input image, the feature map is divided equally, the feature map after segmentation is enlarged to the size before segmentation, and the feature extraction module is used to share each segmented feature map through parameter sharing. Consequently, the model can focus better on small target objects in the local area after feature segmentation. On the main network, the extracted feature map is continuously inputted into the hollow space pyramid pooling module to capture the multi-scale contextual content information of the image, and the hollow convolution with a void rate of {6, 12, 18} in the atrous spatial pyramid pooling module is used. The sequence also parallels a 1×1 convolutional layer and image pooling, wherein the choice of the void rate is the same as that of DeepLabv3+, improving segmentation performance. Then, a 1×1 convolution is used to obtain the output tensor of the target feature map. In the decoder part, bilinear interpolation is used to up-sample two times, and then the up sampling feature mapis fused with the output feature map of the feature segmentation module in the encoder. Several 3×3 depth separable convolutions are used to redefine the feature, and bilinear interpolation is used for up-sampling. Finally, an image semantic segmentation map that is the same size as the input image is the output. Result In this study, the CamVid(Cambridege-driving labeled video database) dataset is used to verify the proposed method. The mean intersection over union(mIoU) is increased by 1.5 percentage points compared with the DeepLabv3+ model. The verification results show the effectiveness of the proposed method. Conclusion In this study, a feature graph segmentation module is introduced to improve model attention to small objects and address the problem of low semantic segmentation accuracy.

Key words

atrous convolution; depth separable convolution; feature image cut; feature extraction network; feature fusion

0 引言

图像语义分割是计算机视觉领域的基本研究课题。基于深度卷积神经网络(deep convolutional neural networks，DCNNs)的语义分割模型的发展，主要得益于全卷积神经网络(fully convolutional networks，FCNs)(Long等，2015)的出现。FCN使用卷积层替换了全连接层，但存在两个问题：1)特征图分辨率不断缩小，造成部分像素丢失；2)没有充分考虑图像上下文信息。因此，基于FCN的优化方法不断提出，大致可分为基于优化卷积结构的方法、基于编码器—解码器的方法和基于特征融合的方法。

空洞卷积(atrous convolution)(Yu和Koltun，2015)聚合多尺度上下文信息，使得图像在处理中不会丢失分辨率。其通过密集的上采样卷积(dense upsampling convolution，DUC)(Wang等，2018)生成像素级预测，在编码阶段使用混合膨胀卷积(hybrid dilated convolution，HDC)框架，有效减轻了标准的扩展卷积运算引起的“网格问题”，并引入了可变形卷积和可变形兴趣区域池化两种新的模块(Dai等，2017)来提高卷积神经网络对变换的建模能力，在目标任务中学习得到空间采样位置信息的位移数据。DeepLab网络(Chen等，2014)对FCN进行了改进，在编码阶段中引入空洞卷积，减少了特征图分辨率降低造成的信息丢失；此外，上采样阶段使用了双线性插值算法，后处理部分使用全连接条件随机场(conditional random field，CRF)对分割图的边界进行优化。DeepLabv2(Chen等，2018a)受空间金字塔池化(spatial pyramid pooling，SPP)(He等，2015)的启发，进一步优化了DeepLab网络，将带孔卷积与空间金字塔池化方法相结合，构建了空洞空间金字塔池化(atrous spatial pyramid pooling，ASPP)模块。Deeplabv3(Chen等，2017)是在DeepLab和DeepLabv2基础上提出的，设计了级联或并行的空洞卷积模块，通过多种不同空洞率来捕获多尺度上下文信息。此外，扩充了先前在DeepLabv2提出的空洞空间金字塔池化模块，进一步提高了性能。在无需加入CRF的情况下，Deeplabv3的分割准确率仍然优于DeepLab和DeepLabv2两种方法。

U-Net网络(Ronneberger等，2015)是一种基于编解码的方法，该网络包括捕获上下文的收缩路径和实现精确定位的对称扩展路径。SegNet网络(Badrinarayanan等，2017)是一个类似编码解码过程的对称结构网络，编码器的网络结构与VGG-16(visual geometry group 16-layer net)网络(Simonyan和Zisserman，2014)的前13个卷积层相同，右边是一个由反卷积网络构成的解码器，后接一个像素级别的分类网络。全局卷积网络(Peng等，2017)解决了在密集预测的任务中需要同时进行分类与定位这个矛盾问题，同时使用了基于残差结构的boundary refinement block进一步细化分割的边缘。基于DeepLabv3的DeepLabv3+(Chen等，2018b)将空洞卷积和深度可分离卷积结合代替普通的卷积，极大减少了模型的参数量，并对解码部分进行优化，设计了一个新颖的解码器结构。

基于特征融合方法的PSPNet网络(Zhao等，2017)能够融合多尺度的上下文信息。图像级联网络(ICNet)(Zhao等，2018)有效利用低分辨率图的语义信息和高分辨率图的细节信息，实现了图像的实时语义分割。

本文为了提高模型对小目标物体特征的提取能力，基于DeepLabv3+提出一种改进的语义分割网络DeepLabv3plus-IRCNet(IR为例置残差(inverted residual), C为特征图切分(feature map cut))，当特征图分辨率降低到输入图像大小的1/16时，引入特征图切分(feature map cut)模块，将各个切分特征图分别放大，通过参数共享的方式提取特征，然后在将每个输出的特征图进行对应位置拼接后与解码阶段放大到相同尺寸的特征图进行融合，提高模型对小目标物体特征的提取能力。

1 相关工作

基于全卷积神经网络的模型在语义分割任务上表现成功，提出了几种利用上下文信息进行分割的模型变体，包括采用多尺度输入(Chen等，2018a)或采用概率图模型(Chen等，2014)。与本文工作相关的技术主要包括深度可分离卷积、空间金字塔池化和编解码结构等关键技术。

1.1 深度可分离卷积

深度可分离卷积可以在大幅降低模型参数量的同时，保证模型的精度相似甚至更高。已在Xception(Chollet，2017)、MobileNetv1(Howard等，2017)、MobileNetv2(Sandler等，2018)、MobileNetv3(Howard等，2019)、ShuffleNetv1(Zhang等，2018)、ShuffleNetv2(Ma等，2018)等多个神经网络中应用。本文使用深度可分离卷积代替普通卷积，并在特征图分辨率下降到输入图像大小的1/16时，在深度可分离中使用空洞卷积，形成空洞深度可分离卷积。

1.2 空间金字塔池化

PSPNet(Zhao等，2017)在多个网格尺度上进行SPP，DeepLabv2(Chen等，2016)将空洞卷积与SPP相结合，提出ASPP，DeepLabv3(Chen等，2017)在ASPP中并行了一个图像级特征来编码全局上下文信息，DeepLabv3+(Chen等，2018b)中使用的ASPP与DeepLabv3一样。这些模型利用多尺度信息在多个公开数据集上取得了良好的分割效果。本文使用的ASPP与DeepLabv3+一样。

1.3 编解码结构

编解码结构在人类姿态估计(Newell等，2016)、目标检测(Lin等，2017；Fu等，2017)和语义分割(Long等，2015；Badrinarayanan等，2017；Chen等，2018b)等多个计算机视觉任务上获得了成功。编解码网络包含编码和解码两个阶段。在编码阶段，逐步减少特征图的分辨率，捕获高级语义信息；在解码阶段，逐渐恢复空间信息。本文在编码器部分，采用由普通卷积层和多个倒置残差(inverted residual)模块串联组成的深度卷积神经网络提取特征，在倒置残差模块中使用深度可分离卷积代替普通卷积；在解码阶段，采用双线性插值法进行上采样，将编码器中提取的特征恢复到输入图像尺寸，输出最终图像语义分割图。

2 DeepLabv3plus-IRCNet方法

2.1 总体结构

对图像中的小规模目标，深度卷积神经网络不容易提取语义信息，难以获得较好的语义分割效果。因此本文提出了一种基于DeepLabv3+的改进图像语义分割算法DeepLabv3plus-IRCNet，整体网络结构如图 1所示，输入图像尺寸为320×320像素。

图 1 网络总体结构

Fig. 1 An overview of network architecture

在编码器部分，采用由普通卷积层和多个倒置残差模块串联组成的深度卷积神经网络提取特征，并在倒置残差模块中使用深度可分离卷积代替普通卷积，当分辨率为输入图像的1/16时，将特征图按均等进行切分，并放大到切分前的大小。然后，对各个切分特征图通过参数共享的方式提取特征，使模型能够更好地关注特征切分后局部区域内的小目标物体。在主网络上，继续将提取的特征图输入到空洞空间金字塔池化模块(ASPP)，捕获图像多尺度的上下文内容信息。在ASPP模块中采用空洞率为{6，12，18}的空洞卷积序列，另外并行了1个1×1卷积层和图像池化，此处空洞率的选择与DeepLabv3+一样，使得分割性能更好；最后用1×1卷积得到目标特征图的输出张量。

在解码器部分，首先采用双线性插值对图像进行2倍上采样，并与编码器中特征切分模块的输出特征图融合；然后进行多个3×3的深度可分离卷积重新定义特征，并再次采用双线性插值进行上采样；最后，输出与输入尺寸相同的图像语义分割图。

2.2 空洞卷积

使用卷积神经网络提取输入图像特征时，图像分辨率会变得越来越小，导致部分像素丢失。这对图像分类影响不大，但是对图像语义分割影响较大，空洞卷积可以解决此问题。与普通卷积相比，空洞卷积多了一个空洞率指标，普通卷积的空洞率为1。通过空洞率的大小可以控制卷积核像素点之间的距离。由此，可以通过调整卷积核对特征图的感受野来捕获多尺度信息，让每个卷积的输出都包含更多的空间结构信息。空洞率的1维数学表达式为

$ \mathit{\boldsymbol{y}}\left[ \mathit{i} \right] = \sum\limits_{k = 1}^K {\mathit{\boldsymbol{x}}\left({i + r \cdot k} \right)\mathit{\boldsymbol{w}}\left(k \right)} $

(1)

式中，$\mathit{\boldsymbol{x}} $表示输入信号，$\mathit{\boldsymbol{y}} $表示输出信号，$\mathit{\boldsymbol{w}} $表示卷积核，$ r$表示空洞率。

2.3 深度可分离卷积

深度可分离卷积将标准卷积分为深度卷积(depthwise convolution)(也称空间卷积)和逐点卷积(pointwise convolution)两步进行。深度可分离卷积和标准卷积的具体操作流程如图 2所示。

图 2 标准卷积和深度可分离卷积

Fig. 2 Standard convolution and depthwise separable convolution ((a) standard convolution; (b) depthwise separable convolution)

在标准卷积中，每个卷积核对输入的所有通道同时进行卷积操作。而在深度可分离卷积中，首先进行深度卷积，每个卷积核只负责一个通道，卷积核的数量与上一层的通道数相同；接着进行逐点卷积，与标准卷积一样，用尺寸为1×1的卷积核跨越通道组合深度卷积的输出。所以用深度可分离卷积代替标准卷积可以大幅降低模型的参数量，并且还能保证模型的精度相似甚至更高。

2.4 空洞深度可分离卷积

在深度可分离卷积过程中，当特征图的分辨率降低到输入图像大小的1/16时，在深度卷积中引入了空洞卷积，这种引入空洞卷积后的深度卷积称为空洞深度卷积(atrous depthwise convolution)，如图 3所示。空洞卷积增大了卷积核对特征图的感受野，降低了特征图分辨率变小的速度，缓解了下采样导致信息丢失的问题，使每个卷积的输出都能包含更多的空间信息，且未增加额外的参数量，同时保持了相似或更好的性能。

图 3 空洞深度可分离卷积

Fig. 3 Atrous depthwise separable convolution

2.5 倒置残差

在编码器中，通过“shortcut连接”进行残差学习，但是本文的残差模块与传统残差模块不同。通常的残差模块先经过一个1×1的卷积核，将特征图的通道数压缩下来，然后经过3×3的卷积核提取特征，最后再经过一个1×1的卷积核，将特征图的通道数扩张回去，即先压缩，后扩张。而本文残差模块的操作恰好相反，先经过1×1的卷积核扩张特征图的通道数，目的是为了增加通道数，获得更多特征，最后再经过1×1的卷积核对通道数进行压缩，称为倒置残差(inverted residual)，即先扩张，后压缩。二者的区别如图 4所示。

图 4 倒置残差与传统残差的区别

Fig. 4 The difference between inverted residual and traditional residual((a)traditional residual; (b)inverted residual)

在编码器阶段，使用深度卷积神经网络对输入图像进行特征提取，编码详细结构如图 5所示。深度卷积神经网络由普通卷积层和多个倒置残差模块串联组成，没有使用池化层降低图像的分辨率，而是使用深度可分离卷积中的步长(stride)进行调整。当特征图的分辨率下降到输入图像大小的1/16时，在最后一个倒置残差模块中引入空洞率为2的空洞卷积，增大卷积核对特征图的感受野，使每个卷积输出都包含较大范围的信息，这样就不用继续下采样，避免了信息的大量丢失，同时引入特征图切分操作，并将各个切分特征图放大，通过参数共享的方式提取特征，使模型能够更好地关注特征切分后局部区域内小目标物体的特征。然后，与解码阶段放大到相同尺寸的特征图进行融合。在主网络上，继续将提取的特征图输入到空洞空间金字塔池化模块(ASPP)来捕获图像多尺度的上下文内容信息，然后用1×1卷积得到目标特征图的输出张量。操作过程中，在第1个卷积层和之后的每次3×3深度卷积之后都加一个批量归一化(batch normalization，BN)和ReLU。

图 5 编码详细结构图

Fig. 5 Encoder detailed architecture

2.6 特征图切分模块

一幅图像的某些区域通常存在极小的目标物体，目前的方法大多没有充分考虑这些小目标物体的空间信息。因此，本文在下采样过程中，在特征图分辨率下降到1/16的时候，引入一个特征图切分模块，提高模型对小目标物体的关注度。该模块将1/16分辨率下的特征图在空间维度(w, h)上进行等切分，设n(n×n)为切分比率，n的取值可以为1，2，3，4甚至更大。具体切分方法如图 6所示。

图 6 特征图切分

Fig. 6 Feature map cut ((a) n= 2;(b) n= 3)

切分后，每个切分的模块代表图像中不同的位置，每个位置包含了不同的局部空间信息，然后将切分后的每个模块分别上采样到切分前的尺寸大小，这样相当于将切分前的一些小目标物体放大成了大物体，最后对放大的特征图进行特征提取，此时能更好地抓取之前图像某局部区域的小目标，提高最终语义分割图的分割精度。

2.7 特征提取网络

在1/16分辨率下的特征图引入特征图切分模块后，对切分后的每个模块均放大到切分前的大小，此时，要设计合理的特征图提取网络才能更好地提取放大的小目标物体特征。当前对中间层特征图的特征提取方式都比较简单，一般采用跳跃结构融合不同层之间的特征图，或者通过简单的卷积操作提取特征，这些方式不能很好地提高模型对放大的小目标物体特征的提取力度。为了更好地提取小目标物体特征，本文设计了一个特征提取网络，如图 7所示。

图 7 特征提取网络结构图

Fig. 7 Feature extraction network architecture

对放大的每幅特征图，都采用1×1大小的卷积核进行降维，将通道数都降为原来的1/2，大幅降低了模型的参数量，得到两个分支。在下面这个分支中，串联两次大小为3×3的空洞卷积，依次对特征图进行特征提取。空洞卷积中的空洞率第1次设置为2，第2次设置为4。空洞卷积增大了卷积核对特征图的感受野，降低了特征图分辨率变小的速度，缓解了下采样导致信息丢失的问题，使每个卷积的输出都能包含更多的空间结构信息，且未增加额外的参数量。然后，将两个分支提取的特征在通道维度上进行拼接，对拼接后的特征图做一次全局池化操作，再与拼接后特征进行点乘操作，通过这种操作能够在不同的切分区域提取对应区域下的语义类别信息，提供了更具空间区域性质的上下文信息和全局信息，从而能够提高模型对放大后的小目标物体特征的提取，提升最终的分割精度。

3 实验

3.1 实验设计

使用CamVid(Cambridge-driving labeled video database)(Brostow等，2009)数据集验证本文方法的有效性。CamVid数据集是用来做城市道路场景理解的分割数据集，包含367幅训练图像、100幅验证图像以及233幅测试图像。每幅图像的分辨率均为360×480像素，所有图像包含11个语义类别。

采用平均交并比(mean intersection over union，mIoU)(Long等，2015)指标作为评价标准，评价图像语义分割结果的精度。计算式为

$ mIoU = \left({\sum\limits_{i = 1}^N {\frac{{{x_{ii}}}}{{{T_i} + \sum\limits_{j = 1}^N {\left({{X_{ji}} - {X_{ii}}} \right)} }}} } \right)/N $

(2)

式中，$ N$代表图像像素的类别数量；$ {{T_i}}$代表第$i $类的像素总数；${{X_{ii}}} $代表实际类型为$ i$、预测类型为$i $的像素总数；$ {{X_{ji}}}$代表实际类型为$i $、预测类型为$j $的像素总数。

实验基于Keras深度学习框架，使用NVIDIA GeForce MX150 GPU进行计算，cuDnn7.0库加速。在训练网络过程中，采用数据增强策略。在进入模型训练之前，先将训练数据集和验证数据集的尺寸都调为320×320像素，并采用数据增强策略，将训练数据集和验证数据集的最小批尺寸(mini-batch size)均设置为8，特征图切分比 $ n$ = 2，采用adadelta优化器更新网络的训练权重，训练轮数设定为500次。

3.2 实验结果及分析

在Keras深度学习框架下进行实验。在编码器部分，使用深度卷积神经网络、特征切分模块和空间金字塔池化ASPP模块对输入图像进行编码；在解码器部分，采样双线性插值方法进行上采样。在公共数据集CamVid的测试集上使用评价指标mIoU对实验结果进行分析对比，验证本文方法的有效性。随着迭代次数的增加，本文算法DeepLabv3plus-IRCNet在CamVid训练集和验证集上的准确度和损失值变化如图 8所示。

图 8 DeepLabv3plus-IRCNet算法在CamVid训练集和验证集上的准确度和损失值曲线图

Fig. 8 Accuracy and loss value plots of the DeepLabv3plus-IRCNet algorithm on the CamVid training set and validation set ((a) accuracy plots on the training set; (b) loss value plots on the training set; (c) accuracy plots on the validation set; (d) loss value plots on the validation set)

本文算法与模型SegNet、DeepLabv2、DeepLabv3、DeepLabv3+在CamVid测试集上的图像语义分割指标mIoU的对比结果如表 1所示。可以看出，本文方法取得了有竞争性的结果，获得了87.4%的分割性能，与DeepLabv3plus相比，增加了约1.5%。

表 1 各类方法在CamVid测试集上的结果
Table 1 Results of various methods on the CamVid test set

下载CSV

方法	mIoU/%
SegNet	60.1
DeepLabv2	70.2
DeepLabv3	79.4
DeepLabv3+	85.9
本文	87.4
注：加粗字体表示最优结果。

本文算法与DeepLabv3+算法的参数量对比结果如表 2所示。可以看出，本文算法的参数量大约降低到原来的1/14。

表 2 本文算法与DeepLabv3+算法的参数量对比结果
Table 2 Comparison results of the number of parameters between DeepLabv3+ and ours

下载CSV

方法	参数量
DeepLabv3+	41 258 213
本文	2 861 676
注：加粗字体表示最优结果。

本文算法与DeepLabv3+算法在CamVid数据集上的性能对比结果如表 3所示。其中，运行时间指分割一幅图像消耗的时间；帧频率指每秒分割的图像总数。可以看出，本文算法分割一幅图像消耗的时间和每秒分割的图像总数都比DeepLabv3+提升了不少。

表 3 CamVid数据集上性能对比结果
Table 3 Comparison results of computational performance on CamVid dataset

下载CSV

方法	运行时间/s	帧频率/(帧/s)
DeepLabv3+	1.81	0.55
本文	0.23	4.28
注：加粗字体表示最优结果。

图 9是本文算法与DeepLabv3+算法在CamVid测试集上的一些可视化效果。可以看出，本文算法清晰地分割出了第1行的路灯(light)和第2行的指示牌(sign)类别，这两个类别在图像中都属于较小物体，而DeepLabv3+算法仅分割出了路灯和指示牌的一小部分。第3行和第4行的分割结果表明，本文算法比DeepLabv3+算法更能分割出小目标。实验证明，本文在特征图下采样到1/16分辨率时引入特征图切分模块，并设计一个特征提取网络对放大后的特征图进行特征提取，最后再上采样输出语义分割图，确实提高了模型提取图像中小物体特征的能力。

图 9 CamVid测试集可视化结果

Fig. 9 The visualization results on CamVid test set ((a)input images; (b)ground truth; (c)DeepLabv3+;(d)ours)

本文模型在特征图分辨率下降为输入图像的1/16时，引入特征图切分模块。但是对1/16分辨率下的特征图进行几等切分需要进行研究，即需要确定n取值为多少时，算法的分割精度最高。本文模型在CamVid测试集上的预测结果使用mIoU指标评定。当切分比率n取不同值时，模型的mIoU指标如表 4所示。当n= 1时，1/16分辨率的特征图不使用特征图切分模块切分，直接使用特征提取网络进行特征提取，并将提取后的特征图与上采样中相同大小的特征图进行特征融合。由结果可知，当n= 2或n= 3时，mIoU都比n= 1时高，说明引入特征后，模型的分割效果会提高。但n= 3时的mIoU比n= 2时低，因为n值增大时，特征图被切分成太多小区域，破坏了邻近像素之间的关联性，影响了最终输出分割图的精度。

表 4 特征图切分模块不同切分比率的实验结果
Table 4 Experimental results of different cut ratios of feature map cut modules

下载CSV

切分比率	mIoU/%
n = 1	83.3
n = 2	87.4
n = 3	85.1
注：加粗字体表示最优结果。

表 5是特征图切分后各特征提取网络的实验对比，其中，baseline为主干网络。由表 5第2行的方法可知，特征融合能改善分割精度；第3行的方法表明1/16特征图经过特征提取网络后，mIoU从81.7%提升到83.3%，验证了特征提取网络的有效性；在第4行的方法中，先对1/16分辨率下的特征图进行切分(n = 2)，然后经过特征提取网络，mIoU提升到了84.6%，验证了特征图切分模块的有效性；第5行的方法是本文方法，在对1/16分辨率下的特征图切分后，先进行2倍上采样，再经过特征提取网络，mIoU提升到87.4%，表明对小目标物体提取特征之前，先放大再进行特征提取，能够提高特征提取网络对小目标物体特征的提取能力。

表 5 特征提取网络的实验结果
Table 5 Experimental results of feature extraction network

下载CSV

方法	mIoU/%
baseline	79.4
baseline+1/16+直接融合	81.7
baseline+1/16+特征提取网络	83.3
baseline+1/16+特征图切分+特征提取网络	84.6
baseline+1/16+特征图切分+2倍上采样+特征提取网络	87.4
注：加粗字体表示最优结果。

此外，在PASCAL VOC(pattern analysis, statistical modelling and computational learning visual object classes) 2012数据集上进行了实验。在其测试集上，本文算法与DeepLabv3+算法的图像语义分割指标mIoU的对比结果如表 6所示。可以看出，与在CamVid数据集上的实验结果不同，本文方法在PASCAL VOC 2012测试集上的mIoU指标比DeepLabv3+算法低。

表 6 在PASCAL VOC 2012测试集上本文算法与DeepLabv3+算法的结果
Table 6 Comparison results on the PASCAL VOC 2012 test set between DeepLabv3+ and ours

下载CSV

方法	mIoU/%
DeepLabv3+	82.45
本文	80.22
注：加粗字体表示最优结果。

在CamVid和PASCAL VOC 2012两个数据集上的实验结果中，本文算法在CamVid数据集上的精度高于DeepLabv3+算法，而在PASCAL VOC 2012数据集上的精度低于DeepLabv3+算法，说明本文算法缺乏一定的泛化性。

4 结论

图像语义分割任务是计算机视觉研究中的重要分支，在深度学习兴起后得到巨大发展，基于深度学习的图像语义分割精度得到了很大提升。本文基于DeepLabv3+算法，提出了基于编解码结构的DeepLabv3plus-IRCNet图像语义分割改进算法。当特征图的分辨率下降到输入图像大小的1/16时，引入特征图切分操作，并将各个切分特征图放大到切分前大小，通过参数共享的方式提取特征，使模型能够更好地提取特征切分后局部区域内小目标物体的特征。然后，将每个输出特征图进行对应位置拼接，并将拼接后的特征图在解码阶段与相同尺寸的特征图进行融合。在CamVid数据集上的实验验证了本文方法的有效性，平均交并比(mIoU)达到87.4%。

本文方法后续还存在很多优化空间，可以分别在1/8、1/4及1/2分辨率下引入特征图切分模块，并研究在不同分辨率下较合适的切分比率。在空洞空间金字塔池化模块，当空洞卷积的空洞率为x(x＞1)时，特征图中小于x值的邻近像素不会出现在同一个感受野中，表示未能充分提取特征图中的特征，这方面的特征提取方法也需要继续优化。

参考文献

Badrinarayanan V, Kendall A, Cipolla R. 2017. SegNet: a deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2481-2495 [DOI:10.1109/TPAMI.2016.2644615]

Brostow G J, Fauqueur J, Cipolla R. 2009. Semantic object classes in video: a high-definition ground truth database. Pattern Recognition Letters, 30(2): 88-97 [DOI:10.1016/j.patrec.2008.04.005]

Chen L C, Papandreou G, Kokkinos I, Murphy K and Yuille A L. 2014. Semantic image segmentation with deep convolutional nets and fully connected CRFs[EB/OL].[2019-10-27]. https://arxiv.org/pdf/1412.7062.pdf

Chen L C, Papandreou G, Kokkinos I, Murphy K, Yuille A L. 2018a. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4): 834-848 [DOI:10.1109/TPAMI.2017.2699184]

Chen L C, Papandreou G, Schroff F and Adam H. 2017. Rethinking atrous convolution for semantic image segmentation[EB/OL].[2019-10-27]. https://arxiv.org/pdf/1706.05587v3.pdf

Chen L C, Zhu Y K, Papandreou G, Schroff F and Adam H. 2018b. Encoder-decoder with atrous separable convolution for semantic image segmentation//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 833-851[DOI: 10.1007/978-3-030-01234-2_49]

Chollet F. 2017. Xception: deep learning with depthwise separable convolutions//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 1800-1807[DOI: 10.1109/CVPR.2017.195]

Dai J F, Qi H Z, Xiong Y W, Li Y, Zhang G D, Hu H and Wei Y C. 2017. Deformable convolutional networks//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 764-773[DOI: 10.1109/ICCV.2017.89]

Fu C Y, Liu W, Ranga A, Tyagi A and Berg A C. 2017. DSSD: deconvolutional single shot detector[EB/OL].[2019-10-27]. https://arxiv.org/pdf/1701.06659.pdf

He K M, Zhang X Y, Ren S Q, Sun J. 2015. Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(9): 1904-1916 [DOI:10.1109/TPAMI.2015.2389824]

Howard A, Sandler M, Chu G, Chen L C, Chen B, Tan M X, Wang W J, Zhu Y K, Pang R M, Vasudevan V, Le Q V and Adam H. 2019. Searching for mobilenetv3[EB/OL].[2019-10-27]. https://arxiv.org/pdf/1905.02244.pdf

Howard A G, Zhu M L, Chen B, Kalenichenko D, Wang W J, Weyand T, Andreetto M and Adam H. 2017. Mobilenets: efficient convolutional neural networks for mobile vision applications[EB/OL].[2019-10-27]. https://arxiv.org/pdf/1704.04861.pdf

Lin T Y, Dollár P, Girshick R, He K M, Hariharan B and Belongie S. 2017. Feature pyramid networks for object detection//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 936-944[DOI: 10.1109/CVPR.2017.106]

Long J, Shelhamer E and Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 3431-3440[DOI: 10.1109/CVPR.2015.7298965]

Ma N N, Zhang X Y, Zheng H T and Sun J. 2018. ShuffleNet v2: practical guidelines for efficient CNN architecture design//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 122-138[DOI: 10.1007/978-3-030-01264-9_8]

Newell A, Yang K Y and Deng J. 2016. Stacked hourglass networks for human pose estimation//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer: 483-499[DOI: 10.1007/978-3-319-46484-8_29]

Peng C, Zhang X Y, Yu G, Luo G M and Sun J. 2017. Large kernel matters—improve semantic segmentation by global convolutional network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 1743-1751[DOI: 10.1109/CVPR.2017.189]

Ronneberger O, Fischer P and Brox T. 2015. U-net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241[DOI: 10.1007/978-3-319-24574-4_28]

Sandler M, Howard A, Zhu M L, Zhmoginov A and Chen L C. 2018. Mobilenetv2: inverted residuals and linear bottlenecks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 4510-4520[DOI: 10.1109/CVPR.2018.00474]

Simonyan K and Zisserman A. 2014. Very deep convolutional networks for large-scale image recognition[EB/OL].[2019-10-27]. https://arxiv.org/pdf/1409.1556.pdf

Wang P Q, Chen P F, Yuan Y, Liu D, Huang Z H, Hou X D and Cottrell G. 2018. Understanding convolution for semantic segmentation//Proceedings of 2018 IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe, USA: IEEE: 1451-1460[DOI: 10.1109/WACV.2018.00163]

Yu F and Koltun V. 2015. Multi-scale context aggregation by dilated convolutions[EB/OL].[2019-10-27]. https://arxiv.org/pdf/1511.07122.pdf

Zhang X Y, Zhou X Y, Lin M X and Sun J. 2018. Shufflenet: an extremely efficient convolutional neural network for mobile devices//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 6848-6856[DOI: 10.1109/CVPR.2018.00716]

Zhao H S, Qi X J, Shen X Y, Shi J P and Jia J Y. 2018. ICNet for real-time semantic segmentation on high-resolution images//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 418-434[DOI: 10.1007/978-3-030-01219-9_25]

Zhao H S, Shi J P, Qi X J, Wang X G and Jia J Y. 2017. Pyramid scene parsing network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 6230-6239[DOI: 10.1109/CVPR.2017.660]