网刊加载中。。。

0引言语义分割是计算机视觉领域中的关键任务之一，其目标是预测输入图像中每个像素对应的类别标签。由于它实现了像素级的识别分割精度，并可以提供大量的视觉信息和推断信息，语义分割在现实生活中得到了广泛应用，如医学图像分析、自动驾驶、虚拟现实、驾驶员辅助、机器人传感、室内环境重建、无人机等。众所周知，物体与物体之间往往存在极为复杂的视觉关系，如相互遮挡、光线影响、异类相似物体，同类异形物体等，这些都严重影响分割的准确性，如图 1所示，人、自行车、汽车等这些物体未被准确识别与分割。而且，空间分辨率的丢失即空间信息不足也将导致小物体识别不出及物体边界分割不准确，如图 1中的桌子、椅子和瓶子。因此，迫切需要研究出先进的模型来提取丰富的多尺度信息和捕获充分的空间信息，因为其在解决多尺度物体存在问题和空间信息缺失问题方面起着重大作用。近年来，随着深度卷积神经网络尤其是全卷积网络(Shelhamer等，2014)的发展，各国研究人员从不同的角度建立不同的模型，最终促使语义分割任务在提高分割精度方面取得了很大的进展。图1 可视化示例 Some examples of visualization resultsFig 1在标准深度卷积神经网络中，连续下采样和池化操作往往导致特征图的空间分辨率降低。为了防止特征图丢失大量的空间细节，膨胀卷积被应用在Deeplabv2(Chen等，2016)，Deeplabv3(Chen等，2017)，PSPNet(pyramid scene parsing network)(Zhao等，2017)和DUC(dense upsampling convolution)(Wang等，2018)模型中，其可以有效地扩大滤波器的感受野，减少空间细节的丢失。而且，编码—解码结构也可以防止连续下采样或池化操作导致的空间信息丢失现象，例如，SegNet(Badrinarayanan等，2017)利用编码—解码结构来捕获丰富的空间信息。为了在浅层捕获充足的空间信息，帮助模型恢复目标细节，DeepLabv3+(Chen等，2018b)在DeepLabv3网络中添加了一个简单而有效的解码模块。除此之外，在GCN(global convolutional network)(Peng等，2017)、DFN(discriminative feature network)(Yu等，2018)、PAN(pyramid attention network)(Li等，2018)等模型中应用了U型结构，其可以逐步融合骨干网络中不同层次的特征图，提高空间分辨率，弥补空间细节的丢失。多尺度物体的存在往往导致分割结果不准确，为捕获丰富的多尺度上下文信息，主要有3种趋势。第1种趋势是通过多尺度信息融合的方法。RefineNet(Lin等，2017)和U-Net(Ronneberger等，2015)采用编码解码结构对不同层次的特征图进行融合，获得丰富的上下文信息。Deeplabv2和PSPNet利用膨胀空间金字塔池化模块来捕获有效的上下文信息。Yuan和Wang(2018)通过在OCNet(object context network)模型中使用金字塔对象上下文模块或带有膨胀卷积的空间金字塔对象上下文模块来捕获多尺度上下文信息。Yang等人(2018)通过在DenseASPP模型中运用一组膨胀卷积层来生成多尺度特征图。第2种趋势是利用递归神经网络来探索大范围依赖关系，可以大大提高分割精度。Byeon等人(2015)在2维LSTM(long short-term memory)网络的基础上，提出了一种基于标签的复杂空间依赖关系捕获模型。为了捕获局部特征内丰富的上下文依赖关系，Shuai等人(2018)设计了一个有向无环图的递归神经网络。第3种趋势是直接设计信息传播模型。Liu等人(2017)在SPN(spatial propagation networks)模型中设计了一个行/列线性传播模型，该模型可以提取场景图像中密集的全局成对关系。Zhao等人(2018)在PSANet(residual attention network)模型中提出通过双向信息传播来学习自适应的点向上下文。值得注意的是，注意力机制在帮助分割模型生成高质量分割结果方面显得越来越重要。Xu等人(2015)提出第1个可视化注意力模型，其被用来自动地学习描述图像中的内容。Chen等人(2016)提出了一种注意力机制，在预测像素的语义标签时，可对不同尺度的特征图进行轻量化。Hu等人(2017)提出SENet(Squeeze-and-Excitation Networks)模型，利用注意力机制建立通道关系，以进一步增强网络的特征表现能力。Wu等人(2018a)利用具有注意力机制的CG(context guided network)块对全局上下文信息计算权重向量，并利用权向量对融合的特征图集合进行细化。此外，在OCNet(object context network)、RANet(residual attention network)(Wang等，2017)、PSANet(point-wise spatial attention network)和CGNet(context guided network)(Huang等，2018)中，运用注意力机制来获取丰富的上下文信息。在上述工作的启发下，本文构建了一个基于编码—解码结构新语义分割模型，其可以提取区分力强且多尺度上下文信息丰富的特征图并且可以有效的弥补空间信息的丢失，极大地提高了分割准确性。1本文算法1.1多尺度信息融合模块1.1.1克罗内克卷积克罗内克卷积(Wu等，2018b)在扩大感受野方面比膨胀卷积更有效，因为它可以在不增加参数和复杂计算的情况下捕获被膨胀卷积忽略的部分信息。Valid feature ratio($\eta $)可以解释克罗内克卷积的优越性，$\eta $与卷积中特征图的利用率呈正相关，即$\eta $越大，特征图的利用率越高。与克罗内克卷积相比，膨胀卷积的$\eta $相对较低，因此膨胀卷积忽略了更多的部分信息, 即细节信息。在克罗内克卷积中，两个因子：内部膨胀因子${\kappa _1}$和内部共享因子${\kappa _2}$在扩大感受野方面起着重要作用。一方面，内核中嵌入的孔的数量是由${\kappa _1}$控制的，其可以控制克罗内克卷积在不影响特征图分辨率的情况下扩大感受野；另一方面，用于捕获特征向量和共享滤波器向量的子区域的大小由${\kappa _2}$控制，即其可以控制克罗内克卷积在不添加过多参数的情况下捕获更多细节信息。具体来说，克罗内克卷积的定义如下。克罗内克卷积的输入和输出分别设为${\mathit{\boldsymbol{P}}^{c1}}$和${\mathit{\boldsymbol{Q}}^{c2}}$，其中$c1$和$c2$分别表示为输入特征图集合和输出特征图集合的通道数。为了扩大克罗内克卷积的核$\mathit{\boldsymbol{G}}$，引入了一个大小为${\kappa _1} \times {\kappa _1}$的变换矩阵$\mathit{\boldsymbol{T}}$。$\mathit{\boldsymbol{T}}$由一个大小为${\kappa _2} \times {\kappa _2}\left({1 \le {\kappa _2} \le {\kappa _1}} \right)$单位矩阵${\mathit{\boldsymbol{U}}^m}$和零矩阵${\mathit{\boldsymbol{Z}}^m}$组成，可以有效地减少克罗内克卷积中更多参数。通过计算$\mathit{\boldsymbol{T}}$与$\mathit{\boldsymbol{G}}$之间的克罗内克乘法，可将大小为$\left({2g + 1} \right) \times \left({2g + 1} \right)$的克罗内克卷积核$\mathit{\boldsymbol{G}}$扩大到大小为$\left({2g + 1} \right){\kappa _1} \times \left({2g + 1} \right){\kappa _1}$的${\mathit{\boldsymbol{G}}^\mathit{\boldsymbol{*}}}$，即 1 ${\mathit{\boldsymbol{G}}^*}(c2, c1) = \mathit{\boldsymbol{G}}(c2, c1) \otimes \mathit{\boldsymbol{T}}$ 式中，$\mathit{\boldsymbol{T}} = \left[ {\begin{array}{*{20}{c}}{{\mathit{\boldsymbol{U}}_{{\kappa _2} \times {\kappa _2}}}}& \cdots \\ \cdots &{{\mathit{\boldsymbol{Z}}_{\left({{\kappa _1} - {\kappa _2}} \right) \times \left({{\kappa _1} - {\kappa _2}} \right)}}}\end{array}} \right]$，$ \otimes $为克罗内克矩阵乘法。因此，克罗内克卷积可定义为 2 $\begin{array}{l}{\mathit{\boldsymbol{K}}^c} = \sum\limits_{i, j, u, v} {\mathit{\boldsymbol{G}}_{i, j, u, v}^*} {\mathit{\boldsymbol{T}}_{i, j, u, v}} + \mathit{\boldsymbol{b}} = \\\;\;\;\;\;\sum\limits_{i, j} {{\mathit{\boldsymbol{G}}_{i, j}}} \sum\limits_{u, v} {{\mathit{\boldsymbol{T}}_{i, j, u, v}}} + \mathit{\boldsymbol{b}}\end{array}$ 式中，$i, j \in [ - g, g], u, v \in \left[ {0, {k_2} - 1} \right] \cap \mathit{\boldsymbol{Z}}, \mathit{\boldsymbol{b}}$表示偏置。特别地，当${\kappa _1}{\rm{ = }}{\kappa _2}{\rm{ = }}1$，克罗内克卷积等于标准卷积。1.1.2全局注意力模块为了选择区分力很强的特征图，在多尺度信息融合模块中引入了全局注意力模块，如图 2所示。在网络深层的每个特征图的注意力向量都对应一个特定的类，不同的语义之间是相互关联的。注意力机制可以对通道之间的信息进行重标定，增强特征映射之间的相关性，从而进一步促进特定语义的特征表征。图2 全局注意力模块 Global attention moduleFig 2为了提取通道间的全局信息，在全局注意力模块中使用了全局平均池化层来对特征图进行空间压缩。然后利用sigmoid激活层将信息映射到0到1之间，最后输出通道注意向量。利用全局注意力模块输出的通道注意向量对克罗内克卷积提取的带有多尺度信息的特征图进行重新加权，从而选择区分力很强的特征图。全局注意力机制为 3 ${\mathit{\boldsymbol{\gamma }}_s}\left({{\mathit{\boldsymbol{A}}_q}} \right) = \varphi \left({\frac{1}{{hw}}\sum\limits_{i = 0}^h {\sum\limits_{j = 0}^w {{\mathit{\boldsymbol{A}}_q}} } (i, j)} \right)$ 式中，${\mathit{\boldsymbol{\gamma }}_{\rm{s}}}$表示通道注意力向量，$\varphi $表示sigmoid激活函数，${\mathit{\boldsymbol{A}}_q}$表示通道数为$q$的输入特征图，$\left({i, j} \right)$表示特征图中对应的每一个像素点，$h$和$w$分别表示特征图的高度和宽度。1.1.3多尺度信息融合模块多尺度信息融合模块由克罗内克卷积块和全局注意力模块组成，如图 3所示。其中，克罗内克卷积块由克罗内克卷积，批量归一化(BN)(Ioffe和Szegedy，2015)和修正线性单元(ReLU)(Glorot等，2017)组成。为了扩大感受野，获取丰富的多尺度上下文信息，依据扩张和堆叠原理，将克罗内克卷积并行排列，且在3层平行网络中，不同的克罗内克卷积的内部扩大因子和内部共享因子为不同的组合，即在第1层(${\kappa _{11}}, {\kappa _{12}}$)=(12, 9)，在第2层(${\kappa _{21}}, {\kappa _{22}}$)=(14, 12)，在第3层(${\kappa _{31}}, {\kappa _{32}}$)=(20, 16)。此外，引入全局注意力模块来选择性地突出有效的且区分力强的多尺度上下文信息。图3 多尺度信息融合模块 Multiscale information fusion moduleFig 3多尺度信息融合模块原理如下：从ResNet骨干网络中提取的特征图A，首先被送入标准卷积块(由膨胀卷积，BN和ReLU组成)中降低通道数。然后，为了获取有效的上下文信息，将特征图进一步送到4个主分支，分别为克罗内克卷积块1、克罗内克卷积块2、克罗内克卷积块3和1×1的卷积块中，其输出分别记为B1、B2、B3和D0。同时，并行的3个子分支分别带有相同全局注意力模块，通过它们可以得到注意向量e1、e2和e3。在B1和e1, B2和e2, B3和e3进行矩阵乘法运算后, 可以得到重标定的特征图D1、D2和D3然后，利用1×1的卷积对特征图D1、D2、D3和D0进行通道数量减少操作，以降低计算复杂度和内存损耗。通过此操作，可以得到简化后的特征图D11、D22、D33和D00。最后，来自4个不同分支特征图D11、D22、D33和D00将融合成一个区分力强且多尺度上下文信息丰富新的特征图集合${\mathit{\boldsymbol{D}}_a}$。1.2空间信息捕获模块为了提高特征图在空间维度上的相互依赖性，在新的模型中引入了空间信息捕获模块(Fu等，2018)，如图 4所示。空间信息捕获模块自适应地增强空间依赖关系的过程如下：在空间信息捕获模块中，$\mathit{\boldsymbol{T}} \in {{\bf{R}}^{\gamma \times \delta \times \tau }}$表示输入，$\mathit{\boldsymbol{O}} \in {{\bf{R}}^{\gamma \times \delta \times \tau }}$表示输出。首先将输入特征图送入到带有BN和ReLU卷积层中，生成3个新的特征图集合，分别为$\mathit{\boldsymbol{ \boldsymbol{\varXi} }}$, $\mathit{\boldsymbol{ \boldsymbol{\varPsi} }}$和$\mathit{\boldsymbol{\xi }}$，其中$\left\{ {\mathit{\boldsymbol{ \boldsymbol{\varXi}, \boldsymbol{\varPsi}, \xi }}} \right\} \in {{\bf{R}}^{\gamma \times \delta \times \tau }}$。接着，$\mathit{\boldsymbol{ \boldsymbol{\varXi} }}$, $\mathit{\boldsymbol{ \boldsymbol{\varPsi} }}$和$\mathit{\boldsymbol{\xi }}$被变形为$\left\{ {{\mathit{\boldsymbol{ \boldsymbol{\varXi} }}^\mathit{\boldsymbol{*}}}\mathit{\boldsymbol{, }}{\mathit{\boldsymbol{ \boldsymbol{\varPsi} }}^\mathit{\boldsymbol{*}}}\mathit{\boldsymbol{, }}{\mathit{\boldsymbol{\xi }}^\mathit{\boldsymbol{*}}}} \right\} \in {{\bf{R}}^{\gamma \times H}}$，其中，$H = \delta \times \tau $表示特征图个数。然后，${{\mathit{\boldsymbol{ \boldsymbol{\varXi} }}^\mathit{\boldsymbol{*}}}}$和${{\mathit{\boldsymbol{ \boldsymbol{\varPsi} }}^\mathit{\boldsymbol{*}}}}$进行矩阵乘法，并利用softmax来计算空间注意力向量${\mathit{\boldsymbol{\varphi }}^s} \in {{\bf{R}}^H}$，即 14 $\mathit{\boldsymbol{\varphi }}_{ji}^s = \frac{{\exp \left({{\mathit{\boldsymbol{ \boldsymbol{\varXi} }}_i} \cdot {\mathit{\boldsymbol{ \boldsymbol{\varPsi} }}_j}} \right)}}{{\sum\limits_{i = 1}^{{H^*}} {\exp } \left({{\mathit{\boldsymbol{ \boldsymbol{\varXi} }}_i} \cdot {\mathit{\boldsymbol{ \boldsymbol{\varPsi} }}_j}} \right)}}$ 图4 空间信息捕获模块 Spatial information capturing moduleFig 4式中，$\mathit{\boldsymbol{\varphi }}_{ji}^s$表示为位置$i$对位置$j$的影响。然后，在${{\mathit{\boldsymbol{\xi }}^\mathit{\boldsymbol{*}}}}$和${\mathit{\boldsymbol{\varphi }}^s}$进行矩阵乘法后，引入尺度参数以得到最终输出$\mathit{\boldsymbol{O}} \in {{\bf{R}}^{\gamma \times \delta \times \tau }}$，计算过程为 5 ${\mathit{\boldsymbol{O}}^j} = \vartheta \sum\limits_{i = 1}^H {\left({\mathit{\boldsymbol{\varphi }}_{ji}^s{\mathit{\boldsymbol{\xi }}_i}} \right)} $ 式中，$\vartheta $为尺度参数，初始化为0。通过引入尺度参数，该模型可以逐步学会将局部区域的权值赋给全局位置。因此，在每个位置的结果特征Oj是所有位置特征的加权和。因此，空间信息捕获模块具有全局上下文视野，并且能够在标签上建立较强的空间依赖关系，极大地提升了整个模型的表征能力。1.3数据依赖的上采样模块由于双线性插值上采样大大缩小了特征图集合的设计空间，在新模型中运用了DUpsampling(Tian等，2019)。DUpsampling可以充分利用分割标签空间的冗余有效地恢复像素级预测。最重要的是, 由于恢复全分辨率预测的任务在很大程度上已经转移到DUpsampling，所以可以对任意特征图下采样到最低分辨率的特征图，然后将这些特征融合在一起，得到最终的预测。DUpsampling操作的训练损失函数 6 $L(\mathit{\boldsymbol{\eta }}, \mathit{\boldsymbol{\gamma }}) = L\left({S\left({{f_{du}}(\mathit{\boldsymbol{\eta }})} \right), \mathit{\boldsymbol{\gamma }}} \right)$ 式中，$\eta $为DUpsampling模块的输入，$\mathit{\boldsymbol{\gamma }}$表示输出，L表示交叉熵损失函数，${\mathit{f}_{\mathit{du}}}$为数据依赖的上采样操作，S为分类器函数。值得注意的是，DUpsampling模块并不是将输入$\eta $上采样到和$\mathit{\boldsymbol{\gamma }}$一样的大小，而是将$\mathit{\boldsymbol{\gamma }}$压缩到$\mathit{\boldsymbol{\gamma }}$*，且$\mathit{\boldsymbol{\gamma }}$*与$\eta $大小相同，然后计算$\eta $和$\mathit{\boldsymbol{\gamma }}$*之间的训练损失，从而大大提高了语义分割模型的性能。1.4整个模型编码—解码结构已广泛运用到语义分割模型中以提高模型表现力，其可以同时捕获语义和空间信息。因此，以编码—解码结构为基础，并结合多尺度信息融合模块和空间信息捕获模块，本文构建了一个新的语义分割模型，如图 5所示。图5 整体框架 Overall frameworkFig 5在编码部分中，预训练后的ResNet-101作为模型的骨干来提取特征图，并且在“Res-4”和“Res-5”中分别插入带有膨胀率Rate=2和Rate=4的膨胀卷积以减小特征图空间分辨率的损失。提取的特征图被送入到附加在骨干顶部的多尺度信息融合模块，通过3层平行结构的克罗内克卷积来提取丰富的多尺度上下文信息，并且利用注意力机制来选择性地高亮区别性很强的信息。因此，编码部分能够有效地捕获区分力强且多尺度上下文信息丰富的特征图集合。在解码部分，设计了一个有效的空间信息捕获模块，利用空间注意机制选择性地突出有效的空间信息并在空间维度上建立很强的依赖关系。众所周知，语义分割模型最终的分割精度很大程度上取决于高维特征和低维特征的融合，因此，为了产生高分辨率的预测，解码部分融合了由多尺度信息融合模块提取的区分力强且多尺度上下文信息丰富的高维特征图集合和空间信息捕获模块捕获的空间信息丰富且依赖性强的低维特征集合，接着，运用一个多核卷积块对特征图进行细化。多核卷积块由两个卷积核大小不一样的卷积组成，且并行排列，其中一个卷积核大小为3×3，另一个大小为5×5。最终，通过DUpsampling操作得到最终的预测结果。此模型极大地提高了分割准确度。2实验与结果2.1实验数据Cityscapes城市场景道路数据集, 该数据集(https://www.cityscapes-dataset.com)中所有图像均来自于50个不同城市的街景，其分辨率为1 024×2 048像素。该数据集包含20 000幅含有粗略标注的图片和5 000幅高质量精细标注的图像。粗略标注的图像主要用于测试弱监督语义分割模型。高质量精细标注的图像包含30个语义类，其中19个常见类用于语义分割任务中的基准评估。这些图像主要分成8大类：人类(human)、建筑(construction)、车辆(vehicle)、物体(object)、平面(flat)、自然(nature)、天空(sky)和空类(void)。5 000幅高质量精细标注的图像又分为3个子集:训练集含有2 975幅图像用于训练，验证集500幅用于验证，测试集含有1 525幅用于基准测试。部分示例图像如图 6所示。图6 Cityscapes数据集示例 Some examples of Cityscapes datasetFig 6PASCAL VOC 2012数据集(http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html)包含带有背景的21个类：人类、动物(鸟、猫、牛、狗、马、羊)、交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车)、室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。该数据集主要分为3个子集:含有1 464幅图像的训练集合，含有1 449幅图像的验证集合，含有1 456幅图像的测试集合。该数据集主要用于对语义分割模型性能验证，可以定量评估各种语义分割算法。部分示例图像如图 7所示。图7 PASCAL VOC 2012数据集示例 Some examples of PASCAL VOC 2012 datasetFig 7数据增强：在训练过程中，采用了随机水平翻转、-10°10°的随机旋转和0.52倍的随机缩放。实验评估标准：这里采用平均交并比(mIoU)和像素准确度(Acc)作为评价标准。实验参数设置：所有实验均在开源的PyTorch(Paszke等，2017)、CUDA9.0和cudnnv7深度学习框架上进行。实验平台的GPU为GT×1080，CPU为i7-7700k，内存为48 GB, 硬盘为4 TB。采用“poly”学习率策略，计算为 7 ${U_r} = {U_{{\rm{rbase }}}} \times {\left({1 - \frac{e}{{{e_{\max }}}}} \right)^p}$ 式中，$e$表示迭代次数${e_{\max }}$表示最大迭代次数，${U_{{\rm{rbase}}}}$表示基本学习率，$p$表示衰减指数，不使用粗糙标注的城市街景数据，在城市街景数据上的所有实验都采用相同的实验设置$e$表示对数据集的所有样本训练一次。特别地，${U_{{\rm{rbase}}}}$被设置为0.01，$p$被设置为0.9，权重衰减被设置为0.000 1。在训练过程中，采用随机梯度下降法SGD训练所需建立的交叉熵损失函数，批量batch大小被设置为6，动量被设置为0.99。2.2实验结果与分析2.2.1克罗内克卷积和膨胀卷积对比实验为证明克罗内克卷积比膨胀卷积更能提高语义分割结果，进行了很多对比实验。在训练好的ResNet-101的最后一层中插入克罗内克卷积(KConv)或膨胀卷积(AConv)，最终的分割结果直接通过双线性插值upsampling操作得到。实验中设置η∈(0.5, 0.7)，表 1为在PASCAL VOC 2012验证集上进行实验的部分结果。从表 1可以看出，随着${\kappa _1}$从4增加到12，AConv的mIoU从75.75%增加到77.62%，KConv的mIoU从75.97%增加到78.48%。显然，随着感受野的扩大，分割结果可以得到很大的提高。而且，在克罗内克卷积和膨胀卷积中，如果设定相同的膨胀率，克罗内克卷积可以比膨胀卷积获得更好的分割结果，这是因为克罗内克卷积可以有效地捕捉到被膨胀卷积的忽略部分细节信息。表1 克罗内克卷积和膨胀卷积在PASCAL VOC 2012验证集中表现力对比表方法 R1 R2 mIoU/% Acc/% AConv 4 1 75.75 94.77 8 1 77.10 95.14 12 1 77.62 95.19 KConv 4 3 75.97 94.94 8 5 77.81 95.28 12 9 78.48 95.51 Comparison between KConv and AConv on PASCAL VOC 2012 validation setTable 12.2.2探索最优的多尺度信息融合模块为了探索最优的多尺度信息融合模块，在本节中做了大量实验以寻求最佳的克罗内克卷积块层数以及每层克罗内克卷积中内部膨胀因子和内部共享因子的最优组合。实验中，将ResNet-101作为骨干提取特征图，其中“Res-4”和“Res-5”中的标准卷积被替换为膨胀率分别为$Rate$=2和$Rate$=4的膨胀卷积。在多尺度融合模块中插入个数不同的克罗内克卷积块和全局注意力模块，最终的分割结果直接通过双线性插值upsampling操作得到。表 2仅给出了在PASCAL VOC 2012验证集上进行实验的最优实验结果，即每层克罗内克卷积中内部膨胀因子和内部共享因子的最优组合的实验结果。由表 2得出，随着层数从1增加到3，mIoU大幅提高，但当层数从3增加到4时，mIoU呈现下降趋势。这是因为层数越多，冗余特征图越多，计算复杂度越高，训练速度越慢，导致分割准确度下降。最终在本文模型中，克罗内克卷积层数定为3，且内部膨胀因子和内部共享因子组合为$\left({{\kappa _{11}}, {\kappa _{12}}} \right)$=(12, 9)，$\left({{\kappa _{21}}, {\kappa _{22}}} \right)$=(14, 12)和$\left({{\kappa _{31}}, {\kappa _{32}}} \right)$=(20, 16)。表2 探索最优的多尺度信息融合模块克罗内克卷积 mIoU/% Acc/% $\left({{\kappa _{11}}, {\kappa _{12}}} \right)$=(12, 9) 78.65 95.23 $\left({{\kappa _{11}}, {\kappa _{12}}} \right)$=(12, 9)$\left({{\kappa _{21}}, {\kappa _{22}}} \right)$=(14, 12) 78.91 95.46 $\left({{\kappa _{11}}, {\kappa _{12}}} \right)$=(12, 9)$\left({{\kappa _{21}}, {\kappa _{22}}} \right)$=(14, 12)$\left({{\kappa _{31}}, {\kappa _{32}}} \right)$=(20, 16) 79.76 95.98 $\left({{\kappa _{11}}, {\kappa _{12}}} \right)$=(12, 9)$\left({{\kappa _{21}}, {\kappa _{22}}} \right)$=(14, 12)$\left({{\kappa _{31}}, {\kappa _{32}}} \right)$=(20, 16)$\left({{\kappa _{41}}, {\kappa _{42}}} \right)$=(26, 24) 79.61 95.46 Exploring optimal multi-scale information fusion moduleTable 22.2.3验证空间信息捕获模块的有效性在PASCAL VOC 2012验证集上进行了一系列的实验来探索空间信息捕获模块是否能够帮助新模型提高性能，采用双线性插值upsample得到最终分割结果。实验结果如表 3所示。很明显，空间信息捕获模块的引入使得模型准确率提高了0.81%。表3 模型在PASCAL VOC 2012验证集中表现力对比表是否有空间信息捕获模块 mIoU/% 本文方法 × 79.76 √ 80.57 Comparison between our model with capturing modules on PASCAL VOC 2012 validation setTable 32.2.4验证多核卷积块的有效性为了提高分割准确度，在融合空间信息和多尺度信息之后，插入多核卷积块来进一步优化预测结果。进行了多次实验来验证多核卷积块的有效性并探求多核卷积块的最佳尺寸和层数。本次实验仅给出mIoU大于80%的相应多核卷积块尺寸和层数组合的结果，如表 4所示，显然，当使用卷积核大小为3×3和5×5且分别带有256和128个滤波器的卷积并行连接时，可以获得最佳分割结果，相比于未用多核卷积块处理的模型分割结果提升了0.42%。表4 不同多核卷积块模型在PASCAL VOC 2012验证集中表现力对比多核卷积块 mIoU/% (1, 1, 128) 80.23 (1, 1, 128)×2 80.63 (1, 1, 128)+(1, 1, 256) 80.65 (1, 1, 256) 80.38 (1, 1, 256)×2 80.62 (3, 3, 128) 80.45 (3, 3, 128)×2 80.69 (3, 3, 128)+(1, 1, 128) 80.71 (3, 3, 128)+(1, 1, 256) 80.76 (3, 3, 256) 80.40 (3, 3, 256)×2 80.71 (3, 3, 256)+(1, 1, 128) 80.68 (3, 3, 256)+(1, 1, 256) 80.63 (5, 5, 128) 80.37 (5, 5, 128)×2 80.76 (5, 5, 128)+(3, 3, 256) 80.99 (5, 5, 128)+(1, 1, 128) 80.84 Comparison of different multikernel convolution blocks on PASCAL VOC 2012 validation setTable 42.2.5验证DUpsampling的有效性为了证明DUpsampling优于双线性插值upsam-pling，设计了多个对比实验。结果如表 5所示，通过它们在PASCAL VOC 2012验证数据集上的性能表现，可以看出DUpsampling的运用使得实验结果提升了0.54%，说明DUpsampling能够有效地提高模型的分割准确度。表5 不同模型在PASCAL VOC 2012验证集中表现力对比表方法 mIoU/% 双线性插值upsampling 80.99 DUpsampling 81.53 Comparison between our model with two models on PASCAL VOC 2012 validation setTable 52.2.6在Cityscapes数据集的验证为了验证整个模型的有效性，在Cityscapes测试数据集上进行了大量对比实验。该模型仅在精细标定的数据上进行训练，并在Cityscapes测试集上进行测试，不需要其他预处理。对比模型有FCN 8s(fully convolutional network 8s)、Dilation10(Yu和Koltun，2015)、DPN(deep parsing network)(Liu等，2015)、LRR(Laplacian reconstruction and refinement)(Ghiasi和Fowlkes，2016)、DeepLabv2-CRF、RefineNet。表 6报告了对比实验的结果，显然，本文模型比FCN 8s、Dilation10、DPN、LRR、DeepLabv2-CRF和RefineNet的分割效果更好。表6 在Cityscapes测试集上的对比实验结果方法 mIoU/% FCN 8s 65.3 Dilation10 67.1 DPN 66.8 LRR 69.7 DeepLabv2-CRF 70.4 RefineNet 73.6 本文 74.12 Comparison experiment results on Cityscapes test setTable 6同时，在Cityscapes验证数据集上给出了模型的一些可视化结果，如图 8所示。常见的模型对多尺度物体分割不准确，例如“树”、“人”，因为这些物体形状各异，背景复杂，因此，在文章模型中，引入多尺度信息融合模块来捕获丰富的多尺度上下文信息以促进多尺度物体的分割。从图 8第3列可以看到，“小汽车”、“人”和“树”都被成功地标注出来。但是，街景中的小物体和物体的边界，如“交通灯”、“交通标志”、“杆”、“自行车”等，由于空间细节的缺失而被错误分类或无法识别。为解决这一难题，在模型的浅层引入了空间信息捕获模块，其可以帮助模型恢复更多的细节信息。如图 8第4列所示，在空间信息捕获模块的帮助下，小物体在一定程度上被正确标注出来。图8 模型在Cityscapes数据集的可视化结果 Some examples of visualization results from our model performed on Cityscapes datasetFig 82.2.7在PASCAL VOC 2012数据集上的验证为了进一步证明新模型的有效性，在PASCALVOC 2012测试集上与现有模型FCN、DeepLabv2、GRF-RNN(Zheng等，2015)、DeconvNet(Noh等，2015)、GCRF(Vemulapalli等，2016)、DPN、Piecewise(Lin等，2016)进行了大量对比实验。实验结果如表 7所示。图 9给出了新模型在PASCAL VOC 2012验证数据集上的可视化实验结果。其中基网络模型为将带有膨胀卷积的ResNet-101网络，其分割结果直接通过双线性插值上采样获得。表7 在Cityscapes测试集上的对比结果方法 mIoU/% aero bike bird boat bottle bus car chair cow dog plant sheep sofa train table person horse tv FCN 62.2 76.8 34.2 68.9 49.4 60.3 75.3 74.7 21.4 62.5 71.8 45.2 72.4 37.4 70.9 46.8 73.9 63.9 55.1 DeepLabv2 71.6 84.4 54.5 81.5 63.6 65.9 85.1 79.1 30.7 74.1 79.0 59.7 82.2 50.4 73.1 59.8 80.8 76.1 63.7 GRF-RNN 72.0 87.5 39.0 79.7 64.2 68.3 87.6 80.8 30.4 78.2 80.5 59.5 82.8 47.8 78.3 60.4 80.6 77.8 67.1 DeconvNet 72.5 89.9 39.3 79.7 63.9 68.2 87.4 81.2 28.5 77.0 79.0 58.8 83.4 54.3 80.7 62.0 80.2 80.3 65.0 GCRF 73.2 85.2 43.9 83.3 65.2 68.3 89.0 82.7 31.1 79.5 80.5 60.5 85.5 52.0 77.3 63.3 81.0 79.3 65.1 DPN 74.1 87.7 59.4 78.4 64.9 70.3 89.3 83.5 31.7 79.9 81.9 60.5 83.2 53.4 77.9 62.6 82.3 80.0 65.0 Piecewise 75.3 90.6 37.6 80.0 67.8 74.4 92.0 85.2 39.1 81.2 83.8 62.1 83.2 58.2 80.8 58.9 84.8 83.9 72.3 本文 81.53 90.51 64.67 86.28 70.29 78.29 92.16 87.21 45.6 84.37 91.21 73.32 91.21 67.24 85.59 66.89 86.47 88.43 78.20 Comparison experiment results on Cityscapes test setTable 7 图9 PASCAL VOC 2012数据集的可视化结果示例 Some examples of visualization results from our model performed on PASCAL VOC 2012 datasetFig 93结论为了大幅提高语义分割结果，设计了一种新颖的基于编码—解码结构的语义分割模型，其能够有效提高分割准确性主要源于3个方面:1) 多尺度信息融合模块。利用叠加和扩张原理，将克罗内克卷积以平行结构的方式排列，极大地扩大了感受野，有效地捕获了丰富的多尺度信息。并且引入全局通道注意力机制，多尺度信息融合模块能够选择性地提取区分力强的特征图。2) 空间信息捕获模块。在空间维度上利用自注意力机制，可以选择性地捕获有效的空间信息，且空间信息捕获模块可以在空间维度上建立很强的相关性。因此，空间信息捕获模块对细化分割结果起着重要的作用。3) 编码—解码结构。本文模型以编码—解码结构为基础，可以更好地融合语义信息和空间信息，减少空间信息的丢失，进一步提高分割效果。在PASCAL VOC 2012和Cityscapes数据集上进行了大量的实验，验证了所提模块的有效性，也证明了新模型相对于其他语义分割方法更具有优势。此模型可以在医学图像分析、自动驾驶、无人机等领域具有很大应用价值。本文算法还存在以下问题：虽然相比于现有先进模型有很大程度的提高，但是在一些检测精度要求极高的任务中仍存在不足，且在分割同类异形物，异类相似物方面仍需进一步提升。