Print

发布时间: 2019-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180402
2019 | Volume 24 | Number 3




    ChinaMM 2018    




  <<上一篇 




  下一篇>> 





结合特征图切分的图像语义分割
expand article info 曹峰梅1, 田海杰1, 付君2, 刘静2
1. 北京理工大学光电学院, 北京 100081;
2. 中国科学院自动化研究所模式识别国家重点实验室, 北京 100190

摘要

目的 基于全卷积神经网络的图像语义分割研究已成为该领域的主流研究方向。然而,在该网络框架中由于特征图的多次下采样使得图像分辨率逐渐下降,致使小目标丢失,边缘粗糙,语义分割结果较差。为解决或缓解该问题,提出一种基于特征图切分的图像语义分割方法。方法 本文方法主要包含中间层特征图切分与相对应的特征提取两部分操作。特征图切分模块主要针对中间层特征图,将其切分成若干等份,同时将每一份上采样至原特征图大小,使每个切分区域的分辨率增大;然后,各个切分特征图通过参数共享的特征提取模块,该模块中的多尺度卷积与注意力机制,有效利用各切块的上下文信息与判别信息,使其更关注局部区域的小目标物体,提高小目标物体的判别力。进一步,再将提取的特征与网络原输出相融合,从而能够更高效地进行中间层特征复用,对小目标识别定位、分割边缘精细化以及网络语义判别力有明显改善。结果 在两个城市道路数据集CamVid以及GATECH上进行验证实验,论证本文方法的有效性。在CamVid数据集上平均交并比达到66.3%,在GATECH上平均交并比达到52.6%。结论 基于特征图切分的图像分割方法,更好地利用了图像的空间区域分布信息,增强了网络对于不同空间位置的语义类别判定能力以及小目标物体的关注度,提供更有效的上下文信息和全局信息,提高了网络对于小目标物体的判别能力,改善了网络整体分割性能。

关键词

深度学习; 全卷积神经网络; 语义分割; 场景解析; 特征切分; 多尺度; 特征复用

Feature map slice for semantic segmentation
expand article info Cao Fengmei1, Tian Haijie1, Fu Jun2, Liu Jing2
1. School of Optics and Photonic, Beijing Institute of Technology, Beijing 100081, China;
2. National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China
Supported by: National Natural Science Foundation of China (61472422)

Abstract

Objective Deep convolutional neural networks have recently shown outstanding performances in object recognition and have also been the first choice for dense classification problems, such as semantic segmentation. Fully convolutional network based methods have become the main research direction in the field of image semantic segmentation. However, repeated downsampling operations in these methods, such as pooling or convolution striding, lead to a significant decrease in the initial image resolution, which results in poor object delineation, small target losing, and weak segmentation output. Although some studies have solved this problem in recent years, determining how to effectively handle this problem remains an open question and deserves further attention. This study proposes a feature map slice module for semantic segmentation to solve this problem. Method The proposed method mainly includes two parts:middle layer feature map segmentation and corresponding feature extraction network. The feature map slice module mainly focuses on the middle layer feature map. The feature map is sliced into several small cubes, and then each cube is upsampled to the corresponding resolution of the original feature map, which enlarges the small target in the local area. Each cube is equivalent to a subregion of the original feature map by the proposed feature map slice module. After upsampling these cubes, the objects in these subregions are enlarged. Thus, the small objects in these regions can be regarded as relatively large objects, which are difficult to detect through the entire feature map. Therefore, in the process of feature extraction, attention must be focused on the small target objects in these subregions, which are difficult to detect if we handle the entire feature map. A weight-shared feature extraction network is thus designed for sliced feature maps. The feature extraction network adopts multiple convolution operations (different kernel sizes) to extract different scale feature information. For each input of the network, the dimension is reduced to half to save memory and dilation convolution is adopted to enlarge the network's receptive field. We then concatenate a difficult feature map (obtained by different convolution operations) and add a channel-attention operation. The feature extraction network combines multi-scale convolution and attention mechanism; when subregions are passing through the feature extraction network, it can extract different semantic category information from corresponding subregions, as well as provide contextual and global information and discriminant information of each slice effectively. Accordingly, we can focus on small objects in local areas and improve the discriminability of small target objects. Each cube passes through the feature extraction network. The extracted feature in the corresponding position is assembled and the entire mosaic feature map is acquired. The network original output is upsampled and fused with the mosaic feature map by element-wise max operation. In this way, the middle-layer feature can be reused efficiently. To utilize the middlelayer feature information, this module is introduced at multiple scales, which enhances the capability of extracting small target characteristics and spatial information in local areas. It also utilizes the semantic information in different scales and exhibits an obvious improvement for extracting small target features, refining segmentation edge, and enhancing network discrimination. Result The proposed method is verified on two urban scene-understanding datasets, namely, CamVid and GATECH. Both datasets contain many common urban scene objects, such as building, car, and cyclist. Several ablation experiments are conducted on the two datasets and excellent performances are achieved. In particular, intersection-over-union scores of 66.3 and 52.6 are acquired on CamVid and GATECH, respectively. Conclusion The proposed method utilizes the spatial distribution information of images, enhances the network capability to determine the semantic categories of different spatial locations, pays considerable attention to small target objects, and provides effective context and global information. The proposed method is expanded into different resolutions of the network considering that different resolutions can provide rich-scale information. Thus, we utilize middle layer feature information, improve the network capability to discriminate small target objects, and enhance the overall segmentation performance of the network.

Key words

deep learning; fully convolutional neural networks; semantic segmentation; scene parsing; feature slice; multiple scales; feature reuse

0 引言

图像语义分割的主要任务是预测出图像中每一个像素点所属的语义类别,是像素级别的分类任务,是场景解析、图像理解中关键的一步,在很多领域具有广泛的应用价值。例如,在自动驾驶领域,快速定位车前场景信息,辅助自动驾驶系统做出正确决策;在医疗领域,对医学图像进行快速分割,用来辅助医生诊断。随着工业需求与生活需求的不断加大,图像语义分割依然是计算机视觉任务中的研究热点之一。

目前基于深度卷积神经网络(DCNNs)的语义分割主要沿用了全卷积神经网络(FCN)[1]的结构。FCN拓展了分类网络(GoogLeNet[2]、VGGNet[3]等),实现了语义分割任务。但由于分类网络中存在的多次下采样操作,图像分辨率逐渐降低,致使小目标丢失,边缘粗糙,使得分割结果较差。针对FCN网络的这种局限,许多学者提出了一系列相关的改进工作,主要分为以下两类:

1) 通过改进卷积核操作,减少下采样次数,保证图像空间分辨率,增大网络感受野。一种典型方式就是利用膨胀卷积,也被称为带“孔”的卷积方式[4-5]。这种方式去掉了网络中部分下采样操作,增大了输出特征图的分辨率,同时将普通卷积操作替换为膨胀卷积操作,以保证网络获得较大的感受野。

2) 通过中间层特征复用,由于中间层信息包含了许多图像细节,通过融合中间层特征,可以恢复图像边缘细节。文献[6-7]利用编码器—解码器结构来弥补空间信息的损失。这种编码器和解码器结构相互对称,采用反卷积的方式来逐层恢复图像分辨率。Wang等人[8]利用VGGNet作为预训练模型,使得编码器—解码器网络有了更好的权重参数,更加容易收敛,同时,性能也有了明显提升。Lin等人[9]提出一种多级特征整合的语义分割算法,强调网络中各种分辨率下的特征都能改善最后分割结果,设计了一种逐层特征融合的结构,从最小分辨率的特征图依次上采样,再与底层分辨率的特征图进行融合,最后得到一个原图大小的特征图。Je'gou等人[10]以及Fu等人[11]利用DenseNet[12]结构特征复用性强的特点,提出基于DenseNet的语义分割算法。当前特征复用方法虽然使用了中间层的特征信息且在性能上取得了一定的效果,但是其对中间层特征的处理过程,一般是直接在整个特征图上进行卷积操作,然而在图像中,一些小目标物体往往只分布于图像的某一小块区域内,这种特征提取过程对一些局部区域小目标就不会有很好的关注,网络对于小目标物体的判别能力还是很差,无法改善小目标物体的分割性能。

为了提高这些局部区域小目标的分割性能,本文采用特征图切分的方式,从空间上对图像进行划分,加强图像区域的局部判别,对局部区域内的小目标更为关注。本文提出了一个特征图切分模块,对不同尺度的特征图进行不同系数的切分(如2×2、3×3等份),将某一尺度下的特征图切分成$n$份,每份利用双线性插值上采样至原特征图大小,由于切分模块中划分了不同的空间区域并将这些区域放大,原来图像中某区域下的小目标物体就变成了大目标,在这种切分策略之下,这些切分块在特征提取过程中,就能更关注该局部区域内的语义类别以及小目标,从而能够更好地判别图像中的小目标特征。接着将不同的切分块的输出特征图进行对应位置拼接,再与主网络的输出特征图进行融合。相比之前的特征复用方法[6-11],本文的特征图切分模块将同一分辨率下的特征图分成若干份,相比于放大图像输入或者图像直接做切分,本文在特征图上切分的操作,既减少了计算量,节省了显存占用,同时也能充分利用局部和全图的信息,实现有效的特征复用。

本文基于原始的FCN语义分割网络,在多个分辨率上加入特征图切分模块,更好地利用了图像的空间位置信息,增强了网络对于不同空间位置的语义类别判定能力以及小目标物体的关注度,同时多个尺度下的各个中间层特征也得到充分利用,改善了分割结果。在CamVid和GATECH两个城市道路数据集上验证了本文方法的有效性。

1 相关工作

近年来,以FCN为代表的深度卷积神经网络方法已成为解决图像语义分割任务最好的算法。FCN使用了一种全卷积网络结构,能够实现像素级的预测,然而存在边缘粗糙、小目标丢失等问题。许多基于FCN的图像语义分割网络展示了强大而有效的特征学习能力以及高效的端对端(end to end)训练模式,在各种分割数据集[13-16]上都有了显著的性能提升。本文方法也是基于FCN的网络框架。

基于FCN的语义分割算法通常会受限于网络中分辨率较低的问题。近年来,已经提出了一系列技术用于解决这个问题。基于膨胀(空洞)卷积的分割网络DeepLab[4]和DilationNet[5]被提出,改变了卷积计算的采样方式,进行隔点采样,即膨胀卷积。这种卷积方式相比于原来的卷积能够大大增加网络感受野,同时不增加额外计算量。通过膨胀卷积的方式,在保持网络感受野不变的情况下,减少下采样次数,提高图像的分辨率,避免了图像空间信息的严重丢失。文献[6-8, 11]使用了编码器—解码器结构来解决空间细节信息丢失的问题。编码过程中,图像分辨率逐渐下降,提取高层语义信息,解码过程中又逐步恢复了空间分辨率。

一些工作通过利用复用中间层的特征信息,引用网络浅层特征信息来弥补下采样过程中丢失的空间信息,改善网络输出分辨率低的问题。U-Net[17]和FC-DenseNet[10]等在解码过程中,采用了跳跃结构,直接引入中间层的特征信息并与解码器对应分辨率下的特征进行融合以弥补编码器下采样过程中丢失的空间信息。文献[18]提出一种重构模块代替直接的上采样,并采用拉普拉斯算法获取浅层特征细节信息,去除噪音,有效完成浅层和高层特征融合。RefineNet[9]设计了一个逐层上采样的编码器结构,用网络性能更加强大的ResNet101作为预训练模型,利用一个特征提取网络来提取每一个分辨率下的特征信息,然后再将该分辨率下的特征与上层分辨率特征做特征融合,这种逐层分辨率融合的结构,充分利用了不同分辨率下的特征信息,能够逐步弥补网络空间信息的损失,较好地恢复图像的边缘细节。文献[19]设计了一种带有超大尺寸卷积核的编码器—解码器结构,网络中每一种分辨率都通过一个大卷积核(尺寸等于对应的图像分辨率)进行特征提取,然后这些特征再逐层融合,恢复空间信息。DeepLab-v4[20]将DeepLab分割网络改进为编码器—解码器结构,复用不同分辨率下的特征信息,进一步提升了分割性能。

目前中间层特征复用方面已经存在一些工作,但是如何高效地利用这些中间层信息仍是一个有待深入研究的问题。本文提出一个特征切分模块,通过切分的方式,将特征进行空间划分,在特征提取过程中可以更加关注局部区域内的小目标,提高小目标的判别能力。

2 本文方法

在本节中,首先介绍特征图切分模块,然后利用特征切分模块构建一个基于FCN的语义分割网络。

2.1 特征图切分模块

在图像中,一些小目标物体往往集中于图像的某一块区域内,目前存在的中间层处理方式并没有考虑这些小目标物体的空间位置信息,虽然中间层信息经过特征提取之后,能够获得一些空间信息,但是,这些信息是相对于整个图像而言的,对于处于图像某局部区域内的小目标来说,并不会受到更好的关注。为此,提出一个特征图切分模块,尝试以网络不同分辨率上的特征图为出发点来解决上述问题。本文中的特征图切分模块如图 1所示,图 1中,只在1/16分辨率上引入特征切分模块,而实际上,可以在不同的分辨率(1/4,1/8,1/16)上引入特征图切分模块。该模块将某一分辨率下的特征图在空间维度($w$$h$)上切分成$n$×$n$(如$n$=2,3)份,每一个特征切块就代表了图像中不同的位置,包含不同的局部空间信息,每一份特征切块再由双线性上采样到对应的特征图大小,相当于获取了图像的子图。在这种策略之下,在每个切分特征块之后再进行特征提取操作,由于之前特征切分块进行了放大处理,在这些子图中的小目标相对而言就是一个大目标物体,因此,在特征提取过程中就更加容易关注这些局部区域的小目标,获得更好的分割效果。通过本文提出特征图切分模块,将特征图在空间上进行划分,“放大”了局部区域的小目标物体,然后在特征提取过程中更好地抓取这些区域内的目标物体特征,改善小目标分割能力。

图 1 整体网络结构图
Fig. 1 An overview of our network architecture

2.2 特征提取网络

当前特征复用方法对于中间层特征的处理方式较为简单,一般采用跳跃结构或通过简单的卷积提取方式,然而,这种方式并不能很好地提取中间层特征信息以达到一个好的分割性能。为了能够更好地关注特征切分后的局部区域内的小目标物体,在该局部区域引入上下文信息和全局信息,设计了一个特征提取网络,如图 2所示。受Inception[2]网络设计的启发,该特征提取网络分别采用1×1和3×3卷积核进行特征提取,来抓取不同尺度的信息。两个分支分别对输入特征图进行降维处理,通道数降为原来的1/2,同时在3×3卷积的分支中,采用了空洞卷积,将空洞卷积的rate设为2和4,进一步增加网络的感受野,然后,再将不同尺寸卷积核提取的特征在通道维度上进行拼接。最后,引入“注意力”机制,对拼接后的特征做一次全局池化操作,再与拼接后特征进行点乘操作。通过这种操作,能够在不同的切分区域提取对应区域下的语义类别信息,提供了更具空间区域性质的上下文信息和全局信息,从而能够关注区域内的小目标,提供更加有效的中间层特征信息。

图 2 特征提取网络结构图
Fig. 2 The architecture of feature extraction network

2.3 总体结构

本文的整体语义分割网络如图 1所示。在本文实验中,以ResNet50[21]作为网络的预训练模型,整体框架结构类似于FCN。在图 1中,输入图片尺寸为320×320像素,在多个分辨率(1/16, 1/8, 1/4)上引入了切分操作,对该特征图在空间维度上进行了切分操作,为了防止切分操作时破坏切分块边界的上下文信息,每个切分块之间会有一定程度的重叠。对于每一个特征切块,都会将其上采样至原特征图大小,放大该特征切块区域,再通过特征提取网络(图 2),最后与网络原始输出进行特征融合。在本文实际操作中,在不同分辨率(除去原图分辨率和最后一个分辨率)下都能引入特征图切分模块,通过特征提取网络之后的特征与主网络的输出通过逐像素取最大值(Max)进行特征融合,最后输出分割结果。在不同尺度的特征图引入特征图切分模块,可以抓取不同尺度下的信息,同时,各个分辨率下的特征与最后的输出特征相融合,也更加充分地利用了各层的特征信息。

3 实验

在CamVid[15]以及GATECH[16]分割数据集上进行了实验,验证了本文方法的有效性,同时和当前优秀方法比较,也取得了具有竞争力的结果。与文献[10]一样,本文用整体准确率(global Avg, 在整个数据集上统计分类正确的像素点所占的百分比)以及平均交并比(mean IoU, 在每一类中统计被预测为该类的像素点与该类所有像素点的交并比,然后在所有类上取平均)来评估本文方法。

3.1 实现方法

在Caffe[22]深度学习框架下对本文方法进行相关实验验证。采用随机梯度下降法(SGD)对网络进行优化,最小批尺寸(mini-batch size)设置为20,参考文献[4],本文学习策略设置为“poly”,即

$ lr = lr \times {\left( {1 - \frac{{{N_{\rm{c}}}}}{{\max N}}} \right)^p} $ (1)

式中, $lr$为学习率(初始化学习率设置为0.001,最后分类层参数学习率设置为0.01),${N_{\rm{c}}}$为当前迭代次数,${\max N}$为最大迭代次数,$p$为学习率参数(设置为0.9)。动量参数(momentum)以及权重衰减项分别设置为0.9和0.000 5。在训练网络过程中,采用数据增强策略,使用图片的镜像以及将图片随机放缩至原图的{1,1.2,1.4}倍,然后在图片中随机裁剪出320×320像素的图像块送入网络进行训练。在推断过程中,同时采用图像以及其镜像来测试。

3.2 CamVid实验结果

在CamVid数据集上开展了对比实验,来验证本文方法的有效性。CamVid数据集是一个用来做城市道路场景理解的分割数据集,它包含了5个在白天或黄昏拍摄的街景视频序列。参照文献[7],将这5段视频序列分成367张训练图片、100张验证图片以及233张测试图片。每张图片分辨率为360×480像素,所有图片包含11个语义类别。

首先,验证本文提出的特征图切分模块。特征图切分模块的核心思想是为了将某一分辨率下的特征图进行不同程度的切分并放大每个特征切分块,其相当于放大了原始特征图的局部区域,提取特征过程中,其提供的上下文信息以及全局信息会更好地关注到局部区域小目标物体。

对特征图的切分比例$n$开展了实验,如表 1所示。在表 1中,在1/16分辨率处(图像的倒数第2个分辨率位置)尝试了不同的切分比率$n$($n$取值为1,2,3,4), 即将图像切分成$n$ × $n$份。其中,分数指的是在CamVid数据集的验证集中所评测得到的mean IoU,baseline指的是本文的基础模型ResNet50的全卷积网络(图 3(a)),$n$=1即为1/16分辨率下的特征图不进行特征切分操作而直接通过特征提取网络与最后的输出特征图进行特征融合(图 3(c)),可以看做本文提出的特征图切分模块的特殊情况。分析表 1中的实验结果可知,随着切分比率的增大,性能也会逐渐上升,但是当切分比率过大时,如$n$=4的情况下,性能反而下降了,这是由于切分太过频繁造成区域数目十分密集,破坏了上下文信息,反而不利于网络的学习。从表 1实验来看,当切分比率取$n$=2或者3时,相比于基础网络和$n$=1的情况都有明显提升,mean IOU分别提高了10%、3.7%($n$=2)和10.3%、4%($n$=3)。

表 1 特征图切分模块不同的切分比率的实验结果
Table 1 Experimental results of different segmentation ratios of feature map slice modules

下载CSV
$n$baseline$n$=1$n$=2$n$=3$n$=4
mean IoU/%58.564.868.568.863.5
图 3 不同特征复用方式结构图
Fig. 3 The architecture of different feature reuse ((a) base network; (b) 1/16 resolution + feature slice + feature extract; (c) 1/16 resolution + feature extract; (d) 1/16 resolution + 2 times upsample + feature slice + feature extract)

为了更加高效地对切分特征块进行特征提取,本文设计了一个特征提取网络(图 2)。利用不同尺寸的卷积核抓取切分特征块不同的尺度信息,并利用空洞卷积增加网络的感受野,可以获取更大尺度的语义信息,同时引入“注意力”机制,利用全局池化操作提取不同切分块所包含的局部类别信息,使网络能够获得全局信息。

其次,本文对该特征提取网络的有效性做了对比实验,如表 2所示。从表 2前3行结果分析可知,相比于1/16分辨率的特征直接与主网络的输出特征进行融合的方式(U-Net结构),本文特征提取网络具有更好的特征提取能力,1/16分辨率特征经过该特征提取网络(图 3(c))之后,mean IoU从62.5%提升至65.5%。表 2第4行即为图 3(b)中的结构,在1/16的特征图上特征切分之后,没有进行2倍上采样,而是直接通过特征提取网络,相比于图 3(c)图 3(b)加上特征切分之后,效果达到了66.7%,验证了特征图切分的有效性。表 2最后一行(对应图 3(d))即为本文方法,其中1/16+2倍上采样+特征图切分+特征提取为表 1中切分比率$ n$=2的网络结构。相比于表 2倒数第2行的网络结构,即将特征图全图放大再进行特征提取,在切分模块之后,局部区域放大了,使得本文设计的特征提取网络可以更加有效地关注不同区域内的小目标信息,更加适合于本文的特征图切分模块,对局部区域小目标具有更好的关注度,相比于全图放大再进行特征提取,在特征切分模块后加上该特征提取网络,取得了68.5%的mean IOU。

表 2 特征提取网络实验结果
Table 2 Experimental results of feature extraction network

下载CSV
方法mean IoU/%
baseline58.5
baseline+1/16直接融合62.5
baseline+1/16+特征提取网络65.5
baseline+1/16+特征切分($n$=2, 未上采样)+特征提取网络66.7
baseline+1/16 + 2倍上采样+特征提取网络67.8
baseline+1/16+特征切分($n$=2)+
特征提取网络
68.5

最后,总结了在CamVid数据集上的实验。分别在不同基础网络上、网络不同分辨率上引入特征图切分模块以及特征提取网络并做了进一步分析。具体实验如表 3所示。所有实验(除了最后一行)都是在单尺度输入下在CamVid验证集上的评测结果。在表 3中,DA表示训练时采用了数据扩增策略,具体做法如3.1节中所述,FS表示特征切分模块,MS表示多尺度测试,ResNet50-baseline即为本文的基础网络,从实验结果分析可知,把基础网络换成性能更加强大的ResNet101后,性能进一步提升,从58.5%提升至60.0%。FS-A、B、C分别表示在不同分辨率下引入特征图切分模块。FS-A表示在1/16分辨率下引入特征图切分模块,其中切分比率$n$设置为2;FS-B则在1/16以及1/8分辨率下引入特征图切分模块,在实验过程中发现,随着图像分辨率的加大,采用更大的切分比率时,网络的性能更好, 为了兼顾性能以及计算量,当分辨率大于或等于1/8时,在本文实验中设置切分比率$n$=3。FS-C在3个分辨率上引入了特征图切分模块(1/16,1/8,1/4)。从实验结果可以看出,当引入的分辨率越多时,网络性能越好,从68.5%提升到71.8%。表 4为各类方法在CamVid测试集上的表现。DeconvNet[6]和SegNet[7]使用了编码器—解码器结构,这些网络特征复用简单,很难有效地利用浅层信息。Dilation8[5]和Deeplab-LFOV[4]中使用了判别能力强的预训练模型,提升了分割性能,而文献[23-24]则利用了时间和空间信息来改善分割性能。在这些方法中,本文方法(ResNet101+DA+FS-C)取得了有竞争性的结果,获得了66.3%的分割性能。其中,FC-DenseNet103[10]采用了更加强大的基础网络,取得了66.9%的分割性能。图 4是在CamVid测试集上的一些可视化效果,从图 4中可以得出,相比于原始FCN以及1/16分辨率融合的方式(图 3(c)),本文方法对小目标物体更为关注,小目标物体判别能力更强。如在图 4(e)的第2行上,本文方法能够判别出杆子(pole)这类小物体,而在第2行和第3行,则判别出了骑自行车的人(cyclist)和指示牌(sign)。

表 3 CamVid测试集实验结果
Table 3 Experimental results on CamVid test set

下载CSV
方法mean IoU/%global Avg/%
ResNet50-baseline56.789.7
ResNet50+DA58.590.4
ResNet50+DA+FS-A68.593.7
ResNet50+DA+FS-B70.794.2
ResNet50+DA+FS-C71.894.6
ResNet101+DA60.090.6
ResNet101+DA+FS-C72.995.3
ResNet101+DA+FS-C+MS73.895.9
注:加粗数字表示最优结果。

表 4 各类方法在CamVid测试集上的结果
Table 4 Results on CamVid test set

下载CSV
方法mean IoU/%global Avg/%
SegNet[7]55.688.5
BayesianSegNet[23]63.186.9
DeconvNet[6]48.985.9
DeepLab-LFOV[4]61.6-
Dilation8[5]65.379.0
Dilation8-FSO[24]66.188.3
HDCNN-448+TL[25]65.990.9
FC-DenseNet56[10]65.890.8
FC-DenseNet103[10]66.991.5
本文方法66.391.0
注:加粗数字表示最优结果, “-”表示文献中未给出该指标。
图 4 CamVid测试集可视化效果图
Fig. 4 Results on CamVid test set
((a) input images; (b) ground truth; (c) FCN results; (d)FCN+1/16 fusion results; (e) our method results)

3.3 GATECH实验结果

为了验证模型的泛化能力,在GATECH数据集上也评测了本文方法。GATECH数据集是一个规模较大的室外场景视频数据集,比CamVid数据集大很多。它包含了101个精细标注的视频序列,其中63个视频序列,一共12 241张视频帧用于模型训练,余下的38个视屏序列共计7 071张视频帧用于测试。GATECH数据集包括了8类语义类别,分别为天空、地面、立方体、多孔物、汽车、人、竖直物体(vertical mix)以及管状物。使用ResNet101作为本文预训练模型,并且在不同分辨率下(1/16、1/8、1/4)加入特征图切分模块,具体训练策略与CamVid一致,可参考3.1节。表 5为本文方法与其他方法的对比,在没有使用GATECH视频序列中的时序信息的情况下,相比于表 5中列举的其他方法[10, 25-26],本文方法取得了更好的性能,mean IoU和global Avg分别达到52.6%和84.2%。

表 5 各类方法在GATECH测试集上的结果
Table 5 Results on GATECH test set

下载CSV
方法时序信
息使用
mean IoU/%global Avg/%
3D-V2V-scratch[26]-66.7
3D-V2V-finetune[26]-76.0
FC-DenseNet103[10]-79.4
HDCNN-448+TL[25]48.282.1
本文方法52.684.2
注:加粗数字表示最优结果, “-”表示文献中未给出该指标。

4 结论

提出了一个特征图切分模块以及特征提取网络,能够更加高效地提取中间层的特征信息。从特征图出发,将不同分辨率下的特征图在空间维度上进行不同比率的切分,放大了局部区域,也扩大了该区域下的小目标物体,在这种策略下,这些局部区域通过特征提取网络时,能够更加关注区域内的小目标物体,提供更有效的上下文信息和全局信息,提高了网络对于小目标物体的判别能力。在不同分辨率下引入了特征图切分模块,充分利用了多个尺度下的语义信息,提高了分割性能。在两个城市道路数据集上验证了本文方法的有效性,本文最好的模型在两个数据集上mean IoU达到了66.3%(CamVid)和52.6%(GATECH)。

同时,本文方法基于Caffe深度学习框架实现,不同切分模块中的特征提取网络虽然是参数共享的,但是实际模型保存时参数量比较大,导致模型所占存储空间较大,随着切分模块的增加,模型的尺寸也会线性增加。本文方法后续还存在一定优化空间,切分模块增多,使得对应的特征提取模块相应增加,造成模型尺寸过大,因此,减少特征提取模块的参数量,设计结构更加优化的特征提取网络为本文方法未来优化方向之一。

参考文献

  • [1] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 3431-3440.[DOI: 10.1109/CVPR.2015.7298965]
  • [2] Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015: 1-9.[DOI: 10.1109/CVPR.2015.7298594]
  • [3] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. 2015-04-10[2018-05-01]. https://arxiv.org/pdf/1409.1556.pdf.
  • [4] Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[EB/OL]. 2016-06-07[2018-05-01]. https://arxiv.org/pdf/1412.7062.pdf.
  • [5] Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions[EB/OL]. 2016-03-04[2018-05-01]. https://arxiv.org/pdf/1511.07122v2.pdf.
  • [6] Noh H, Hong S, Han B. Learning deconvolution network for semantic segmentation[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1520-1528.[DOI: 10.1109/ICCV.2015.178]
  • [7] Badrinarayanan V, Kendall A, Cipolla R. SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481–2495. [DOI:10.1109/TPAMI.2016.2644615]
  • [8] Wang Y, Liu J, Yan J, et al. Objectness-aware semantic segmentation[C]//Proceedings of the 24nd ACM on Multimedia Conference. Amsterdam, Netherlands: ACM, 2016: 307-311.[DOI: 10.1145/2964284.2967232]
  • [9] Lin G S, Milan A, Shen C H, et al. RefineNet: multi-path refinement networks for high-resolution semantic segmentation[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 1925-1934.[DOI: 10.1109/CVPR.2017.549]
  • [10] Jégou S, Drozdzal M, Vazquez D, et al. The one hundred layers tiramisu: fully convolutional DenseNets for semantic segmentation[C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Honolulu, HI, USA: IEEE, 2017: 1175-1183.[DOI: 10.1109/CVPRW.2017.156]
  • [11] Fu J, Liu J, Wang Y H, et al. Densely connected deconvolutional network for semantic segmentation[C]//Proceedings of 2017 IEEE International Conference on Image Processing. Beijing, China: IEEE, 2017: 3085-3089.[DOI: 10.1109/ICIP.2017.8296850]
  • [12] Huang G, Liu Z, van der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 2261-2269.[DOI: 10.1109/CVPR.2017.243]
  • [13] Everingham M, Eslami S, van Gool L, et al. The PASCAL visual object classes challenge:a retrospective[J]. International Journal of Computer Vision, 2015, 111(1): 98–136. [DOI:10.1007/s11263-014-0733-5]
  • [14] Cordts M, Omran M, Ramos S, et al. The cityscapes dataset for semantic urban scene understanding[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 3213-3223.[DOI: 10.1109/CVPR.2016.350]
  • [15] Brostow G J, Fauqueur J, Cipolla R. Semantic object classes in video:a high-definition ground truth database[J]. Pattern Recognition Letters, 2009, 30(2): 88–97. [DOI:10.1016/j.patrec.2008.04.005]
  • [16] Raza S H, Grundmann M, Essa I. Geometric context from videos[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013: 3081-3088.[DOI: 10.1109/CVPR.2013.396]
  • [17] Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer, 2015: 234-241.[DOI: 10.1007/978-3-319-24574-4_28]
  • [18] Ghiasi G, Fowlkes C C. Laplacian pyramid reconstruction and refinement for semantic segmentation[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016, 519-534.[DOI: 10.1007/978-3-319-46487-9_32]
  • [19] Peng C, Zhang X Y, Yu G, et al. Large kernel matters——improve semantic segmentation by global convolutional network[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 4353-4361.[DOI: 10.1109/CVPR.2017.189]
  • [20] Chen L C, Zhu Y K, Papandreou G, et al. Encoder-Decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany. Springer, 2018, 833-851.[DOI: 10.1007/978-3-030-01234-2_49]
  • [21] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770-778.[DOI: 10.1109/CVPR.2016.90]
  • [22] Jia Y Q, Shelhamer E, Donahue J, et al. Caffe: convolutional architecture for fast feature embedding[C]//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando, Florida, USA: ACM, 2014: 675-678.[DOI: 10.1145/2647868.2654889]
  • [23] Kendall A, Badrinarayanan V, Cipolla R. Bayesian SegNet: model uncertainty in deep convolutional encoder-decoder architectures for scene understanding[C]//Proceedings of 2017 British Machine Vision Conference, London, UK, BMVA press, 2017
  • [24] Kundu A, Vineet V, Koltun V. Feature space optimization for semantic video segmentation[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 3168-3175.[DOI: 10.1109/CVPR.2016.345]
  • [25] Wang Y H, Liu J, Li Y, et al. Hierarchically supervised deconvolutional network for semantic video segmentation[J]. Pattern Recognition, 2017, 64: 437–445. [DOI:10.1016/j.patcog.2016.09.046]
  • [26] Tran D, Bourdev L, Fergus R, et al. Deep end2end voxel2voxel prediction[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Las Vegas, NV, USA: IEEE, 2016: 402-409.[DOI: 10.1109/CVPRW.2016.57]