发布时间: 2020-06-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190355
2020 | Volume 25 | Number 6

综述

深度卷积神经网络图像语义分割研究进展

青晨, 禹晶, 肖创柏, 段娟

北京工业大学信息学部, 北京 100124

收稿日期: 2019-07-29; 修回日期: 2019-11-08; 预印本日期: 2019-11-15

基金项目: 北京市教育委员会科技发展计划项目（KM201910005029）；北京市自然科学基金项目（4172002，4172012）

第一作者简介: 青晨, 1995年生, 女, 硕士研究生, 主要研究方向为深度学习和计算机视觉。E-mail:aini2929@qq.com;
禹晶, 女, 博士, 主要研究方向为图像逆问题、稀疏表示和深度学习。E-mail:jing.yu@bjut.edu.cn;
段娟, 女, 副教授, 主要研究方向为数字图像处理、计算机图形学和计算机视觉。E-mail:duanjuan@bjut.edu.cn.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2020)06-1069-22

摘要

在计算机视觉领域中，语义分割是场景解析和行为识别的关键任务，基于深度卷积神经网络的图像语义分割方法已经取得突破性进展。语义分割的任务是对图像中的每一个像素分配所属的类别标签，属于像素级的图像理解。目标检测仅定位目标的边界框，而语义分割需要分割出图像中的目标。本文首先分析和描述了语义分割领域存在的困难和挑战，介绍了语义分割算法性能评价的常用数据集和客观评测指标。然后，归纳和总结了现阶段主流的基于深度卷积神经网络的图像语义分割方法的国内外研究现状，依据网络训练是否需要像素级的标注图像，将现有方法分为基于监督学习的语义分割和基于弱监督学习的语义分割两类，详细阐述并分析这两类方法各自的优势和不足。本文在PASCAL VOC（pattern analysis，statistical modelling and computational learning visual object classes）2012数据集上比较了部分监督学习和弱监督学习的语义分割模型，并给出了监督学习模型和弱监督学习模型中的最优方法，以及对应的MIoU（mean intersection-over-union）。最后，指出了图像语义分割领域未来可能的热点方向。

关键词

语义分割; 卷积神经网络; 监督学习; 弱监督学习

Deep convolutional neural network for semantic image segmentation

Qing Chen, Yu Jing, Xiao Chuangbai, Duan Juan

Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China

Supported by: Scientific Research Common Program of Beijing Municipal Commission of Education (KM201910005029); Beijing Municipal Natural Science Foundation (4172002, 4172012)

Abstract

Semantic segmentation is a fundamental task in computer vision applications, such as scene analysis and behavior recognition. The recent years have witnessed significant progress in semantic image segmentation based on deep convolutional neural network(DCNN). Semantic segmentation is a type of pixel-level image understanding with the objective of assigning a semantic label for each pixel of a given image. Object detection only locates the bounding box of the object, while the task of semantic segmentation is to segment an image into several meaningful objects and then assign a specific semantic label to each object. The difficulty of image semantic segmentation mostly originates from three aspects: object, category, and background. From the perspective of objects, when an object is in different lighting, angle of view, and distance, or when it is still or moving, the image taken will significantly differ. Occlusion may also occur between adjacent objects. In terms of categories, objects from the same category have dissimilarities and objects from different categories have similarities. From the background perspective, a simple background helps output accurate semantic segmentation results, but the background of real scenes is complex. In this study, we provide a systematic review of recent advances in DCNN methods for semantic segmentation. In this paper, we first discuss the difficulties and challenges in semantic segmentation and provide datasets and quantitative metrics for evaluating the performance of these methods. Then, we detail how recent CNN-based semantic segmentation methods work and analyze their strengths and limitations. According to whether to use pixel-level labeled images to train the network, these methods are grouped into two categories: supervised and weakly supervised learning-based semantic segmentation. Supervised semantic segmentation requires pixel-level annotations. By contrast, weakly supervised semantic segmentation aims to segment images by class labels, bounding boxes, and scribbles. In this study, we divide supervised semantic segmentation models into four groups: encoder-decoder methods, feature map-based methods, probability map-based methods, and various strategies. In an encoder-decoder network, an encoder module gradually reduces feature maps and captures high semantic information, while a decoder module gradually recovers spatial information. At present, most state-of-the-art deep CNN for semantic segmentation originate from a common forerunner, i.e., the fully convolutional network (FCN), which is an encoder-decoder network. FCN transforms existing and well-known classification models, such as AlexNet, visual geometry group 16-layer net (VGG16), GoogLeNet, and ResNet, into fully convolutional models by replacing fully connected layers with convolutional ones to output spatial maps instead of classification scores. Such maps are upsampled using deconvolutions to produce dense per-pixel labeled outputs. A feature map-based method aims to take complete advantage of the context information of a feature map, including its spatial context (position) and scale context (size), facilitating the segmentation and parsing of an image. These methods obtain the spatial and scale contexts by increasing the receptive field and fusing multiscale information, effectively improving the performance of the network. Some models, such as the pyramid scene parsing network or Deeplab v3, perform spatial pyramid pooling at several different scales (including image-level pooling) or apply several parallel atrous convolutions with different rates. These models have presented promising results by involving the spatial and scale contexts. A probability map-based method combines the semantic context (probability) and the spatial context (location) with postprocess probability score maps and semantic label predictions primarily through the use of a probabilistic graph model. A probabilistic graph is a probabilistic model that uses a graph to present conditional dependence between random variables. It is the combination of probability and graph theories. Probabilistic graph models have several types, such as conditional random fields (CRFs), Markov random fields, and Bayesian networks. Object boundary is refined and network performance is improved by establishing semantic relationships between pixels. This family of approaches typically includes CRF-recurrent neural networks, deep parsing networks, and EncNet. Some methods combine two or more of the aforementioned strategies to significantly improve the segmentation performance of a network, such as a global convolutional network, DeepLab v1, DeepLab v2, DeepLab v3+, and a discriminative feature network. In accordance with the type of weak supervision used by a training network, weakly supervised semantic segmentation methods are divided into four groups: class label-based, bounding box-based, scribble-based, and various forms of annotations. Class-label annotations only indicate the presence of an object. Thus, the substantial problem in class label-based methods is accurately assigning image-level labels to their corresponding pixels. In general, this problem can be solved by using the multiple instance learning-based strategy to train models for semantic segmentation or adopting an alternative training procedure based on the expectation-maximization algorithm to dynamically predict semantic foreground and background pixels. A recent work attempted to increase the quality of an object localization map by integrating a seed region growing technique into the segmentation network, significantly increasing pixel accuracy. Bounding box-based methods use bounding boxes and class labels as supervision information. By using region proposal methods and the traditional image segmentation theory to generate candidate segmentation masks, a convolutional network is trained under the supervision of these approximate segmentation masks. BoxSup proposes a recursive training procedure wherein a convolutional network is trained under the supervision of segment object proposals. In turn, the updated network improves the segmentation mask used for training. Scribble-supervised training methods apply a graphical model to propagate information from scribbles to unmarked pixels on the basis of spatial constraints, appearance, and semantic content, accounting for two tasks. The first task is to propagate the class labels from scribbles to other pixels and fully annotate an image. The second task is to learn a convolutional network for semantic segmentation. We compare some semantic segmentation methods of supervised learning and weakly supervised learning on the PASCAL VOC (pattern analysis, statistical modelling and computational learning visual object classes) 2012 dataset. We also give the optimal methods of supervised learning methools and wedakly supervised learning methods, and the corresponding MIoU(mean intersection-over-union). Lastly, we present related research areas, including video semantic segmentation, 3D dataset semantic segmentation, real-time semantic segmentation, and instance segmentation. Image semantic segmentation is a popular topic in the fields of computer vision and artificial intelligence. Many applications require accurate and efficient segmentation models, e.g., autonomous driving, indoor navigation, and smart medicine. Thus, further work should be conducted on semantic segmentation to improve the accuracy of object boundaries and the performance of semantic segmentation.

Key words

semantic segmentation; convolutional neural network (CNN); supervised learning; weakly supervised learning

0 引言

语义分割是像素级的图像理解，即对图像中的每一个像素标注所属的类别，任务是将图像分割成若干个有意义的目标，并为各个目标分配指定类型标签。语义分割对图像中的每一个像素标注所属的类别，是计算机视觉领域中场景解析和行为识别的关键任务。语义分割的应用领域非常广泛，例如，在地理信息系统领域，通过训练神经网络可以自动识别卫星遥感影像中的道路、河流、庄稼和建筑物等；在智能车辆领域，将车载摄像头或激光雷达探查的图像输入神经网络，可以自动分割图像，对不同的目标进行识别，以避让行人和车辆等障碍物；在智能医疗领域，语义分割可以应用于肿瘤图像分割和龋齿诊断等；在日常生活领域，通过对人体图像的分割可以定位出人脸、躯干、着装等信息，从而实现自动试衣等功能。

传统的图像分割算法根据图像的颜色、纹理信息和空间结构等特征将图像分割成不同的区域，同一区域内具有一致的语义信息，不同区域之间属性不同。从最简单的阈值分割、区域生长、边缘检测到图划分(graph partitioning)的分割方法，图像分割算法层出不穷。其中，归一化分割(normalized cut)(Shi和Malik，2000)和GrabCut(Rother等，2004)是两种基于图划分的经典分割方法。归一化分割利用图论中的最小分割算法对图像进行语义分割；GrabCut则是一种交互式图像分割方法，利用图像纹理和边界信息，只需少量的用户交互操作即可获得较好的前景与背景分割结果。传统的图像分割算法由于没有数据训练阶段，虽然计算复杂度不高，但是在较困难的分割任务(不提供人为辅助信息)上，分割性能的提升空间有限。

Hinton和Salakhutdinov(2006)提出了深度学习的概念，利用多层神经网络从大量训练数据中自动学习高层特征。与Haar、局部二值模式(local binary patterns, LBP)、梯度方向直方图(histogram of oriented gradient, HOG)、尺度不变特征变换(scale invariant feature transform, SIFT)等传统手工设计的特征相比，深度卷积神经网络(deep convolutional neural network，DCNN)学习的特征更加丰富、表达能力更强(Krizhevsky等，2012)。深度学习已经广泛应用于各种各样的计算机视觉任务。在大量标注训练集的监督训练下，基于深度卷积神经网络的静态图像分类和目标检测已经取得了显著成果。随着分类网络性能的不断提高，研究学者开始关注解决像素级标注问题的语义分割。与传统的图像分割方法相比，基于深度学习的语义分割方法是从数据中自动学习特征，而非采用手工设计的特征，利用深度神经网络就可以实现端到端的语义分割预测。

图像语义分割的难点主要来自3个方面，即目标、类别和背景。在目标方面，同一目标在不同光照、视角、距离的条件下或者静止和运动时，拍摄的图像会明显不同，并且相邻目标之间也可能产生遮挡现象。在类别方面，同类目标之间存在相异性，而不同类目标之间存在相似性的问题。在背景方面，一般简单的背景有助于实现图像的语义分割，但实际场景中的背景是复杂的(黄凯奇等，2014)。

Garcia-Garcia等人(2018)、Lateef和Ruichek(2019)、Geng等人(2018)以及田萱等人(2019)的综述分别对基于深度学习的图像语义分割方法进行了较为系统的总结和分析。然而，Garcia-Garcia等人(2018)、Lateef和Ruichek(2019)以及Geng等人(2018)都是主要对基于监督学习的图像语义分割方法进行总结，田萱等人(2019)由于涉及的方向较为广泛，以至对每一类方法的描述较为简略。本文对前人工作进行了扩充和完善，同时增加了新的方法。根据语义分割模型的特性，从基于监督学习与弱监督学习两个方面对基于深度卷积神经网络的图像语义分割方法进行了归纳和总结，详细描述了每种方法的创新工作并分析了存在的问题。此外，介绍了语义分割存在的问题与挑战，以及语义分割算法性能评价的常用数据集和客观评测指标，最后指出了语义分割领域未来的研究方向。

1 常用数据集与客观评测指标

1.1 常用数据集

1) PASCAL VOC(pattern analysis, statistical modelling and computational learning visual object classes)2012。PASCAL VOC是计算机视觉领域目标分类、识别和检测的挑战赛，提供检测算法和网络学习性能的标准标注数据集和评估系统。

PASCAL VOC 2012数据集中训练集、验证集、测试集分别包括1 464、1 449、1 452幅图像，共有21个类别，包括人类、动物(鸟、猫、牛、狗、马、羊)、交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车)、室内物品(瓶子、椅子、餐桌、盆栽植物、沙发、电视)和背景，图 1(a)是该数据集的一幅图像的标注图。

图 1 不同数据集的标注图像示意图

Fig. 1 Annotated samples from different datasets((a) PASCAL VOC 2012; (b) MS COCO 201; (c) KITTI; (d) PASCAL-Part; (e) Cityscapes; (f) CamVid; (g) ADE20K; (h) NYUD v2; (i) SUN-RGBD)

2) MS COCO(microsoft common objects in context)2015。MS COCO数据集是一个大型的目标检测和语义分割的标注数据集，主要用于场景解析。

MS COCO 2015数据集中训练集、验证集、测试集分别包括165 482、81 208、81 434幅图像，共有91个类别，包括人类、自行车、汽车、摩托车、飞机、公交车、火车、卡车、轮船、交通信号灯和停车标志等。MS COCO数据集中的图像主要从复杂的日常场景中截取，并对图像中的目标进行准确分割和位置标定。该数据集主要解决目标检测、目标之间的上下文关系和2维平面上目标的精确定位问题，图 1(b)是该数据集中一幅图像的标注图。

3) KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute)。KITTI是移动机器人和自动驾驶领域用于车载环境下立体图像、光流、视觉测距、3D目标检测和3D跟踪等计算机视觉技术性能评测的数据集。

KITTI数据集由389对立体图像和光流图、39.2 km视觉测距序列和超过200 000幅带有3D标注目标的图像组成，11个类别，包括建筑物、树、天空、汽车、信号牌、道路、行人、围栏、杆、人行道和自行车。KITTI数据集包含了市区、乡村和高速公路等场景的真实图像数据，每幅图像中最多有15辆车和30个行人，以及各种程度的遮挡，图 1(c)是该数据集中图像的标注图。

4) PASCAL-Part。PASCAL-Part是PASCAL VOC 2010数据集的一组附加标注数据集，为目标的每个部位提供了分割模板。

PASCAL-Part数据集中训练集和验证集共10 103幅，测试集9 637幅。该数据集还为目标提供轮廓标注，例如，将汽车分解为车前门、后视镜、车前窗和车轮等，图 1(d)是该数据集的分段注释。

5) Cityscapes。Cityscapes是从50个不同城市的街道场景中收集的5 000幅高质量图像的像素级标注的大型数据集。

Cityscapes数据集中训练集、验证集和测试集分别由2 975、500和1 525幅图像构成，7个类别，包括地面、建筑、道路标志、自然、天空、人和车辆。该数据集还提供了20 000幅粗分割的图像，用于训练基于弱监督学习的分类网络的性能。图 1(e)是该数据集中图像的标注图。

6) CamVid(Cambridge-driving labeled video database)。CamVid是最早应用于自动驾驶领域的语义分割数据集。最初在汽车的仪表盘上拍摄了分辨率为960×720像素的5个视频序列，拍摄视角与司机视角基本一致。利用图像标注软件在视频序列中连续标注了700幅图像，包括建筑物、墙壁、树、植被、人行道、红绿灯、天空、道路、行人、骑手、摩托车、汽车、卡车和公共汽车等32个类别，图 1(f)是该数据集中一幅图像的标注图。

7) ADE20K。ADE20K数据集用于场景解析、语义分割、目标识别和语义理解等任务，包括室内和室外场景中的150个类别，训练集和验证集分别包括20 210和2 000幅图像，测试集暂未发布。该数据集通过验证集评估算法的性能，图 1(g)是该数据集中一幅图像的标注图。

8) sift flow。sift flow数据集中的训练集包括街道、公路、森林、山脉、城市、乡村、海滩和建筑等8种不同户外场景的2 688幅图像，每幅图像的分辨率为256×256像素，包括建筑、大巴车、小汽车、十字路口、草、山、人、植物、杆、河流、公路、人行道、指示牌、天空、路灯、树和窗户等33个类别。验证集和测试集暂未发布。

9) NYUD v2(New York University depth dataset v2)。NYUD v2数据集包括由微软kinect设备捕获的1 449幅室内RGB-D图像，包括3个城市的464种室内场景，分为RGB图像集、深度图像集和RGB-D图像集，共包括室内目标的40个类别。训练集、验证集、测试集分别包括795、414、654幅图像。由于该数据集包含了较多室内场景，可以用于家庭机器人的训练任务。但是，NYUD v2数据集相对于其他数据集规模较小，限制了在深度神经网络中的应用范围。图 1(h)是该数据集中一幅图像的标注图。

10) SUN-RGBD(scene understanding-RGBD)。SUN-RGBD数据集包括10 000幅RGB-D图像、146 617个多边形标注、58 657个目标边框标注和大量的空间布局信息和类别信息，共800个类别，包括墙、地板、橱柜、床、椅子、沙发、桌子、窗户、衣服、电视和人等，主要适用于场景理解任务。训练集、验证集、测试集分别包括2 666、2 619、5 050幅图像。图 1(i)是该数据集中图像的标注图。

1.2 客观评测指标

为了衡量语义分割算法的性能，需要使用通用的客观评测指标来保证算法评价的公正性。运行时间、显存占用和准确率是3种常用的算法评测指标。算法应用环境及测试目的不同，算法评价的标准也不同。例如，对于实时的语义分割算法可以在一定范围内损失准确率以提高运算速度。而对于通用算法，有必要提高所有的度量性能。

1) 运行时间。神经网络运行的时间包括网络模型的训练时间和测试时间。大多数算法需要实时预测分割结果。在某些情况下，提供算法确切的运行时间可能比较困难，因为运行时间非常依赖硬件设备及后台实现。然而，提供算法运行硬件的信息及运行时间有利于评估方法的有效性，以及在保证相同环境的条件下测试最快的执行方法。

2) 显存占用。数据的规模对神经网络模型的训练至关重要，因此训练神经网络模型需要高性能的硬件设施和软件实现。图形处理单元(graphics processing unit, GPU)具有高度并行特性以及高内存带宽，但是相比于传统的中央处理器(central processing unit, CPU)，时钟速度更慢以及处理分支运算的能力较弱。在某些情况下，对于操作系统及机器人平台，其显存资源相比高性能服务器并不具优势，即使是加速深度网络的GPU，显存资源也相对有限。因此，在运行时间相同的情况下，记录算法运行状态下显存占用的极值和均值都很有意义。

3) 准确率。像素准确率(pixel accuracy, PA)是指分类正确的像素占总像素的比例，而当测试集出现类别不均衡(不同类别的样本数量差别很大)情况时，像素准确率并不能客观反映模型性能。因此定义平均像素准确率(mean pixel accuracy，MPA)和平均交并比(mean intersection-over-union，MIoU)两种评测指标，其中平均交并比是最重要的性能评测指标，更能反映模型的准确程度。

假设一共有$c+1$个类别(包括一个背景类)，记$p_{ij}$是将$i$类预测为$j$类的像素数，换句话说，$p_{ii}$表示正确预测的正样本的像素数(true positives)；$p_{ij}$和$p_{ji}$分别表示错误预测的正样本的像素数(false positives)和错误预测的负样本的像素数(false negatives)。像素准确率是分类正确的像素占总像素的比例，可表示为

$ P=\frac{{\sum\limits^c_{i=0}p_{ii}}}{{\sum\limits^c_{i=0}\sum\limits^c_{j=0}p_{ij}}} $

(1)

平均像素准确率计算每个类内准确分类像素数的比例，再求所有类的平均，可表示为

$ \bar P= \frac{{1}}{{c+1}}\sum\limits^c_{i=0} \frac{{p_{ii}}}{{\sum\limits^c_{j=0}p_{ij}}} $

(2)

平均交并比是语义分割性能的标准度量值，计算正确预测的正样本(真实值与预测值这两个集合的交集)与正确预测的正样本、错误预测的正样本和错误预测的负样本之和(并集)的比值，可表示为

$ R_{{\rm MIoU}}= \frac{{1}}{{c+1}}\sum\limits^c_{i=0} \frac{{p_{ii}}}{{\sum\limits^c_{j=0, j≠i}(p_{ij}+p_{ji})+p_{ii}}} $

(3)

2 基于监督学习的语义分割模型

基于监督学习的语义分割问题是指预先标注训练图像的每一个像素，再利用标注好的数据集训练语义分割网络。因此，需要利用大量人工标注的数据来训练网络。2015年，Long等人(2015)提出了全卷积网络(fully convolutional networks, FCN)，改进了现有的分类网络，利用卷积层替换全连接层(fully-connected layer)，从而获得像素级的语义标注。此后，研究学者在全卷积网络的基础上，提出了多种高性能的语义分割网络模型。本文将基于监督学习的语义分割模型大致分为4类，即基于解码器的方法、基于特征图的方法、基于概率图的方法和多种策略结合的方法。

2.1 基于解码器的方法

在基于解码器结构的网络中，编码的过程是将图像输入一个预训练的分类网络生成低分辨率的特征图，而解码的过程是通过上采样将低分辨率的特征图映射到原图像尺寸，产生像素级的语义标签，从而获得语义分割的结果。解码器的输出是一个表示图像类别标签(class label)的矩阵，矩阵中每一个元素的值与像素所属的类别相对应。

Long等人(2015)提出的全卷积网络使得卷积神经网络不需要全连接层就可以实现像素级的图像分割，并且可以对任意尺寸的输入图像实现端到端的预测。如图 2所示，全卷积网络将传统的卷积神经网络中最后3个全连接层替换为卷积层，输出一个类别标记矩阵，实现像素到像素的映射。

图 2 全卷积网络示意图

Fig. 2 An illustration of FCN

由于全卷积网络不使用全连接层，因此不受全连接层参数的限制，可以输入任意尺寸的图像。在编码器提取图像特征后，为了恢复特征图的空间维度，全卷积网络对每层的特征图利用双线性插值进行上采样，然后逐像素分类，生成与输入图像尺寸相同的分割结果。由于池化操作造成的信息损失，通过简单的上采样只能获得粗略的分割结果，因此该方法融合了多分辨率的信息，即对不同尺寸的特征图分别上采样后进行特征融合，从而获得更准确的分割结果。虽然全卷积网络融合了多分辨率信息，但是通过简单的双线性插值得到的分割结果仍较为模糊和粗糙，无法完整地还原图像中的细节信息。

Ronneberger等人(2015)对FCN结构进行改进，提出了一种具有对称编码器—解码器结构的U-Net。编码器部分与FCN相似，通过卷积与池化操作提取特征，而在解码器部分中，U-Net将编码器每一层输出的特征图与对应的解码器生成的特征图相融合，即将深层语义特征与细粒度的浅层细节特征相结合，从而生成更准确的分割图像。

Noh等人(2015)指出了全卷积网络存在的两个明显问题：一是由于网络预定义了感受域(receptive field)的大小，所以大于或者小于感受域的目标，可能被分裂或者错误标记；二是由于上采样操作(双线性插值)过于简单，使得目标的细节信息丢失或者被平滑处理。为了解决上述问题，Noh等人(2015)提出了一种对称的语义分割网络模型DeconvNet(deconvolution network)，编码器部分采用VGG16(visual geometry group 16-layer net)网络，解码器部分由多层转置卷积网络代替简单的上采样操作，生成比全卷积网络更准确的分割图。多层转置卷积网络包括上池化层(unpooling layers)和转置卷积层(deconvolution layers)。在池化过程中利用切换变量(switch variables)记录最大池化操作确定的最大激活值的位置，然后上池化层利用转换变量将最大激活值映射回原来的位置，从而恢复图像的空间分辨率，其他像素值用0填充，生成稀疏的特征图。再利用转置卷积层将稀疏的特征图转换为稠密的特征图。在转置卷积网络中，浅层的转置卷积层确定目标的位置和形状等粗略信息，深层的转置卷积层编码特定类别的细节信息，这样就可以解决目标过大或者过小带来的分割问题。

Badrinarayanan等人(2017)提出的SegNet是一种旨在应用于智能驾驶和机器人领域的语义分割模型，主要以道路场景理解为动机，具有对外观(道路、建筑物)和形状(汽车、行人)建模的能力，能够学习不同类别(如道路和人行道)之间的上下文关系。如图 3所示，SegNet由编码器网络和相应的解码器网络组成。编码器部分采用VGG16网络的前13层卷积网络，解码器部分由上采样层和卷积层组合形成，每一个编码器层都对应一个解码器层。图中蓝色层代表卷积层、批归一化层(batch normalization)和ReLU层，绿色层代表池化层，红色层代表上采样层，黄色层代表softmax分类器。在解码器网络中，最后一个解码器生成一幅多通道的特征图，再输入softmax分类器对每一个像素进行分类，与FCN的最大区别是解码器的上采样方法。SegNet与DeconvNet一样采用记录最大池化索引的方法恢复目标的细节信息。SegNet编码器中的池化层存储特征图的最大池化索引，解码器层使用对应编码器层存储的索引值来上采样对应的特征图，将最大池化索引对应的激活值准确映射到原来的位置。相比于DeconvNet，SegNet去掉了全连接层，减少了参与训练的参数数量，从而提高了预测结果的效率。同时，SegNet增加了批归一化操作，加快了网络的收敛速度并抑制了过拟合现象。虽然SegNet在一定程度上提高了预测结果的准确率，但是目标边界的分割精度仍然有待提高。

图 3 SegNet结构示意图

Fig. 3 An illustration of the SegNet architecture

Chaurasia和Culurciello(2017)提出了一种实时的语义分割网络LinkNet。Deconvnet和SegNet利用池化索引来恢复下采样时丢失的空间信息，而LinkNet将空间信息从编码器直接传递到对应的解码器中，最大程度地保留了图像的空间信息。如图 4所示，该方法将编码模块中浅层特征图直接连接到对应尺寸的解码模块上，即每个编码模块的输出作为对应解码模块的输入，这样既利用了浅层精确的位置信息，又没有增加多余的参数和计算，因此在保证准确率的前提下提高了计算速度。实验结果验证，在TX1和TitanX等嵌入式平台上可达到实时分割的效果。

图 4 LinkNet结构示意图

Fig. 4 An illustration of the LinkNet architecture

2.2 基于特征图的方法

基于特征图的方法主要结合了特征图的上下文信息，包括特征图的空间上下文(位置)和尺度上下文(尺寸)，有助于对图像的分割与解析。这类方法通过增大感受域和融合多尺度可以获得空间上下文和尺度上下文，能够有效提升网络的分割性能。

以FCN和SegNet为代表的语义分割模型都利用卷积结合池化操作提取特征。池化的目的是缩小图像尺寸、降低计算量和避免过拟合。由于语义分割需要得到像素级的预测，所以需要进行上采样操作，使输出图像的尺寸与输入图像的尺寸保持一致。经过了下采样和上采样操作，图像丢失了大部分信息，使得语义分割的精度下降。Yu和Koltun(2016)提出使用膨胀卷积(dilated convolution)来代替池化层和上采样层。膨胀卷积是通过在卷积核之间填充固定数量的0元素，达到在不增加卷积核参数数量的情况下使卷积核的感受域增大，并结合了图像的空间上下文。但由于膨胀卷积使得卷积核不连续，损失了图像连续性信息，因此不利于小目标的分割。为了解决上述问题并结合空间上下文，DeepLab v3(Chen等，2017)改进了空洞空间金字塔池化(atrous spatial pyramid pooling，ASPP)模型，使用不同扩张率的多个并行的空洞卷积层实现多尺度处理。如图 5所示，该网络使用扩张率分别为1、6、12和18的并行空洞卷积层实现多尺度处理，并添加了全局平均池化(global average pooling，GAP)，将图像级特征整合到模型中，大幅度提升了模型的分割性能。

图 5 DeepLab v3结构示意图

Fig. 5 An illustration of the DeepLab v3 architecture

在常见的分类网络中，网络深层提取低分辨率的全局信息，浅层提取高分辨率的细节信息。Lin等人(2017)提出的RefineNet不仅利用了深层和浅层提取的信息，还利用了中间层的信息。如图 6所示，根据特征图的分辨率分成4个RefineNet模块，即RefineNet-1、RefineNet-2、RefineNet-3、RefineNet-4，然后将4个模块分别作为4条通路(path)融合不同分辨率的特征图，生成最终的特征图。RefineNet模块由残差卷积单元(residual convolution unit)、多分辨率融合(multi-resolution fusion)和链式残差池化(chained residual pooling)组成，该模块的作用是融合不同分辨率的特征图。RefineNet将粗糙的深层语义特征和细粒度的浅层细节特征相结合，并有效地融合了下采样中缺失的信息，从而生成高分辨率的预测分割图。但由于该网络模型中的参数较多，需要更长的训练时间。RefineNet与DeepLab v3均利用了多尺度的方法，不同之处在于DeepLab v3是对输入图像进行多尺度的空洞卷积后进行特征融合，而RefineNet是对不同尺寸的输入图像进行特征提取后融合。

图 6 RefineNet结构示意图

Fig. 6 An illustration of the RefineNet architecture

对城市场景的解析可应用于众多领域，尤其是自动驾驶领域。目前大多数场景解析方法采用通用的图像解析模型，对图像中所有位置和不同尺寸的目标采用相同的方法进行分割，忽略了图像的几何特性。因此，这些方法会受到由相机透视投影作用带来的影响，导致难以解析远处小尺寸目标和无法完整识别近处大尺寸目标。Li等人(2017)提出了一种FoveaNet模型，充分利用场景图像的透视几何特性，解决了通用解析模型(parsing module)的常见问题。如图 7所示，FoveaNet由透视引导解析网络(perspective-aware parsing network)和透视引导条件随机场(perspective-aware CRF)组成，对不同尺寸的目标采用不同的解析方法。该模型利用透视估计网络(perspective estimation network)生成透视图(perspective map)来推断图像的全局透视几何。透视图中，中心亮度最高的区域表示小尺寸目标聚集的区域。FoveaNet利用透视图中的最大响应(透视图中的中心亮度最高的区域)定位一个中央凹区域(fovea region)，中央凹区域的尺寸设定为透视图尺寸的1/2。中央凹区域将远处的小尺寸目标聚集在一起。然后对中央凹区域的尺寸标准化，通过中央凹分支(fovea branch)产生更精细的解析。然后与一个粗分支的解析结果进行融合，生成最终的预测结果。将预测结果、透视图以及目标检测结果输入透视引导条件随机场，最终得到解析结果。透视引导条件随机场解决了近处大尺寸目标区域不完整的问题，结合透视图和目标检测技术，使属于近处目标的像素有更大的势能，属于远处目标的像素有更小的势能，有效缓解了目标区域不完整和过度平滑的问题。使用两个城市场景解析数据集Cityscapes和CamVid对FoveaNet进行验证，相比于之前的方法，FoveaNet的性能更优，能够充分利用不同的空间信息对场景进行整体理解。

图 7 FoveaNet整体架构

Fig. 7 Architecture overview of FoveaNet

多尺度信息对于提高语义分割的精度也非常重要，结合图像的尺度上下文，多尺度的感受域可以学习不同尺寸目标的信息。例如，全局的场景分类能够提供图像语义分割的类别分布信息，金字塔池化模型(pyramid pooling module)通过使用较大卷积核的池化层获取类别分布信息。Zhao等人(2017)提出了一种能够获取全局场景信息的空间金字塔池化网络(pyramid scene parsing network, PSPNet)。如图 8所示，利用卷积神经网络(convolutional neural network，CNN)模型提取输入图像的特征，将特征图送入金字塔池化模型。为了提取图像的多尺度信息，使任意尺寸的特征图转换成固定长度的特征向量，该模型融合了4种并行的不同尺度的池化特征。为了提取全局特征，在每个尺度的池化操作后使用$1×1$的卷积将对应级别的通道降为原来的1/4，再通过双线性插值还原到未池化之前的尺寸，与池化前的特征图相连接。最后通过一个卷积层生成最终预测结果。空间金字塔池化模型融合了局部和全局信息，利用不同的空间信息来对场景进行整体理解。

图 8 PSPNet整体架构

Fig. 8 Architecture overview of PSPNet

DenseASPP(Yang等，2018)将DeepLab v3(Chen等，2017)提出的ASPP与DenseNet(Huang等，2017)中的稠密连接相结合，构成了一个稠密的特征金字塔。该网络中的每一个空洞卷积层的输出均与输入该层的特征图在通道方向级联，然后将级联后的特征图送入下一个卷积层。在DenseASPP中，每一条通路会生成相应尺度的特征图，其中每一层都会与其前面层的多个不同尺度的特征进行融合，从而获得更大范围和尺度的感受域。感受域的扩大为高分辨率图像中的大尺寸目标的分割提供了更多的上下文信息。

超像素是由图像中一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域，这些小区域基本保留了进一步进行图像分割的有效信息，并且一般不会破坏目标的边界信息。Mostajabi等人(2014)采用VGG16网络(Simonyan和Zisserman，2015)以超像素为基本单元提取图像特征，然后将特征输入CNN分类器，分类器的输出是每一个超像素的类别。对每一个超像素生成4种不同空间级别的特征，即局部特征、近邻特征、远邻特征和全局特征，将4种特征相连接得到该超像素最终的特征向量，然后将其送入CNN分类器，从而对每一个超像素进行分类，分类器的输出是各个超像素的类别。该方法将像素级的语义分割问题转化为基于超像素的分类问题，结合了超像素的空间上下文信息，提取的图像特征同时兼顾了局部信息和全局信息。但是当一个超像素处在目标边界时，该超像素可能包含多种类别的像素，会影响网络的分类结果，并且由于该方法生成的超像素尺寸近似相等且形状规则，因此对目标边缘的分割仍较为粗糙。

2.3 基于概率图的方法

基于概率图的方法结合语义上下文(概率)和空间上下文(位置)信息，对网络输出的类别标签矩阵进行后处理。在概率图模型中，将每一个像素作为节点，像素之间的概率关系作为边，通过建立像素之间的语义关系，细化分割目标的边界，提高分割的精度。常用的概率图模型有条件随机场(conditional random fields，CRF)、马尔可夫随机场(Markov random fields，MRF)和贝叶斯网络。

条件随机场方法利用语义上下文和空间上下文来提高分割准确率。CRF考虑像素之间的局部特性，即相邻像素属于同一类别的概率更高。CRF基于概率论和图论，并结合了最大熵马尔可夫模型(maximum entropy Markov models, MEMM)和隐马尔可夫模型(hidden Markov models, HMM)的优点，具有表达长距离依赖性和交叠性特征的能力，能够较好地解决标注偏置问题(label bias problem)，以及表达上下文信息和语义信息的能力。在特征图上为每一个像素分配语义标签，将语义标签作为随机变量，利用CRF对语义标签建模，使每一个像素都与其他像素之间建立联系，即像素之间有一定的关系。在利用CRF技术的一系列方法中，DeepLab系列模型(Chen等，2016, 2018a)最具代表性。

Zheng等人(2015)提出的CRFasRNN模型实现了端到端的预测。该模型由CNN和基于CRF的概率图模型组成，将CRF的求解推理步骤设计为循环神经网络(recurrent neural networks，RNN)的结构，称为CRF-RNN。再将CRF-RNN嵌入到CNN中，将分割和后处理合并为端到端的模型，使模型可以同时优化这两个阶段的参数，达到了算法之间真正的融合，降低了预处理和后处理的时间。但由于CRFasRNN使用了概率图模型，导致耗时较长，计算量大，因此不适合用于实时的语义分割任务。

Liu等人(2015)提出了一种端到端的深度解析网络(deep parsing network，DPN)，将CNN与MRF整合为一个整体，共同训练CNN参数以及MRF中的一元项(unary term)和复杂的成对项(pairwise term)。该方法利用MRF获取图像中复杂的上下文信息，用CNN对MRF中的一元项建模，用MRF的附加层对MRF中的成对项建模。MRF将高阶关系(high-order relations)和丰富的语义上下文整合到成对项模型中，能够表示多种类型的成对项。DPN的反向传播过程不需要额外的迭代计算，从而减少了参与计算的参数，提高了网络的分割效率。

Vemulapalli等人(2016)提出了一种端到端的高斯条件随机场(Gaussian conditional random fields，GCRF)网络，将高斯平均场(Gaussian mean field，GMF)网络整合到网络模型中，将CNN网络的输出送入高斯平均场网络，然后通过固定次数的迭代高斯平均场进行推理，从而细化CNN的分割结果。

EncNet(Zhang等，2018)提出了一个上下文编码模块(context encoding module)，利用该模块预测场景中存在的类别，并根据预测的类别对概率图中相应的类别进行加权，相当于加入场景的先验知识。在上下文编码模块中，利用Zhang等人(2017)提出的编码层提取特征图包含的全局上下文信息，预测场景中存在的目标类别。该方法定义了一个语义编码损失(semantic encoding loss, SE-loss)函数，将编码层预测的目标类别与标注类别计算损失，使编码层准确预测图像中存在的类别，然后根据预测的类别进一步约束网络训练。同时，利用编码层获得的语义特征预测一组权重向量，根据场景上下文信息对CNN输出的概率图中的不同类别通道赋予不同的权重，从而使网络在场景类别的监督下对场景目标的预测更准确。该方法提出的上下文编码模块能够作为一个简单的CNN单元兼容到现有的基于FCN的语义分割模型中。

2.4 多种策略结合的方法

基于解码器的方法通过上采样将分类结果映射到原图像尺寸，产生像素级别的语义标签，从而获得语义分割的结果。基于特征图的方法通过空洞卷积、空间金字塔池化和多尺度空洞卷积等获得图像多尺度的感受域，有助于提升网络的分割性能。基于概率图的方法通过对像素的类别概率进行分析，以结构化的方式细化分割目标的边界，提高目标分割的精度。多种策略结合的方法是将上述多种策略相结合，显著提高了网络的分割性能。

Peng等人(2017)提出全局卷积网络(global convolution network，GCN)，结合解码器和多尺度的策略，编码器部分采用ResNet，解码器部分采用GCN和转置卷积。GCN利用大型卷积核代替全连接层和全局平均池化层，保留了特征的位置信息，为了提高对目标边界的定位能力，提出边界优化模块，首先从特征提取网络的不同层提取出多尺度的特征图，然后输入对应的GCN中，经过转置卷积和边界优化模块恢复图像的空间分辨率，使得网络对目标边界的分割更准确。

Lin等人(2016b)利用图像块之间的上下文信息(patch-patch context)和图像块与背景间的上下文信息(patch-background context)，结合多尺度与概率图模型的策略，提出FeatMap-Net模型。为了挖掘图像块之间的局部上下文信息，利用CRF建立相邻图像块间的语义联系，提出分段训练(piecewise training)深层结构化模型来避免反向传播中重复的CRF推理运算。为了挖掘图像块与背景间的局部上下文信息，利用多尺度信息与滑动金字塔池化相结合来提高网络性能。如图 9所示，将3幅不同尺度的输入图像通过卷积模块，每个尺度对应一个特定的卷积模块，然后将各尺度的特征图进行滑动金字塔池化操作，再连接各尺度上采样后的特征图生成最终的特征图。

图 9 FeatMap-Net结构示意图

Fig. 9 An illustration of the FeatMap-Net architecture

Chen等人(2016)提出DeepLab v1，利用空洞卷积(atrous convolution)增加感受域，提高图像分割的精度，再利用全连接的条件随机场细化分割结果。空洞卷积(又称膨胀卷积)在保持空间维度的前提下增大了相应的感受域，但是该模型中的粗分割和细化过程是完全独立的，并不是一个端到端的训练模型。

DeepLab v2(Chen等，2018a)改进了空间金字塔池化模型，在DeepLab v1的基础上增加了多尺度信息，提出空洞空间金字塔池化增加多尺度的感受域。该方法将不同尺度的图像输入到CNN网络的并行分支(空间金字塔模块)中，再使用不同步长的多个并行的空洞卷积层实现多尺度处理，最后用CRF细化分割结果。DeepLab v1和DeepLab v2解决了深度卷积神经网络普遍面临的输出特征图分辨率小、空间信息丢失导致定位精度低以及细节模糊等问题。虽然DeepLab v2的ASPP能捕获到多尺度的信息，但随着步长的增大，接近特征图的尺寸时，滤波器不能捕捉整个图像的空间上下文，$3×3$的空洞卷积会退化为$1×1$的卷积，只有滤波器中心点的权重参与运算。

DeepLab v3+(Chen等，2018b)在DeepLab系列模型的基础上增加了解码器模块，将DeepLab v3作为编码器，利用特征提取网络的低阶细节特征与ASPP输出的高层语义特征融合，进一步保留目标的边界细节信息。同时，DeepLab v3+将深度可分卷积结构(depth-wise separable convolution)添加到ASPP模块和解码器模块中，利用ASPP模块获取图像的上下文信息，利用解码器模块获取目标边界信息，形成更高效的语义分割模型，进一步提升了分割算法的准确度和速度。

由于多尺度金字塔模型在训练时对GPU性能的要求较高，Bilinski和Prisacariu(2018)提出了一个利用稠密的解码器跳跃连接来实现语义分割的网络模型。该网络模型与SegNet结构相似，采用基于解码器的结构，其中每一个编码器层都对应一个解码器层。不同之处在于该方法的解码器中，最后3个解码器层增加了特征融合模块，利用稠密的解码器跳跃连接，使解码器模块融合之前所有解码器模块的语义特征图，并且利用与解码器层对应的编码器层的特征图来细化之前解码器层输出的低分辨率特征图，将深层粗糙的语义信息与浅层的细节信息相结合。该方法将解码器结构与特征融合的策略相结合，在单尺度网络模型的方法中达到了最优结果，并且超过了部分多尺度金字塔模型的性能。

Yu等人(2018)提出的判别特征网络(discriminative feature network，DFN)结合特征融合的策略对解码器结构进行了改进。解码器结构包括解决类内不一致问题的平滑网络和解决类间相似性问题的边界网络。在平滑网络中，将高阶和低阶特征融合来增强类内一致性。高阶特征的分辨率较低但包含了更多的语义信息，低阶特征的分辨率较高并且包含了更多的细节信息。对高阶特征进行上采样操作恢复特征图的空间分辨率，通过高阶语义信息引导低阶特征来增强类内一致性，从而提取更具判别性的特征。在边界网络中，利用深层语义边界监督，增强语义边界两边的特征可区分性，从而提高了网络的类间差异识别能力。

2.5 监督学习的语义分割算法性能分析与比较

为更细致地分析基于监督学习的各类语义分割方法，对各算法的分割性能进行定量比较。

部分基于监督学习的语义分割方法在PASCAL VOC 2012数据集上的性能比较如表 1所示。可以看出，在基于解码器的方法中，DeconvNet(Noh等，2015)的性能最优，在PASCAL VOC 2012数据集上MIoU达到了72.5%。在基于特征图的方法中，DeepLab v3(Chen等，2017)的性能最优，在PASCAL VOC 2012数据集上MIoU达到了85.7%。在基于概率图的方法中，EncNet(Zhang等，2018)的性能最优，在PASCAL VOC 2012数据集上MIoU达到了85.9%。在多种策略结合的方法中，DeepLab v3+(Chen等，2018b)的性能最优，在PASCAL VOC 2012数据集上MIoU达到了89.0%。综合表 1中所有的基于监督学习的语义分割方法，DeepLab v3+在PASCAL VOC 2012数据集上达到了最优性能。

表 1 PASCAL VOC 2012数据集上基于监督学习的语义分割方法性能比较
Table 1 Performance comparison of supervised learning-based semantic segmentation methods on PASCAL VOC 2012 dataset

下载CSV

/%
方法类别	方法名称	MIoU
基于解码器	SegNet(Badrinarayanan等，2017)	59.9
	FCN-8s(Long等，2015)	62.2
	DeconvNet(Noh等，2015)	72.5
基于特征图	RefineNet(Lin等，2017)	84.2
	PSPNet(Zhao等，2017)	85.4
	DeepLab v3(Chen等，2017)	85.7
基于概率图	GCRF-Net(Vemulapalli等，2016)	73.2
	CRF-RNN(Zheng等，2015)	74.7
	DPN(Liu等，2015)	77.5
	EncNet(Zhang等，2018)	85.9
多种策略结合	DeepLab v1(Chen等，2016)	71.6
	FeatMap-Net(Lin等，2016b)	78.0
	DeepLab v2(Chen等，2018a)	79.7
	Bilinski和Prisacariu(2018)	81.6
	GCN(Peng等，2017)	82.2
	DFN(Yu等，2018)	86.2
	DeepLab v3+(Chen等，2018b)	89.0
注：表中数据来自对应文献。

1) 在基于解码器的方法中，解码器部分通过上采样将低分辨率的特征图映射到原图像尺寸，恢复目标的位置信息，从而产生像素级的语义标签。但通过上采样方法得到的分割结果仍较为模糊和粗糙，无法完整地还原图像中的细节信息。2)基于特征图的方法在特征提取过程中通过增大感受域和融合多尺度可以获取空间上下文和尺度上下文信息，从而提取图像的全局特征和多尺度特征，进而能够对不同尺寸目标进行准确分割，有效提升网络的分割性能，但在特征提取过程中容易丢失目标边界的细节信息，导致对目标边界的分割较为模糊。3)基于概率图的方法是在网络输出预测概率的基础上，依据像素之间的语义关系，对分割结果进行后处理，达到细化目标边界的目的。但由于概率图模型较为复杂，导致模型参数较多、计算量过大、训练时间较长、显存占用过多，并且该方法依赖于网络的输出，对网络模型的性能提升有限。

一般情况下，由于基于特征图和概率图的方法利用更多上下文信息在性能上优于基于解码器的方法，但在模型训练和测试过程中耗时较长，无法满足对图像的实时分割。而部分基于解码器的方法，如SegNet和LinkNet分割速度较快，可用于实时图像分割，但分割准确度不如基于特征图和概率图的方法。

3 基于弱监督学习的语义分割模型

基于深度卷积神经网络的语义分割的主流方法都需要依赖大量的标注数据才能训练出好的模型，而监督学习的训练样本更是需要标注一幅图像中的每一个像素，无论从人力还是时间上来讲，标注成本都很高。因此，如何利用弱监督的数据标注来训练语义分割网络成为语义分割领域亟待解决的关键问题。

弱监督学习的语义分割采用比监督学习语义分割任务更弱的一种人工标注作为监督信息。弱监督的标注比像素级的标注更容易获取。

图 10显示了3种不同的弱监督数据标注，这种更弱的人工标注可以是图像目标边框(bounding box)、图像类别标签和草图(scribbles)等。目标检测的任务是对图像中感兴趣的目标进行分类和定位，即给定目标的类别标签和包含目标位置信息的目标边框，因此图像类别标签相对于目标边框是一种弱监督的标注。图像语义分割的任务是对图像中的每一个像素标注所属的类别，因此图像类别标签和目标边框相对于像素级的语义标签是一种弱监督的标注。基于弱监督学习的语义分割具体是指仅利用弱监督的标注信息训练一个语义分割模型，该模型可以预测出图像的语义分割结果。这种弱监督学习的关键问题是如何构建弱监督标注信息与像素点之间的关联。

图 10 弱监督数据标注图示

Fig. 10 An illustration of weakly supervised annotated data ((a) bounding box; (b) class label; (c) scribbles)

基于弱监督学习的语义分割模型按训练网络利用的弱监督信息分为4类，即基于目标边框、基于图像类别标签、基于草图和基于多种标注信息的弱监督语义分割方法。

3.1 基于目标边框的弱监督语义分割方法

基于目标边框的弱监督语义分割方法关键在于构建目标边框与像素语义的关联，可以利用基于深度学习的目标检测方法和传统的图像分割理论来建立两者之间的联系。

Dai等人(2015)提出一种利用目标边框作为监督信息的语义分割网络模型，首先利用多尺度组合分组(multiscale combinatorial grouping，MCG)生成候选的分割模板，并利用生成的分割模板训练FCN模型，更新网络参数。然后通过FCN学习的语义特征估计新的分割模板，并利用新的分割模板训练FCN模型，更新网络参数，一直迭代到模型收敛时停止。该方法的核心思想是通过这种迭代过程不断提升网络的语义分割能力。

Khoreva等人(2017)利用传统的图像分割方法与卷积网络训练相结合，以递归的方式训练CNN网络实现弱监督学习的语义分割。该方法利用Grab cut的改进版本从目标边框中生成分割模板，将生成的分割模板输入CNN网络中进行训练。在每一轮的网络训练中，首先将目标边框外的像素标记为背景像素，然后将目标边框作为目标形状的先验，最后利用生成目标候选区域的方法枚举并排列出目标可能的形状。

3.2 基于图像类别标签的弱监督语义分割方法

基于图像类别标签的弱监督语义分割方法关键在于构建图像类别标签与像素语义的关联。一般可结合多实例学习(multiple instance learning，MIL)、CNN模型和传统的图像分割方法来解决这样的问题。

Pathak等人(2015)将图像类别标签作为对CNN分类器输出的标签分布的约束条件，将训练过程看做约束最优化过程，其中约束条件来自训练数据的类别标签。该方法利用损失函数来约束像素标签分布，并结合图像类别标签，利用随机梯度下降算法进行参数学习。实验中发现仅利用图像类别标签作为限制条件得到的分割效果较差，在PASCAL VOC 2012数据集上MIoU为35.6%，结合目标尺寸的限制条件后能达到45.1%。

Pinheiro和Collobert(2015)利用多实例学习构建图像标签与像素语义的关联，使用ImageNet的弱监督数据标注(仅图像类别标签)训练分割模型。该方法将图像输入CNN模型提取特征，然后将生成的特征图输入一个聚合层(aggregation layer)来约束分割模型，将更多的权重放在分类正确的像素上，最后通过分类正确的图像类别标签来训练模型。在聚合层中，利用凸优化中的平滑函数为具有相同置信分数的像素分配相同的权重，将每个类别的特征图变换为分类任务中每个类别的概率，通过最小化分类的损失函数优化分割模型。在模型的测试阶段移除了聚合层，增加了图像级先验(image-level prior)和平滑先验(smoothing priors)这两种约束层来提高预测准确率。该方法的创新点在于聚合提取的特征，通过提高与图像类别标签一致的像素的置信分数，建立像素级特征与图像级特征之间的联系。

Wei等人(2016a)提出了一个基于候选区域的语义分割方法，利用候选区域生成目标定位图(localization maps)作为监督信息。该方法首先提取目标的候选区域，然后通过一个多标签图像分类网络(hypothesed-CNN-pooling，HCP)(Wei等，2016b)判断出候选区域的类别信息，筛选出具有高置信度的候选区域，利用多实例学习的思想对这些候选区域进行排序。将图像每一个候选区域的特征和其他图像中包含这个类别的候选区域的特征进行距离度量，获取最短距离并求和，统计出与其他标有该类别的图像较近的候选区域。再利用排序后的候选区域对图像的像素进行投票，从而获取包含目标位置信息的定位图。最后利用该定位图作为监督信息来训练语义分割网络。这种基于候选区域的方法存在两个问题，其一，产生候选区域的过程很复杂，从候选区域中提取特征又非常耗时；其二，通过累加的方式进行定位可能会引入大量的背景像素。

Zhou等人(2016)利用全局平均池化生成类别激活映射图(class activation map，CAM)，根据类别激活映射图获取对分类具有判别性(discriminative)的区域。比如一幅分类为自行车的图像，在类别激活映射图上“车轮”和“车把”区域的激活值较大。通过类别激活映射图可以不使用位置标记来定位待识别目标的位置。但这个方法只能找出目标最具判别性的区域，导致定位时容易只定位到目标的一部分。针对上述问题，Durand等人(2017)提出了一种可以识别多个具有判别性区域的弱监督学习方法。该方法首先基于ResNet-101从整幅图像中提取局部特征，然后通过多特征图传输层(multi-map transfer layer)将特征图分解为多通道的特征，每个通道对应一个具有判别性的局部特征；再利用池化操作，融合生成的多通道特征图；最后利用图像级的标注信息训练分割网络。

Wei等人(2017a)提出了一种对抗擦除(adversarial erasing)方法，用来解决目标定位不完整的问题。该方法首先通过类别激活映射获取目标最具判别性的区域而不是目标的整个区域，然后将最具判别性的区域从输入图像中擦除，并利用擦除后的图像训练分类网络来定位其他目标区域。重复此过程，最后融合所有被擦除的区域作为完整的目标区域，生成用于训练语义分割网络的分割模板。由于对抗擦除方法生成的分割模板包含了一些噪声区域和未标注的区域，为了更加有效地训练，提出了一种抑制分割学习(prohibitive segmentation learning，PSL)方法训练语义分割网络。PSL引入了一个多标签分类的分支用于在线预测图像中各个类别的概率值，利用这些概率值调整分割网络分支中每一个像素属于各个类别的概率，并在线生成辅助的分割模板作为监督信息。由于图像级的多标签分类具有较高的准确性，PSL方法利用分类信息来抑制分割图中的虚警区域。随着训练的进行，网络的语义分割能力越来越强，进而在线生成更准确的分割模板，提供更加准确的监督信息。

从网络上获取的图像大致可以分为两类:一类是简单图像，背景干净，只包含单个类别的目标；另一类是复杂图像，背景复杂并包含多类目标。对于简单图像，通过显著图(salience map)可以预测最显著的区域，获取每一个像素属于前景或背景目标的概率。在显著图中，像素值越高的区域越亮，就越可能是感兴趣的目标，同时在已知图像标签的情况下，可以建立图像类别标签与像素的关联。因此，可以利用简单图像的显著图作为监督信息来训练语义分割网络模型。Wei等人(2017b)提出了一个从简单到复杂的框架(simple to complex，STC)，利用图像类别标签和显著图构建像素点与图像类别标签之间的关联，极大地提升了基于图像类别标签语义分割的性能。首先利用显著性检测算法生成简单图像的显著图，再利用多标签损失函数训练出初级深度卷积神经网络(initial DCNN，I-DCNN)，使得网络具备一定的语义分割能力。然后利用I-DCNN与图像类别标签生成简单图像的分割模板，再根据生成的分割模板结合单标签损失函数训练出增强的深度卷积神经网络(enhanced DCNN，E-DCNN)，进一步提升网络的语义分割能力。最后引入更多复杂的图像，结合E-DCNN和图像类别标签生成复杂图像的分割模板，再利用生成的分割模板作为监督信息训练出强大的深度卷积神经网络(powerful DCNN，P-DCNN)。

Roy和Todorovic(2017)将自下而上的神经激活、自上而下的条件概率估计和相同网络层中相邻神经元之间消息的传递这3种不同的计算过程融合到语义分割深层网络结构中。自下而上的神经网络激活计算用于对目标类别的图像级预测；自上而下的条件概率估计用于生成各个目标类的概率注意图(probabilistic attention map)。这3种计算过程通过CRF-RNN网络结构融合起来，生成平滑且保留目标边界的分割图像。该方法首先利用CNN生成各个目标类的分割图，再利用全连接层融合这些像素级预测。相同的CNN层用于生成各个目标类别的注意图。最后结合分割图和注意图在CRF-RNN中迭代细化目标边界和分割图的空间平滑度。

区域生长是一种传统的图像分割方法，一般可分为区域生长和分裂合并两种方式。区域生长是先给定图像中待分割目标区域内的一小块，称为种子区域(seed point)，再在种子区域的基础上不断将周围的像素点以一定的规则加入其中，最终将属于该目标的所有像素点融合生成整个目标区域；而分裂合并是先将图像分割成多个具有相同属性的小区域，如区域内像素灰度值相同的小区域，再按一定的规则将小区域融合成大区域，达到分割图像的目的。在Kolesnikov和Lampert(2016)提出的SEC(seed，expand and constrain)模型中，seed即种子点，SEC利用CAM方法对分割目标进行定位，将定位区域作为种子点；expand即扩张，随着网络的训练在种子点的基础上扩张种子区域；constrain即限制，在扩张种子区域的过程中限制分割的目标边界，使其不会越界。

Oh等人(2017)提出了一种将种子区域与显著性检测技术相结合的弱监督语义分割方法，将目标分割任务分为目标定位和目标区域确定两个方面，利用种子区域进行目标定位，再结合显著性检测技术生成目标显著图来确定目标区域。该方法首先利用包含全局平均池化层的分割网络(GAP-HighRes)生成目标的种子区域，然后输入图像和图像级语义标签，将种子区域和显著图作为先验知识输入标注器(guide labeller)产生一个粗糙的分割模板，再利用监督学习的语义分割模型进行训练。

Huang等人(2018)提出的DSRG(deep seeded region growing)方法与Oh等人(2017)的方法相似，同样利用了种子区域生长的方法生成目标的分割模板，不同之处在于该方法利用不断更新的分割模板来训练网络模型。DSRG将种子区域生长方法与深度分割网络相结合，构成了一个端到端的网络模型。首先利用CAM和显著性检测技术获得目标最具判别性的区域，并作为初始种子点，然后根据分割网络输出的类别概率图和种子区域生长扩充种子区域。类别概率图中在相应类别上具有高概率的相邻像素将分配相同的标签并作为种子点，利用DSRG的输出作为监督信息训练分割网络。在训练过程中，DSRG逐渐扩充网络的分割模板，根据网络输出的类别概率图逐渐扩充种子区域，同时利用SEC模型中提出的边界损失限制种子区域的扩充范围。在SEC的边界限制损失中，利用全连接条件随机场获得图像中的目标边界，然后对神经网络的输出和CRF的输出计算平均KL(Kullback-Leibler)散度，以此作为损失函数，使网络输出的模板逐渐拟合CRF输出的目标边界。通过不断地迭代，分割模板将逐渐覆盖整个目标区域。

Wei等人(2017a)和Oh等人(2017)的方法存在一个共同的问题，即种子区域如果有扩充错误的目标区域，在之后的训练中无法对错误区域进行更正。对此，Wang等人(2018)提出了改进方法，交替训练分类网络(RegionNet)和分割网络(PixelNet)这两个子网络。RegionNet根据种子点预测整个目标区域，而PixelNet用于生成训练图像的分割模板。首先RegionNet生成最具判别性的区域，将该区域作为初始种子点，并将种子点作为PixelNet的监督信息训练PixelNet。然后将PixelNet的预测结果作为RegionNet的监督信息训练RegionNet。两个网络的预测结果交替作为彼此的监督信息，多次迭代之后，逐渐提升两个网络的预测结果。在最初进行目标定位时，将利用分类网络获得目标的区域作为可判别区域，而被忽略的目标区域作为非可判别区域。因此为了获得目标的非可判别区域，在RegionNet中添加了一个显著图引导细化(saliency-guided refinement)方法，在CAM生成可判别区域的基础上，利用显著图扩充目标的非可判别性区域。通过不断更新RegionNet的预测结果，然后作为PixelNet的监督信息，能够不断更正之前预测错误的标签，从而生成更加准确的分割模板。

网络上存在大量可用于语义分割的图像，可以将背景简单且容易分割的图像作为网络数据集来训练语义分割网络。Shen等人(2018)提出一种在标准数据集和网络数据集之间的双向迁移学习框架，利用SEC模型，首先在标准数据集上训练一个初始分割网络(Initial-SEC)，然后利用Initial-SEC对网络图像进行过滤，挑选出类别相同、背景简单且容易分割的图像作为网络数据集。在生成的网络数据集上训练一个网络分割模型(Web-SEC)，将生成的粗糙的分割模板利用Grab cut进行优化处理。再利用优化后的分割模板训练一个FCN模型(Web-FCN)，然后利用该模型对标准数据集进行预测。Initial-SEC具有较强的语义分类能力，但是对边界的分割较为模糊。而Web-FCN具有良好的边界分割能力，但是语义分类能力较差。该方法结合了两个模型的优点，将Web-FCN与Initial-SEC生成的模板相融合，以此作为监督信息训练基于弱监督学习的语义分割模型。该方法通过双向的迁移学习能够获得更加准确的分割模板，进一步缩小弱监督学习与监督学习方法之间的差距。

除了利用网络上的图像，视频帧同样可以作为训练样本来训练语义分割网络。根据视频中的时空信息可以得到准确的运动分割图像，然后基于这个分割图像来训练语义分割模型。Hong等人(2017)提出了利用弱监督标注的图像和视频训练语义分割网络，包含一个用于图像分类和显著区域定位的编码器和一个用于分割图像的解码器。该方法首先利用一组带图像类别标签的数据集训练一个用于目标分类和定位的模型，再利用这个模型对网页抓取的视频进行过滤，消除带有噪声的帧，获得所需类别的图像帧，并产生粗糙的定位图。然后根据视频帧中的时空信息，使用图优化算法(graph-based optimization)生成图像帧的分割模板。最后，将生成的分割模板作为标注信息训练解码器。

3.3 基于草图的弱监督语义分割方法

草图是一幅对每一类语义简单划一条线作为标注的图像，可以降低标注人员的工作量。如图 10(c)所示，只需要画两条线就能完成对一幅图像的标注工作。使用草图训练卷积神经网络的弱监督方法处于图像类别标签和目标边框之间。与图像类别标签相比，草图提供了若干像素的位置信息；与目标边框相比，草图标记的目标边界信息比较模糊。基于草图的弱监督语义分割方法关键在于构建草图和像素语义的关联。基于图割(graph cut)的理论模型可以将草图的信息与空间约束、外观及语义内容相结合，并将信息传播到未标记的像素上，从而构建草图和语义像素的关联。

Lin等人(2016a)提出了一种基于草图的弱监督语义分割方法。该方法可分为两步：1)将像素的类别信息从草图传递到其他未标记的像素，自动完成训练图像的标注；2)使用这些标注图像训练CNN。在步骤1)中，首先将图像分成若干个超像素，然后基于图割的方法对所有的超像素进行标注。

Tang等人(2018)受半监督学习对部分标注的训练数据采用正则化损失的启发，采用类似半监督学习机制的方法，将草图作为监督信息，利用已标注像素的类别推断未标注像素的类别。该方法对标注数据利用交叉熵计算损失，对所有训练数据使用normalized cut正则化计算损失。normalized cut正则化项的目的是让网络的输出更加趋近于normalized cut对图像的划分结果，即遵循划分在同一区域内的两个像素更有可能属于同一类别这一原则。

3.4 基于多标注的弱监督语义分割方法

弱监督语义分割模型的训练方法一般可看做在约束条件下的最优化方法，另外最大期望算法(expectation maximization algorithm)可以用于CNN参数和像素类别的联合求解。

Xu等人(2015)提出了一个处理各种不同类型的弱监督数据标注的统一框架，利用的弱监督数据标注包括图像类别标签、目标边框和草图。该方法将所有训练图像分成若干个超像素，对每一个超像素提取一个$d$维特征向量。再利用最大间隔聚类方法(max-margin clustering，MMC)对所有的超像素聚类。不同的弱监督数据标注对应不同的约束条件，所有的数据标注在相应的约束条件下求最大间隔聚类。

Papandreou等人(2015)在DeepLab v1的基础上将目标边框和图像类别标签作为监督信息来训练语义分割模型。对于给定目标边框的训练图像，该方法首先利用CRF对训练图像做自动分割，然后在分割的基础上进行监督学习。对于给定图像类别标签的训练图像，利用概率图模型和最大期望值算法估计未标注像素的类别。在PASCAL VOC 2012数据集上进行测试，MIoU为62.2%。另外利用少量的监督标注与大量的弱监督标注进行结合，可以获得与监督学习(MIoU为70.3%)接近的分割结果(MIoU为69.0%)。

3.5 弱监督学习的语义分割算法性能分析与比较

为了更好地分析基于弱监督学习的各类语义分割方法，对不同算法的分割性能进行定量比较。1)基于图像类别标签的弱监督语义分割方法利用类别标签作为监督信息。由于类别标签需要的标注成本较低，该监督信息广泛应用于基于弱监督学习的语义分割方法中。但仅将类别标签作为监督信息，缺少了目标的位置信息，因而基于图像类别标签的弱监督语义分割模型的性能难以显著提高。2)在基于目标边框的弱监督语义分割方法中，利用包含目标位置信息的目标边框和类别标签作为监督信息，与基于图像类别标签的弱监督语义分割方法相比，基于目标边框的分割方法的性能显著提升，甚至超越了部分基于监督学习的语义分割方法。3)在基于草图的弱监督语义分割方法中，对每一类语义的目标简单划一条或几条线进行标注。与图像类别标签相比，草图提供了若干类像素的位置信息；与目标边框相比，草图仅对目标所在的区域进行部分标注，并没有提供完整的目标边界。因此，一般情况下利用草图和目标边框作为监督信息的方法在性能上优于利用图像类别标签作为监督信息的方法。

部分基于弱监督学习的语义分割方法在PASCAL VOC 2012数据集上的性能比较如表 2所示。从表 2可以看出，在基于目标边框的弱监督语义分割方法中，Khoreva等人(2017)的方法性能最优, MIoU为65.7%。在基于图像类别标签的弱监督语义分割方法中，Shen等人(2018)的方法性能最优，MIoU为63.9%。在基于草图的弱监督语义分割方法中，Tang等人(2018)的方法最优，MIoU为74.5%。

表 2 PASCAL VOC 2012数据集上基于弱监督学习的语义分割方法性能比较
Table 2 Performance comparison of weakly supervised learning-based semantic segmentation methods on PASCAL VOC 2012 dataset

下载CSV

/%
方法类别	方法名称	MIoU
基于目标边框	Dai等人(2015)	62.0
基于目标边框	Khoreva等人(2017)	65.7
基于图像类别标签	Pathak等人(2015)	45.1
	Pinheiro和Collobert(2015)	40.6
	Wei等人(2016a)	43.2
	Durand等人(2017)	43.7
	AE(Wei等，2017a)	55.7
	STC(Wei等，2017b)	51.2
	Roy和Todorovic(2017)	53.7
	Oh等人(2017)	56.7
	Hong等人(2017)	58.7
	Wang等人(2018)	61.2
	Huang等人(2018)	63.2
	Shen等人(2018)	63.9
基于草图	Lin等人(2016a)	63.1
基于草图	Tang等人(2018)	74.5
基于多种标注信息	Papandreou等人(2015)	62.2
注：表中数据来自对应文献。

4 相关研究方向

本文从监督学习和弱监督学习两个方面详细介绍了基于深度卷积神经网络的图像语义分割领域的研究现状。基于深度卷积神经网络的图像语义分割模型已经取得了一定进展，随着图像语义分割的不断发展，未来的研究热点进一步转向视频语义分割、3维点集语义分割、实时语义分割和实例分割等方向，这些研究方向具有更大的挑战性。

1) 视频语义分割。视频的语义分割能够为智能交通、智能监控、智能医疗等领域提供理论和技术的支持。虽然研究学者已经提出了一些针对视频或时间序列进行语义分割的方法，然而主要的瓶颈在于没有完全利用视频帧或者特征图中的时空信息。因此在视频语义分割领域，有着更加广阔的发展空间。

2) 3维数据集语义分割。3维数据集相比于2维数据集包含了图像更多的信息，如目标的远近和目标之间的距离。但3维数据难以获取，并且标注工作也更难。目前，3维数据集不多，而且大型3维数据集几乎都是人工合成的，与真实世界收集的3维数据有很大不同，导致基于3维数据集的分割方法还有很大提升空间。因此，在语义分割领域仍然需要更多、更好、更丰富的3维数据集。

3) 实时语义分割。实时语义分割方法可应用于自动驾驶、遥感、医学图像识别等领域。现有许多语义分割方法虽然在分割精度方面取得了较大进展，但由于训练模型较为复杂，参与训练的参数多，以及训练时间较长等问题，很难达到实时的语义分割预测。因此，如何在分割精度和运行时间之间进行权衡，在保证分割精度的条件下，简化模型，减少训练参数，缩短运行时间，实现实时的语义分割，是未来的一个研究方向之一。

4) 实例分割(instance segmentation)。实例分割与语义分割的不同之处在于，实例分割不仅需要对图像中不同的语义目标进行分割，同时还要求对同一语义的不同个体进行分割。实例分割要求从图像中识别出不同实例，再用语义分割方法在不同实例区域内进行逐像素标记。实例分割相比于语义分割更具有挑战性，同时也具有更广阔的应用前景。

5 结语

语义分割是计算机视觉领域的一个热门研究方向，深度卷积神经网络的出现为其带来了新的发展机遇。本文描述了语义分割存在的问题与挑战，介绍了用于评价语义分割算法的常用数据集和标准评测指标，细致且较为全面地论述了当前流行的用于解决图像语义分割问题的深度学习网络模型，最后，提出了和语义分割领域相关的研究方向。基于深度卷积神经网络的图像语义分割方法在特征提取的过程中容易丢失目标边界的细节信息，导致对目标边界的分割较为模糊。因此后续的工作应着重于如何提高分割的目标边界的准确性，进一步提升语义分割模型的性能。

参考文献

Badrinarayanan V, Kendall A, Cipolla R. 2017. SegNet:a deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2481-2495 [DOI:10.1109/TPAMI.2016.2644615]

Bilinski P and Prisacariu V. 2018. Dense decoder shortcut connections for single-pass semantic segmentation//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 6596-6605[DOI: 10.1109/CVPR.2018.00690].

Chaurasia A and Culurciello E. 2017. LinkNet: exploiting encoder representations for efficient semantic segmentation//Proceedings of 2017 IEEE Visual Communications and Image Processing. St. Petersburg, FL, USA: IEEE: 1-4[DOI: 10.1109/VCIP.2017.8305148]

Chen L C, Papandreou G, Kokkinos I, Murphy K and Yuille A L. 2016. Semantic image segmentation with deep convolutional nets and fully connected CRFs[EB/OL]. 2016-06-02[2019-06-06]. https://arxiv.org/pdf/1412.7062.pdf

Chen L C, Papandreou G, Schroff F and Adam H. 2017. Rethinking atrous convolution for semantic image segmentation[EB/OL]. 2017-12-05[2019-06-06]. https://arxiv.org/pdf/1706.05587.pdf

Chen L C, Papandreou G, Kokkinos I, Murphy K, Yuille A L. 2018a. DeepLab:semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4): 834-848 [DOI:10.1109/TPAMI.2017.2699184]

Chen L C, Zhu Y K, Papandreou G, Schroff F and Adam H. 2018b. Encoder-decoder with atrous separable convolution for semantic image segmentation[EB/OL]. 2018-08-22[2019-06-06]. https://arxiv.org/pdf/1802.02611v1.pdf

Dai J F, He K M and Sun J. 2015. BoxSup: exploiting bounding boxes to supervise convolutional networks for semantic segmentation//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE Computer Society: 1635-1643[DOI: 10.1109/ICCV.2015.191]

Durand T, Mordan T, Thome N and Cord M. 2017. WILDCAT: weakly supervised learning of deep convnets for image classification, pointwise localization and segmentation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE Computer Society: 5957-5966[DOI: 10.1109/CVPR.2017.631]

Garcia-Garcia A, Orts-Escolano S, Oprea S, Villena-Martinez V, Martinez-Gonzalez P, Garcia-Rodriguez J. 2018. A survey on deep learning techniques for image and video semantic segmentation. Applied Soft Computing, 70: 41-65 [DOI:10.1016/j.asoc.2018.05.018]

Geng Q C, Zhou Z, Cao X C. 2018. Survey of recent progress in semantic image segmentation with CNNs. Science China Information Sciences, 61(5): 051101 [DOI:10.1007/s11432-017-9189-6]

Hinton G E, Salakhutdinov R R. 2006. Reducing the dimensionality of data with neural networks. Science, 313(5786): 504-507 [DOI:10.1126/science.1127647]

Hong S, Yeo D, Kwak S, Lee H and Han B. 2017. Weakly supervised semantic segmentation using web-crawled videos//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE Computer Society: 2224-2232[DOI: 10.1109/CVPR.2017.239]

Huang G, Liu Z, van der Maaten L and Weinberger K Q. 2017. Densely connected convolutional networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 2261-2269[DOI: 10.1109/CVPR.2017.243]

Huang K Q, Ren W Q, Tan T N. 2014. A review on image object classification and detection. Chinese Journal of Computers, 37(6): 1225-1240 (黄凯奇, 任伟强, 谭铁牛. 2014. 图像物体分类与检测算法综述. 计算机学报, 37(6): 1225-1240) [DOI:10.3724/SP.J.1016.2014.01225]

Huang Z L, Wang X G, Wang J S, Liu W Y and Wang J D. 2018. Weakly-supervised semantic segmentation network with deep seeded region growing//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE: 7014-7023[DOI: 10.1109/CVPR.2018.00733]

Khoreva A, Benenson R, Hosang J, Hein M and Schiele B. 2017. Simple does it: weakly supervised instance and semantic segmentation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 1665-1674[DOI: 10.1109/CVPR.2017.181]

Kolesnikov A and Lampert C H. 2016. Seed, expand and constrain: three principles for weakly-supervised image segmentation//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer International Publishing: 695-711[DOI: 10.1007/978-3-319-46493-0_42]

Krizhevsky A, Sutskever I and Hinton G E. 2012. ImageNet classification with deep convolutional neural networks//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: ACM: 1097-1105

Lateef F, Ruichek Y. 2019. Survey on semantic segmentation using deep learning techniques. Neurocomputing, 338: 321-348 [DOI:10.1016/j.neucom.2019.02.003]

Li X, Jie Z Q, Wang W, Liu C S, Yang J M, Shen X H, Lin Z, Chen Q, Yan S C and Feng J S. 2017. FoveaNet: perspective-aware urban scene parsing//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE Computer Society: 784-792[DOI: 10.1109/ICCV.2017.91]

Lin D, Dai J F, Jia J Y, He K M and Sun J. 2016a. ScribbleSup: scribble-supervised convolutional networks for semantic segmentation//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE Computer Society: 3159-3167[DOI: 10.1109/CVPR.2016.344]

Lin G S, Shen C H, van den Hengel A and Reid I. 2016b. Efficient piecewise training of deep structured models for semantic segmentation//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE Computer Society: 3194-3203[DOI: 10.1109/CVPR.2016.348]

Lin G S, Milan A, Shen C H and Reid I. 2017. RefineNet: multi-path refinement networks for high-resolution semantic segmentation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 5168-5177[DOI: 10.1109/CVPR.2017.549]

Liu Z W, Li X X, Luo P, Loy C C and Tang X O. 2015. Semantic image segmentation via deep parsing network//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1377-1385[DOI: 10.1109/ICCV.2015.162]

Long J, Shelhamer E and Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE Computer Society: 3431-3440[DOI: 10.1109/CVPR.2015.7298965]

Mostajabi M, Yadollahpour P and Shakhnarovich G. 2014. Feedforward semantic segmentation with zoom-out features//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE Computer Society: 3376-3385[DOI: 10.1109/CVPR.2015.7298959]

Noh H, Hong S and Han B. 2015. Learning deconvolution network for semantic segmentation//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE Computer Society: 1520-1528[DOI: 10.1109/ICCV.2015.178]

Oh S J, Benenson R, Khoreva A, Akata Z, Fritz M and Schiele B. 2017. Exploiting saliency for object segmentation from image level labels//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE Computer Society: 5038-5047[DOI: 10.1109/CVPR.2017.535]

Papandreou G, Chen L C, Murphy K P and Yuille A L. 2015. Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE Computer Society: 1742-1750[DOI: 10.1109/ICCV.2015.203]

Pathak D, Krähenbühl P and Darrell T. 2015. Constrained convolutional neural networks for weakly supervised segmentation//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1796-1804[DOI: 10.1109/ICCV.2015.209]

Peng C, Zhang X Y, Yu G, Luo G M and Sun J. 2017. Large kernel matters-improve semantic segmentation by global convolutional network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 1743-1751[DOI: 10.1109/CVPR.2017.189]

Pinheiro P O and Collobert R. 2015. From image-level to pixel-level labeling with convolutional networks//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 1713-1721[DOI: 10.1109/CVPR.2015.7298780]

Ronneberger O, Fischer P, Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer International Publishing: 234-241[DOI: 10.1007/978-3-319-24574-4_28]

Rother C, Kolmogorov V and Blake A. 2004. "GrabCut": interactive foreground extraction using iterated graph cuts//ACM SIGGRAPH 2004. Los Angeles, California: ACM: 309-314[DOI: 10.1145/1186562.1015720]

Roy A and Todorovic S. 2017. Combining bottom-up, top-down, and smoothness cues for weakly supervised image segmentation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE Computer Society: 7282-7291[DOI: 10.1109/CVPR.2017.770]

Shen T, Lin G S, Shen C H and Reid I. 2018. Bootstrapping the performance of webly supervised semantic segmentation//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE: 1363-1371[DOI: 10.1109/CVPR.2018.00148]

Shi J B, Malik J. 2000. Normalized cuts and image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(8): 888-905 [DOI:10.1109/34.868688]

Simonyan K and Zisserman A. 2015. Very deep convolutional networks for large-scale image recognition[EB/OL]. 2015-04-10[2019-06-06]. https://arxiv.org/pdf/1409.1556.pdf

Tang M, Djelouah A, Perazzi F, Boykov Y and Schroers C. 2018. Normalized cut loss for weakly-supervised CNN segmentation//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE: 1818-1827[DOI: 10.1109/CVPR.2018.00195]

Tian X, Wang L, Ding Q. 2019. Review of image semantic segmentation based on deep learning. Journal of Software, 30(2): 440-468 (田萱, 王亮, 丁琪. 2019. 基于深度学习的图像语义分割方法综述. 软件学报, 30(2): 440-468) [DOI:10.13328/j.cnki.jos.005659]

Vemulapalli R, Tuzel O, Liu M Y and Chellappa R. 2016. Gaussian conditional random field network for semantic segmentation//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE Computer Society: 3224-3233[DOI: 10.1109/CVPR.2016.351]

Wang X, You S D, Li X and Ma H M. 2018. Weakly-supervised semantic segmentation by iteratively mining common object features//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE: 1354-1362[DOI: 10.1109/CVPR.2018.00147]

Wei Y C, Feng J S, Liang X D, Cheng M M, Zhao Y and Yan S C. 2017a. Object region mining with adversarial erasing: a simple classification to semantic segmentation approach//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 6488-6496[DOI: 10.1109/CVPR.2017.687]

Wei Y C, Liang X D, Chen Y P, Shen X H, Cheng M M, Feng J S, Zhao Y, Yan S C. 2017b. STC:a simple to complex framework for weakly-supervised semantic segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(11): 2314-2320 [DOI:10.1109/TPAMI.2016.2636150]

Wei Y C, Liang X D, Chen Y P, Jie Z Q, Xiao Y H, Zhao Y, Yan S C. 2016a. Learning to segment with image-level annotations. Pattern Recognition, 59: 234-244 [DOI:10.1016/j.patcog.2016.01.015]

Wei Y C, Xia W, Lin M, Huang J S, Ni B B, Dong J, Zhao Y, Yan S C. 2016b. HCP:a flexible CNN framework for multi-label image classification. IEEE Transactions on Pattern Analysis and Machine Intelligence, 38(9): 1901-1907 [DOI:10.1109/TPAMI.2015.2491929]

Xu J, Schwing A G and Urtasun R. 2015. Learning to segment under various forms of weak supervision//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE: 3781-3790[DOI: 10.1109/CVPR.2015.7299002]

Yang M K, Yu K, Zhang C, Li Z W and Yang K Y. 2018. DenseASPP for semantic segmentation in street scenes//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE: 3684-3692[DOI: 10.1109/CVPR.2018.00388]

Yu C Q, Wang J B, Peng C, Gao C X, Yu G and Sang N. 2018. Learning a discriminative feature network for semantic segmentation//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE: 1857-1866[DOI: 10.1109/CVPR.2018.00199].

Yu F and Koltun V. 2016. Multi-scale context aggregation by dilated convolutions[EB/OL]. 2016-04-30[2019-06-06]. https://arxiv.org/pdf/1511.07122v2.pdf

Zhang H, Dana K, Shi J P, Zhang Z Y, Wang X G, Tyagi A and Agrawal A. 2018. Context encoding for semantic segmentation//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE: 7151-7160[DOI: 10.1109/CVPR.2018.00747]

Zhang H, Xue J and Dana K. 2017. Deep TEN: texture encoding network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE Computer Society: 2896-2905[DOI: 10.1109/CVPR.2017.309]

Zhao H S, Shi J P, Qi X J, Wang X G and Jia J Y. 2017. Pyramid scene parsing network//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE Computer Society: 6230-6239[DOI: 10.1109/CVPR.2017.660]

Zheng S, Jayasumana S, Romera-Paredes B, Vineet V, Su Z Z, Du D L, Huang C and Torr P H S. 2015. Conditional random fields as recurrent neural networks//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE Computer Society: 1529-1537[DOI: 10.1109/ICCV.2015.179]

Zhou B L, Khosla A, Lapedriza A, Oliva A and Torralba A. 2016. Learning deep features for discriminative localization//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE: 2921-2929[DOI: 10.1109/CVPR.2016.319]