发布时间: 2020-06-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190458
2020 | Volume 25 | Number 6

图像分析和识别

动态生成掩膜弱监督语义分割

陈辰^1,2, 唐胜¹, 李锦涛¹

1. 中国科学院计算技术研究所前瞻实验室, 北京 100190;

2. 中国科学院大学, 北京 100049

收稿日期: 2019-10-11; 修回日期: 2019-11-10; 预印本日期: 2019-11-17

第一作者简介: 陈辰, 1987年生, 男, 博士研究生, 主要研究方向为计算机视觉。E-mail:729995290@qq.com;
唐胜, 男, 副研究员, 博士生导师, 主要研究方向为多媒体内容分析与检索。E-mail:ts@ict.ac.cn;
李锦涛, 男, 研究员, 博士生导师, 主要研究方向为数字视频处理、智能感知。E-mail:jtli@ict.ac.cn.

中图法分类号: TP391.41

文献标识码: A

文章编号: 1006-8961(2020)06-1190-11

摘要

目的传统图像语义分割需要的像素级标注数据难以大量获取，图像语义分割的弱监督学习是当前的重要研究方向。弱监督学习是指使用弱标注样本完成监督学习，弱标注比像素级标注的标注速度快、标注方式简单，包括散点、边界框、涂鸦等标注方式。方法针对现有方法对多层特征利用不充分的问题，提出了一种基于动态掩膜生成的弱监督语义分割方法。该方法以边界框作为初始前景分割轮廓，使用迭代方式通过卷积神经网络(convolutional neural network，CNN)多层特征获取前景目标的边缘信息，根据边缘信息生成掩膜。迭代的过程中首先使用高层特征对前景目标的大体形状和位置做出估计，得到粗略的物体分割掩膜。然后根据已获得的粗略掩膜，逐层使用CNN特征对掩膜进行更新。结果在Pascal VOC(visual object classes) 2012数据集上取得了78.06%的分割精度，相比于边界框监督、弱—半监督、掩膜排序和实例剪切方法，分别提高了14.71%、4.04%、3.10%和0.92%。结论该方法能够利用高层语义特征，减少分割掩膜中语义级别的错误，同时使用底层特征对掩膜进行更新，可以提高分割边缘的准确性。

关键词

语义分割; 弱监督学习; 高斯混合模型; 全卷积网络; 特征融合

Weakly supervised semantic segmentation based on dynamic mask generation

Chen Chen^1,2, Tang Sheng¹, Li Jintao¹

1. Advanced Computing Research Laboratory, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;

2. University of Chinese Academy of Sciences, Beijing 100049, China

Abstract

Objective Image semantic segmentation is an important research topic in the field of computer vision. It refers to dividing an input image into multiple regions with semantic meaning,i.e.,assigning a semantic category to each pixel in the image. Many studies on image semantic segmentation based on deep learning have been conducted recently in China and overseas. Current mainstream methods are based on supervised deep learning. However,deep learning requires a large number of training samples,and the image semantic segmentation problem requires category labeling for each pixel in the training sample. On the one hand,pixel-level labeling is difficult. On the other hand,a large number of sample labels means high manual labeling costs. Therefore,image semantic segmentation based on weak supervision has become a research focus in recent years. Weakly supervised learning uses a weak label that is faster and easier to obtain,such as points,bounding boxes,and scribbles,for training. The major difficulty in weakly supervised learning is that weakly labeled data do not contain the location and contour information required for training. Method To solve the problem of missing edge information in a weak label for semantic segmentation,our primary objective is to fully utilize multilayer features extracted by a convolutional neural network (CNN). Our contributions include the following: first,a dynamic mask generation method for extracting the edges of image foreground targets is proposed. The method uses a bounding box as the initial foreground edge contour and iteratively adjusts it with the multilayer features of a CNN with a Gaussian mixture model. The input data of the dynamic mask generation method include bounding box label data and CNN feature maps. During each iteration,eigenvectors from a specific feature map are normalized and used to initialize the Gaussian mixture model,whose training samples are selected in accordance with the edges generated in the last iteration. The probability of all the sample points with respect to the Gaussian mixture model is calculated,and a fine-tuned contour is generated on the basis of these probabilities. In our dynamic mask generation process,the final mask generation iteration uses the original image feature to improve edge accuracy. Simultaneously,high-level features are used for mask initialization to reduce semantic level errors in edge information. Second,a weak supervised semantic segmentation method based on dynamic mask generation is proposed. The generated dynamic mask is used as supervision information in the semantic segmentation training process to feedback the CNN. In each training step,the mask is dynamically generated in accordance with the forward propagation result of each input image,and the mask is used instead of the traditional pixel-level annotation to complete the calculation of the loss function. The semantic segmentation model is trained in an end-to-end manner. A dynamic mask is only generated during the training process,and the test process only requires the forward propagation of the CNN. Result The segmentation accuracy of our method on the Pascal visual object classes(VOC)2012 dataset is 78.06%. Compared with existing weakly supervised semantic segmentation methods,such as box supervised(BoxSup) method,weakly and semi-supervised learning(WSSL) method,simple does it(SDI) method,and cut and paste(CaP) method,accuracy increases by 14.71%,4.04%,3.10%,and 0.92%,respectively. On the Berkeley deep drive(BDD 100K) dataset,the segmentation accuracy of our method is 61.56%. Compared with Boxsup,WSSL,SDI,and CaP,the accuracy increases by 10.39%,3.12%,1.35%,and 2.04%,respectively. The method has improved segmentation accuracy in the categories of pedestrians,cars,and traffic lights. Improvements are achieved in the categories of trucks and buses. The foreground targets of the two categories are typically large,and simple features tend to result in unsatisfactory segmentation. After the fusion of the underlying,middle,and high-level features in this study,the segmentation accuracy of such large targets is relatively significantly improved. Conclusion High-level features are used to estimate the approximate shape and position of the foreground object and generate rough edges,which will be corrected layer by layer with multilayer features. High-level semantic features can decrease edge information error in the semantic level,and low-level image features improve the accuracy of the edge. The training speed of our method is relatively slow because of the dynamic mask generation in each training step. However,test speed does not slow down because only the forward propagation calculation of the CNN is required.

Key words

semantic segmentation; weakly supervised learning; Gaussian mixture model(GMM); fully convolutional network(FCN); feature fusion

0 引言

作为计算机视觉领域的重要研究课题，图像语义分割是指将输入图像分割为具有语义的多个区域，即对图像中的每个像素分配一个语义类别。近年来，国内外已出现很多基于深度学习的图像语义分割研究。目前的主流方法都基于全卷积神经网络(fully convolutional networks，FCN) (Long等，2015)，并针对特征编解码(Zeiler等，2010)、扩大卷积运算感受野(Chen等，2018)、多尺度特征融合(Lin等，2017)等方面做出了改进。

深度学习对训练样本的数量需求很大，并且图像语义分割课题需要对训练样本中的每一个像素进行类别标注。一方面，像素级的标注难度大，另一方面，大量的样本标注意味着很高的人工标注成本。因此，基于弱监督的图像语义分割也成为研究重点。弱监督图像语义分割采用的标注方式包括边界框标注(Dai等，2015；Papandreou等，2015；Rajchl等，2017；Khoreva等，2017)、点标注(Bearman等，2016；Papadopoulos等，2017；Maninis等，2018)、图像级标注(Kolesnikov和Lampert，2016；Roy和Todorovic，2017；Huang等，2018；Ahn等，2019)以及其他标注(Lin等，2016；Tang等，2018a, 2018b)方式。在弱监督的众多标注方式中，边框级标注耗时较少且可以获得较高的分割精度。使用Rajchl等人(2017)的方法，在同等数量的训练样本集中，基于边界框标注的弱监督训练结果在分割精度方面能够达到基于像素级标注训练结果的88.2%。根据Lin等人(2014)的研究，像素级标注所花费的时间为边界框标注方式的15倍。因此，在同样的标注工作量下，采用边界框标注能够获取更多训练样本，从而得到泛化性、鲁棒性更优的分割模型。

弱监督图像语义分割研究的核心问题在于如何利用弱标注对语义分割网络进行有监督训练。对于边界框标注，现有研究的解决方法可以分为两类：基于响应区域提取的方法和基于伪标签的方法。

基于响应区域提取的方法通常是通过设计特定正则项，直接对FCN网络进行训练。Pathak等人(2015)对FCN输出结果中相邻像素的类别进行了相似性约束，并将该约束作为正则项加入到损失函数中。Kolesnikov和Lampert(2016)使用基于分类激活映射(class activation mapping，CAM)(Oquab等，2015)的目标定位损失函数，并增加基于全局加权池化的区域相似度正则项和基于条件随机场(conditional random field，CRF)(Krähenbühl和Koltun，2011)的分割边界正则项。

由于正则项通常使用图像分割的预测结果进行计算，更依赖高层语义特征。而高层特征的感受野范围较大，对目标物体的边缘不够敏感，因此通过此类方法训练的语义分割模型精度相对较低。实例剪切方法(cut and paste，CaP)(Remez等，2018)通过分割高响应区域的方式生成“假”样本，并采用生成对抗网络提高对高响应区域的分割精度。

基于伪标签的方法是通过使用多尺度组合分组(Arbeláez等，2014)、CRF(Krähenbühl和Koltun，2011)、紧凑型图割(GrabCut)(Rother等，2004)等方式生成伪标签掩膜，并将伪标签掩膜作为像素级标注的替代数据进行训练。

边界框监督(box supervised，Boxsup)方法(Dai等，2015)采用多尺度组合分组方法生成候选伪标签区域，并用伪标签区域与边界框标注区域的IoU(intersection over union)作为权值参数，用所有伪标签进行加权训练。根据Dai等人(2015)的研究，多次迭代训练能够逐渐降低伪标签的噪声，从而提升分割精度。弱—半监督(weakly and semi-supervised learning，WSSL)方法(Papandreou等，2015)采用EM(expectation maximization)算法作为迭代训练方式，使用CRF算法生成伪标签。掩膜排序(simple does it，SDI)方法(Rajchl等，2017)使用GrabCut生成伪标签，将FCN网络的输出作为GrabCut目标函数中的一元约束项。Khoreva等人(2017)同样使用GrabCut，但将其中的二元约束项改为HED(holistically-nested edge detection)(Xie和Tu，2015)边缘检测算子的形式。

现有的伪标签生成方法中使用的概率图模型，如CRF、GrabCut等，大多仅使用底层图像特征作为二元约束项。Papandreou等人(2015)和Rajchl等人(2017)仅使用了RGB(red-green-blue)图像3个通道的颜色，Khoreva等人(2017)则仅用了边缘特征。底层图像特征并不包含语义信息，如果输入图像中包括颜色比较复杂的前景目标时，此类方法就容易产生高噪声的伪标签。为了解决语义信息缺失的问题，此类方法大多使用高层特征作为一元约束项的输入。但高层特征和底层特征分别作为目标函数的一部分，训练过程是相互割裂的，并且也没有充分利用FCN网络中的多尺度图像特征。虽然在训练过程中可以通过多次迭代减少伪标签噪声的影响，但这也会成倍地增加训练时间。

针对现有方法对多层特征利用不充分的问题，本文使用边界框标注，提出一种基于动态掩膜生成的弱监督语义分割方法。主要贡献包括：

1) 提出一种基于动态掩膜生成的弱监督语义分割方法，该方法使用基于边界框标注的边缘提取方式，并根据前景目标的边缘生成分割掩膜，并使用该掩膜完成图像语义分割的训练。

2) 提出一种图像前景目标的边缘提取方法，该方法以边界框作为初始前景边缘轮廓，使用基于CNN多层特征的高斯混合模型(Gaussian mixture model，GMM)模型对边缘进行修正，使用迭代方式获取前景目标的边界。由于最终的边缘修正结果使用了底层图像特征，因此能够提高边缘的准确性。同时，使用高层特征进行初始化能够减少边缘信息中语义级别的错误。

1 本文方法

弱监督训练方法框架如图 1所示。对于每一个训练样本，训练过程分为3个步骤:1)前向传播，对输入的训练样本图像，使用残差网络模块进行多级特征提取；2)掩膜生成，首先从残差网络模块提取多层图像特征，采用1.1小节介绍的方法生成掩膜；3)反向传播训练，使用掩膜作为监督信息，完成对残差网络模块的反向传播训练，具体方法在1.2小节详细介绍。

图 1 基于动态掩膜生成的弱监督图像分割框架

Fig. 1 Frame of weakly supervised semantic segmentation based on dynamic mask generation

1.1 动态掩膜生成方法

动态掩膜生成方法以边界框标注的矩形边缘为基础，通过迭代更新的方式修正用于监督训练的分割掩膜，并根据最终轮廓生成动态掩膜。流程如图 1所示。

如图 1所示，动态掩膜生成方法的输入数据包括边界框标注数据和CNN多层特征图。首先需要对所有特征图的特征向量进行归一化；其次，使用每个采样点的特征向量初始化GMM模型；最后计算采样点相对于GMM模型的概率，完成掩膜更新。

1.1.1 特征图归一化

由于CNN网络中抽取的中间层数据通常没有上下界，不同维度的特征值差异较大，在计算特征距离时会出现特征偏向的问题，因此需要对特征向量进行归一化运算。使用$ \boldsymbol{F}^{o} \in \mathbf{R}^{H \times W \times C}$表示一层CNN特征图，其中$ H$表示特征图的高度，$W $表示特征图的宽度，$C $表示特征图的通道数量，即采样点特征向量的维度。则归一化的特征图$\mathit{\boldsymbol{F}} $的计算式为

$ {F_{ijc}} = \frac{{F_{ijc}^o - \mathop {\min }\limits_{x, y} F_{xyc}^o}}{{\mathop {\max }\limits_{x, y} F_{xyc}^o - \mathop {\min }\limits_{x, y} F_{xyc}^o}} $

(1)

式中，${{F_{ijc}} = F(i, j, c)} $表示归一化的特征图$\mathit{\boldsymbol{F}} $中坐标$ {(i, j, c)}$处的值，${F_{ijc}^o = {F^o}(i, j, c)} $表示CNN特征图${\mathit{\boldsymbol{F}}^o} $中坐标$ {(i, j, c)}$处的值。

由于CNN卷积过程中的边界填充操作，特征图中像素位置与对应输入图像的像素位置并不是严格成比例对应。如图 1所示，CNN特征图边缘部分的数据是由于卷积运算填充操作导致的多余数据，在归一化过程中需要对特征图进行裁剪。

如图 1所示，第1轮迭代过程中，首先将边界框标注作为初始图像边缘(边界框的位置和大小缩放到标注数据的1/32)，并且根据当前边缘轮廓采集样本点初始化前景GMM模型和背景GMM模型，GMM模型的特征向量采用归一化的1/32特征图$\mathit{\boldsymbol{F}} $数据。然后，使用前景和背景GMM模型对特征图中的所有采样点进行前景背景分类，并将分类结果作为更新后的图像边缘数据。

第1轮的掩膜更新结果图的宽度和高度分别为输入图像的1/32，使用该结果图作为下一轮GMM模型的初始化依据，以此类推。最后一轮的输入特征为原始输入图像，其掩膜更新结果图大小与输入图像相同，将该轮分类结果作为最终的输出掩膜。

1.1.2 掩膜更新

掩膜更新方法流程如图 2所示。每一轮掩膜更新的输入数据包括：输入前景边缘(边界框标注或前一轮边缘更新结果)和归一化的特征图。掩膜更新的过程为：首先确定前景GMM和背景GMM的样本，输入的特征图上所有像素点为采样点。然后使用两类样本分别初始化前景GMM模型$ {G_{\rm{f}}}$和背景GMM模型$ {G_{\rm{b}}}$。最后重新对前景和背景边缘处的采样点进行分类。

图 2 掩膜更新流程

Fig. 2 Procedure of mask renovation

图 2中划分前景和背景采样点的方法为：现有边缘轮廓内部的采样点为前景样本，边缘轮廓外部的采样点为背景样本。

图 2中获取边界采样点列表的方法为：如果采样点$S $与现有边缘轮廓相邻，则将该采样点加入边界采样点列表。

图 2中使用GMM分类采样点$S $的方法为：如果$G_{\mathrm{f}}(S)>G_{\mathrm{b}}(S) $，则将该像素点归入前景类别，反之则归入背景类别。

图 2中更新边界采样点列表的方法为：如果当前采样点的分类结果与初始值不同，则将与当前采样点相邻的所有采样点都加入边界采样点列表。

1.2 语义分割方法

1.1节生成的动态掩膜在语义分割训练过程中作为监督信息，对CNN网络进行反馈。在训练中，根据每一个输入样本图像的前向传播运算结果，动态生成掩膜，并用掩膜代替传统的像素级标注，完成损失函数的计算。

用$ y \in {{\mathbf{R}}^{H \times W \times C}}$表示1.1节中获得的动态掩膜，$W $和$ H$分别为输入图像的宽度和高度，$C $表示语义类别数量。用$ h \in {{\mathbf{R}}^{H \times W \times C}}$表示图 1中的像素级预测结果，其宽度和高度也是$W $和$ H$。训练使用的损失函数为$L(\theta) = \sum\limits_{i, j} l \left({{h_{ij}}, {y_{ij}}} \right) $，其中$l\left({{h_{ij}}, {y_{ij}}} \right)$表示softmax损失函数，${{h_{ij}}} $和${{y_{ij}}} $分别表示预测结果$h $和伪标签$y $在坐标$ \left({i, j} \right)$处的数据。

图像语义分割网络的弱监督训练框架如图 1所示，包括3个部分：残差网络模块、RefineNet模块和分割掩膜生成模块。其中残差网络模块和RefineNet模块在训练过程参与前向传播和反向传播过程，分割掩膜生成模块仅在前向传播之后生成作为监督信息的临时分割掩膜。训练过程中，每一次前向传播都需要计算临时掩膜。测试过程中，不需要生成临时分割掩膜，仅有残差网络模块和RefineNet模块参与运算，获取像素级预测结果。

残差网络模块分为5个子模块Conv1、Conv2、Conv3、Conv4和Conv5，对于宽度为$W $、高度为$ H$的输入图像，每个子模块的输出特征图维度分别为($W $/2, $ H$/2, 64)，($W $/4, $ H$/4, 256)，($W $/8, $ H$/8, 512)，($W $/16, $ H$/16, 1 024)，($W $/32, $ H$/32, 2 048)。

RefineNet模块抽取Conv2、Conv3、Conv4和Conv5的输出特征图作为输入数据。RefineNet模块的输出是维度为($W $ /4, $ H$/4, N+1)的像素级分类结果，其中N表示前景目标的语义类别数量。图像语义分割网络的输出层是RefineNet模块输出层的上采样结果，维度为($W $, $ H$, N+1)。

分割掩膜生成模块中，从残差网络模块中提取Conv2，Conv3，Conv4和Conv5的输出特征图作为边缘提取的输入数据，分割掩膜生成模块的输出掩膜图像大小为($W $/4, $ H$/4)。

因为分割掩膜生成的过程依赖CNN特征包含的语义信息，在训练初期，CNN提取得到的特征图并不包含语义信息，不能作为提取边缘信息的特征。如果直接使用图 1所示的训练方法，并不能得到有效的图像语义分割模型。因此需要使用一个预训练过程。预训练过程中，仅使用输入图像作为特征，采用掩膜生成方法生成所有样本的伪标签，并使用该伪标签作为像素级标注，完成预训练。经过预训练之后，再使用图 1所示方法完成训练。

测试过程中，只需要残差网络模块和RefineNet模块进行前向传播运算，就能够获得图像语义分割结果，不需要动态掩膜生成。

2 实验和分析

2.1 评价方式

本文采用图像分割的常用评价指标：平均交并比(mean intersection over union, mIoU)。

平均交并比是人工标注数据与测试结果的相似性度量，计算方式为

$ {P_{{\rm{mIoU}}}} = \frac{1}{{{n_c}}}\sum\limits_i {\frac{{{n_{ii}}}}{{\sum\limits_j {{n_{ij}}} + \sum\limits_j {{n_{ji}}} - {n_{ii}}}}} $

(2)

式中，${{n_c}} $表示数据集中的语义类别数量，$ {{n_{ij}}}$表示人工标注类别为$ i$且测试结果类别为$ j$的像素数量。

2.2 实现细节

在弱监督语义分割对比实验中，使用RefineNet(Lin等，2017)作为图像语义分割训练框架，并采用ResNet101(He等，2016)作为图像特征提取网络。在对比实验中，分别使用BoxSup(Dai等，2015)、WSSL(Papandreou等，2015)、SDI(Khoreva等，2017)以及本文的训练方法完成弱监督训练。为了加速训练，使用基于ImageNet(Deng等，2009)数据集的预训练模型作为ResNet101网络的初始参数。

由于分割掩膜生成模块中使用的CNN多层特征的每一层特征图大小都不同，因此GMM模型参数也需要不同的设置。在动态掩膜生成过程中提取的4个CNN特征层和输入图像上，GMM模型的子模型数量K分别设置为3，5，10，15和20。模型训练过程中，采用批量梯度下降方法，每个批次的样本数量为2。在初始化训练过程中，学习率为5×10^-4，完成40个训练周期。之后采用图 1所示的训练方式继续训练。初始学习率为5×10^-4，完成40个训练周期之后，将学习率修改为5×10^-5并继续完成40个训练周期。参数更新的动量参数为0.9，衰减系数1×10^-4。每一个训练步骤，随机截取输入图像中400×400像素大小的子图像进行运算。训练程序基于matconvnet(Vedaldi和Lenc，2015)平台。

实验计算机的配置为：Intel Core i3-3240 CPU (3.40 GHz)以及8 GB内存，显卡型号为GTX1080。

2.3 Pascal VOC数据集

本文首先使用Pascal VOC(visual object classes) 2012(Everingham等，2010)数据集验证基于动态掩膜生成的弱监督语义分割方法的有效性。

Pascal VOC 2012图像语义分割数据集采集场景包含室内、城市道路、田野和机场等，共包含2 913幅图像，其中1 464幅属于训练集，1 449幅为验证集，共有人工标注的语义类别20类。由于Pascal VOC 2012数据集并不公开其测试集的标注信息，因此使用其验证集图像作为测试集。Pascal VOC 2012数据集用于弱监督语义分割模型的评价和对比。

在Pascal VOC 2012数据集上检验用BoxSup、WSSL、SDI、CaP以及本文方法训练图像分割模型，使用平均交并比作为评价标准，结果如表 1所示。本文方法的分割精度相比BoxSup，平均交并比提高了14.71%；相比WSSL提高了4.04%；相比SDI提高了3.10%；相比CaP提高了0.92%。

表 1 Pascal VOC 2012数据集语义分割精度对比(平均交并比)
Table 1 Accuracy of semantic segmentation on Pascal VOC 2012 dataset (mIoU)

下载CSV

/%
方法	类别
方法	BG	plane	bike	bird	boat	bottle	bus	car	cat	chair	cow	table	dog	horse	motor	person	plant	sheep	sofa	train	tv	mean
BoxSup	84.7	78.5	58.2	75.8	62.1	66.4	72.8	73.0	74.3	28.2	64.4	52.5	62.5	69.9	73.0	76.2	50.9	43.6	26.9	69.7	66.6	63.35
WSSL	96.2	90.8	69.0	86.4	69.5	70.4	88.0	83.6	82.9	32.1	78.4	58.9	75.4	70.4	82.7	85.9	65.5	82.8	43.4	85.3	55.5	74.02
SDI	92.8	64.7	38.7	79.9	79.7	84.2	82.2	81.1	85.2	54.5	77.0	75.3	80.1	74.6	65.4	73.5	71.0	79.3	64.8	81.3	85.1	74.96
CaP	93.5	88.2	68.4	87.8	78.1	77.9	82.2	84.0	86.6	44.1	77.2	73.5	75.3	82.8	84.2	85.8	71.0	63.0	50.4	83.9	81.9	77.14
本文	93.4	82.9	51.2	84.9	73.7	77.3	83.8	84.4	89.7	56.5	85.3	70.3	85.2	79.8	77.6	83.5	68.9	83.0	64.1	78.0	85.9	78.06
注：加粗字体为每列最优值。

由表 1可以看到，本文方法在猫、狗、牛、羊等动物类别方面有比较明显的分割精度提升，这是因为此类前景目标形状通常比较多变，且边缘相比沙发、车辆等目标更不规则。由于现有方法大多使用底层特征提取前面目标的边缘，对于形状多变且边缘不规则目标容易产生语义级别的错误，而本文方法融合高层和底层特征，能更好地避免此类错误分割。

图 3给出了WSSL、SDI和本文方法的分割结果。如图 3中最后一行的图像所示，由于马蹄的颜色与其他前景区域的颜色差别较大，底层特征不同，因此现有分割方法大多将马蹄错分为背景，而本文方法能够正确分割。这是由于用于监督训练的动态掩膜生成过程中，既使用了高层语义特征，也使用了对前景边缘敏感的底层特征。

图 3 语义分割结果实例(Pascal VOC 2012数据集)

Fig. 3 Results of semantic segmentation on Pascal VOC 2012 dataset((a) BoxSup; (b) WSSL; (c) SDI; (d) CaP; (e) ours)

2.4 BDD100K数据集

BDD100K(Berkeley deep drive)(Yu等，2018)数据集用来验证基于多分支网络的弱监督语义分割方法的有效性。BDD100K图像语义分割数据集采集于自动驾驶场景，包含城市内街道、高速公路等常见驾驶场景。场景图像的采集时间覆盖白天和夜晚，天气状况覆盖晴天、阴天、下雨和下雪等。其中，用于目标检测的样本集有边界框标注，共包含图像100 000幅，其中70 000幅属于训练集，10 000幅属于验证集，20 000幅为测试集。弱监督图像语义分割训练需要边界框标注，因此训练集和验证集从目标检测样本集中采集。另外，BDD100K数据集中用于图像语义分割的样本集共10 000幅图像，其中7 000幅属于训练集，1 000幅属于验证集，2 000幅属于测试集。图像语义分割的测试集需要像素级语义标注，因此测试数据从语义分割样本集中采集。由于BDD100K数据集并不公开其测试集的标注信息，因此使用其验证集图像作为测试数据。

BDD100K的语义类别包括车辆、交通标志、道路、建筑和天空等，由于实验使用弱监督训练方式，因此只选用有边界框标注的类别作为前景语义类别，其余类别均归入背景类。弱监督语义分割实验数据共有10类：轿车、公交车、卡车、交通标志、交通灯、行人、自行车、摩托车、骑手和背景。因为实验仅需要边界框标注，所以使用用于目标检测的样本集作训练。从70 000幅训练样本中随机选择10 000幅图像用于语义分割模型的训练。

在BDD100K数据集上检验用BoxSup、WSSL、SDI、CaP以及本文方法训练图像分割模型，使用平均交并比作为评价标准，结果如表 2所示。

表 2 BDD100K数据集语义分割精度对比(平均交并比)
Table 2 Accuracy of semantic segmentation on BDD100K dataset (mIoU)

下载CSV

/%
方法	类别
方法	background	light	sign	person	rider	car	truck	bus	motor	bike	mean
BoxSup	51.71	20.55	15.94	38.93	31.09	55.07	30.78	36.42	18.40	32.05	51.17
WSSL	57.38	22.44	20.05	42.23	28.64	67.25	34.10	45.27	16.60	25.53	58.44
SDI	59.24	22.65	21.50	41.92	30.60	68.59	35.73	51.96	22.65	24.97	60.21
CaP	58.35	27.17	18.81	40.67	39.16	67.85	38.58	55.96	30.88	27.61	59.52
本文	60.44	28.33	16.25	42.24	39.00	69.85	40.07	61.59	28.37	23.40	61.56
注：加粗字体为每列最优值。

由表 2中可以看到，本文方法的分割精度相比BoxSup，平均交并比提高了10.39%；相比WSSL提高了3.12%；相比SDI提高了1.35%；相比CaP提高了2.04%。

本文方法在行人、汽车、交通灯等类别的分割精度都有提升，比较明显的提升体现在卡车和公交车两个类别上。因为这两个类别的前景目标通常比较大，单纯使用底层特征进行分割容易导致大目标的一部分区域被错误分割。因此，在本文使用底层、中层和高层特征融合之后，对此类大目标的分割精度有相对明显的提升。

图 4给出了WSSL、SDI和本文方法的分割结果。从图 4中可见，现有方法容易将大目标类别(如公交车)的一部分错分为背景，尤其当此类前景目标上存在复杂图案的情况下。本文方法通过使用高层语义特征，能够有效避免这种错分情况。此外，

图 4 语义分割结果实例(BDD100K数据集)

Fig. 4 Results of semantic segmentation on BDD100K((a) BoxSup; (b) WSSL; (c) SDI; (d) CaP; (e) ours)

对于边缘轮廓比较复杂的前景目标(如行人)，本文方法也能够比较准确地分割其边缘轮廓。这是因为本文方法中监督信息的动态分割掩膜融合了语义特征与底层图像特征，掩膜本身的前景目标边缘能够更好地拟合前景目标的边界，从而使最终的分割模型也能够得到更精确的分割边缘。

3 结论

针对弱监督图像语义分割训练中的边缘信息缺失问题，本文提出了基于动态掩膜生成的弱监督语义分割方法。使用基于迭代GMM模型的边缘提取方法，通过迭代方法融合CNN多层特征，每轮迭代运算中采用一层特征图作为特征输入。并将人工标注的边界框作为前景目标轮廓的初始值，使用GMM模型逐步修正分割掩膜。

实验表明，本文方法通过融合高层、中层和底层图像特征提取前景目标的边缘信息，能够利用语义特征减少目标轮廓的语义级别错误，并利用底层特征提高边缘轮廓的准确性。对动物、行人等边缘轮廓复杂的前景，能够有效提高分割精度。对于公交车、卡车等大尺度前景目标，能够利用高层特征避免将车身的图案错误分割为背景。训练过程中，由于每次迭代需要实时提取分割掩膜，因此本文方法的训练速度较慢，但测试过程中只需要完成CNN网络的前向传播计算，测试速度并不会变慢。

参考文献

Ahn J, Cho S and Kwak S. 2019. Weakly supervised learning of instance segmentation with inter-pixel relations[EB/OL].[2019-04-10]. https://arxiv.org/pdf/1904.05044v1.pdf

Arbeláez P, Pont-Tuset J, Barron J, Marques F and Malik J. 2014. Multiscale combinatorial grouping//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, Ohio, USA: IEEE: 328-335[DOI:10.1109/CVPR.2014.49]

Bearman A, Russakovsky O, Ferrari V and Li F F. 2016. What's the point: semantic segmentation with point supervision//Proceedings of the 14th European Conference on Computer Vision. Amsterdam: Springer: 549-565[DOI:10.1007/978-3-319-46478-7_34]

Chen L C, Papandreou G, Kokkinos I, Murphy K, Yuille A L. 2018. Deeplab:semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4): 834-848 [DOI:10.1109/TPAMI.2017.2699184]

Dai J F, He K M and Sun J. 2015. BoxSup: exploiting bounding boxes to supervise convolutional networks for semantic segmentation//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago: IEEE: 1635-1643[DOI:10.1109/ICCV.2015.191]

Deng J, Dong W, Socher R, Li L J, Li K and Li F F. 2009. Imagenet: a large-scale hierarchical image database//Proceedings of 2019 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE: 248-255[DOI:10.1109/CVPR.2009.5206848]

Everingham M, Van Gool L, Williams C K I, Winn J, Zisserman A. 2010. The PASCAL visual object classes (VOC) challenge. International Journal of Computer Vision, 88(2): 303-338 [DOI:10.1007/s11263-009-0275-4]

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778[DOI:10.1109/CVPR.2016.90]

Huang Z L, Wang X G, Wang J S, Liu W Y and Wang J D. 2018. Weakly-supervised semantic segmentation network with deep seeded region growing//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, Utah, USA: IEEE: 7014-7023[DOI:10.1109/CVPR.2018.00733]

Khoreva A, Benenson R, Hosang J, Hein M and Schiele B. 2017. Simple does it: weakly supervised instance and semantic segmentation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 1665-1674[DOI:10.1109/CVPR.2017.181]

Kolesnikov A and Lampert C H. 2016. Seed, expand and constrain: three principles for weakly-supervised image segmentation//Proceedings of the 14th European Conference on Computer Vision. Amsterdam: Springer: 695-711[DOI:10.1007/978-3-319-46493-0_42]

Krähenbühl P and Koltun V. 2011. Efficient inference in fully connected CRFs with Gaussian edge potentials//Advances in Neural Information Processing Systems. Granada, Spain: Springer: 109-117

Lin D, Dai J F, Jia J Y, He K M and Sun J. 2016. Scribblesup: scribble-supervised convolutional networks for semantic segmentation//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada, USA: IEEE: 3159-3167[DOI:10.1109/CVPR.2016.344]

Lin G S, Milan A, Shen C H and Reid I. 2017. Refinenet: multi-path refinement networks for high-resolution semantic segmentation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 5168-5177[DOI:10.1109/CVPR.2017.549]

Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Dollár P and Zitnick C L. 2014. Microsoft COCO: common objects in context//Proceedings of the 13th European Conference on Computer Vision. Zurich: Springer: 740-755[DOI:10.1007/978-3-319-10602-1_48]

Long J, Shelhamer E and Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 3431-3440[DOI:10.1109/CVPR.2015.7298965]

Maninis K K, Caelles S, Pont-Tuset J and Van Gool L. 2018. Deep extreme cut: from extreme points to object segmentation//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, Utah, USA: IEEE: 616-625[DOI:10.1109/CVPR.2018.00071]

Oquab M, Bottou L, Laptev I and Sivic J. 2015. Is object localization for free? Weakly-supervised learning with convolutional neural networks//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, Massachusetts, USA: IEEE: 685-694[DOI:10.1109/CVPR.2015.7298668]

Papadopoulos D P, Uijlings J R R, Keller F and Ferrari V. 2017. Training object class detectors with click supervision//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 180-189[DOI:10.1109/CVPR.2017.27]

Papandreou G, Chen L C, Murphy K P and Yuille A L. 2015. Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1742-1750[DOI:10.1109/ICCV.2015.203]

Pathak D, Krähenbühl P and Darrell T. 2015. Constrained convolutional neural networks for weakly supervised segmentation//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1796-1804[DOI:10.1109/ICCV.2015.209]

Rajchl M, Lee M C H, Oktay O, Kamnitsas K, Passerat-Palmbach J, Bai W J, Damodaram M, Rutherford M A, Hajnal J V, Kainz B, Rueckert D. 2017. Deepcut:object segmentation from bounding box annotations using convolutional neural networks. IEEE Transactions on Medical Imaging, 36(2): 674-683 [DOI:10.1109/TMI.2016.2621185]

Remez T, Huang J and Brown M. 2018. Learning to segment via Cut-and-Paste//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 39-54[DOI:10.1007/978-3-030-01234-2_3]

Rother C, Kolmogorov V, Blake A. 2004. "GrabCut":interactive foreground extraction using iterated graph cuts. ACM Transactions on Graphics, 23(3): 309-314 [DOI:10.1145/1186562.1015720]

Roy A and Todorovic S. 2017. Combining bottom-up, top-down, and smoothness cues for weakly supervised image segmentation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE: 7282-7291[DOI:10.1109/CVPR.2017.770]

Tang M, Djelouah A, Perazzi F, Boykov Y and Schroers C. 2018a. Normalized cut loss for weakly-supervised CNN segmentation//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, Utah, USA: IEEE: 1818-1827[DOI:10.1109/CVPR.2018.00195]

Tang M, Perazzi F, Djelouah A, Ayed I B, Schroers C and Boykov Y. 2018b. On regularized losses for weakly-supervised cnn segmentation//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 524-540[DOI:10.1007/978-3-030-01270-0_31]

Vedaldi A and Lenc K. 2015. MatConvNet: convolutional neural networks for MATLAB//Proceedings of the 23rd ACM international conference on Multimedia. Brisbane: ACM: 689-692[DOI:10.1145/2733373.2807412]

Xie S N and Tu Z W. 2015. Holistically-nested edge detection//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 1395-1403[DOI:10.1109/ICCV.2015.164]

Yu F, Xian W Q, Chen Y Y, Liu F C, Liao M K, Madhavan V and Darrell T. 2018. BDD100K: a diverse driving video database with scalable annotation tooling[EB/OL].[2018-05-12]. https://arxiv.org/pdf/1805.04687.pdf

Zeiler M D, Krishnan D, Taylor G W and Fergus R. 2010. Deconvolutional networks//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE: 2528-2535[DOI:10.1109/CVPR.2010.5539957]