发布时间: 2022-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210571
2022 | Volume 27 | Number 12

图像理解和计算机视觉

流形正则化的交叉一致性语义分割算法

刘腊梅¹, 宗佳旭¹, 肖振久¹, 兰海², 曲海成¹

1. 辽宁工程技术大学软件学院，葫芦岛 125105;

2. 泉州装备制造研究所，泉州 362000

收稿日期: 2021-07-19; 修回日期: 2021-10-25; 预印本日期: 2021-11-02

基金项目: 辽宁工程技术大学学科创新团队资助项目(LNTU20TD-23)；辽宁省教育厅高等学校科学研究项目(LJ2019JL010)

作者简介: 刘腊梅，女，讲师，主要研究方向为数字图像处理和机器学习。E-mail：liulamei@lntu.edu.cn
宗佳旭，男，硕士研究生，主要研究方向为机器学习和计算机视觉。E-mail：jiaxu0017@163.com
肖振久，通信作者，男，副教授，主要研究方向为图像与视觉信息计算、网络与信息安全和数字水印。E-mail：xiaozhenjiu@lntu.edu.cn
兰海，男，助理研究员，主要研究方向为机器学习和计算机视觉。E-mail：lanhai09@fjirsm.ac.cn
曲海成，男，副教授，主要研究方向为数字图像处理和并行计算。E-mail：quhaicheng@lntu.edu.cn
*通信作者: 肖振久 xiaozhenjiu@lntu.edu.cn

中图法分类号: TP391.4

文献标识码: A

文章编号: 1006-8961(2022)12-3542-11

摘要

目的为有效解决半监督及弱监督语义分割模型中上下文信息缺失问题，在充分考虑模型推理效率的基础上，提出基于流形正则化的交叉一致性语义分割算法。方法首先，以交叉一致性训练模型作为骨架网络，通过骨架网络获得预测分割图像。其次，对输入域图像和输出域图像进行子图像块划分，以获取具有相同几何结构的数据对。再次，通过原始图像和分割图像的子图像块，计算输入数据与预测结果所处流形曲面上的潜在几何约束关系，并根据不同的训练方式分别设计半监督及弱监督的正则化算法。最后，利用流形约束的结果进一步优化图像分割网络中的参数，并通过反复迭代使半监督或弱监督的语义分割模型达到最优。结果通过加入流形正则化约束，捕获了图像中上下文信息，降低了网络前向计算过程中造成的本征结构的损失，在不改变网络结构的前提下提高了算法精度。为验证算法的有效性，实验分别在半监督和弱监督两种不同类型的语义分割中进行了对比，在PASCAL VOC 2012(pattern analysis, statistical modeling and computational learning visual object classes 2012)数据集上，对半监督语义分割任务，本文算法比原始网络提高了3.7%，对弱监督语义分割任务，本文算法比原始网络提高了1.1%。结论本文算法在不改变原有网络结构的基础上，提升了半监督及弱监督图像语义分割模型的精度，尤其对图像中几何特征明显的目标与区域，精度提升更加明显。

关键词

深度学习; 语义分割; 半监督语义分割; 弱监督语义分割; 交叉一致性训练; 流形正则化

Cross-consistent semantic segmentation algorithm based on manifold regularization

Liu Lamei¹, Zong Jiaxu¹, Xiao Zhenjiu¹, Lan Hai², Qu Haicheng¹

1. College of Software, Liaoning Technology University, Huludao 125105, China;

2. Quanzhou Institute of Equipment Manufacturing, Quanzhou 362000, China

Supported by: Discipline Innovation Team of Liaoning Technical University (LNTU20TD-23); Scientific Study Project for Institutes of Higher Learning, Ministry of Education, Liaoning Province (LJ2019JL010)

Abstract

Objective Image semantic segmentation is a pixel-level classification-related issue, which divides each pixel into different categories in the image, which is a sort of extension and expansion of image classification. Its applications have included like scene information understanding, autonomous driving, and clinical diagnosis. However, deep learning models training requires a large amount of labeled data, and obtaining these data is time-consuming and labor-intensive in semantic segmentation. At present, deep semi-supervised learning is focused on to utilize a large amount of unlabeled data and limit the demand for labeled data. However, current methods are challenged for contextual information collection and constraints, and the existing methods for increasing contextual information often increase the network's reasoning speed to varying degrees. So, we develop a semi-supervised semantic segmentation method with manifold regularization on the basis of cross-consistency training. Method Our research is assumed that the input data and its corresponding prediction results have the same geometric structure on the low-dimensional manifold surface in the high-dimensional original data space. The geometric data structure is used to construct regularization constraints based on this assumption. First, we design the penalty that a manifold regularization term is integrated to make single pixel information and neighborhood context information. This geometric perception is that the data in the original image have the same locally geometric shape in related to the segmented result. Next, the manifold regularization constraint method mentioned above is combined with the current mainstream semi-supervised and weakly-supervised image segmentation algorithms, which illustrates that our manifold regularization algorithm can well adapt to various different segmentation tasks. In the semi-supervised and weakly-supervised manifold regularization algorithms, a cutting-edged cross-consistency training model is selected as our skeleton network, and the semi-supervised training method of cross-consistency is given different forms of perturbation to the encoder output to strengthen the predictive invariance of the model. We use the open source toolbox Pytorch to build the model. The stochastic gradient descent (SGD) method is adopted as the optimization. The operating system of the experimental platform is Centos7, with a graphics processing unit (GPU) of model NVIDIA RTX 2080Ti and a CPU of Intel (R) Core (TM) i7-6850. Result By adding manifold regularization constraints, the contextual information is captured in the image, the loss of the intrinsic structure caused by the network is reduced forward calculation process, and the accuracy of the algorithm is improved. In order to verify the effectiveness of the algorithm, experiments are based on two different types of semi-supervised and weakly-supervised semantic segmentation. On the pattern analysis, statistical modeling and computational learning visual object classes 2012 (PASCAL VOC 2012) dataset, the semi-supervised semantic segmentation task is improved by 3.7% compared to the original network. Our weakly supervised semantic segmentation algorithm is improved by 1.1% compared with the original network. Furthermore, we implement visualization of the segmentation results on different models. It can be found that the segmentation results generated by manifold regularization constraints have more refined edges and less error rate. Conclusion Our algorithm is based on the contextual information through manifold regularization constraints, and is optimized in semi-supervised and weak-supervised tasks without changing the original network structure. The experimental results verify that our algorithm is potential to generalization and optimal ability.

Key words

deep learning; semantic segmentation; semi-supervised semantic segmentation; weakly-supervised semantic segmentation; cross-consistency training; manifold regularization

0 引言

深度学习在计算机视觉领域取得了令人瞩目的成果。但是，训练深度学习模型需要大量的标记数据，获取这些数据是耗时耗力的，在语义分割中这种现象更为严重。像素级标签的获取需要耗费大量的人力和物力，成本是区域级和图像级标签的15倍和60倍(Lin等，2014)。因此，深度学习需要提高数据的利用率，特别是在图像语义分割方法中。

目前，越来越多的研究工作集中在深度半监督学习上，以利用大量未标记数据并限制对标记数据的需求。在深度学习中，主流的半监督方法包括一致性训练(Tarvainen和Valpola，2017)、伪标签法(陈辰等，2020)和熵最小化(Miyato等，2019)等方法。而半监督学习的最新进展大多集中在分类任务中，在语义分割中仍然受到限制。语义分割中的大多数工作(Zhang等，2020)专注于利用弱监督学习训练模型，即利用图像级标签生成伪像素标签，然后与有限的像素级标签共同用于训练。然而这些方法依然会受到限制，弱监督的方法需要带有非像素级标签的示例配合像素级标签的数据共同训练，因此弱监督方法不会利用未标记数据来提取其他训练信号。在半监督学习方法中，基于生成对抗网络(generative adversarial networks, GANs)的训练方法会利用未标记的数据，通过GANs的框架结构扩展到像素级别的预测，利用鉴别器对抗损失和有监督损失来联合训练(Souly等，2017)，但需要解决模型坍塌等棘手问题。同时，在语义分割的任务中需要依赖大量上下文之间的信息。目前的方法对上下文信息的采集及约束不能满足现阶段任务的需求，而且现有的增加上下文信息的方法都不同程度地增加了网络的推理速度。

为解决上述问题，在交叉一致性训练的基础上提出了一种流形正则化的半监督语义分割方法。一致性训练的目的是通过在输入图像上施加微小扰动以强制约束模型的预测结果不变。由此，模型将对微小变化具有强鲁棒性。一致性训练的有效性在很大程度上取决于数据分布的形态，即数据的流形分布。交叉一致性的半监督训练方式则是通过编码器输出的不同形式的扰动，将扰动施加于不同的解码器上并且强制使其解码器预测结果不变，以保持模型的预测不变性。Niyogi(2013)提出，尽管表面形式的自然数据分布在高维空间(语音、图像和文本等)中，但它们的构成元素并不多，因此具有较低的固有维数。这也证实了将流形正则化应用于交叉一致性半监督语义分割在理论上的可行性。

本文旨在利用未标记数据来找到可以支持语义分割阶段的流形结构。假设两个数据点$x_1$和$x_2$在输入中具有相似的特征结构，那么相应的输出$y_1$和$y_1$也应该是相近的。并认为两个数据域在低维流形空间上有相同结构，通过维持两个高维空间域低维流形的映射关系，促使图像中原有的几何结构不被破坏，在图像分割过程中增加了相应的上下文信息。这意味着不受监管的数据在深度网络中充当正则化器，从而提高了泛化能力。本文算法简单高效，具有很高的灵活性，可以很容易扩展到其他的半监督和弱监督算法中，是一种即插即用的模块。本文主要贡献如下：1)通过几何优化的方式建立语义分割中的流形正则化算法，通过引入上下文信息及维持原有局部几何特征的方式，提高了语义分割模型的精度；2)将流形正则化的图像分割方法引入主流的半监督和弱监督方法中，提升了模型的分割精度。

1 相关理论研究

1.1 半监督语义分割

自全卷积神经网络(fully convolutional etworks，FCN)(Long等, 2015)提出以来，语义分割技术得到高速发展。现阶段语义分割的方法大多是基于全监督学习的(青晨等，2020)，并且强烈依赖大型注释数据集，但是在很多情况下数据是不可获得或不能使用的。

为解决上述问题，研究人员探究了半监督和弱监督两种不同的语义分割方法，即使用有限数量的像素级标签和大量不精准的注释，例如区域级注释(Song等，2019)或图像标签级注释(Lee等，2019)，对基于图像级注释的方法使用类激活映射函数(class activation mapping，CAM)(Zhou等，2016)生成主要的定位图，在弱监督训练中与像素级标签共同用于训练分割网络，使深度网络学习更好地对视觉特征进行分类。Hong等人(2015)将语义分割作为分类和分割两个独立任务处理，假设数据集中所有图像级的标签和有限的像素级标签均可用，取得了良好效果。生成模型也可以用做半监督语义分割(Liu等，2019)，以利用未标记的数据，在GAN的框架下，判别器的预测扩展到像素类别，然后通过标记示例的交叉熵损失和整个数据集的对抗性损失进行联合训练。

1.2 流形正则化

正则化在模型优化过程中对参数起到了约束作用，将参数限定在可控范围内。正则化约束需要丰富的数学理论基础，Evgeniou等人(2000)利用正则化的方式求解不适定逆问题，其理论目前广泛应用于现代机器学习。在现阶段的机器学习算法中，常见到正则化的影子，如支持向量机就可视为正则化的特例。流形正则化的算法承认样本之间的相关性，相关程度直接受样本间距离的影响，样本间距离越小，相关程度越大，并由此可以推断两个不同样本是否处于同一流形空间。由此，流形正则化可以广泛应用于半监督和弱监督学习(Belkin等，2006)。

目前，深度学习快速发展，在多种不同任务上取得了优异效果，但是在利用深度学习进行特征提取和传播的过程中，持续的卷积和池化操作会造成原始结构中关键信息的丢失，即本征结构损失。为解决上述问题，维持图像中原始的几何分布，科研工作者试图利用流形正则化的方式构建更加稳定的算法模型。

首先，利用流形正则化可以建立起相应的流形曲面，可对未出现对象的预测提供有力的依据，Belkin等人(2006)建立了面向半监督学习的流形正则化框架。为深入理解和应用流形正则化算法，以半监督算法为例，Niyogi(2013)建立minmax框架，通过对比不同的算法模型，更好地解释了流形正则化及相关几何算法。除建立算法框架外，流形正则化也应用于网络模型构建(胡聪等，2020)，将特征提取与构建流形结构同步进行，获得了较好的分类结果。其次，流形正则化除应用于上述分类任务中，也逐步应用于语义分割等其他不同任务。Quispe和Petitjean(2015)利用先验知识中的几何信息，通过为训练集中的形状信息编码，对语义分割起到了指导性帮助。徐胜军等人(2019)将马尔可夫条件随机场与流形约束进行结合，构建了用于分割的模型，优于以常规马尔可夫条件随机场构建的模型。基于上述方法，本文在图像分割训练过程中引入流形正则化的约束项，增强了图像分割中的上下文信息，提升了原有分割模型的分割精度。

2 流形正则化的半监督及弱监督语义分割算法

2.1 交叉一致性训练模型

以交叉一致性训练模型为基础的半监督语义分割的目的是在未标记集中提取相关信息。与传统一致性训练不同，交叉一致性训练模型(cross-consistency training，CCT)(Ouali等，2020)设计将扰动添加至编码器的输入之后，依赖主解码器和辅助解码器的输出之间的约束实现了模型的一致性预测。通过使用在未标记数据中提取的其他训练信号，可以增强共享编码器的表示。与编码器相比，添加的辅助解码器的参数数量可忽略不计。另外，在推理期间仅使用主解码器从而减少了训练和推理的计算开销。半监督的交叉一致性训练模型的网络结构如图 1所示。

图 1 半监督交叉一致性训练模型的网络结构

Fig. 1 Network structure of semi-supervised cross-consistency training

算法依赖主解码器$g$和辅助解码器$g_{k}$之间的输出实现一致性, 其中$k∈K$。对标记的训练示例$x^{l}_{i}$和像素级别的标记$y_{i}$，使用基于交叉熵(cross entropy，CE)的损失$L_{s}$训练分割网络，具体为

$ L_s(\boldsymbol{y}, \hat{\boldsymbol{y}})=-\sum\limits_{i=1}^N \sum\limits_{c=1}^C y_c^i \log \left(\hat{y}_c^i\right) $

(1)

式中，$\boldsymbol{y}$为标准分割图像，$\boldsymbol{\hat{y}}$为预测的分割图像。$N$为图像的像素点总数，$i$为当前像素点，$y^{i}_{c}$表示第$i$个像素点为第$c$类结果的概率真实值，$\hat{y}^{i}_{c}$表示第$i$个像素点为第$c$类结果的模型预测结果。

对于未标记的示例$\boldsymbol{x}^{u}$，使用共享编码器$\boldsymbol{z}=h(x^{u})$计算中间表示，并考虑使用$T$个扰动函数。$t∈[1, T]$表示一个扰动，其中一个扰动可以分配一个或多个辅助编码器。通过不同的扰动设置生成中间表示$\boldsymbol{z}$的$K$个扰动版本，并且为保证一致性，算法将扰动函数视为辅助解码器的一部分。最后训练的目标是使用无监督的损失$L_{u}$最小化，具体为

$ L_u=\frac{1}{K} \sum\limits_{k=1}^K d\left(g\left(z_i\right), g_k\left(z_i\right)\right) $

(2)

式中，$L_{u}$用来衡量主解码器的输出与辅助解码器的输出之间的差异。在这项工作中，以均方误差(mean squared error, MSE)作为无监督部分的度量距离$d$。

与半监督任务相似，弱监督的交叉一致性训练模型在其基础上添加了由平均池化层和分类层组成的分支$g_{k+1}$，并且使用CE损失对编码器进行训练以完成分类任务的预训练。通过预训练的编码器和添加的分支结构生成像素级别的预测图像$\boldsymbol{y}_{p}$。首先，利用分类分支和CAM(class activation mapping)生成特征图$\boldsymbol{M}$(Zhou等，2016)，其中$\boldsymbol{M}$∈${\bf{R}}^\text{C×H×W}$，通过设置前景阈值$θ_\text{fg}$和背景阈值$θ_\text{bg}$可以利用特征图$\boldsymbol{M}$生成像素级别的伪标签图像$\boldsymbol{y}_{p}$。当特征值分数小于背景阈值$θ_\text{bg}$时，像素被视为背景，当特征值分数大于前景阈值$θ_\text{fg}$时，将该点像素视为具有最大关注的类别。生成像素级别的伪标签图像$\boldsymbol{y}_{p}$后，利用密集条件随机场(conditional random field, CRF)进行最后的细化。

通过$D_{w}$网络可以使用弱监督损失$L_{w}$训练辅助网络。在此情况下，$L_{w}$表示为

$ L_w=\frac{1}{K} \sum\limits_{k=1}^K L_s\left(g\left(z_i\right), g_k\left(z_i\right)\right) $

(3)

在交叉一致性训练模型中，无论是使用交叉熵损失还是均方误差，均只计算了单点像素之间的关系，忽略了区域间的影响。为解决这一问题，可以在半监督算法的损失函数中引入流形正则化实现相邻区域间的上下文信息捕捉。

2.2 流形正则化的交叉一致性训练模型

因为受限于现有的损失函数，半监督和弱监督的图像语义分割算法在参数表达过程中忽视了大量的上下文信息。流形正则化在原有交叉一致性训练模型的基础上，在不改变原有模型的前提下增加了相应的上下文信息。

在半监督语义分割训练中，通过建立输入域和输出域数据一致的几何结构，引入图像不同区域的信息，即图像中的上下文信息。若一幅图像可分为$N$个不同区域，则图像可表示为$\boldsymbol{X}=\{\boldsymbol{x}_{i}\}^{N}_{i=1}, \boldsymbol{x}_{i}∈{\bf{R}}$。由此，可以用图$G$($\boldsymbol{X}$，$\mathit{\pmb{\Omega}}$)表示各区域之间的几何关系。此处，$\mathit{\pmb{\Omega}}$=[$ω$]为各区域的关系矩阵，$ω_{ij}$表示任意两区域间的相互关联程度，可以使用高斯热核的欧氏距离进行计算。矩阵中的元素具体为

$ \omega_{i j}= \begin{cases}\exp \left(-\left\|\boldsymbol{x}_i-\boldsymbol{x}_j\right\|^2\right) & j \in N_i \\ 0 & j \notin N_i\end{cases} $

(4)

式中，$N_{i}$表示$\boldsymbol{x}_{i}$近邻子图的个数$，j$为范围$N_{i}$内的任意一点。当$j$不处于$\boldsymbol{x}_{i}$的邻域内时，$ω_{ij}$为0。

在构建上述模型时，本文首先考虑到图像具有不同的尺度和范围，各分割任务对上下文信息的需求并不相同，可以通过控制邻近数据点的个数进而控制上下文信息的引入情况。其次，盲目利用全局信息进行约束将会消耗大量的空间资源和时间资源，不利于语义分割模型的训练。所以在关系矩阵的构建过程中根据实际情况选择近邻数据点与非近邻数据点对当前数据点的影响程度的大小。

通过关系矩阵$\mathit{\pmb{\Omega}}$建立起图像各区域间的相似度，流形正则化的语义分割算法需要保证输出域数据各区域间有相似的对应关系。流形正则项$||f||^{2}_{K}$具体为

$ \|f\|_K^2=\sum\limits_{i=1}^N \sum\limits_{j \in N_i} \sum\limits_{c=1}^C\left\|\hat{\boldsymbol{y}}_c^i-\hat{\boldsymbol{y}}_c^j\right\|^2 \boldsymbol{\omega}_{i j} $

(5)

式中，$N$为子图的个数，$N_{i}$为第$i$张子图近邻子图的个数，$C$为预测图像的通道数，$\boldsymbol{\hat{y}}$表示图像$\boldsymbol{x}$所对应的预测图像。

由式(5)可知，输入域数据两区间有高度相似性时，与之相对的输出域数据的两区间的计算差值应尽可能小，否则该惩罚项会增大损失函数。由此维持了输入域数据和输出域数据之间对应的几何结构，其几何结构如图 2所示。

图 2 数据域几何结构示意图

Fig. 2 Data field schematic diagram of geometric structure

因此，针对图像分割问题的求解，即对引入流形正则约束项后的总体损失函数$L^{1}_\text{all}(\boldsymbol{y}, \boldsymbol{\hat{y}})$进行优化求解，可以表示为

$ \begin{gathered} L_{\text {all }}^1(\boldsymbol{y}, \hat{\boldsymbol{y}})=\arg \min _\theta \sum\limits_{i=1}^N\left[\sum\limits_{c=1}^C y_c^i \log \left(\hat{y}_c^i\right)+\right. \\ \left.w_u \frac{1}{K} \sum\limits_{k=1}^K\left\|\hat{y}^i-\hat{y}_k^i\right\|^2\right]+ \\ \lambda_a \sum\limits_{i=1}^{N_p} \sum\limits_{j \in N_i} \sum\limits_{c=1}^C\left\|\hat{\boldsymbol{y}}_c^i-\hat{\boldsymbol{y}}_c^j\right\|^2 \omega_{i j} \end{gathered} $

(6)

式中，$N$为像素点的总数，$N_{p}$表示图像中所有不相交子集的数量，$C$为图像中语义类别总数，$K$表示辅助解码器的个数，$y$表示每个像素点的真实标签，$\hat{y}$表示每个像素点的预测结果，$\boldsymbol{\hat{y}}$表示各子图的预测图像，$λ_{a}$和$w_{u}$分别代表流形正则化和半监督损失的权重。

与半监督的语义分割任务相同，在弱监督语义分割任务的损失计算中缺少了相应的上下文信息。对弱监督的语义分割问题，因包含伪标签图像$\boldsymbol{y}_{p}$，除了建立原始图像与预测图像之间在低维流形空间上的约束关系外，还建立了伪标签图像与预测图像之间在低维流形空间上的约束关系。流形正则项可表示为

$ \begin{gathered} \|f\|_K^2=\sum\limits_{i=1}^N \sum\limits_{j \in N_i} \sum\limits_{c=1}^C\left\|\hat{\boldsymbol{y}}_c^i-\hat{\boldsymbol{y}}_c^j\right\|^2 \omega_{i j}+ \\ \sum\limits_{i=1}^{N_p} \sum\limits_{j \in N_i} \sum\limits_{c=1}^C\left\|\hat{\boldsymbol{y}}_c^i-\hat{\boldsymbol{y}}_c^j\right\|^2 \omega_{i j}^w \end{gathered} $

(7)

式中，$\boldsymbol{N}$为像素点的总数，$C$为图像中语义类别总数，$ω_{ij}$为区域$i$和$j$在全监督流形正则化算法中计算的权重，$ω^{w}_{ij}$为区域$i$和$j$在半监督流形正则化算法中计算的权重。

因此，对半监督图像分割问题的求解，即对引入流形正则约束项后的总体损失函数$L^{2}_\text{all}(\boldsymbol{y}, \boldsymbol{\hat{y}})$进行优化求解，具体为

$ L_{\text {all }}^2(\boldsymbol{y}, \hat{\boldsymbol{y}})=L_s+w_w L_u+w_w L_w+\lambda_a\|f\|_K^2 $

(8)

式中，$L_{s}$为有监督的损失，$L_{u}$为无监督的损失，$L_{w}$为弱监督的损失，$w_{w}$为监督的损失权重，$||f||^{2}_{K}$表示流形正则化。

2.3 流形正则化的弱监督交叉一致性训练模型

将流形正则约束项加入现有的深度学习网络模型，可以为现有的网络模型提供上下文的信息，增进模型参数的有效性，提高了端对端的图像语义分割模型的有效性，并由此建立了流形正则化有关各类语义分割任务的算法模型。

在深度学习分割模型上，首先需要判断当前语义分割任务的类型。若为弱监督语义分割任务，则首先为数据集生成伪标签；若为全监督或半监督任务，则无需此过程。此后计算生成数据集的权重矩阵。半监督和弱监督的流形正则化算法流程如图 3所示，其模型伪代码如下：

图 3 算法流程图

Fig. 3 Algorithm flow chart

输入：有标记的图像、无标记的图像。

输出：调优后的模型。

1) IF语义分割为弱监督任务：

2) 为数据集中未标记的数据生成伪标签;

3) 子图像块划分;

4) 利用式(4)计算权重矩阵;

5) WHILE模型不收敛：

6) IF语义分割为弱监督任务：

7) 将图像输入弱监督语义分割模型中，计算出预测结果;

8) 利用式(6)计算总体损失;

9) ELSE：

10) 将图像输入半监督语义分割模型中，计算出预测结果;

11) 利用式(8)计算总体损失;

12) 依照损失值计算更新对模型参数;

13) RETURN调优后的模型。

3 实验及结果分析

实验所用硬件环境为Intel(R) i7-6850k的处理器、64 GB内存以及GTX2080Ti的GPU。操作系统为CentOS7，Python为建模语言，使用深度学习框架Pytorch搭建实验所需的神经网络。采用优化函数SGD(stochastic gradient descent)进行小批量训练，采取一种多元的学习率$1-\left(\frac{E}{E_{\text {all }}}\right)^{0.9}$，其中$E_\text{all}$为最大迭代次数，$E$为当前迭代次数。

3.1 评价标准和数据集

实验采用平均交并比(mean intersection over union, mIoU)作为语义分割的评价标准。具体为

$ m I o U=\frac{1}{C} \sum\limits_{i=1}^C \frac{t_p}{t_p+f_p+f_n} $

(9)

式中，$t_{p}$表示某一类别中正确的正样本分类结果，$f_{p}$表示错误的正样本分类结果，$f_{n}$表示错误的负样本分类结果。

实验在PASCAL VOC 2012(pattern analysis, statistical modeling and computational learning visual object classes 2012)数据集上进行。在数据集中，将图像中的物体分为目标和背景，目标按类别用不同颜色表示，背景用黑色表示。PASCAL数据集中的分割如图 4所示。实验选取数据集中1 464幅带标记图像为有监督训练集、9 188幅图像为无监督训练集以及1 449幅带标记图像为评估数据。

图 4 PASCAL VOC 2012分割示意图

Fig. 4 Division diagram of PASCAL VOC 2012

针对基于流形正则化的弱监督交叉一致性训练模型，按照伪标签的生成方法生成对应标签。数据集中未标记数据生成的伪标签分割如图 5所示。

图 5 伪标签分割示意图

Fig. 5 Division diagram of pseudo tags

在训练过程中，通过预处理操作，使训练样本图像均为256×256像素。在PASCAL VOC生成的半监督数据集上，对模型进行100次循环(epoch)的迭代训练，批处理(batch size)大小设置为1。

3.2 半监督语义分割对比实验

本文在交叉一致性语义分割的基础上，通过流形正则化的方式引入了更多的上下文信息，并且使分割图像和原始图像具有相同的几何信息。为了进一步探索提出框架的有效性，在PASCAL VOC数据集上，将本文算法与目前先进的半监督语义分割模型进行定量比较，实验结果如表 1所示。可以看出，本文算法模型优于对比模型。此外，因为网络结构没有改变，故推理本文模型速率可以与原始模型保持一致。

表 1 半监督实验对比结果
Table 1 Comparison results of semi-supervised experiments

下载CSV

方法	像素级标签数量/K	图像级标签数量/K	mIoU/%	速率/(幅/s)
CCT	1.5	-	41.9	2.8(±0.5)
CCT	1.5	9	44.7	2.8(±0.5)
本文	1.5	9	48.4	2.8(±0.5)
注：加粗字体表示各列最优结果，“-”表示无数据。

图 6为半监督语义分割结果对比图。可以看出，本文模型的分割结果优于交叉一致性训练模型，在交叉一致性训练模型中考虑到了多种噪音的干扰，并且通过训练使图像在多重干扰下分割结果仍然可以趋于一致。但是图像分割中各像素点的分割并没有充分利用上下文之间的信息，将会造成图像中部分区域的漏分和误分。图 6(c)为CCT的分割效果，图 6(d)为本文方法的分割效果图。可以发现本文方法在图像分割的细节上更优秀，并且减少了漏分和误分现象，这是因为本文采用流形正则化的方法约束图像分割方法，为图像分割方法增加了更多的上下文信息，使像素点在类别划分上增加了图像中不同位置的信息，提高了图像的分割精度。

图 6 半监督语义分割结果对比图

Fig. 6 Comparison diagram of semi-supervised semantic segmentation results

((a)original image; (b) ground truth; (c) CCT; (d) ours)

为了验证流形正则化的语义分割算法在半监督语义分割任务中的有效性，将本文算法与CCT模型在PASCAL VOC数据集上每一类别的分割结果进行对比，如表 2所示，二者的平均交并比分别为48.4%和44.7%。可以看出，与原始网络相比，本文算法提升了大部分分割目标的精度。主要有两个影响因素：1)本文算法建立了分割图像在源域和目标域之间的对应关系，对图像中关键的几何信息进行了相应的约束，使分割图像可以保持原有的本征结构不被破环，使得目标图像更加贴近原始图像中的几何形态。2)采用流形正则化的半监督图像语义分割算法增加了图像分割过程中的上下文信息，使图像在分割或评价的过程中作为一个整体存在，即分割模型在学习过程中不再局限于局部信息。由此，针对图像分割的神经网络得到了更好的训练，提高了网络的学习能力，使得在原有参数量不变的基础上神经网络得到了更好的表达。实验中部分图像类别分割精度下降，这些目标类别多为动态物体，几何结构复杂，且受环境影响较大。

表 2 模型语义类别实验精度对比结果
Table 2 Comparison results of experimental accuracy of model semantic categories

下载CSV

/%
类别	CCT	本文
背景	86.4	87.5
飞机	41.7	71.3
自行车	46.8	47.7
鸟	37.5	59.4
船	50.9	41.4
瓶子	44.8	36.2
公共汽车	64.9	66.1
车	67.4	64.1
猫	68.8	54.1
椅子	15.8	16.5
牛	47.0	57.3
餐桌	22.0	26.7
狗	48.2	52.2
马	43.2	37.3
摩托车	49.5	48.0
人	70.1	67.8
盆栽	32.9	21.7
绵羊	33.4	59.7
沙发	18.0	25.0
火车	41.2	47.6
电视/显示屏	17.0	38.4
平均交并比	44.7	48.4
注：加粗字体表示各行最优结果。

3.3 弱监督语义分割对比实验

流形正则化增强了模型在训练过程中的上下文信息，并且维持原有图像的几何结构不被破坏，提高了原有模型的分割精度。实验已经证明流形正则化可以优化现有的半监督语义分割算法。为证明流形正则化是一种即插即用的算法模型，可以广泛应用于半监督和弱监督算法，本文特别设计在PASCAL VOC数据集上与未添加流形正则化的弱监督语义分割算法模型进行定量对比，表 3显示了添加流形正则化与未添加流形正则化算法的对比结果。如结果所示，本文算法对弱监督算法起到了提升作用，由于在弱监督模型中采用相同的推理结构，因此推断本文模型速率可以与原始模型保持一致，证明了流形正则化在弱监督图像分割中的实用性。

表 3 弱监督实验对比结果
Table 3 Comparison results of weakly supervised experiment

下载CSV

方法	像素级标签数量/K	图像级标签数量/K	mIoU/%	速率/(幅/s)
CCT	1.5	9	48.9	2.8(±0.5)
本文	1.5	9	50.0	2.8(±0.5)
注：加粗字体表示各列最优结果。

为直观展示实验结果，对弱监督图像分割实验的效果进行对比，如图 7所示。从该效果对比图可以发现，本文算法对原有弱监督分割算法具有较大提升。首先，添加流形正则化的算法可以纠正一些类别误分和漏分的情况，如图 7第1、2、3行。同时，分割目标的整体性更好，目标内部的信息缺失明显减少。原因可以归结为通过流形正则化算法可以加强图像内目标的几何信息，保证其本征结构不被丢失。其次，采用添加流形正则化的算法可以更好地区分图像中的前景和背景，如图 7的第3、4、5行。这体现了采用流形正则化的图像分割算法可以更好地利用图像中的上下文信息。综上所述，本文算法无论对图像固有几何结构及区域信息的描述，还是对全局内信息的理解和区分均有帮助，在采用本文算法获得的分割图像中，语义一致性得到明显改善。

图 7 半监督语义分割结果对比图

Fig. 7 Comparison diagram of semi-supervised semantic segmentation results

((a) original images; (b) ground truth; (c) backbone network; (d) ours)

3.4 与其他先进算法的对比实验

将本文算法与其他先进的弱监督语义分割模型进行对比，对比方法包括LCEM-Fixed-2-Hyb(localization clues guided expectation-maximization using fixed vision2 and hybrid)(Li等，2018)、SN_B(the network is trained by taking the rough masks as the supervision based on the single-label images from the training set.)(Wei等，2016)、DCSM(distinct class saliency maps)(Shimoda和Yanai，2016)、Build in FG/BG(built-in foreground/background)(Saleh等，2016)、SPN(superpixel pooling network)(Kwak等，2017)和DHSN_S2_AM_CRF(deep hierarchical saliency network s2 using attention map and conditional random fields)(李阳等，2020)等，实验结果如表 4所示。可以看出，结合流形正则化的半监督及弱监督图像语义分割算法的分割结果较基础模型有显著提升，并且优于其他先进模型。

表 4 弱监督语义分割算法对比结果
Table 4 Comparison results of weakly supervised semantic segmentation algorithms

下载CSV

方法	平均交并比/%
LCEM-Fixed-2-Hyb	46.4
SN_B	43.2
DCSM	45.1
Build in FG/BG	48.0
SPN	46.9
DHSN_S2_AM_CRF(λ=0.98)	49.7
本文	69.5
注：加粗字体表示最优结果；λ为模型中能量函数的权重值。

4 结论

本文提出了一种基于流形正则化约束的交叉一致性图像语义分割算法，通过建立输入域与输出域之间在低维流形上的对应关系，并以此为约束，使现有的网络模型可以更好地捕获数据中的上下文关系。在无需生成巨大特征矩阵并在任何推理过程中不引入额外计算量的前提下，建立了图像分割网络中像素点间的依赖关系，提高了算法的分割精度，保持了原有的推理时间。本文在交叉一致性训练模型的基础上，证明了流形正则化算法可以同时适用不同的分割任务并取得了最优性能。

在后期工作中，考虑对流形正则化算法进行改进，使其不仅在相同的空间域(同一个数据集)内进行几何约束，更要扩展到不同的空间域(不同的数据集)，通过几何结构将每个数据中相同的种类约束到同一个流形中，使图像语义分割模型具有更好的泛化性，解决模型重复训练和数据集缺少的问题。

参考文献

Belkin M, Niyogi P, Sindhwani V. 2006. Manifold regularization: a geometric framework for learning from labeled and unlabeled examples. The Journal of Machine Learning Research, 7: 2399-2434 [DOI:10.5555/1248547.1248632]

Chen C, Tang S, Li J T. 2020. Weakly supervised semantic segmentation based on dynamic mask generation. Journal of Image and Graphics, 25(6): 1190-1200

陈辰, 唐胜, 李锦涛. 2020. 动态生成掩膜弱监督语义分割. 中国图象图形学报, 25(6): 1190-1200 [DOI:10.11834/jig.190458]

Evgeniou T, Pontil M, Poggio T. 2000. Regularization networks and support vector machines. Advances in Computational Mathematics, 13(1): #1 [DOI:10.1023/A:1018946025316]

Hong S, Noh H and Han B. 2015. Decoupled deep neural network for semi-supervised semantic segmentation//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press: 1495-1503 [DOI: 10.5555/2969239.2969406]

Hu C, Wu X J, Shu Z Q, Chen S G. 2020. Laplacian ladder networks. Journal of Software, 31(5): 1525-1535

胡聪, 吴小俊, 舒振球, 陈素根. 2020. 拉普拉斯阶梯网络. 软件学报, 31(5): 1525-1535 [DOI:10.13328/j.cnki.jos.005680]

Kwak S, Hong S and Han B. 2017. Weakly supervised semantic segmentation using superpixel pooling network//Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI: 4111-4117

Lee J, Kim E, Lee S, Lee J and Yoon S. 2019. FickleNet: weakly and semi-supervised semantic image segmentation using stochastic inference//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 5262-5271 [DOI: 10.1109/cvpr.2019.00541]

Li Y, Liu Y, Liu G J, Guo M Z. 2020. Weakly supervised image semantic segmentation method based on object location cues. Journal of Software, 31(11): 3640-3656

李阳, 刘扬, 刘国军, 郭茂祖. 2020. 基于对象位置线索的弱监督图像语义分割方法. 软件学报, 31(11): 3640-3656 [DOI:10.13328/j.cnki.jos.005828]

Li Y, Liu Y, Liu G J, Zhai D M, Guo M Z. 2018. Weakly supervised semantic segmentation based on EM algorithm with localization clues. Neurocomputing, 275: 2574-2587 [DOI:10.1016/j.neucom.2017.11.029]

Lin T Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Dollár P and Zitnick C L. 2014. Microsoft COCO: common objects in context//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer: 740-755 [DOI: 10.1007/978-3-319-10602-1_48]

Liu B, Wu Z R, Hu H and Lin S. 2019. Deep metric transfer for label propagation with limited annotated data//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision Workshop. Seoul, Korea (South): IEEE: 1317-1326 [DOI: 10.1109/iccvw.2019.00167]

Long J, Shelhamer E and Darrell T. 2015. Fully convolutional networks for semantic segmentation//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 3431-3440 [DOI: 10.1109/CVPR.2015.7298965]

Miyato T, Maeda S I, Koyama M, Ishii S. 2019. Virtual adversarial training: a regularization method for supervised and semi-supervised learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(8): 1979-1993 [DOI:10.1109/tpami.2018.2858821]

Niyogi P. 2013. Manifold regularization and semi-supervised learning: some theoretical analyses. The Journal of Machine Learning Research, 14(1): 1229-1250 [DOI:10.5555/2567709.2502619]

Ouali Y, Hudelot C and Tami M. 2020. Semi-supervised semantic segmentation with cross-consistency training//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 12671-12681 [DOI: 10.1109/cvpr42600.2020.01269]

Qing C, Yu J, Xiao C B, Duan J. 2020. Deep convolutional neural network for semantic image segmentation. Journal of Image and Graphics, 25(6): 1069-1090

青晨, 禹晶, 肖创柏, 段娟. 2020. 深度卷积神经网络图像语义分割研究进展. 中国图象图形学报, 25(6): 1069-1090 [DOI:10.11834/jig.190355]

Quispe A M and Petitjean C. 2015. Shape prior based image segmentation using manifold learning//Proceedings of 2015 International Conference on Image Processing Theory, Tools and Applications. Orleans, France: IEEE: 137-142 [DOI: 10.1109/IPTA.2015.7367113]

Saleh F, Aliakbarian M S, Salzmann M, Petersson L, Gould S and Alvarez J M. 2016. Built-in foreground/background prior for weakly-supervised semantic segmentation//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 413-432 [DOI: 10.1007/978-3-319-46484-8_25]

Shimoda W and Yanai K. 2016. Distinct class-specific saliency maps for weakly supervised semantic segmentation//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 218-234 [DOI: 10.1007/978-3-319-46493-0_14]

Song C F, Huang Y, Ouyang W L and Wang L. 2019. Box-driven class-wise region masking and filling rate guided loss for weakly supervised semantic segmentation//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 3131-3140 [DOI: 10.1109/cvpr.2019.00325]

Souly N, Spampinato C and Shah M. 2017. Semi supervised semantic segmentation using generative adversarial network//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 5689-5697 [DOI: 10.1109/iccv.2017.606]

Tarvainen A and Valpola H. 2017. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc. : 1195-1204 [DOI: 10.5555/3294771.3294885]

Wei Y C, Liang X D, Chen Y P, Jie Z Q, Xiao Y H, Zhao Y, Yan S C. 2016. Learning to segment with image-level annotations. Pattern Recognition, 59: 234-244 [DOI:10.1016/j.patcog.2016.01.015]

Xu S J, Meng Y B, Liu G H, Yu J Q, Xiong F L, Hu G Z. 2019. Local region consistency manifold constrained MRF model for image. Control and Decision, 34(5): 997-1003

徐胜军, 孟月波, 刘光辉, 于军琪, 熊福力, 胡高珍. 2019. 用于图像分割的局部区域一致性流形约束MRF模型. 控制与决策, 34(5): 997-1003 [DOI:10.13195/j.kzyjc.2017.1453]

Zhang M, Zhou Y, Zhao J Q, Man Y Y, Liu B, Yao R. 2020. A survey of semi- and weakly supervised semantic segmentation of images. Artificial Intelligence Review, 53(6): 4259-4288 [DOI:10.1007/s10462-019-09792-7]

Zhou B L, Khosla A, Lapedriza A, Oliva A and Torralba A. 2016. Learning deep features for discriminative localization//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 2921-2929 [DOI: 10.1109/cvpr.2016.319]