发布时间: 2019-05-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180487
2019 | Volume 24 | Number 5

医学图像处理

带尺寸约束的弱监督眼底图像视盘分割

鲁正, 陈大力, 薛定宇

东北大学信息科学与工程学院, 沈阳 110819

收稿日期: 2018-08-27; 修回日期: 2018-11-03

基金项目: 国家自然科学基金项目（61773104）

第一作者简介: 鲁正, 1990年生, 男, 博士研究生, 主要研究方向为图像处理。E-mail:ruda0214@163.com;
薛定宇, 男, 教授, 主要研究方向为分数阶理论。E-mail:xuedingyu@mail.neu.edu.cn.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2019)05-0827-09

摘要

目的医学图像的像素级标注工作需要耗费大量的人力。针对这一问题，本文以医学图像中典型的眼底图像视盘分割为例，提出了一种带尺寸约束的弱监督眼底图像视盘分割算法。方法对传统卷积神经网络框架进行改进，根据视盘的结构特点设计新的卷积融合层，能够更好地提升分割性能。为了进一步提高视盘分割精度，本文对卷积神经网络的输出进行了尺寸约束，同时用一种新的损失函数对尺寸约束进行优化，所提的损失公式可以用标准随机梯度下降方法来优化。结果在RIM-ONE视盘数据集上展开实验，并与经典的全监督视盘分割方法进行比较。实验结果表明，本文算法在只使用图像级标签的情况下，平均准确识别率（mAcc）、平均精度（mPre）和平均交并比（mIoU）分别能达到0.852、0.831、0.827。结论本文算法不需要专家进行像素级标注就能够实现视盘的准确分割，只使用图像级标注就能够得到像素级标注的分割精度。缓解了医学图像中像素级标注难度大的问题。

关键词

弱监督学习; 视盘分割; 尺寸约束; 卷积神经网络; 眼底图像

Algorithm for size-constrained weakly supervised optic disc segmentation of fundus images

Lu Zheng, Chen Dali, Xue Dingyu

College of Information Science and Engineering, Northeastern University, Shenyang 110819, China

Supported by: National Natural Science Foundation of China (61773104)

Abstract

Objective Ocular fundus image processing is one of the most popular research fields that combine medical science and computer science. Fundus images have the advantages of clear imaging, simple operation, and high efficiency, thereby enabling people to find various eye diseases as soon as possible. At present, deep learning methods provide state-of-the-art results on many tasks of image processing, including medical image segmentation and instance segmentation. A small number of objects are found in many cases of biomedical applications. Moreover, few datasets can be used. In most cases, fundus tests require a doctor to locate the optic disc and find its boundary. Therefore, retinal optic disc segmentation is an important problem in fundus image research. The success of the fully supervised learning algorithm relies on many high-quality manual comments/tags, which are often time consuming and costly to obtain. Different experts use different criteria, thereby resulting in some difficulties in medical image segmentation. If experiments with inaccurate data are conducted, not only will incorrect results be obtained but time will also be wasted. To save cost, this study proposes a constrained weakly supervised optic disc segmentation algorithm. Method By referring to the literature, we combine the convolution neural network (CNN) and the weak supervision method. A weak supervised learning method for sub-ocular image segmentation is proposed. First, the proposed visual CNN is pre-trained on a large auxiliary dataset, which contains approximately 1.2 million labeled training images of 1 000 classes. We can use this pre-training model to complete our own segmentation. Notably, we only use the parameters of the first five layers of the model to train our own models. Then, the top layer of the deep CNN is trained from RIM-ONE dataset. We fuse the conv3, conv4, and conv8 layers in our new model to improve the optic segmentation performance. Finally, we design a new constrained weak loss function to achieve an optimal output. The proposed loss function can optimize convolutional networks with arbitrary linear constraints on the structured output space of pixel labels. The key contribution of this study is to model a distribution over latent "pixel-wise" labels while keeping the network's output the same as the distribution. In this way, the output size is within a reasonable range. The weak loss function is used to constrain the foreground and background sizes of the target. The KL divergence and stochastic gradient descent methods are used to optimize the model. Result The proposed algorithm for constrained weakly supervised optic disc segmentation is evaluated with the RIM-ONE dataset. This method can effectively segment the contour of the video disc. The central part of the optic disc covered by blood vessels is well segmented. Our approach is evaluated in terms of mean accuracy, mean precision, and mean intersection over union. These three indexes are the common evaluation indexes in the field of image segmentation. We calculate the results prior to convolutional layer fusion and after convolutional layer fusion. Obviously, the latter results are better than the former ones. The latter results show that the mean accuracy in this work can reach 0.852, the mean precision can reach 0.831, and the mean intersection over union can reach 0.827; these findings are close to current state-of-the-art result. We only use image-level tags without any pixel-level mask. Overall, our algorithm for constrained weakly supervised optic disc segmentation achieves 90% of the performance of the fully supervised approach, which uses orders of magnitude without annotation. With the model trained on the server, each image takes only a few seconds to predict. This prediction is faster than that of the method in the same type of some weakly supervised segmentation articles. Conclusion A new method to segment optic discs is proposed, and an end-to-end framework under deep weak supervision for image-to-image segmentation for medical images is developed. To preferably learn video disc information, we develop deep weak supervision for our formulation. Size constraints are also introduced naturally to seek for additional weakly supervised information. This work is the first to use image-level tags to conduct optic disc segmentation. The proposed models obtain more competitive results than the fully supervised method does. Experiments demonstrate that our methods achieve state-of-the-art results on weakly supervised medical images. The results can be applied to a wide range of medical imaging and computer vision applications. The research area on weakly supervised medical image processing has a broad prospect. An increasing number of people are expected to prefer the weak supervision method over the fully supervised method; even unsupervised learning is likely to cause a boom among scholars. These options can improve work efficiency and reduce labor costs. Experimental results also prove the effectiveness of our weakly supervised optic disc segmentation method.

Key words

weak supervised learning; optic disc segmentation; size constrained; convolutional neural network; fundus image

0 引言

眼底图像处理是当下最热门的医学与计算机科学相结合的研究领域之一。相比于眼底镜, 眼底图像具有成像清晰、操作简便、效率高等优势, 能使人们尽早地发现各种眼部疾病, 方便及时治疗。通常眼底测试需要一个医生去定位视盘的位置，并且找到它们的边界。通过判断视神经的异样才能确定是否是青光眼。因此, 眼底图像中视网膜视盘分割是一个非常重要的研究问题, 对青光眼、高血压、黄斑病变等疾病的辅助诊断和后期治疗和都具有重要的临床医学意义^[1-4]。

在过去一段时间中，多种分类和分割算法已经被提出^[5-6]，在医学成像中，监督学习方法^[7]显示了在执行图像分类和分割时的特殊效果。然而，这些监督学习算法的成功依赖于大量高质量的手工标签，这些标签的获取通常是非常耗时且代价昂贵的。此外，经验丰富的医学专家在模棱两可和具有挑战性的案例上可能会产生分歧。无监督学习策略是在没有专家对图像进行标注的情况下直接用原始图像进行分类或分割，这是一个非常有前途的研究方向，但是迄今没有真正意义上的临床实践。

在有监督和无监督学习之间，弱监督学习方法只利用图像级的标签就能够自动实现像素级别的语义分割或分类效果而不需要专家标注。在眼底图像的诊断上，专家会通过对已标注的眼底图像进行判断是否患有眼部疾病。而弱监督学习算法，不需要专家标注的像素级样本就可以进行眼底图像分割训练，从而得到正确的分割结果，这一过程大大减少了医学专家的标注工作，属于弱监督学习的范畴，也是本文的主要主题。

目前有关弱监督图像分割的算法主要集中于对传统的图像数据库进行图像分割或分类(如voc2012)，而针对眼底图像的弱监督学习方法则很少有人提及。大部分已存在的弱监督学习算法都是基于一个已经被预训练的目标识别或分类网络，例如ImageNet^[8-9]之类的深度神经网络，同时会利用弱监督环境下的损失函数来微调网络^[10]。最简单的方法是直接通过多示例学习来执行弱监督学习，即用弱指标作为真实假设的一个正面例子，通过给出一个图像级的分类标签，试图找到一个在正图像中存在的普遍信号。Song等人^[11]利用多示例支持向量定义了一个通过使用神经网络产生目标特征的自动探索region proposal，可以解决子模块覆盖问题。Li等人^[12]提出了一种新方法，分别对神经网络和检测器进行序列优化。Wang等人^[13]提出了一种基于概率潜在语义分析的聚类方法来选择每个类中最具鉴别性的区域。除了积极提高数据的初始质量之外，还可以致力于在训练时进行优化。Singh等人^[14]通过在初始正样本的一个子集上迭代训练支持向量机(SVM)分类器，接着对另一个数据集进行评估来更新训练样本。Pathak等人^[15]使用卷积神经网络(CNN)模型将多示例学习从检测扩展到语义分割。上述方法迭代地用图像级样本增强了预测输出，同时抑制了错误分割。这些方法对初始化非常敏感，还依赖于经过精心预训练的分类器神经网络。Papandreou等人^[16]提出了利用图像级图片的期望值最大方法，在预测像素级标签(E步骤)和估计CNN参数(M步骤)之间交替进行，通过基数约束来调节标签预测步骤。Pathak等人^[17]提出了约束卷积方法，通过利用线性约束，构造新的损失函数，然后通过在凸和基于梯度的优化中交替进行优化。Jie等人^[18]提出了自学习方法，让检测器学习目标级特征，然后利用学到的特征来获取对应的proposals，并在此基础上进行重复优化训练。Wei等人^[19]利用简单图片的显著图训练一个初始化分割网络，然后用该网络结合改进的损失函数来做复杂图片的分割任务。Wei等人^[20]通过以敌对的方式擦除分类网络中提取的目标区域，然后在原始图片中除去已经擦除的区域重新进行分类训练，再提取目标区域，重复进行，最终将提取的目标区域集合构成语义分割的标签。

基于上述有关弱监督学习方法的文献，本文结合深度卷积神经网络和有关弱监督约束的方法，提出了用于眼底图像分割的弱监督学习方法。本文将带尺寸约束的卷积神经网络用于视盘的分割，通过改进传统的神经网络结构，并设计出一种新的损失函数来优化CNN的预测输出。新的损失函数直接用标准的随机梯度下降法就可进行优化。后续的实验证明了本文的弱监督学习算法在视盘分割上的有效性。

1 本文算法

将一幅图像$\mathit{\boldsymbol{I}}$的像素标记定义为一组随机变量，$\mathit{\boldsymbol{X}} = \left\{ {{x_0}, \cdots, {x_n}} \right\}$, 其中$n$是图像$\mathit{\boldsymbol{I}}$中像素的数量。$x_{i} \in \boldsymbol{L}$表示取$m$个离散标签中的一个，$\mathit{\boldsymbol{L}}{\rm{ = \{ 1, }}2, \cdots, m\} $。卷积神经网络对这些随机变量的概率分布$Q(\boldsymbol{X} | \boldsymbol{\theta}, \boldsymbol{I})$进行建模，$\boldsymbol{\theta}$是卷积神经网络的参数。该分布通常被建模成独立变量之间的内积。

$ Q(\boldsymbol{X} | \boldsymbol{\theta}, \boldsymbol{I})=\prod\limits_{i} q_{i}\left(x_{i} | \boldsymbol{\theta}, \boldsymbol{I}\right) $

式中，每一个$q_{i}\left(x_{i} | \boldsymbol{\theta}, \boldsymbol{I}\right)$代表一个softmax概率

$ q_{i}\left(x_{i} | \boldsymbol{\theta}, \boldsymbol{I}\right)=\frac{1}{Z_{i}} \exp \left(f_{i}\left(x_{i} ; \boldsymbol{\theta}, \boldsymbol{I}\right)\right) $

(1)

式中，$Z_{i}=\sum\limits_{l \in L} \exp \left(f_{i}\left(x_{i}; \boldsymbol{\theta}, \boldsymbol{I}\right)\right)$是像素$i$的配分函数。函数$f_{i}$表示卷积神经网络中的真实得分。标准的学习算法目的是最大限度地实现模型下观察到的训练数据的可能性，然而这在弱监督的环境下并不可行。因为标准的学习算法需要已经标注好的标签，而本文的弱监督算法则不需要。后续内容将展示如何对输出进行高级别约束来优化卷积神经网络(CNN)的参数，并且将介绍一些有用的针对弱标注的约束。本文算法的整体框架图如图 1所示。

图 1 本文方法的图像处理流程

Fig. 1 Overview of our constrained weak learning pipeline

1.1 约束优化

令${\mathit{\boldsymbol{Q}}_\mathit{I}}$表示网络输出$Q(\boldsymbol{X} | \boldsymbol{\theta}, \boldsymbol{I})$的向量化形式，则本文的约束神经网络优化可以被描述为找到参数$\mathit{\boldsymbol{\theta }}$，使其满足

$ {\mathit{\boldsymbol{A}}_I}{\mathit{\boldsymbol{Q}}_I} \ge {\mathit{\boldsymbol{b}}_I}\forall \mathit{\boldsymbol{I}} $

(2)

式中，${\mathit{\boldsymbol{A}}_I} \in {\mathit{\boldsymbol{R}}^{\mathit{k}{\rm{ \times }}\mathit{m}}},\mathit{\boldsymbol{b}} \in {\mathit{\boldsymbol{R}}^\mathit{k}}$, 并在关于图片$\mathit{\boldsymbol{I}}$的卷积网络的输出分布上执行$k$个独立的线性约束，其中$k \times n m$表示$k$行$nm$列的矩阵。理论上，会有很多输出${\mathit{\boldsymbol{Q}}_\mathit{I}}$满足这些约束条件。然而所有的网络输出都由一个单一的参数向量$\mathit{\boldsymbol{\theta }}$来进行参数化，这样会将不同的输出空间联系在一起。实际上，这会导致输出与输入图像以及弱标签约束保持一致。为了符号简便，将单张图片的符号表示为$\mathit{\boldsymbol{A}}{\rm{ = }}{\mathit{\boldsymbol{A}}_\mathit{I}}{\rm{, }}\mathit{\boldsymbol{b}}{\rm{ = }}{\mathit{\boldsymbol{b}}_\mathit{I}}$, $\mathit{\boldsymbol{Q}} = {\mathit{\boldsymbol{Q}}_I}$，并且将这一表示应用到之后的多图片推导之中。而本文所说的约束可以是场景中预期的前景和背景像素标签数量的上界和下界。伴随着问题式(2)的描述，通常对于网络参数$\mathit{\boldsymbol{\theta }}$是非凸的。对于任何非线性函数$\mathit{Q}$, 矩阵$\mathit{\boldsymbol{A}}$是可以被选择的，这样其实只是对$\mathit{Q}$的上下界进行约束，而该约束是非凸的，并且非凸约束会直接导致优化困难。事实上，问题式(2)可以用拉格朗日对偶来优化，但是会在计算上花费昂贵的代价，因为需要在双重下降算法的内部循环中优化整个卷积神经网络。

为了有效地优化问题式(2)，在语义标签$\mathit{\boldsymbol{X}}$上引入了潜在概率分布$\mathit{P}{\rm{(}}\mathit{\boldsymbol{X}}{\rm{)}}$，并将其约束在位于约束目标的可行性区域内，同时移除卷积神经网络输出$\mathit{Q}$的约束。然后通过最小化它们各自的KL(Kullback-Leibler)散度来建立相同的概率分布。问题描述为如下数学形式：找到合适的$\mathit{\boldsymbol{\theta }}$和$P$来最小化$\boldsymbol{D}(P(\boldsymbol{X}) \| Q(\boldsymbol{X} | \boldsymbol{\theta}))$，且受限于

$ \mathit{\boldsymbol{AP}} \ge \mathit{\boldsymbol{b}}, \sum\limits_\mathit{\boldsymbol{X}} P (\mathit{\boldsymbol{X}}) = 1 $

(3)

式中，$\boldsymbol{D}(P(\boldsymbol{X}) \| Q(\boldsymbol{X} | \boldsymbol{\theta}))=\sum\limits_{\boldsymbol{X}} P(\boldsymbol{X}) \log P(\boldsymbol{X})E_{X \sim P}[\log Q(\boldsymbol{X} | \boldsymbol{\theta})]$。式中，${E_{X \sim P}}[\log Q(\mathit{\boldsymbol{X}}|\mathit{\boldsymbol{\theta }})]$表示$P(\boldsymbol{X})$和$Q(\boldsymbol{X} | \boldsymbol{\theta})$的交叉熵，$\mathit{\boldsymbol{P}}$是$P(\boldsymbol{X})$的向量化形式。如果问题式(2)中的约束是可满足的，那么问题式(2)就等价于式(3)在$P$上的解，同理等价于可行的$Q$。这个等式意味着$P(\boldsymbol{X})$可以被建模成独立边缘的內积$P(\boldsymbol{X})=\prod_{i} p_{i}\left(x_{i}\right)$，而不失普遍性，其中$p_{i}\left(x_{i}\right)=q_{i}\left(x_{i} | \boldsymbol{\theta}\right)$。

新的目标函数更容易去优化，因为解耦了网络输出的约束。对于固定的网络参数$\mathit{\boldsymbol{\theta }}$，问题在$P$中是凸的。对于固定的潜在分布$P$，这个问题变成了利用随机梯度下降来优化标准交叉熵损失函数。后续将结合潜在分布$P$的优化和随机梯度下降优化，在每一次迭代进行优化，直至最终的收敛。

1.2 潜在分布$P$的优化

首先展示如何优化问题式(3)，同时保持卷积神经网络输出固定。目标函数为线性约束的凸函数，这意味着在满足约束条件的情况下，其具有强对偶性且符合斯莱特条件(Slaters condition)。因此可以通过最大化它的对偶函数来优化问题式(3)。

$\begin{array}{l} \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;La(\lambda ) = \\ {\lambda ^{\rm{T}}}\mathit{\boldsymbol{b}} - \sum\limits_{i = 1}^n {\log } \sum\limits_{l \in L} {\exp } \left( {{f_i}(l;\mathit{\boldsymbol{\theta }}) + \mathit{\boldsymbol{A}}_{\mathit{\boldsymbol{i}};\mathit{\boldsymbol{l}}}^{\rm{T}}\lambda } \right) \end{array} $

(4)

式中，$\mathit{{\lambda }} \ge 0$是与不等式约束有关的对偶变量，${f_i}\left({l; \mathit{\boldsymbol{\theta }}} \right)$是卷积神经网络分类器对于像素$i$并且标签为$l$的得分。${\mathit{\boldsymbol{A}}_{\mathit{\boldsymbol{i}}{\rm{; }}\mathit{\boldsymbol{l}}}}$是$\mathit{\boldsymbol{A}}$中的一列，对应$p_{i}(l)$。

耦合函数是凹的，可以利用投影梯度上升来进行全局优化。已经给出的对偶函数的梯度为$\frac{\partial }{{\partial \lambda }}La(\lambda) = \mathit{\boldsymbol{b}} - \mathit{\boldsymbol{AP}}$，从而得出$p_{i}\left(x_{i}\right)=\frac{1}{Z_{i}} \exp \left(f_{i}\left(x_{i}; \boldsymbol{\theta}\right)+\boldsymbol{A}_{i; x_{i}}^{\mathrm{T}} \lambda\right), Z_{i}=\sum\limits_{l \in L} \exp \left(f_{i}(l; \boldsymbol{\theta})+\right.{{\bf{A}}_{\mathit{\boldsymbol{i}}; \mathit{\boldsymbol{l}}}^{\rm{T}}\mathit{\lambda }})$是用来确保在任何$x_{i} \in \boldsymbol{L}$的情况下，分布$p_{i}\left(x_{i}\right)$和为1的局部配分函数。直观上，对于那些不满足的约束条件，投影梯度下降算法增加了耦合变量。这些耦合变量反过来调整分布$p_{i}$来满足约束条件。投影耦合梯度下降算法通常在不到50次迭代的情况下收敛，使得优化效率很高。

以下是问题式(4)的详细推导过程。

首先对$\boldsymbol{D}(P(\boldsymbol{X}) \| Q(\boldsymbol{X} | \boldsymbol{\theta}))$进行简化

$ \begin{array}{l} {H_P} = - \sum\limits_\mathit{\boldsymbol{X}} P (\mathit{\boldsymbol{X}})\log P(\mathit{\boldsymbol{X}})\\ {H_{P|Q}} = - {E_{X \sim p}}[\log Q(X|\mathit{\boldsymbol{\theta )}}] = \\ - {E_{X \sim p}}\left[ {\sum\limits_{i = 1, \cdots , n} {\log } {q_i}\left( {{x_i}|\mathit{\boldsymbol{\theta }}} \right) = } \right.\\ - \sum\limits_{i = 1, \ldots , n} {{E_{X \sim p}}} \left[ {\log {q_i}\left( {{x_i}|\mathit{\boldsymbol{\theta }}} \right)} \right] = \\ - \sum\limits_{i = 1, \cdots , n} {{E_{{x_i} \sim P}}} \left[ {\log {q_i}\left( {{x_i}|\mathit{\boldsymbol{\theta }}} \right)} \right] = \\ - \sum\limits_{i = 1, \cdots , n} {\sum\limits_{l \in L} P } \left( {{x_i} = l} \right)\log {q_i}(l|\mathit{\boldsymbol{\theta }}) \end{array} $

(5)

式中，$H$表示熵的定义。

$ P\left( {{x_i} = l} \right) = \sum\limits_{\mathit{\boldsymbol{X}}:{x_i} = l} P (\mathit{\boldsymbol{X}}) $

是边缘分布。问题式(3)的拉格朗日对偶函数为

$ \begin{array}{l} \begin{array}{*{20}{c}} {La(P, \lambda , v) = - {H_P} + {H_{P|Q}} + }\\ {{\lambda ^{\rm{T}}}(\mathit{\boldsymbol{b}} - \mathit{\boldsymbol{AP}}) + v\left( {\sum\limits_\mathit{\boldsymbol{X}} P (\mathit{\boldsymbol{X}}) - 1} \right) = } \end{array}\\ \begin{array}{*{20}{c}} { - {H_P} + {H_{P|Q}} - \sum\limits_{i, l} {{\lambda ^{\rm{T}}}} {\mathit{\boldsymbol{A}}_{\mathit{\boldsymbol{i}}{\rm{;}}\mathit{\boldsymbol{l}}}}\mathit{\boldsymbol{P}}\left( {{x_i} = l} \right) + }\\ {{\lambda ^{\rm{T}}}\mathit{\boldsymbol{b}} + v\left( {\sum\limits_X P (\mathit{\boldsymbol{X}}) - 1} \right) = } \end{array}\\ - {H_p} - {\widetilde H_{P|Q}} + {\lambda ^{\rm{T}}}\mathit{\boldsymbol{b}} + v\left( {\sum\limits_X P (\mathit{\boldsymbol{X}}) - 1} \right) \end{array} $

(6)

式中，$\widetilde{H}_{P| Q}=-\sum\limits_{i=1, \ldots, n} \sum\limits_{l \in L} P\left(x_{i}=l\right)\left(\log q_{i}(l | \boldsymbol{\theta})+\right.{\mathit{\boldsymbol{A}}_{\mathit{{i}}{\rm{; }}\mathit{{l}}}^{\rm{T}}\mathit{\lambda }})$是一个偏置交叉熵项。$v$是与不等式约束有关的对偶变量。这里通过利用线性约束把目标改写为基于偏置分布$\widetilde Q$和$P$的KL散度。定义基于$P$和$\widetilde Q$的交叉熵函数为

$ \begin{array}{l} {H_{P|\widetilde Q}} = - \sum\limits_\mathit{\boldsymbol{X}} P (\mathit{\boldsymbol{X}})\log \widetilde Q(\mathit{\boldsymbol{X}}|\mathit{\boldsymbol{\theta }}, \mathit{\lambda }) = \\ \;\;\;\;\; - \sum\limits_i {\sum\limits_l P } \left( {{x_i} = l} \right)\log {\rm{ }}{\widetilde q_i}(l|\mathit{\boldsymbol{\theta }}, \lambda ) = \\ \sum\limits_i {\sum\limits_l P } \left( {{x_i} = l} \right)\left( {\log {q_i}(l|\mathit{\boldsymbol{\theta }}, \lambda ) + \mathit{\boldsymbol{A}}_{i;l}^{\rm{T}}\lambda - \log {\rm{ }}{{\widetilde Z}_i}} \right) = \\ \;\;\;\;\;\;\;\;{\widetilde H_{P|Q}} + \sum {\log } {\rm{ }}{\widetilde Z_i}\\ \end{array} $

(7)

式中，$\widetilde{Z}_{i}$是一个局部配分函数，用来确保$\widetilde{q}_{i}$的累加和为1。其定义为$\widetilde{Z}_{i}=\sum\limits_{l} \exp \left(\log q_{i}(l | \boldsymbol{\theta})+\boldsymbol{A}_{i; l}^{\mathrm{T}} \lambda\right)$，并且，$\widetilde{q}_{i}\left(x_{i} |\right.\boldsymbol{\theta}, \lambda)=\frac{1}{\widetilde{Z}_{i}} q_{i}\left(x_{i} | \boldsymbol{\theta}\right) \exp \left(\boldsymbol{A}_{i; x_{i}}^{\mathrm{T}}\right)$。现在可以将式(6)改写为基于$P$和$\widetilde{Q}$的KL散度

$ \begin{array}{*{20}{c}} {La(P, \lambda , v) = - {H_P} + {H_{P|\widetilde Q}} - \sum\limits_i {\log } {\rm{ }}{{\widetilde Z}_i} + }\\ {{\lambda ^{\rm{T}}}\mathit{\boldsymbol{b}} + v\left( {\sum\limits_\mathit{\boldsymbol{X}} P (\mathit{\boldsymbol{X}}) - 1} \right) = }\\ {D(P\left\| {{\rm{ }}\widetilde Q} \right.) - C + {\lambda ^{\rm{T}}}\mathit{\boldsymbol{b}} + }\\ {v\left( {\sum\limits_\mathit{\boldsymbol{X}} P (\mathit{\boldsymbol{X}}) - 1} \right)} \end{array} $

(8)

式中，$C=\sum\limits_{i} \log \widetilde{Z}_{i}$是一个常量。根据强对偶性质，式(3)可以改写为$\max _{\lambda \geqslant 0, v} \min _{P} L(P, \lambda, v)$, 所以目标函数式（8）等价为如下形式

$ \begin{array}{l} \begin{array}{*{20}{c}} {L(\lambda ) = {\lambda ^{\rm{T}}}\mathit{\boldsymbol{b}} - C + \mathop {{\rm{max}}}\limits_v \mathop {{\rm{min}}}\limits_p D(\left. P \right\|\widetilde {{\rm{ }}Q}) + }\\ {v\left( {\sum\limits_X P (\mathit{\boldsymbol{X}}) - 1} \right) = } \end{array}\\ {\lambda ^{\rm{T}}}\mathit{\boldsymbol{b}} - C + \mathop {\min }\limits_{P:\sum\limits_X P (X) = 1} D(\left. P \right\|\widetilde {{\rm{ }}Q}) = \\ {\lambda ^{\rm{T}}}\mathit{\boldsymbol{b}} - \sum\limits_i {\log } \sum\limits_l {\exp } \left( {\log {q_i}(l|\mathit{\boldsymbol{\theta }}) + \mathit{\boldsymbol{A}}_{\mathit{\boldsymbol{i}};\mathit{\boldsymbol{l}}}^{\rm{T}}\mathit{\lambda }} \right) \end{array} $

(9)

然后，利用定义$q_{i}(l | \boldsymbol{\theta})=\frac{1}{Z_{i}} \exp \left(f_{i}(l; \boldsymbol{\theta})\right)$即可把式(9)改写为式(4)的形式。

1.3 随机梯度下降优化

对于一个固定的潜在分布 $ P$ ，问题式(3)可以简化为标准交叉熵损失函数

$ L a(\boldsymbol{\theta})=-\sum\limits_{i} \sum\limits_{x_{i}} p_{i}\left(x_{i}\right) \log q_{i}\left(x_{i} | \boldsymbol{\theta}\right) $

(10)

这个损失函数的梯度给定为$\frac{\partial }{{\partial {\mathit{\boldsymbol{f}}_i}\left({{x_i}} \right)}}La(\mathit{\boldsymbol{\theta }}) = {\mathit{\boldsymbol{q}}_i}\left({{x_i}|\mathit{\boldsymbol{\theta }}} \right) - {\mathit{\boldsymbol{p}}_i}\left({{x_i}} \right)$。对于线性模型，损失函数(10)是凸的，可以使用任何基于梯度的方法来优化。对于多层深层网络，本文采用反向传播和随机梯度下降法(SGD)对其进行优化，这一技术已经在Caffe中实现。

理论上，本文需要将潜在分布$P$固定在SGD的几次迭代中直到目标值下降为止，否则本文不能严格保证整体目标(3)下降。然而，在实践中发现，在SGD的每一步中推断新的潜在分布时并不影响整体表现，反而会加速收敛。

综上所述，本文使用SGD优化问题式(3)，在每次迭代中，首先固定网络参数$\mathit{\boldsymbol{\theta }}$去优化分布$P$，然后利用$P$去优化参数$\mathit{\boldsymbol{\theta }}$，直至最终收敛。

1.4 针对弱监督语义分割的约束

对于每一张训练图片$\mathit{\boldsymbol{I}}$都会给定一个图像级标记集合${\mathit{\boldsymbol{L}}_\mathit{I}}$。本文的约束依据图像级标签，影响着输出空间的不同部分。所有的约束都是互补的，每个约束利用不同的图像级标记组。具体分为以下几种约束：

1) 前景约束。$a_{l} \leqslant \sum\limits_{i=1}^{n} p_{i}(l) \leqslant b_{l}$，其中$a_{l}$和$b_{l}$分别表示全景像素中前景像素所占的下界个数和上界个数。$\forall l \in {\mathit{\boldsymbol{L}}_I}$这个前景约束与常用的多实例学习(MIL)范例非常相似，其中至少1个像素被约束为正的。与多实例学习不同，本文的前景约束可以鼓励多个像素通过增加$a_{l}$来获取特定的前景标签。在实际操作中，设置$a_{l}=0.04 n$, $b_{l}=0.07 n$，这样会最大化地提高最终的视盘分割效果，其中$n$是网络输出的数量。

2) 背景约束。$a_{0} \leqslant \sum\limits_{i=1}^{n} p_{i}(0) \leqslant b_{0}$，这里$l=0$表示背景标签，$a_{0}$和$b_{0}$分别表示全景像素中背景像素所占的下界个数和上界个数。本文在背景标签上应用了上界和下界，间接控制了前景标签的最大和最小区域。在实际操作中发现，当$a_{0}=0.7 n$和$b_{0}=0.85 n$时，表现最好。

上述的约束都是互补的，并确保最终的标记尽可能地遵循图像级标签$\boldsymbol{L}_{I}$。如果知道一张视盘图像的粗糙大小，那么就可以在训练过程中利用这些信息。本文在实验中证明了利用图像中视盘的粗糙大小就可以获得相当可观的收益。

2 实验结果与分析

2.1 实验细节

用于语义分割算法的总体思路为：在训练过程，只有图像级标签是存在的，在测试阶段，对给定的图像预测语义分割标签。

1) 学习阶段。本文实验使用的卷积神经网络框架是基于VGG-16(visual geometry group)网络^[21]，并在此基础上进行了改进。主要对其中的卷基层2-5和卷基层8进行了融合，以及卷积神经网络末尾采用设计的弱监督损失函数，框架结构如图 1所示。此外，本文根据文献[22]将全连接层以类似的方式转换成了全卷基层，并将卷基层8和融合层的输出改为2，分别为视盘和背景。通过分别对未融合之前的结构以及用不同的卷基层进行融合的结构进行对比实验，发现融合了卷基层2, 3, 4, 5, 8的框架得到了更好的效果。本文用随机高斯噪声来初始化卷基层8和融合层的权值，通过对生成的粗热图应用凸约束优化，降低了计算成本。训练网络应用SGD及其动量进行训练。参照文献[22]，对本文模型进行了批量大小为1的训练，动量为0.99，初始学习速率为0.000 001。训练15 000次迭代，大约相当于30个epochs。学习速率每1 000次迭代降低0.1个因子。单个图像的约束优化在单核CPU上花费不到30 ms，并可以使用GPU(graphic processing unit)加速，总训练时间约5~6 h。算法中用到的VGG网络已经在ILSVRC(imageNet large scale visual recognition competition)数据库中进行了预训练。

2) 推理阶段。在推理时，本文应用一个全连接条件随机场模型^[23]来优化最终分割，并且使用作者提供的默认参数来进行所有的实验。

2.2 数据库和评价指标

本文用于训练视盘分割的数据来源于RIM-ONE(retinal image database for optic nerve evaluation)数据库，共包含169幅视神经头图像，每幅图像对应一个医学专家手动分割的结果。将这169幅图像按照101 :58的比例分别分配到训练集和验证集中，并在此基础上进行模型的训练和后续的预测。与文献[24]一样，预测的结果以交并比(IoU)与准确率(Acc)以及精度(Pre)的形式进行度量，具体公式为

$ \begin{aligned} I_{o} U &=\frac{|\boldsymbol{A} \cap \boldsymbol{B}|}{|\boldsymbol{A} \cup \boldsymbol{B}|} \\ A c c &=\frac{T P+T N}{P+N} \\ P r e &=\frac{T P}{T P+F P} \end{aligned} $

式中，$\mathit{\boldsymbol{A}}$是预测的输出结果图，$\mathit{\boldsymbol{B}}$是对应的真实标签图。$TP$是被判定为正样本且事实上也是正样本的数目；$TN$是被判定为负样本且事实上也是负样本的数目；$FP$是被判定为正样本但事实上是负样本的数目。$P$、$N$分别是正、负样本的数目。

2.3 尺寸约束弱监督算法预测结果与分析

本文算法的实验结果取得了不错的效果，图 2是卷基层融合之前和融合之后的部分视盘分割结果。从图 2可以看出，未进行卷基层融合之前，3幅图像$\mathit{\boldsymbol{a}}$、$\mathit{\boldsymbol{b}}$、$\mathit{\boldsymbol{c}}$的输出结果大体上能够将视盘的轮廓分割出来，但在边缘的局部细节上没有处理好，尤其在视盘边缘与血管的交界处，受到了血管干扰，部分视盘未被正确分割。而经过卷基层融合之后，可以发现视盘预测结果在边缘更加流畅平滑，在视盘边缘与血管交界处表现的尤为明显。相比于未进行卷基层融合之前的预测结果，融合之后预测的准确率得到了有效的提升。

图 2 两种不同方法的实验结果比较图

Fig. 2 Result comparison with two different methods ((a)three input images $\mathit{\boldsymbol{a}}$, $\mathit{\boldsymbol{b}}$, $\mathit{\boldsymbol{c}}$; (b)the corresponding segmentation maps before convolutional fusion; (c)the corresponding segmentation maps after convolutional fusion; (d)pixel-level label of the three images)

在没有用像素级标签进行训练的情况下，本文的带尺寸约束弱监督眼底图像视盘分割方法能够准确地将视盘的轮廓分割出来。与像素级标签(groundtruth)相比，本文算法在视盘边缘的分割依然取得了极为接近的效果。虽然训练过程中没有十分有效的监督信息，但本文算法在视盘图像内部包含血管区域的部分仍然做出了准确的分割。

因为截止到目前为止，文献中还没有任何关于视盘分割的弱监督方法，所以将本文提出的带尺寸约束的弱监督眼底图像视盘分割算法与利用FCN(fully convolutional networks)进行全监督视盘分割^[1]和利用U-net进行全监督视盘分割^[24]的两个经典方法进行比较，结果如表 1所示。从表 1可以看出，进行卷基层融合之后得到的平均准确识别率($mAcc$)、平均精度($mPre$)和平均交并比($mIoU$)均比融合之前的结果有所提升，表明融合之后视盘的分割效果在各方面都要优于融合之前。虽然融合后整体的$mAcc$、$mIoU$和$mPre$比基于FCN和U-net的全监督方法差了将近0.1，但是本文的结果是在没有任何像素级标注的情况下训练得出的，并且达到了接近全监督分割方法90%的分割精度。两个全监督方法在有对应标签的情况下均取得了理想的效果，基于U-net的算法要略优于基于FCN的算法。

表 1 本文所提弱监督方法与经典全监督方法比较
Table 1 Result comparison with our weakly supervised methods and the typical supervised methods

下载CSV

评价指标	本文弱监督方法(卷基层融合之前)	本文弱监督方法(卷基层融合之后)	基于FCN的全监督视盘分割方法	基于U-net的全监督视盘分割方法
mAcc	0.821	0.852	0.941	0.949
mPre	0.805	0.831	0.929	0.931
mIoU	0.793	0.827	0.920	0.925
像素级标注样本数量/幅	0	0	169	169
注：加粗字体为4种方法中的最优结果。

3 结论

提出一种带尺寸约束的弱监督眼底图像视盘分割网络，能够在只使用图像级标注数据的情况下实现视盘的分割。并且在公开的数据集RIM-ONE上取得了较为理想的效果，验证了本文方法的有效性。然而本文方法因为没有使用像素级标注数据，取得的分割性能与全监督方法之间依然存在些许差距。预示在后续的研究中，基于弱监督的视盘分割方法还有一定的提升空间。今后将尝试结合传统视盘分割方法与深度学习方法，通过产生高精度的粗分割图，并对其进行后处理操作，然后用得到的分割图作为像素级标签进行训练，从而更有效地提升弱监督视盘分割方法的性能。

参考文献

[1] Maninis K K, Pont-Tuset J, Arbeláez P, et al. Deep retinal image understanding[C]//Proceedings of the 19th International Conference on Medical Image Computing and Computer-Assisted Intervention. Athens, Greece: Springer, 2016: 140-148.[DOI:10.1007/978-3-319-46723-8_17]

[2] Joshi G D, Sivaswamy J, Krishnadas S R. Optic disk and cup segmentation from monocular color retinal images for glaucoma assessment[J]. IEEE Transactions on Medical Imaging, 2011, 30(6): 1192–1205. [DOI:10.1109/TMI.2011.2106509]

[3] Mittapalli P S, Kande G B. Segmentation of optic disk and optic cup from digital fundus images for the assessment of glaucoma[J]. Biomedical Signal Processing and Control, 2016, 24: 34–46. [DOI:10.1016/j.bspc.2015.09.003]

[4] Salazar-Gonzalez A, Kaba D, Li Y M, et al. Segmentation of the blood vessels and optic disk in retinal images[J]. IEEE Journal of Biomedical and Health Informatics, 2014, 18(6): 1874–1886. [DOI:10.1109/JBHI.2014.2302749]

[5] Mookiah M R K, Acharya U R, Chua C K, et al. Automated detection of optic disk in retinal fundus images using intuitionistic fuzzy histon segmentation[J]. Proceedings of the Institution of Mechanical Engineers, Part H:Journal of Engineering in Medicine, 2013, 227(1): 37–49. [DOI:10.1177/0954411912458740]

[6] Zou B J, Zhang S J, Zhu C Z. Automatic localization and segmentation of optic disk in color fundus image[J]. Optics and Precision Engineering, 2015, 23(4): 1187–1195. [邹北骥, 张思剑, 朱承璋. 彩色眼底图像视盘自动定位与分割[J]. 光学精密工程, 2015, 23(4): 1187–1195. ] [DOI:10.3788/ope.20152304.1187]

[7] Yu H, Barriga E S, Agurto C, et al. Fast localization and segmentation of optic disk in retinal images using directional matched filtering and level sets[J]. IEEE Transactions on Information Technology in Biomedicine, 2012, 16(4): 644–657. [DOI:10.1109/TITB.2012.2198668]

[8] Badrinarayanan V, Kendall A, Cipolla R. SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481–2495. [DOI:10.1109/TPAMI.2016.2644615]

[9] Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J]. arXiv preprint arXiv: 1412.7062, 2014.

[10] Farabet C, Couprie C, Najman L, et al. Learning hierarchical features for scene labeling[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1915–1929. [DOI:10.1109/TPAMI.2012.231]

[11] Song H O, Girshick R, Jegelka S, et al. On learning to localize objects with minimal supervision[J]. arXiv preprint arXiv: 1403.1024, 2014.

[12] Li D, Huang J B, Li Y L, et al. Weakly supervised object localization with progressive domain adaptation[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 3512-3520.[DOI: 10.1109/CVPR.2016.382]

[13] Wang C, Ren W Q, Huang K Q, et al. Weakly supervised object localization with latent category learning[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 431-445.[DOI: 10.1007/978-3-319-10599-4_28]

[14] Singh S, Gupta A, Efros A A. Unsupervised discovery of mid-level discriminative patches[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer, 2012: 73-86.[DOI: 10.1007/978-3-642-33709-3_6]

[15] Pathak D, Shelhamer E, Long J, et al. Fully convolutional multi-class multiple instance learning[J]. arXiv preprint arXiv: 1412.7144, 2014.

[16] Papandreou G, Chen L C, Murphy K P, et al. Weakly-and semi-supervised learning of a deep convolutional network for semantic image segmentation[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1742-1750.[DOI: 10.1109/ICCV.2015.203]

[17] Pathak D, Krähenbühl P, Darrell T. Constrained convolutional neural networks for weakly supervised segmentation[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1796-1804.[DOI: 10.1109/ICCV.2015.209]

[18] Jie Z Q, Wei Y C, Jin X J, et al. Deep self-taught learning for weakly supervised object localization[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017.[DOI: 10.1109/CVPR.2017.457]

[19] Wei Y C, Liang X D, Chen Y P, et al. STC:a simple to complex framework for weakly-supervised semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2314–2320. [DOI:10.1109/TPAMI.2016.2636150]

[20] Wei Y, Feng J, Liang X, et al. Object region mining with adversarial erasing: a simple classification to semantic segmentation approach[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 6488-6496.[DOI: 10.1109/CVPR.2017.687]

[21] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv: 1409.1556, 2014.

[22] Shelhamer E, Long J, Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640–651. [DOI:10.1109/TPAMI.2016.2572683]

[23] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe, Nevada: Curran Associates Inc., 2012: 1097-1105.

[24] Sevastopolsky A. Optic disc and cup segmentation methods for glaucoma detection with modification of U-Net convolutional neural network[J]. Pattern Recognition and Image Analysis, 2017, 27(3): 618–624. [DOI:10.1134/S1054661817030269]