Print

发布时间: 2021-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210207
2021 | Volume 26 | Number 8




    高光谱医学诊断    




  <<上一篇 




  下一篇>> 





傅里叶变换通道注意力网络的胆管癌高光谱图像分割
expand article info 郑少佳1,2, 邱崧1,2, 李庆利1,2, 周梅1,2, 胡孟晗1,2, 于观贞1
1. 华东师范大学上海市多维度信息处理重点实验室, 上海 200241;
2. 华东师范大学空间信息与定位导航上海高校工程研究中心, 上海 200241

摘要

目的 胆管癌高光谱图像的光谱波段丰富但存在冗余,造成基于深度神经网络高光谱图像分割方法的分割精度下降,虽然一些基于通道注意力机制的网络能够关注重要通道,但在处理通道特征时存在信息表示不足问题,因此本文研究构建一种新的通道注意力机制深度网络,以提高分割准确性。方法 提出了傅里叶变换多频率通道注意力机制(frequency selecting channel attention,FSCA)。FSCA对输入特征进行2维傅里叶变换,提取部分频率特征,再通过两层全连接层得到通道权重向量,将通道权重与对应通道特征相乘,获得了融合通道注意力信息的输出。针对患癌区域和无癌区域数据不平衡问题引入了Focal损失,结合Inception模块,构建基于Inception-FSCA的胆管癌高光谱图像分割网络。结果 在采集的胆管癌高光谱数据集上进行实验,Inception-FSCA网络的准确率(accuracy)、精度(precision)、敏感性(sensitivity)、特异性(specificity)、Kappa系数分别为0.978 0、0.965 4、0.958 6、0.985 2、0.945 6,优于另外5种对比方法。与合成的假彩色图像的分割结果相比,高光谱图像上的实验指标分别提高了0.058 4、0.105 8、0.087 5、0.039 0、0.149 3。结论 本文所提出的傅里叶变换多频率通道注意力机制能够更有效地利用通道信息,基于Inception-FSCA的胆管癌高光谱图像分割网络能够提升分割效果,在胆管癌医学辅助诊断方面具有研究和应用价值。

关键词

胆管癌高光谱图像; 卷积神经网络(CNN); 图像分割; 通道注意力机制; 傅里叶变换

Fourier transform channel attention network for cholangiocarcinoma hyperspectral image segmentation
expand article info Zheng Shaojia1,2, Qiu Song1,2, Li Qingli1,2, Zhou Mei1,2, Hu Menghan1,2, Yu Guanzhen1
1. Shanghai Key Laboratory of Multidimensional Information Processing, East China Normal University, Shanghai 200241, China;
2. Engineering Center of SHMEC for Space Information and GNSS, East China Normal University, Shanghai 200241, China
Supported by: National Natural Science Foundation of China(61975056); Shanghai Municipal Natural Science Foundation(19ZR1416000)

Abstract

Objective Cholangiocarcinoma is a rare but highly malignant tumor. Hyperspectral imaging (HSI), which originated from remote sensing, is an emerging image modality for diagnosis and image-guided surgery. HSI takes the advantage of acquiring 2D images across a wide range of electromagnetic spectrum. HSI can obtain spectral and optical properties of tissue and provide more information than RGB images. Redundant information will persist even though HSI contains tens the amount of data compared with RGB images with the same spatial dimension. Traditional dimensionality reduction methods, such as principal component analysis and kernel method, reduce the data by converting the original spectral space to a low-dimensional one, which is not suitable in end-to-end models. Recently, convolutional neural networks have demonstrated excellent performance on computer vision tasks, including classification, segmentation, and detection. Attention mechanism is used in convolutional neural network(CNN) to improve the representation of feature maps. Typical channel attention modules, such as squeeze-and-excitation net (SENet), squeezes the input features by global average pooling to produce a channel descriptor. However, different channels could have the same mean value. We proposed frequency selecting channel attention (FSCA) mechanism to address this issue. An Inception-FSCA network is also proposed for the segmentation of a hyperspectral image of cholangiocarcinoma tissues. Method FSCA can exploit the information from different frequency components. This method consists of three steps. First, the input feature map is transformed in the frequency domain by Fourier transform. Second, a representative frequency amplitude is selected to efficiently use the obtained frequencies. These selected frequencies are arranged in a column of vectors. Third, these vectors are sent to two consecutive fully connected layers to obtain a channel weight vector. Then, a sigmoid function is used to scale each channel weight between zero and one. Every element in the channel weight vector is multiplied with the corresponding channel feature. FSCA can adjust the channel information, strengthen the important channels, and suppress the unimportant. This work uses a microscopic hyperspectral imaging system to obtain hyperspectral images of cholangiocarcinoma tissues. These images have a spectral bandwidth from 550 nm to 1 000 nm in 7.5 nm increments, producing a hypercube with 60 spectral bands. Spatial resolution of each image is 1 280×1 024 pixels. The ground truth label is manually annotated by experts. The method is implemented using Python3.6 and TensorFlow1.14.0 on NVDIA TITAN X GPU, Intel i7-9700KF CPU. The learning rate is 0.000 5, the batch size is 256, and the optimization strategy is Adam. Cancerous areas have different sizes, resulting in unbalanced positive and negative samples. Focal loss is chosen as a loss function. Result We conducted comparative and ablation experiments on our dataset. We use several evaluation metrics to evaluate the performance of the inception-FSCA. The accuracy, precision, sensitivity, specificity, and Kappa are 0.978 0, 0.965 4, 0.958 6, 0.985 2, and 0.945 6, respectively. Conclusion In this study, we proposed a Fourier transform frequency selecting channel attention mechanism. The proposed channel attention module can be conveniently inserted in CNN. An Inception-FSCA network is built for the segmentation of hyperspectral images of cholangiocarcinoma tissues. Quantitative results show that our method has excellent performance. Inception-FSCA can be applied in the outer image segmentation and classification tasks.

Key words

hyperspectral image of cholangiocarcinoma; convolutional neural network (CNN); image segmentation; channel attention mechanism; Fourier transform

0 引言

胆管癌是一种恶性度高的罕见肿瘤,传统的判断肿瘤侵犯范围和可切除性评估的方法有病理组织分析、电子计算机断层扫描(computed tomography,CT)和核磁共振成像(magnetic resonance imaging,MRI)等影像学检查(倪其泓和王坚,2015)。组织病理学检查仍然是诊断癌症的“金标准”,对病理切片定性定量分析需要花费医生大量精力,应用计算机辅助算法分析病理图像能减轻医生负担。近年来显微高光谱成像技术逐渐应用到医学领域,使用高光谱显微成像系统采集到的组织切片图像具有数十甚至上百个波段的光谱信息(Lu和Fei,2014)。人体正常组织和癌变区域具有不同的物理特性和化学特性。在物理特性上,癌变组织的形态会发生改变,其空间特征不同;在化学特性上,癌变组织的组成结构、各个成分的含量变化导致其光谱信息改变,如谱线的形状、吸收强度和吸收峰等,是对空间特征的一项重要补充(马雪洁等,2020)。高光谱图像相较于传统彩色病理图像,除了能反映组织的物理特性,还能间接反映其化学特征。郑欣(2019)将显微高光谱成像技术应用于乳腺肿瘤组织微阵列,使用融合空谱特征的支持向量机逐像素分类划分出癌症区域,取得了比传统方法更高的分割指标。宋楠等人(2020)使用高光谱成像技术对脑组织切片成像,实验结果表明癌症组织和非癌症组织在特定波长范围内的反射率存在差别,高光谱信息确实能为癌症诊断提供帮助。目前采用高光谱图像分析胆管癌这种罕见肿瘤的研究较少。

但高光谱图像中丰富的波段信息存在冗余,如何有效利用空间信息和光谱信息是一个难点。传统机器学习方法如支持向量机直接对高光谱图像进行分类(Melgani和Bruzzone,2004),由于数据量大导致耗时长,且对噪声较为敏感。对高光谱数据采用核方法(Camps-Valls和Bruzzone,2005),利用统计信息对光谱降维再分类,由于不是端到端的方法,可能会丢失对分割结果有效的信息。

卷积神经网络(convolutional neural network, CNN)(Krizhevsky等,2012)作为一种端到端的方法也已应用于高光谱图像处理领域。通道注意力机制在深度学习中的应用进一步提升了模型的性能,通过对深度学习网络中不同通道特征图赋予不同权重来提高特征表达,抽取对目标任务更重要的信息。RANet (residual attention network)(Wang等,2017) 采用残差结构,其中一个分支得到注意力权重,然后对另外一个分支的特征图进行加权处理,有效提升了模型的特征表达能力。SENet(squeeze-and-excitation network)(Hu等,2018)考虑到通道间的依赖性,提出了通道注意力机制,对特征图的通道加权,提升特征表达能力。Roy等人(2019)将SE(squeeze-and-excitation)模块应用到F-CNN(fully convolutional neural networks)中,在3个数据集上的语义分割精度得到了提高。SKNet(selective kernel networks)(Li等,2019)则采取不同大小卷积核得到的不同大小感受野的特征后使用SENet提出的通道注意力机制。ECA-Net(efficient channel attention networks)(Wang等,2020)将SE模块中的全连接层改为一维卷积,并设计了一个自适应确定一维卷积核大小的函数。注意力机制也被用于高光谱图像波段选择,自适应选择波段子集,减少冗余波段干扰(Fang等,2019)。关世豪等人(2020)使用SENet来选择高光谱谱段,输入为单个像元包含的一维光谱数据。慧于伶等人(2020)使用融合多层特征SENet和多尺度宽残差的神经网络对高光谱图像地物分类。

上述通道注意力机制采用不同的方法得到通道权重,但都将全局平均池化作为压缩单个通道输入特征图的默认操作。求平均值会受到极端值的影响,且不同通道的特征图即使差异巨大也有可能具有相同的平均值,因此仅用每个通道特征图的平均值不足以代表该通道。通过2维傅里叶变换将图像从空间域转化到频域,从频域的角度分析,全局平均池化的值与频域中最低频即直流分量幅度相等,丢失了大量其他频率的信息,给通道注意力机制带来输入的通道特征表示不足的问题。

本文针对上述问题,提出了傅里叶变换多频率通道注意力机制(frequency selecting channel attention, FSCA)。FSCA对输入特征进行2维傅里叶变换,提取部分频率特征,再通过两层全连接层和sigmoid层获得通道权重向量,将每一个通道权重与对应通道输入特征图相乘,获得了融合通道注意力信息的输出。对于胆管癌高光谱图像分割问题,本文构建了Inception-FSCA网络结构,使用Inception(Szegedy等,2017)模块获得不同感受野的特征,使用FSCA模块获得融合通道注意力信息的特征。利用高光谱成像系统对患者胆管癌组织活检切片进行成像,获得了胆管癌高光谱图像数据集,由医学专家对数据进行标注,并对数据集进行了预处理,将高光谱图像分成图像块输入Inception-FSCA网络获得预测结果。

1 相关技术

1.1 SENet

图 1所示,SENet提出SE模块学习通道之间的关系,让模型更加关注重要的通道特征而抑制不重要的通道特征,并且可以灵活地嵌入到其他网络结构中。其主要步骤为:SE模块首先对输入特征图${\boldsymbol{X}} \in {{\bf{R}}^{M \times N \times C}}$采用全局平均池化进行压缩(squeeze), 得到通道级别的全局特征。然后全局特征通过全连接(fully connected)层、ReLU(rectified linear unit)层、全连接层、sigmoid层进行激励(excitation),学习各个通道间的关系,得到不同通道的权重。最后将每一个权重乘上对应通道的输入特征图,对输入特征重标定,得到经过了通道注意力机制作用后的特征图。

图 1 SE模块结构图
Fig. 1 SE block structure

1.2 Inception简介

Inception-Res-v2(Szegedy等,2017)延续了Inception系列的思想:增加网络的宽度;采用$1 \times n$$n \times 1$的卷积代替$n \times n$卷积;使用两个3×3卷积代替5×5卷积,具有良好的特征提取能力,并且增加了ResNet(He等, 2016)的结构。如图 2图 3所示,分别为Inception-Res-A模块,Inception-Res-B模块和Inception-Res-C模块。

图 2 Inception模块结构图
Fig. 2 Inception block structure
((a)Inception-Res-A block; (b) Inception-Res-B block)
图 3 Inception-Res-C模块结构图
Fig. 3 Inception-Res-C block structure

2 Inception-FSCA模型

2.1 Inception-FSCA网络结构

采用CNN对高光谱图像进行分割时,输入通常为以下3种:整幅输入、单像素输入和图像块输入。整幅图作为输入时需要采集大量高光谱图像以保证数据集规模足够大;单像素作为输入时,模型无法充分利用邻域像素的相关性,对异常值和噪声敏感(Zhong等,2019);采用图像块作为网络输入时,图像块标签为中心像素点标签,利用2D卷积学习图像块中间像素特征,能考虑到邻近像素对中心像素的影响,Halicek等人(2017)将高光谱头颈癌图像分成图像块后使用卷积神经网络对其进行分类。

考虑到数据量有限,Inception-FSCA网络模型采用图像块作为输入。网络结构中使用了Inception结构,使用本文提出的FSCA模块施加通道注意力机制,网络总体结构如图 4所示。综合网络深度和训练时间考虑,在Inception-ResNet-v2的基础上减少了Inception模块堆叠的数量,保留原始结构中的Stem模块、Inception-Res-A模块、Inception-Res-B模块、Inception-Res-C模块和Reduction模块。为了关注重要特征通道,每个Inception模块后接一个FSCA模块,即在每个Inception模块提取特征后使用通道注意力机制对特征图进行通道加权处理。由于图像块输入方式不再需要降采样操作,所以把所有卷积层和池化层的步长设为1,并通过补零使得上述模块输入输出特征图尺寸相同。

图 4 Inception-FSCA网络结构图
Fig. 4 Inception-FSCA network structure

2.2 傅里叶变换多频率通道注意力机制(FSCA)

使用2维离散傅里叶变换把图像从空间域转换到频域,可以从另一个角度来观察分析图像。从物理意义上来说,傅里叶变换将图像的灰度分布函数变换到图像的频率分布函数。图像的频率特征反映图像中灰度变化的剧烈程度,灰度变化缓慢的区域为较低频率区域,灰度变化大的区域则是较高频率区域。SENet采用全局平均池化操作实质得到了最低频的直流分量,丢失了其他分量,为了更好地表达图像通道信息,本文提出了傅里叶变换多频率通道注意力机制,主要分为以下3步。

1) 2维离散傅里叶变换。

对一幅$M \times N$像素大小的图像或特征图,其2维离散傅里叶变换的公式为

$ F(u, v)=\frac{1}{M N} \sum\limits_{x=0}^{M-1} \sum\limits_{y=0}^{N-1} f(x, y) \mathrm{e}^{-\mathrm{i} 2 {\rm{ \mathit{ π} }} u x / M} \mathrm{e}^{-\mathrm{i} 2 {\rm{ \mathit{ π} }} v y / N} $ (1)

式中,$F(u, v)$为频域$(u, v)$处频率分量,$f(x, y)$为输入图像或特征图的某个通道空间域$(x, y)$点处灰度值。离散傅里叶逆变换为

$ f(x, y)=\sum\limits_{x=0}^{M-1} \sum\limits_{y=0}^{N-1} F(u, v) \mathrm{e}^{\mathrm{i} 2 {\rm{ \mathit{ π} }} u x / M} \mathrm{e}^{\mathrm{i} 2 {\rm{ \mathit{ π} }} v y / N} $ (2)

根据欧拉公式

$ \mathrm{e}^{\mathrm{i} x}=\cos x+\operatorname{isin} x $ (3)

2维傅里叶变换可以写成如下形式

$ \begin{array}{c} F(u, v)=\frac{1}{M N} \sum\limits_{x=0}^{M-1} \sum\limits_{y=0}^{N-1} f(x, y) \\ (\cos 2 {\rm{ \mathit{ π} }} u x / M-\operatorname{isin} 2 {\rm{ \mathit{ π} }} u x / M) \\ (\cos 2 {\rm{ \mathit{ π} }} v y / N-\operatorname{isin} 2 {\rm{ \mathit{ π} }} v y / N) \end{array} $ (4)

图像经过2维傅里叶变换后,其变换系数矩阵表明:2维变换矩阵的原点设在左上角,图像经过2维傅里叶变换后的能量信号主要集中在频谱系数矩阵的四角,即图像能量在低频区域较为集中。为使频率项的排列形式更加直观以便分析,将$f(x, y)$${(- 1)^{x + y}}$,使傅里叶变换后的频谱中心化,即低频成分在中间,高频成分在四角。2维傅里叶变换如图 5所示。

图 5 2维傅里叶变换示意图
Fig. 5 Fourier transform diagram
((a)original image; (b) amplitude image; (c)amplitude diagram after centralization; (d) phase image)

傅里叶变换多频率通道注意力机制模块如图 6所示,输入特征图为$h \times w \times c$大小。

图 6 FSCA模块结构图
Fig. 6 FSCA block structure

常用的通道注意力机制,如SENet在进行压缩时采用的方法是对输入特征图在每一个通道上进行全局平均值池化,将每一个通道上$M \times N$大小的空间信息压缩到一个点,即

$ G=\frac{1}{M N} \sum\limits_{x=0}^{M-1} \sum\limits_{y=0}^{N-1} f(x, y) $ (5)

从频域角度来分析,式(6)表明傅里叶变换在频域原点$(u, v) = \left({0, 0} \right)$处的幅度等于图像的平均灰度值,即全局平均池化是保留此处频率分量的特例。但是不同的特征图可能具有相同的平均值,且全局平均池化只保留最低频分量,丢失了其他频率成分的信息,因此FSCA考虑保留更多频率成分。

$ F(0, 0)=\frac{1}{M N} \sum\limits_{x=0}^{M-1} \sum\limits_{y=0}^{N-1} f(x, y) $ (6)

2) 频率挑选。

输入特征图为${\boldsymbol{X}} \in {{\bf{R}}^{M \times N \times C}}$,经过傅里叶变换后,每一个通道有多达$M \times N$个频率分量,若保留所有频率分量会增加计算量且有大量冗余频率。因此对上一步得到的频率进行挑选,保留代表性的频率。频谱中心化后中间部分为低频,四角为高频,频谱图关于原点对称,因此为覆盖从低频到高频的信息且频率不重复,挑选频率方法为半对角线形。如图 7所示,红框中为保留的频率。每个通道选择$k$(假设$M$为奇数,此处$k = M$)个频率为

$ \begin{array}{c} \boldsymbol{F}_{\mathrm{sel}}={ concat }\{F(0, 0), F(1, 1), F(2, 2), \cdots, \\ F((M-1) / 2, (M-1) / 2), \cdots, \\ F(1, M-2), F(0, M-1)\} \end{array} $ (7)

图 7 频率挑选
Fig. 7 Frequency selecting

将保留的$k$个频率成分排列成一个$\begin{array}{*{20}{l}} {1 \times k} \end{array}$的向量。则原来$C$个通道的$\begin{array}{*{20}{l}} {M \times N} \end{array}$大小的输入特征图,经过离散傅里叶变换和频率挑选后,每个通道保留$k$个频率,保留的频率排列成向量后,总共$C$$\begin{array}{*{20}{l}} {1 \times k} \end{array}$的向量。

3) 得到通道权重向量。

得到$C$$\begin{array}{*{20}{l}} {1 \times k} \end{array}$的向量,通过两个全连接层,再经过sigmoid层将通道权重归一化到0~1,即

$ \boldsymbol{W}_{\mathrm{att}}={sigmoid}\left(W_{2}\left(W_{1} \boldsymbol{F}_{\mathrm{sel}}\right)\right) $ (8)

式中,${W_1}$${W_2}$为两个全连接层的权重,得到的$1{\rm{ }} \times 1{\rm{ }} \times C$向量${{\boldsymbol{W}}_{att}}$,即为通道权重向量。通道权重向量与输入特征图逐通道相乘,得到融合通道注意力机制的特征图,为不同通道输入特征图分配不同的权重,再作为网络下一层的输入。

2.3 损失函数

交叉熵(cross entropy)损失函数计算为

$ \begin{gathered} L_{\mathrm{ce}}=-y_{\text {label }} \log y_{\mathrm{pre}}- \\ \left(1-y_{\text {label }}\right) \log \left(1-y_{\mathrm{pre}}\right)= \\ \begin{cases}-\log y_{\mathrm{pre}} & y_{\text {label }}=1 \\ -\log \left(1-y_{\mathrm{pre}}\right) & y_{\text {label }}=0\end{cases} \end{gathered} $ (9)

式中,${y_{{\rm{label}}}}$表示真实样本的样本标签,${y_{{\rm{pre}}}}$表示预测的样本标签。

本文统计了胆管癌区域占图像的面积,见表 1。考虑到高光谱图像中患癌区域和无癌区域大小不一,存在样本正负类别不平衡的问题,因此损失函数采用了在交叉熵损失的基础上改进而来的Focal损失(Lin等,2017)。Focal损失计算公式为

$ \begin{gathered} L_{\text {focal }}= \\ \left\{\begin{array}{ll} -\alpha\left(1-y_{\text {pre }}\right)^{\gamma} \log y_{\text {pre }} & y_{\text {label }}=1 \\ -(1-\alpha) y_{\text {pre }}^{\gamma} \log \left(1-y_{\text {pre }}\right) & y_{\text {label }}=0 \end{array}\right. \end{gathered} $ (10)

表 1 癌症区域比例表
Table 1 Proportion of cancer areas

下载CSV
图像 图像编号 胆管癌区域占比/%
031368c-20x-roi2-L0 1 27.16
041845-20x-roi7 2 30.98
041845-20x-roi8 3 32.76
041845-20x-roi10-L0 4 28.24
042338B-20x-roi10 5 38.68
052032-20x-roi1-L0 6 17.28

式中,$\alpha $用来调整正负样本不平衡的问题, $\gamma $用来调整难易样本不平衡的问题, 根据调试经验, $\alpha $设置为0.6,$\gamma $设置为1。

3 实验结果与分析

3.1 数据集及预处理

使用合作医院提供的病理组织切片,用显微高光谱成像系统采集切片高光谱数据,共采集了波长从550~1 000 nm的60个波段的图像。由医学专家进行精细标注,剔除全癌症区域和无癌区域的图像,最后采用6幅高光谱图像数据作为本文数据集。如图 8,实验采集的胆管癌高光谱图像有60个波段,空间分辨率大小为1 280×1 024像素。每个空间点像素都包括60个波段的数据,远远大于RGB图像的三通道数据,提供了更丰富的信息。

图 8 胆管癌高光谱图像
Fig. 8 Hyperspectral image of cholangiocarcinoma

采集高光谱图像时受到系统噪声和光源稳定性的影响,图像存在噪声和光度不均匀现象,因此采用光谱矫正和中值滤波进行预处理。图 9为光谱矫正示意图,光谱矫正减少玻片的光学特性对高光谱数据的影响,采集玻片在每个波段的空白区域图像进行矫正。

图 9 光谱矫正原理图
Fig. 9 Spectrum correction principle image

${I_i}$为入射单色光源光强,${I_m}$为其透过载玻片、病理切片和盖玻片的透射光强,${I_o}$为透过载玻片和盖玻片的透射光强度。${T_d}$为载玻片透光率,${T_s}$为生理组织透光率,${T_u}$为盖玻片透光率。切片样本整体透光率${T_m}$和空白样本透光率${T_o}$计算为

$ T_{m}=I_{m} / I_{i}=T_{d} \times T_{s} \times T_{u} $ (11)

$ T_{o}=I_{o} / I_{i}=T_{d} \times T_{u} $ (12)

$ T_{s}=I_{m} / I_{o} $ (13)

中值滤波计算为

$ g(x, y)=\underset{{(m, n) \in \boldsymbol{S}}}{\operatorname{median}}\{f(m, n)\} $ (14)

式中,${\boldsymbol{S}}$为滤波窗口,$g(x, y)$为像素$(x, y)$处滤波输出值,$f(m, n)$为滤波窗口内原始像素值。本文采用3×3大小窗口值,采用复制边界值对图像边缘填充。

参考Zhong等人(2018)划分高光谱图像数据集的方法,本文采用的方法为:对图像随机采样像素点,每个像素点及其邻域像素点构成大小为7×7的图像块,中间像素点的类别作为该图像块的标签。每个图像块作为一个样本输入神经网络,网络输出为中间像素点为癌症区域的概率值,再以0.5为阈值转化为预测标签。由于图像块数据量较大,因此仅采样每幅图像约15 % 的像素点作为训练集,5 % 的点作为验证集,余下为测试集。若取到图像边界区域的点则补零填充到7×7大小。

3.2 实验设置

实验采用的GPU为NVIDIA TITAN X,CPU为Intel i7-9700KF处理器,操作系统为Ubuntu16.04(64位),深度学习框架为TensorFlow。采用Adam(Kingma和Ba,2015)作为优化算法,初始学习率设置为0.000 5,20个epoch后decay为0.000 2,batch size为256。

3.3 评价指标

在胆管癌高光谱图像分割任务中,图像的像素点分为两类,即患癌或者无癌,患癌区域为正样本,无癌区域为负样本。TN(true negative)表示分类器预测为无癌实际也是无癌的像素点个数,TP(true positive)表示分类器预测为患癌实际也为患癌像素点的个数,FN(false negative)表示预测为无癌但实际为患癌的像素点的个数,FP(false positive)表示预测为患癌但实际为无癌的像素点个数。

准确率(accuracy),正确预测的样本值占总预测样本数的比值, 即

$ R_{\mathrm{acc}}=\frac{T P+T N}{T P+T N+F P+F N} $ (15)

精度(precision),表示分类器预测为正样本的样本中实际为正样本的个数, 即

$ R_{\text {prec }}=\frac{T P}{T P+F P} $ (16)

敏感性(sensitivity)表示所有的正样本中被分类器正确预测的比例,即召回率(recall), 公式为

$ R_{\mathrm{sen}}=\frac{T P}{T P+F N} $ (17)

特异性(specificity)表示所有负样本中被分类器正确预测的比例,即

$ R_{\mathrm{spe}}=\frac{T N}{T N+F P} $ (18)

Kappa系数是一个用于一致性检验的指标,也可以用来衡量分类的效果。其取值范围为-1到1之间,计算为

$ R_{\text {Kappa }}=\frac{R_{a c c}-p_{e}}{1-p_{e}} $ (19)

式中,${p_e}$在二分类任务中计算为

$ \begin{gathered} p_{e}= \\ \frac{(T P+F P) \times(T P+F N)+(F N+T N) \times(F P+T N)}{N \times N} \end{gathered} $ (20)

3.4 实验结果与分析

3.4.1 Inception-FSCA分割结果

对每幅高光谱图像,采用Inception-FSCA方法进行图像分割。图 10(a)为三通道(波段1,波段5,波段20)合成的假彩色图像。真实标签和预测结果叠加如图 10(b)所示。本方法在局部有零散分错情况,整体上预测结果与真实标签相吻合。其中白色像素是实际为癌症、预测也为癌症的像素,绿色像素是实际为无癌、预测也为无癌的像素,红色像素为错分的像素。

图 10 Inception-FSCA分割效果图
Fig. 10 Segmentation result images of Inception-FSCA
((a)false-colour images corresponed to hyperspectral images; (b)contrast images between real labels and predictions)

表 2列出了Inception-FSCA网络在6幅高光谱图像测试集上的指标,为5次实验平均所得。算法在不同图像上的准确率平均为0.978 0,大多像素预测正确,Kappa指标平均为0.945 6,预测与真实标签一致性较高,算法分割效果较好。

表 2 Inception-FSCA指标结果
Table 2 Result of Inception-FSCA

下载CSV
编号 准确率 精度 敏感性 特异性 Kappa
1 0.976 4 0.955 3 0.942 4 0.986 5 0.933 2
2 0.976 6 0.965 1 0.953 9 0.984 6 0.942 0
3 0.974 7 0.967 9 0.964 2 0.980 9 0.945 9
4 0.974 8 0.964 2 0.954 9 0.983 8 0.941 2
5 0.986 0 0.978 7 0.979 9 0.989 0 0.968 7
6 0.979 7 0.954 9 0.956 4 0.986 5 0.942 5
总体指标 0.978 0 0.964 3 0.958 6 0.985 2 0.945 6

3.4.2 分离实验及对比实验

由于FSCA具有可灵活嵌入到已有深度学习网络结构的优点,因此本文将FSCA嵌入到近年来在许多公开数据集上表现较好的DenseNet(Huang等,2017)中进行实验对比。表 3列出了Inception-FSCA与其他算法模型指标的对比结果(5次实验均值)。Inception-FSCA中采用的基础网络具有Inception的思想,且加入了残差连接。DenseNet则使用密集连接,实验采用了3个Dense模块,网络深度与Inception接近。Inception-FSCA的总体指标相较DenseNet-FSCA略胜一筹,但训练时间更长。

表 3 不同模型的指标结果对比
Table 3 Comparison of different models results

下载CSV
算法 准确率 精度 敏感性 特异性 Kappa
Inception-FSCA (本文) 0.978 0 0.964 3 0.958 6 0.985 2 0.945 6
Inception-FSCA (交叉熵损失) 0.976 9 0.962 1 0.956 3 0.984 2 0.943 4
Inception-SE 0.974 9 0.948 2 0.952 1 0.979 7 0.936 8
Inception 0.971 0 0.949 5 0.949 1 0.971 4 0.934 2
Inception (交叉熵损失) 0.971 5 0.952 1 0.952 1 0.952 1 0.927 7
DenseNet-FSCA 0.976 1 0.959 3 0.954 6 0.983 8 0.943 2
DenseNet-SE 0.974 0 0.961 2 0.947 3 0.983 5 0.934 6
DenseNet 0.963 5 0.936 0 0.930 5 0.975 1 0.909 6
注:加粗字体表示每列最优结果。

为了验证FSCA的效果,进行了分离实验以及和SE模块的对比实验。以Kappa系数为例,Inception-FSCA、DenseNet-FSCA比各自不带FSCA的原始模型高0.011 4,0.033 6。说明FSCA的通道注意力机制能够关注到那些重要通道的特征,提升分割效果。加FSCA和SE这两种注意力模块,都能提高指标,但Inception-FSCA和DenseNet-FSCA的Kappa分别比Inception-SE和DenseNet-SE高0.008 8和0.008 6,说明FSCA模块在通道维度上的特征表达能力一定程度上优于SE模块。在Inception上使用Focal损失比交叉熵损失的Kappa指标提升0.006 5,Inception-FSCA(交叉熵损失)比Inception(交叉熵损失)Kappa高0.157,Inception-FSCA上使用Focal损失比使用交叉熵损失Kappa提升了0.002 2。可见,加Focal损失的提升作用没有加FSCA模块效果明显,对指标提升起主要作用的是FSCA模块。最后,本文构建的Inception-FSCA比其他算法的准确率和Kappa系数等指标都高,说明本文设计的网络结构在胆管癌高光谱图像分割任务中能够取得更好的分割结果。

3.4.3 高光谱与假彩色图像分割结果对比

选取高光谱图像中的3个通道合成假彩色图像,采用同样的实验配置用Inception-FSCA网络进行分割。为了使其更接近RGB图像,选择的波段为波段1、波段5、波段20,与蓝光、绿光和红光波长范围更接近。假彩色图像的分割结果见图 11,分割指标对比见表 4。高光谱图像的Kappa系数比假彩色图像的高0.148 1,假彩色图像的分割结果中错分的点明显更多。高光谱图像的其他预测指标也都比假彩色图像更高,可见更多的光谱信息确实能为分割网络提供帮助。

图 11 高光谱和假彩色图像分割结果对比
Fig. 11 Segmentation result of hyperspectral image and false-color image
((a) false-color image; (b) hyperspectral image result; (c) false-color image result)

表 4 高光谱与假彩色图像分割结果对比
Table 4 Hyperspectral and false-color image results

下载CSV
图像类型 准确率 精度 敏感性 特异性 Kappa
高光谱 0.978 0 0.965 4 0.958 6 0.985 2 0.945 6
假彩色 0.919 6 0.859 6 0.871 1 0.946 2 0.796 3
注:加粗字体表示每列最优结果。

4 结论

本文主要研究了基于深度网络的胆管癌高光谱图像的患癌区域分割问题,提出了傅里叶变换频率通道注意力机制,构建了基于Inception-FSCA的胆管癌高光谱图像分割深度网络。

FSCA模块对输入特征图进行傅里叶变换,选择一部分频率特征,再通过两层全连接层和sigmoid层得到通道权重向量,每一个权重与输入特征图对应通道相乘得到了融合注意力信息的特征图。FSCA模块具有可以灵活嵌入到现有深度网络构架的优点。本文设计了几组对比实验:1)探究FSCA的作用,与SENet的通道注意力机制以及不加通道注意力机制进行对比,实验结果表明FSCA相比SENet能够抽取较全面的通道特征,有利于提高分割指标; 2)与假彩色图像分割做对比实验,证明了含有丰富光谱信息的高光谱数据能够带来更好的分割效果; 3)将FSCA应用在Inception、DenseNet网络结构进行实验,结果表明采用本文设计的Inception-FSCA网络结构在胆管癌高光谱图像分割任务中能够取得更好的分割效果。

本文对胆管癌高光谱数据进行了患癌区域分割,能为医生工作提供帮助,减轻医生负担。但是胆管癌有肝门部胆管癌、中段胆管癌及下段胆管癌等不同类型,将来可进一步对患癌区域的癌症类别进行细化分类。

参考文献

  • Camps-Valls G, Bruzzone L. 2005. Kernel-based methods for hyperspectral image classification. IEEE Transactions on Geoscience and Remote Sensing, 43(6): 1351-1362 [DOI:10.1109/TGRS.2005.846154]
  • Fang B, Li Y, Zhang H K, Chan J C W. 2019. Hyperspectral images classification based on dense convolutional networks with spectral-wise attention mechanism. Remote Sensing, 11(2): #159 [DOI:10.3390/rs11020159]
  • Guan S H, Yang G, Lu S, Fu Y Y. 2020. Multi-objective optimization of hyperspectral band selection based on attention mechanism. Acta Optica Sinica, 40(21): #2128002 (关世豪, 杨桄, 卢珊, 付严宇. 2020. 基于注意力机制的多目标优化高光谱波段选择. 光学学报, 40(21): #2128002))
  • Halicek M, Lu G L, Little J V, Wang X, Patel M, Griffith C C, Ei-Deiry M W, Chen A Y, Fei B W. 2017. Deep convolutional neural networks for classifying head and neck cancer using hyperspectral imaging. Journal of Biomedical Optics, 22(6): #060503 [DOI:10.1117/1.JBO.22.6.060503]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778[DOI:10.1109/CVPR.2016.90]
  • Hu J, Shen L and Sun G. 2018. Squeeze-and-excitation networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7132-7141[DOI:10.1109/CVPR.2018.00745]
  • Huang G, Liu Z, van der Maaten L and Weinberger K Q. 2017. Densely connected convolutional networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 2261-2269[DOI:10.1109/CVPR.2017.243]
  • Kingma D and Ba J. 2015. Adam: a method for stochastic optimization[EB/OL]. [2020-07-29]. https://arxiv.org/pdf/1412.6980.pdf
  • Krizhevsky A, Sutskever I, Hinton G E. 2012. ImageNet classification with deep convolutional neural networks. Adavances in neural information processing systems, 25(2): 1097-1105 [DOI:10.1145/3065386]
  • Li X, Wang W H, Hu X L and Yang J. 2019. Selective kernel networks//Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, USA: IEEE: 510-519[DOI:10.1109/CVPR.2019.00060]
  • Lin T Y, Goyal P, Girshick R, He K M and Dollár P. 2017. Focal loss for dense object detection//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy: IEEE: 2999-3007[DOI:10.1109/ICCV.2017.324]
  • Lu G L, Fei B W. 2014. Medical hyperspectral imaging: a review. Journal of Biomedical Optics, 19(1): #010901 [DOI:10.1117/1.JBO.19.1.010901]
  • Ma X J, Liu R, Li C X, Chen W L, Xu K X. 2020. Hyperspectral imaging of in vivo tissues: a review. Laser and Optoelectronics Progress, 57(8): #080002 (马雪洁, 刘蓉, 李晨曦, 陈文亮, 徐可欣. 2020. 高光谱在体组织成像方法的研究进展. 激光与光电子学进展, 57(8): #080002) [DOI:10.3788/LOP57.080002]
  • Melgani F, Bruzzone L. 2004. Classification of hyperspectral remote sensing images with support vector machines. IEEE Transactions on Geoscience and Remote Sensing, 42(8): 1778-1790 [DOI:10.1109/TGRS.2004.831865]
  • Ni Q H, Wang J. 2015. Interpretation and consideration of guidelines for diagnosis and treatment of hilar cholangiocarcinoma (2013 edition). Journal of Hepatopancreatobiliary Surgery, 27(6): 450-454 (倪其泓, 王坚. 2015. 肝门部胆管癌诊断和治疗指南(2013版)的解读与思考. 肝胆胰外科杂志, 27(6): 450-454) [DOI:10.11952/j.issn.1007-1954.2015.06.003]
  • Roy A G, Navab N, Wachinger C. 2019. Recalibrating fully convolutional networks with spatial and channel "squeeze and excitation" blocks. IEEE Transactions on Medical Imaging, 38(2): 540-549 [DOI:10.1109/TMI.2018.2867261]
  • Song N, Guo H Z, Shen C Y, Sun C, Yang J, Zhang J N. 2020. Research on detection technology of brain glioma based on hyperspectral imaging. Spectroscopy and Spectral Analysis, 40(12): 3784-3788 (宋楠, 郭汉洲, 沈春洋, 孙慈, 杨晋, 张金男. 2020. 高光谱成像的脑胶质瘤检测. 光谱学与光谱分析, 40(12): 3784-3788) [DOI:10.3964/j.issn.1000-0593(2020)12-3784-05]
  • Szegedy C, Ioffe S, Vanhoucke V and Alemi A A. 2017. Inception-v4, inception-ResNet and the impact of residual connections on learning//Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI: 4278-4284
  • Wang F, Jiang M Q, Qian C, Yang S, Li C, Zhang H G, Wang X G and Tang X O. 2017. Residual attention network for image classification//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 6450-6458[DOI:10.1109/CVPR.2017.683]
  • Wang Q L, Wu B G, Zhu P F, Li P H, Zou W M and Hu Q H. 2020. ECA-Net: efficient channel attention for deep convolutional neural networks//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 11531-11539[DOI:10.1109/CVPR42600.2020.01155]
  • Yu H L, Huo J Y, Zhang Y Z. 2020. Hyperspectral image terrain classification based on multi-layer feature SENet and multi-scale wide residual. Research and Exploration in Laboratory, 39(7): 28-34, 44 (于慧伶, 霍镜宇, 张怡卓. 2020. 融合多层特征SENet和多尺度宽残差的高光谱图像地物分类. 实验室研究与探索, 39(7): 28-34, 44) [DOI:10.3969/j.issn.1006-7167.2020.07.007]
  • Zheng X. 2019. Study on the Recognition of Breast Tumor Tissue Microarray based on Microscopic Hyperspectral Imaging. Shanghai: East China Normal University (郑欣. 2019. 基于显微高光谱成像的乳腺肿瘤组织微阵列识别分析方法研究. 上海: 华东师范大学)
  • Zhong L H, Hu L N, Zhou H. 2019. Deep learning based multi-temporal crop classification. Remote Sensing of Environment, 221: 430-443 [DOI:10.1016/j.rse.2018.11.032]
  • Zhong Z L, Li J, Luo Z M, Chapman M. 2018. Spectral-spatial residual network for hyperspectral image classification: a 3-D deep learning framework. IEEE Transactions on Geoscience and Remote Sensing, 56(2): 847-858 [DOI:10.1109/TGRS.2017.2755542]