网刊加载中。。。

0引言特发性肺纤维化(idiopathic pulmonary fibrosis，IPF)是一种慢性肺疾病，起病隐匿，病因不明，组织学或影像学表现为普通型间质性肺炎，以进行性呼吸困难和肺功能下降为特征(沈沁雪和彭红，2021)，发病率和患病率分别在每10 000人0.09~1.30和0.33~4.51(Maher等，2021)。由于IPF病情呈渐进式发展、诊断手段有限，最终可能导致患者完全性肺功能障碍(Raghu等，2018)。IPF患者一般的中位生存时间只有3~5年，病情的预后存在较大的困难(Song等，2019)。虽然现在还没有广泛使用的技术可以估计IPF病情的进展，但普遍认为IPF患者的肺功能下降情况可以对IPF的预后提供一定的指导建议。而用力肺活量(forced vital capacity，FVC)是评估肺功能下降的一个重要指标。研究预测IPF患者在一定时间范围内的FVC值变化情况对IPF患者的预后具有重要的指导意义。人工智能技术在医学临床诊断与评估中逐渐得到广泛应用，Kaggle和开源影像协会(Open Source Imaging Consortium，OSIC)推出的肺纤维化进展挑战赛也极大地启发了利用人工智能技术对IPF预后的决策研究。Mandal等人(2020)为了得到IPF患者的肺活量下降情况，分析和比较了多分位数回归、Ridge回归和Elastic Net回归等机器学习模型的性能，并对每个患者的FVC值进行预测。Wong等人(2021)提出了基于深度卷积神经网络(convolutional neural network, CNN)的Fibrosis-Net，用于从胸部计算机断层扫描(computed tomography, CT)图像预测肺纤维化进展。Fibrosis-Net利用患者的胸部CT扫描以及肺活量测量和临床元数据来预测未来特定时间点患者的FVC。Nazi等人(2021)提出一种使用堆叠自注意力层的卷积神经网络框架，将网络提取的卷积CT特征输入堆叠自注意力层进行进一步细化，再结合其他临床特征对IPF患者的FVC值变化情况进行预测。但由于IPF患者的肺部CT图像存在改变多样、异质性大和边界不清等问题，CT图像的特征提取仍存在很大的改进空间。Glotov和Lyakhov(2021)提出了一种基于DNN(deep neural networks)、GBDT(gradient boosting decision tree)、NGBoost(natural gradient boosting)和ElasticNet共4种机器学习算法的集成模型，使用临床文本数据进行肺纤维化后IPF患者肺功能下降情况的预测。本文提出了融合多尺度残差和注意力机制的特发性肺纤维化进展预测模型，主要进行了如下工作：1) 提出一个以InceptionV1为骨干网络的CT特征提取网络，添加残差模块和改进的CBAM通道注意力模块(improved channel attention of convolutional block attention module，CBAM-ICA)、与卷积层并行的空洞卷积模块，以增强网络对CT特征的提取能力。2) 提出一个基于注意力模块和多层感知机的多模态特征预测网络，融合CT特征和其他临床特征对IPF患者不同周数的FVC值进行预测。3) 进行一系列模型对比、消融实验，验证本文提出的融合多尺度残差和注意力机制的特发性肺纤维化进展预测模型的有效性，相比其他模型具有更好的拉普拉斯对数似然得分。1相关工作1.1Inception网络InceptionV1网络是由Szegedy等人(2015)提出并应用于图像识别和目标检测等领域的深度卷积神经网络。该网络结构的主要特点是提出Inception模块，引入多尺度感受野和多尺度融合，使得网络内部计算资源的利用率得到提高，在保持计算量不变的情况下增加网络的深度和宽度。网络中的Inception模块采用不同大小的卷积核引入了多尺度处理，使得网络可以同时综合考虑不同尺度的信息，在卷积和池化之后再对特征进行融合，其结构如图 1所示。该多尺度并行结构相比于串行结构具有更好的特征表达能力，并在卷积之前和池化之后配置1×1卷积来减少特征维度，同时加快训练速度。图1 InceptionV1网络多尺度模块 Multi-scale module of InceptionV1 networkFig 1InceptionV2网络(Ioffe和Szegedy，2015)则在InceptionV1网络的基础上引入了Batch-Normalization批量标准化，避免梯度爆炸和梯度消失的问题，从而可以用较大的学习率进行训练，提高训练速度。与InceptionV2相比，InceptionV3网络(Szegedy等，2016)主要利用卷积结构和平移不变性原则实现两个卷积串联对一个大卷积的替换，除此之外还使用非对称卷积核，将$n×n$卷积进一步分解为$n$×1卷积和1×$n$卷积，降低计算量并获得性能的提高。为了获得更好的性能提升，InceptionV4网络(Szegedy等，2017)提出应该对不同尺度的特征采用不同的Inception模块，并将残差连接与Inception网络相结合，使网络性能和训练速度得到巨大的提升。本文以InceptionV1为骨干网络，使用针对不同尺度CT特征的多尺度CT特征融合模块提取CT特征。1.2注意力机制注意力机制源于对人类视觉的研究，能够集中关注重点的目标区域，抑制不重要信息，提高深度学习模型的性能。Hu等人(2018)提出压缩和激励(squeeze and excitation, SE)模块，通过对各通道添加注意力权重提高网络表达能力。随后Woo等人(2018)提出CBAM模块，表明全局平均池化和全局最大池化的并行连接方式比SE模块中单一的池化效果更好，并使用了串联的通道注意力和空间注意力，其通道注意力模型的结构如图 2所示，⊕表示对两条支路上计算得到的大小相同的特征图相加，⊗表示对注意力权重和原始输入的特征图进行点乘得到最终的输出特征图。Roy等人(2018)对SE模块进行改进，提出SE模块的3个变体cSE(spatial squeeze and channel excitation)、sSE(channel squeeze and spatial excitation)、scSE(concurrent spatial and channel SE)，并通过实验表明了这样的模块可以增强重要特征、抑制无用特征。Wang等人(2020)对SE模块进行另一种方式的改进，提出了一种不降低通道维数来进行跨通道信息交互的ECA(efficient channel attention)模块，更加有效地学习通道注意力。图2 CBAM通道注意力模块 CBAM channel attention moduleFig 2以上这些注意力模块在深度学习中对网络的性能提高都发挥着重要的作用，本文对CBAM通道注意力模块进行改进，并在多尺度CT特征融合模块中引入CBAM-ICA模块，以提高模型性能。1.3空洞卷积为了解决池化层导致的信息损失问题，Yu和Koltun(2016)提出了空洞卷积，向卷积层引入了扩张率(dilation rate)，在计算量相当的情况下提供更大的感受野。空洞卷积与普通卷积的差别如图 3所示，其中图 3(a)对应的是扩张率为1的3×3空洞卷积，与普通卷积相同；而图 3(b)对应的是扩张率为2的3×3空洞卷积，相比于原本的3×3卷积，在相同参数量和计算量下具有更大的5×5的感受野，使得每个卷积输出都包含较大范围的信息。图3 空洞卷积示意图 Schematic diagram of dilated convolutionFig 3((a)dilatation rate 1;(b) dilatation rate 2) 空洞卷积模块在深度学习中对网络的性能提高发挥着一定的作用，本文将在多尺度CT特征融合模块中引入空洞卷积，以增大感受野、减少信息损失，提高网络性能。2数据及数据预处理2.1数据集本文使用由OSIC提供的用于肺纤维化进展挑战(Kaggle，2020)的基准数据集。数据集提供一组IPF患者真实的肺部CT影像扫描和相关的临床文本数据。临床文本数据包括：测量FVC的周数、不同周的FVC、年龄、性别及吸烟情况等信息，如表 1所示。训练集包括176个IPF患者在大约1~2年之间的1 550条临床文本数据和每个患者在最初周($w$=0)拍摄的肺部CT图像。训练集中每个患者有6~10条不等的临床文本数据，这些临床文本数据表1 IPF患者每条临床文本数据包含的信息信息名称具体说明患者ID 每个患者唯一的ID值测量FVC的周数以CT扫描周为基准，测量FVC的相对周数不同周的FVC 患者在不同周测量的用力肺活量，单位ml 不同周的FVC百分比患者不同周的FVC近似为具有相似特征的人的FVC的百分比年龄患者的年龄性别男性为Male，女性为Female 吸烟情况未吸烟为Never smoked，戒烟为Ex-smoker，经常吸烟为Currently smokes Clinical text information for each IPF patientTable 1记录的是在相对于最初周的前5周($w$=-5)到后133周($w$=133)之间的测量结果。测试集则包括5个IPF患者在新的一周(不同于训练集中该患者已有的临床文本数据的测量FVC周数)测量记录的1条临床文本数据和最初周($w$=0)的肺部CT图像。为了获得更好的预测效果，通过训练集中不同周的FVC值，按照最小二乘法计算得到IPF患者的FVC线性变化率，作为在CT特征提取网络进行训练时的标签值和预测的目标值。2.2数据预处理对于肺部CT图像，首先将肺部CT图像数据集中首部和尾部各30%的无肺部信息的无价值肺部CT图像数据进行删除，只使用剩下40%的肺部CT图像进行模型训练；然后去除无法正常打开的、异常的肺部CT图像数据；最后统一肺部CT图像大小为512×512像素。对于临床文本数据，首先去除不完整、错误和异常的记录；然后对表 1中的临床文本数据进行预处理，生成更有效的数据特征用于模型训练。最后，进行归一化处理。通过对特征值进行Min-Max标准化(min-max normalization)，将数据统一映射到[0, 1]区间上，提高收敛速度。计算过程为 1 $x′=\frac{{x-x_{\rm{min}}}}{{x_{\rm{max}}-x_{\rm{min}}}}$ 式中，$x′$为归一化后的输出数据，$x_{\rm{max}}$和$x_{\rm{min}}$分别为数据中的最大值和最小值。预处理后的临床文本数据如表 2所示，包括相对周数、初始用力肺活量、初始用力肺活量百分比、相对年龄、年龄、性别和吸烟情况这7个特征的变量名称、归一化后的特征值以及具体说明。表2 预处理后的临床文本数据数据名称特征值具体说明相对周数 0~1 从测量FVC的周数中生成的新特征，代表与最小周的相对周数初始FVC 0~1 从不同周的FVC中生成的新特征，代表IPF患者在最小周时的FVC值初始FVC百分比 0~1 从不同周的FVC百分比中生成的新特征，代表IPF患者最小周的FVC值近似为正常人FVC的百分比相对年龄 0~1 从年龄和测量FVC的周数中生成的新特征，代表随周数变化而增加的相对年龄年龄 0~1 原有的特征，代表患者的年龄性别 0或1 代表患者性别，男性为0，女性为1 吸烟情况 [0, 0]、[1, 1]、[0, 1] 原有的特征，代表未吸烟、戒烟和经常吸烟3种吸烟情况 Preprocessed clinical text dataTable 23特发性肺纤维化进展预测模型本文提出的特发性肺纤维化进展预测模型结构如图 4所示，包括CT特征提取网络和多模态特征预测网络两部分。CT特征提取网络负责对预处理后的肺部CT图像进行CT特征提取；而多模态特征预测网络负责将CT特征与临床特征融合形成的多模态特征作为输入预测患者不同预期周数的FVC值。图4 特发性肺纤维化进展预测模型 Prediction model of progression of idiopathic pulmonary fibrosisFig 43.1CT特征提取网络CT特征提取网络以InceptionV1为骨干网络，网络结构如图 5所示，由前端下采样模块和多尺度CT特征融合模块两部分组成。与InceptionV1网络相比，本网络添加残差模块和CBAM-ICA模块来扩大网络的感受野，关注肺部区域的有效特征，添加与卷积层并行的空洞卷积模块，补充丢失的细节信息，最终形成3个不同的多尺度CT特征融合模块并进行两次串联堆叠。以此对肺部CT图像进行多尺度特征提取、融合，增强网络对CT特征的提取能力，获取更加准确有效的CT特征。图5 CT特征提取网络 CT feature extraction networkFig 53.1.1前端下采样模块从预处理后的数据集中随机选择一个肺部CT图像输入到网络中的大小为[512，512，1]，参数量过大，将会产生更大的模型参数和计算耗时。因此在网络前端和其他CNN网络同样使用1×1、3×3卷积层和最大池化层进行下采样获取高维特征，降低网络参数量，加快计算速度的同时防止过拟合。3.1.2多尺度CT特征融合模块多尺度特征融合，即低层和高层的特征融合，以提高各项任务的精度。InceptionV1网络主要通过不同大小的卷积核来获取多尺度特征，增加网络对不同尺度的适应性，并且在增加网络深度和宽度的同时减少参数。以InceptionV1为骨干网络进行了如下改进：构建了A、B、C这3个不同结构的多尺度CT特征融合模块对不同尺度的CT特征进行提取、融合，增强网络对CT特征的提取能力；对多尺度CT特征融合模块添加残差模块和CBAM-ICA模块。使用CBAM-ICA模块为CT特征添加合适的通道注意力权重，以着重关注肺部区域的有效特征，抑制无关信息，提高网络的特征表达能力；对多尺度CT特征融合模块添加与部分卷积层并行的空洞卷积模块。以较大的感受野捕获全局信息，补充丢失的细节信息，提高网络的准确性。1) CBAM-ICA模块。与CBAM通道注意力模块相比，CBAM-ICA模块如图 6所示。首先将CBAM通道注意力模块中原计算注意力权重的两个全连接层改为1×1卷积层，以此分别对最大池化和平均池化提取的特征进行1×1卷积，计算注意力权重值，保持图像的空间结构，更加有效地学习注意力权重；然后，对Sigmoid激活函数计算得到的两个输出大小为[1，1，$C$]的注意力权重值进行相乘，相比于使用加法，乘法(⊗)可以使两个注意力权重中都重要的通道位置更加突出，更多地关注重要位置的信息，而只有一个注意力权重较高或两个权重均较低的位置则会得到进一步抑制，以此帮助模型取得更好的预后效果。图6 改进的CBAM通道注意力模块 Improved channel attention of convolutional block attention moduleFig 6具体过程可表示为 2 $\boldsymbol{F}′=(ε(C(P_{\rm{ag}}(\boldsymbol{F})))×ε(C(P_{\rm{mx}}(\boldsymbol{F}))))⊙\boldsymbol{F}$ 式中，$\boldsymbol{F}$表示输入特征图，$P_{\rm{ag}}$表示全局平均池化，$P_{\rm{mx}}$表示全局最大池化，$C$代表 2个1×1卷积层，$ε$表示Sigmoid激活函数，$\boldsymbol{F}′$表示通过CBAM-ICA模块后的输出特征。在CBAM-ICA模块中，首先将输入特征图$\boldsymbol{F}$分别进行全局平均池化$P_{\rm{ag}}$和全局最大池化$P_{\rm{mx}}$，然后经过两个1×1卷积层并通过Sigmoid激活函数生成两个不同的通道注意力特征图，最后将两个通道注意力特征图相乘形成最终的注意力权重，并将其与输入特征图$\boldsymbol{F}$逐像素相乘(⊙)得到最终输出特征$\boldsymbol{F}′$。2) 多尺度CT特征融合模块A。对于输入分辨率大小为32×32像素的特征图，使用多尺度CT特征融合模块A进行多尺度CT特征提取，其结构如图 7所示。对3×3卷积层、5×5卷积层添加并行空洞卷积模块，对进行1×1卷积降维后的特征输入进行空洞率为2的空洞卷积，并与3×3卷积层、5×5卷积层的输出特征进行相加，以此补充卷积过程中丢失的细节信息，提高网络的准确性。图7 多尺度CT特征融合模块A Multi-scale CT feature fusion module AFig 7在进行Concatenate拼接形成多尺度CT特征之后，添加残差模块和CBAM-ICA模块，首先将原始CT特征图与输出的多尺度CT特征相加，缓解在深度神经网络中增加深度带来的梯度消失问题，提升网络的表征能力。然后将多尺度CT特征输入到改进CBAM的通道注意力模块中，为多尺度CT特征添加合适的通道注意力权重以提取重要信息。最后通过1×1的卷积层进行跨通道的特征融合，同时用最少的参数拓宽网络通道数。3) 多尺度CT特征融合模块B。对于输入分辨率大小为16×16像素的特征图，本文使用多尺度CT特征融合模块B进行多尺度CT特征提取，其结构如图 8所示。在第3支路上使用密集连接将1×1卷积输出特征和第1个3×3卷积输出特征一起输入到第2个3×3卷积层中，形成密集卷积结构，增强了特征的多样性。同样对第2支路和第3支路的卷积层添加并行空洞卷积模块，补充卷积过程中的信息损失。在多尺度CT特征融合后添加残差模块，将原始CT特征图与输出的多尺度CT特征相加。最后通过1×1卷积层进行跨通道的特征融合和升维。图8 多尺度CT特征融合模块B Multi-scale CT feature fusion module BFig 84) 多尺度CT特征融合模块C。对于输入分辨率大小为8×8像素的特征图，则是使用多尺度CT特征融合模块C进行多尺度CT特征提取，其结构如图 9所示。图9 多尺度CT特征融合模块C Multi-scale CT feature fusion module CFig 9该模块主要使用卷积核大小为1×3和3×1的非对称卷积来提取特征，降低了运算量并提高模型预测精度。在第2条支路上对一组非对称卷积添加并行的空洞卷积模块，在第3条支路上对第1组非对称卷积和第2组非对称卷积均添加并行的空洞卷积模块。然后将空洞卷积模块提取的特征与非对称卷积提取的特征相结合，以此补充非对称卷积过程中损失的信息。此外在第4条支路上还增加了一个与平均池化层并行的最大池化层，其输出特征将和平均池化层提取的特征信息进行相加，以获取更加全面、准确的特征信息。最后依旧对多尺度CT特征添加残差模块和CBAM-ICA模块，提高模型性能。3.2多模态特征预测网络多模态特征预测网络结构如图 10所示。首先将CT特征提取网络提取得到的CT特征和部分临床特征(年龄、性别和吸烟情况)进行融合，形成第1个多模态特征，对IPF患者的FVC线性变化率进行预测。在计算得到FVC线性变化率后，再将FVC线性变化率作为一个新特征与其他临床特征进行融合组成第2个多模态特征，依次输入到注意力模块和多层感知机(muti-layer perception，MLP)中，对IPF患者不同预期周数FVC值进行预测。图10 多模态特征预测网络 Multimodal feature prediction networkFig 10其中，注意力模块计算过程可表示为 3 $\boldsymbol{F}_{wx}=ε(M(\boldsymbol{F}_{x}))⊙\boldsymbol{F}_{x}⊕\boldsymbol{F}_{x}$ 式中，$\boldsymbol{F}_{x}$表示输入特征图，$M$表示多层感知机，$ε$表示Sigmoid激活函数，$\boldsymbol{F}_{wx}$表示通过注意力模块后的输出特征。多模态特征$\boldsymbol{F}_{x}$经过一个多层感知机，然后通过Sigmoid激活函数计算得到注意力权重，最后将注意力权重与输入特征$\boldsymbol{F}_{x}$相乘再相加，得到最后的输出特征$\boldsymbol{F}_{wx}$。最后，特征$\boldsymbol{F}_{wx}$通过多层感知机输出3个特征值，分别为Out1、Out2和Out3。其中，Out2为FVC的预测值，而Out3减去Out1为标准差的值，用于计算拉普拉斯对数似然得分。4实验及结果分析4.1评价指标采用OSIC给出的模型评价指标拉普拉斯对数似然得分$L$来评价模型性能，计算过程如式(4)所示。计算得到的指标值为负值，值越大代表模型预测得到的患者不同周数的FVC值越准确、模型性能越好。 4 $L=－\frac{{\sqrt {2\Delta } }}{{{\delta _{\rm{c}}}}} - \ln \left({\sqrt 2 {\delta _{\rm{c}}}} \right)$ 式中，$δ_{\rm{c}}$表示标准差，在计算的标准差$δ $和70 ml之间取较大值，即 5 $δ_{\rm{c}}={\rm{max}}(δ, 70)$ 6 ${\sqrt {2\Delta } }={\rm{min}}(|FVC_{\rm{t}}－FVC_{\rm{p}}|, 1 000)$ 式中，$FVC_{\rm{t}}$代表IPF患者$FVC$的真实值，$FVC_{\rm{p}}$代表IDF患者$FVC$的预测值，${\sqrt {2\Delta } }$为误差阈值1 000 ml和$FVC_{\rm{t}}$与$FVC_{\rm{p}}$之差的绝对值之间的较小值。误差阈值设置为1 000 ml，以避免$FVC_{\rm{t}}$与$FVC_{\rm{p}}$之间过大的差距严重影响结果。4.2模型参数实验使用的深度学习框架tensorflow2.1+keras2.3.1，计算机操作系统为64位Windows10，同时使用GPU加速网络模型的训练和测试。采用Adam优化器，因为Adam算法可以在训练时自适应地调节学习率，且有更快的收敛速度。在多模态特征预测网络中，预测FVC线性变化率使用的损失函数为平均绝对误差(mean absolute error, MAE)，是目标值与预测值之差绝对值的和，表示预测值的平均误差幅度，而不需要考虑误差的方向，有更好的鲁棒性。网络训练过程中的初始学习率设置为0.002，学习率衰减decay=0.01。考虑到计算资源的局限性，batch size设为4。为了缓解网络训练过程中的过拟合现象，并使网络具有良好的泛化性，本文在网络的最后一个输出层之前添加了dropout层。多模态特征预测网络在预测IPF患者不同预期周数的FVC值时使用的损失函数为分位数损失函数(quantile loss function)。分位数损失函数的计算公式为 7 $\begin{gathered}Q=\sum\limits_{yy(p)}(1-r) \times|y-y(p)|+ \\\sum\limits_{y \geqslant y(p)} r \times|y-y(p)|\end{gathered}$ 式中，$y$是真实值，$y(p)$是预测值，$r$是分位值，分位值用于决定对正误差和负误差的重视程度。训练过程中使用$K$折交叉验证法进行训练，从全部的多模态特征中随机选择$K$-1/$K$的样例作为训练集，剩余的作为验证集，这样在一定程度上减小过拟合的风险。本文选择$K$值为6，网络将进行6次训练，最后的预测结果为6次预测结果总和的平均值。在全连接层后使用ELU(exponential linear units)激活函数和GELU(Gaussian error linear units)激活函数，提高对噪声的鲁棒性和网络泛化能力。网络训练过程中的初始学习率为0.01，训练集的batch size为16，验证集的batch size为64，分位数损失函数的分位值设置为[0.2，0.5，0.8]，训练提前终止值patience为15。4.3实验分析4.3.1分位值选取实验在分位数损失函数中，合适的分位值可以正确衡量正误差或负误差的价值，得到较好的预测结果。因此，本文对分位值的选取进行了实验。实验结果如表 3所示。实验首先设置第2个分位值为0.5，改变第1个和第3个分位值进行模型训练。实验结果可以发现使用[0.2, 0.5, 0.8]的分位值相比于其他的分位值得到的预测结果更加准确。在此基础上修改第2个分位值，可以看到将第2个分位值降低或提高后，预测结果的得分均有不同程度的降低。因此，本文选用[0.2, 0.5, 0.8]作为分位数损失函数的分位值以获取更好的预测结果，提高模型预测的准确性。表3 不同分位值结果对比分位值拉普拉斯对数似然得分 [0.1, 0.5, 0.9] -6.911 8 [0.2, 0.5, 0.8] -6.810 7 [0.3, 0.5, 0.7] -6.856 3 [0.4, 0.5, 0.6] -7.027 7 [0.2, 0.4, 0.8] -6.831 0 [0.2, 0.6, 0.8] -6.822 8 Comparison of results of different quantilesTable 3 加粗字体表示最优结果。4.3.2注意力机制引入位置对比特发性肺纤维化进展预测模型中的CT特征提取网络包含3个不同的多尺度CT特征融合模块，为了验证如何在多尺度CT特征融合模块中引入改进的CBAM通道注意力机制，以得到更好的性能提升，进行注意力机制引入位置对比实验，实验结果如表 4所示。表4 注意力机制引入位置对比序号引入模块参数量拉普拉斯对数似然得分 1 A 5 274 885 -6.829 8 2 B 5 435 429 -6.823 3 3 C 6 076 005 -6.820 9 4 A、B 5 489 477 -6.824 9 5 A、C 6 130 053 -6.810 7 6 B、C 6 290 597 -6.816 4 7 A、B、C 6 344 645 -6.820 7 Attention mechanism introduces position contrastTable 4 加粗字体表示最优结果。可以看出，在模块C上引入注意力机制后的实验得分的效果更好，而在模块A、C上引入注意力机制的模块结构方法得到的拉普拉斯对数似然得分最好。实验结果表明，将注意力机制引入多尺度CT特征融合模块中的合适位置，能够有效提高模型性能，提升预测的准确性，其中在模块A和模块C结构中同时添加注意力机制效果最优。4.3.3注意力模块对比实验为了对比不同注意力模块在CT特征提取网络中的作用，以提出的特发性肺纤维化进展预测模型为基础模型，同时使用SE注意力模块、CBAM注意力模块、ECA注意力模块、scSE注意力模块和CBAM-ICA模块等注意力机制进行对比实验。注意力模块主要添加在CT特征提取网络中多尺度CT特征融合模块A、C的多尺度连接之后。实验结果如表 5所示。表5 注意力模块对比实验注意力模块参数量拉普拉斯对数似然得分 ECA 5 220 861 -6.828 4 SE 5 675 445 -6.825 3 CBAM 6 130 053 -6.817 8 scSE 6 127 653 -6.827 2 CBAM-ICA 6 130 053 -6.810 7 Attention module comparison experimentTable 5 加粗字体表示最优结果。从表 5中观察到，相比于CBAM注意力模块，CBAM-ICA注意力模块在提升特发性肺纤维化进展预测模型性能上效果最好，而CBAM注意力模块使用通道和空间注意力获取重要信息的效果并不明显。因此，本文主要聚焦于通道维度，使用CBAM-ICA注意力模块为不同通道添加注意力权重。4.3.4残差模块和CBAM-ICA模块融合结构对比在将注意力机制和残差模块结合时有两种方式: 一种如图 11(a)所示，在完成多尺度特征融合后，先对多尺度特征添加注意力权重，然后再与原始输入特征进行残差连接; 另一种如图 11(b)所示，在完成多尺度特征融合后，先将多尺度特征与原始输入特征进行残差连接，再添加注意力机制。为验证两种模块结构的优劣，对两种模块结构进行对比实验，实验结果如表 6所示。图11 残差模块和CBAM-ICA模块融合结构 Fusion structure of residual module and CBAM-ICAFig 11 ((a)structure A; (b)structure B) 表6 残差模块和CBAM-ICA模块融合结构对比模块结构参数量拉普拉斯对数似然得分结构A 6 130 053 -6.825 1 结构B 6 130 053 -6.810 7 Comparison of fusion structure between residual module and CBAM-ICATable 6 加粗字体表示最优结果。从表 6中可以看到，在相同参数量的条件下，结构B的得分明显优于结构A。因此，本文的多尺度CT特征融合模块采用结构B的方式进行残差模块和CBAM-ICA模块融合结构的构建。4.3.5CT特征提取网络效果对比为了验证本文提出的特发性肺纤维化进展预测模型中的CT特征提取网络提取CT特征的性能，使用不同网络替换CT特征提取网络进行对比实验。实验选取的对比网络有InceptionV1、InceptionV3、Inception_ResNet_V2(Szegedy等，2017)、ResNet50(He等，2016)、DenseNet121(Huang等，2017)和EfficientNetB0(Tan和Le，2019)。实验结果如表 7所示。表7 CT特征提取网络效果对比网络参数量图像大小/像素拉普拉斯对数似然得分 InceptionV1 6 234 837 224×224 -6.820 3 InceptionV3 22 330 885 299×299 -6.823 7 Inception_ResNet_V2 54 733 756 299×299 -6.819 5 ResNet50 49 935 653 512×512 -6.826 6 DenseNet121 7 564 261 512×512 -6.823 5 EfficientNetB0 4 381 057 512×512 -6.825 6 本文 6 130 053 512×512 -6.810 7 Comparison of CT feature extraction network effectsTable 7 加粗字体表示最优结果。从表 7中观察到使用Inception多尺度模块的3个网络在测试集上的拉普拉斯对数似然得分优于其他大部分网络，因此本文以InceptionV1作为CT特征提取网络的骨干网络。与其他网络相比，本文方法在测试集上得到的拉普拉斯对数似然得分为-6.8107，获得了最好的效果，而且所用网络参数量也较少。4.3.6特发性肺纤维化进展预测方法对比对目前已有的几种肺功能下降情况预测方法进行对比实验，以验证提出的特发性肺纤维化进展预测模型的有效性。实验对比的肺纤维化预测方法有：FibrosisNet、Fibro-CoSANet、DNN+GBDT+NGBoost+ElasticNet集成模型以及Kaggle肺纤维化挑战赛的前3名解决方案。实验结果如表 8所示。表8 特发性肺纤维化进展预测方法对比模型参数量图像大小/像素拉普拉斯对数似然得分 Fibrosis Net 2 467 979 512×512 -6.827 2 Fibro-CoSA Net 4 053 112 512×512 -6.899 7 DNN+GBDT+ NGBoost+ElasticNet / / -6.850 7 Kaggle第1名 29 041 333 512×512 -6.830 5 Kaggle第2名 / / -6.831 1 Kaggle第3名 / / -6.833 6 本文 6 130 053 512×512 -6.810 7 Comparison of prediction methods for the progression of idiopathic pulmonary fibrosisTable 8 加粗字体表示最优结果，“/”代表原论文未给出。由实验结果可得，本文方法相比于现有的肺功能下降情况预测方法获得了更好的拉普拉斯对数似然得分。因此，本文提出的特发性肺纤维化进展预测模型可以更加准确地预测IPF患者不同预期周数的FVC值。4.3.7模型消融实验实验使用的基础模型为去除了CT特征提取网络中残差模块、空洞卷积模块和CBAM-ICA注意力模块这3个模块后的特发性肺纤维化进展预测模型，并在实验过程中分别添加这3个模块进行消融实验，与基础模型进行对比。实验结果如表 9所示。表9 模型消融实验模块参数量拉普拉斯对数似然得分基础模型 4 051 301 -6.822 8 基础模型+残差模块 4 051 301 -6.818 0 基础模型+空洞卷积模块 5 220 937 -6.819 7 基础模型+CBAM-ICA注意力模块 4 960 517 -6.821 7 基础模型+残差模块+CBAM-ICA注意力模块 4 960 517 -6.816 2 基础模型+残差模块+空洞卷积模块+CBAM-ICA注意力模块 6 130 053 -6.810 7 Model ablation experimentTable 9 加粗字体表示最优结果。由实验结果可得，特发性肺纤维化进展预测模型中的CT特征提取网络在分别添加残差模块、空洞卷积模块、CBAM-ICA注意力模块后获得的拉普拉斯对数似然得分均有不同程度的提升。而当同时添加3个模块时，模型的预测得分最佳。这表明包含残差模块、空洞卷积模块和CBAM-ICA注意力模块的特发性肺纤维化进展预测模型的预测结果更加准确。4.3.8不同模态数据预测效果对比提出的特发性肺纤维化进展预测模型使用了多模态数据进行预测工作，为了验证使用多模态数据的模型方法与仅使用临床文本数据或肺部CT图像数据的模型方法之间的效果区别，对这3种情况分别进行了实验，实验结果如表 10所示。表10 不同模态数据预测效果数据类型模型拉普拉斯对数似然得分临床文本数据 Ridge -6.856 4 Lasso -6.852 5 MLP -6.855 8 肺部CT图像 EfficientNetB0 -6.912 6 InceptionV1 -6.895 1 多模态数据本文 -6.810 7 Prediction effect of different modal dataTable 10 加粗字体表示最优结果。对于临床文本数据，使用Ridge回归、Lasso回归和MLP多层感知机方法对IPF患者不同周数的FVC值进行回归预测。对于肺部CT图像数据，使用EfficientNetB0、InceptionV1和本文特发性肺纤维化进展预测模型对肺部CT图像进行特征提取，对患者FVC线性变化率进行预测，最后通过FVC线性变化率$slope$计算得到IPF患者不同周数的FVC预测值$FVC_{\rm{pred}}$，即 8 $FVC_{\rm{pred}}=slope×week+FVC_{\rm{base}}$ 式中，$FVC_{\rm{base}}$是IPF患者测量记录中周数最小时的初始FVC值，$week$是预测周数与最小周数之差。从表 10的对比实验结果可以看出，仅使用肺部CT图像数据并按照式(8)直接通过FVC线性变化率得到IPF患者不同周数的FVC值的模型，最终获得的低于仅使用临床文本数据并直接对IPF患者不同周数的FVC值进行预测的模型。但这些只使用一种医学模态数据的模型的拉普拉斯对数似然得分，均远远小于本文使用多模态数据并将FVC线性变化率作为一个新特征对IPF患者不同周数的FVC值进行预测的模型得分。由此可见，多模态数据相比于单个医学模态数据，可以有效提高模型预测的精度，得到更加准确的IPF患者未来不同周数的FVC值。4.4预测效果展示对8个不同IPF患者145周内FVC的进展情况进行预测，并将不同周的预测值与真实值进行对比，结果如图 12所示。上面4幅子图是根据测试集中4个IPF患者在新的一周中记录的临床文本数据和CT图像预测的FVC值，以及该患者在训练集中真实FVC值的对比图。下面4幅子图是对训练集中4个IPF患者的FVC值预测结果与没有用于预测的真实FVC值的对比图。其中，横坐标从最初周的前12周开始，至最初周之后的133周止，单位为周数。纵坐标为FVC值，黄线为FVC真实值的变化情况，蓝线为FVC预测值的变化情况。从图 12可以直观地看出，预测的FVC值变化趋势与真实值比较接近。图12 8个IPF患者FVC进展的真实值与预测值对比 Comparison of real value and predicted value of FVC progress in 8 IPF patientsFig 12表 11和表 12给出了图 12中第3个(第2行第1个)和第5个(第3行第1个)IPF患者部分周数的真实FVC值和预测FVC值。从表 11和表 12可以更具体地看出，模型预测的FVC值和真实FVC值比较接近。表11 第3个患者部分周的真实FVC值和预测FVC值周数真实FVC值/ml 预测FVC值/ml 6 1 930 1 966.401 9 11 1 936 1 949.502 1 13 1 955 1 942.738 3 15 1 848 1 935.973 2 17 1 897 1 929.204 2 23 1 946 1 908.887 3 35 1 862 1 868.195 4 47 1 713 1 827.420 2 Real FVC value and predicted FVC value of the third patients in different weeksTable 11 表12 第5个患者部分周的真实FVC值和预测FVC值周数真实FVC值/ml 预测FVC值/ml -4 2 315 2 255.782 5 5 2 214 2 229.333 3 9 2 144 2 217.552 8 11 2 069 2 211.656 3 17 2 101 2 193.942 6 29 2 000 2 185.072 6 41 2 064 2 122.783 6 57 2 057 2 075.130 2 Real FVC value and predicted FVC value of the fifth patients in different weeksTable 125结论针对目前IPF进展预测方法中存在的准确率较低等问题，本文提出一种融合多尺度残差和注意力机制的IPF进展预测模型，通过引入残差模块和CBAM-ICA模块，增加了CT特征提取网络的感受野，有助于着重关注肺部区域的有效特征；在CT特征提取网络中，通过添加与卷积层并行的空洞卷积模块，补充了丢失的细节信息；在多模态特征预测网络中，通过使用两次多模态特征并引入注意力机制进行预测，提升了网络的预测准确性。在OSIC数据集上进行实验，与其他IPF进展预测方法比较，本文方法在肺纤维化测试集上评估得到了更好的拉普拉斯对数似然得分。此外，进行了模型消融实验和不同模态数据预测对比等实验，进一步验证了本文提出模型的有效性。本文方法通过对IPF患者不同周数的FVC值进行预测，帮助医生更好地了解IPF患者肺功能衰退的严重程度，对IPF患者的预后具有指导意义。但由于IPF患者肺部CT图像的复杂性以及样本量较少，预后结果的准确率仍有待提高。未来将通过扩大样本量，进一步提高特征提取能力和模型预测准确性，以期获得更加全面准确的预后效果。