发布时间: 2022-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210680
2022 | Volume 27 | Number 3

计算机断层扫描图像

融合多尺度残差和注意力机制的特发性肺纤维化进展预测

陈舞, 孙军梅, 李秀梅

杭州师范大学信息科学与技术学院, 杭州 311121

收稿日期: 2021-08-16; 修回日期: 2021-10-25; 预印本日期: 2021-11-02

基金项目: 国家自然科学基金项目（61801159，61571174）；福建省软件测评工程技术研究中心开放课题（ST2019004）；杭州市科技计划项目（20201203B124）

作者简介: 陈舞, 1999年生, 男, 本科生, 主要研究方向为数据挖掘、医学图像处理。E-mail: 806029418@qq.com
孙军梅, 通信作者, 女, 副教授, 硕士生导师, 主要研究方向为深度学习、智能软件系统。E-mail: junmeisun@hznu.edu.cn
李秀梅, 女, 教授, 硕士生导师, 主要研究方向为时频分析及应用、压缩感知与机器学习。E-mail: lixiumei@hznu.edu.cn
*通信作者: 孙军梅 junmeisun@hznu.edu.cn

中图法分类号: TP391.4

文献标识码: A

文章编号: 1006-8961(2022)03-0812-15

摘要

目的特发性肺纤维化（idiopathic pulmonary fibrosis，IPF）是一种致死率极高的肺间质疾病，呈渐进式发展且诊断手段有限，给病情的预后带来极大的困难。目前已有的肺功能衰退严重程度预测方法仍存在准确率较低的问题。方法提出了一种融合多尺度残差和注意力机制的特发性肺纤维化进展预测模型，包括计算机断层扫描（computed tomography，CT）特征提取网络和多模态特征预测网络，以此预测IPF患者不同周数的用力肺活量（forced vital capacity，FVC）。CT特征提取网络以InceptionV1为骨干网络，添加残差模块和改进的CBAM通道注意力模块（improved channel attention of convolutional block attention module，CBAM-ICA）来扩大网络的感受野，关注肺部区域的有效特征，添加与卷积层并行的空洞卷积模块，补充丢失的细节信息，并对改进的多尺度CT特征融合模块进行两次串联堆叠，提升网络获取CT特征的能力，最终获得更加有效的多尺度CT特征信息。多模态预测网络利用CT特征和临床特征进行融合形成的多模态特征对IPF患者不同周数的FVC值进行预测，提高了网络的预测性能。结果在OSIC（Open Source Imaging Consortium）提供的肺纤维化测试数据集上的实验结果表明，本文提出的特发性肺纤维化进展预测模型得到了-6.810 7的拉普拉斯对数似然得分，较其他方法具有更好的性能。结论提出的融合多尺度残差和注意力机制的特发性肺纤维化进展预测模型对预测IPF患者不同周数的FVC值具有一定的有效性，可以帮助医生更好地了解IPF患者肺功能衰退的严重程度，对IPF患者的预后具有指导意义。

关键词

特发性肺纤维化(IPF); 预测模型; 多尺度残差; 用力肺活量(FVC); 注意力机制

Multi-scale residual and attention mechanism fusion based prediction for the progression of idiopathic pulmonary fibrosis

Chen Wu, Sun Junmei, Li Xiumei

School of Information Science and Technology, Hangzhou Normal University, Hangzhou 311121, China

Supported by: National Natural Science Foundation of China(61801159, 61571174);Open Fund of Engineering Research Center for Software Testing and Evaluation of Fujian Province(ST2019004)

Abstract

Objective Idiopathic pulmonary fibrosis (IPF), which is characterized by progressive dyspnea and decreased pulmonary function, is a chronic lung disease with occult onset and unknown etiology, histological or imaging manifestations of common interstitial pneumonia. Considering the progressive development of IPF and limited diagnostic methods, it may eventually lead to complete pulmonary dysfunction, causing great difficulties to the prognosis of IPF. Currently, the existing methods for predicting the severity of pulmonary function decline still have the problem of low accuracy. Forced vital capacity (FVC) can be used as an important index to predict the decline of pulmonary function. Method By integrating multi-scale residual and attention mechanism, a prediction model for the progression of IPF was proposed, and this mechanism includes a computed tomography(CT) feature extraction network and a multimodal feature prediction network. The CT feature extraction network is responsible for CT feature extraction of pre-processed lung CT images, while the multimodal feature prediction network is responsible for extracting the multimodal features. The multimodal features fused the CT features and clinical features as input to predict the FVC of IPF patients in different weeks. The pulmonary fibrosis data set provided by the Open Source Imaging Consortium (OSIC) was used as benchmark data. First, the data were pre-processed. Unnecessary data were removed, and the lung CT image size was unified to 512×512 pixels. Feature engineering was performed, the clinical text data were normalized, and more effective data features for model training were generated. Secondly, a CT feature extraction network based on InceptionV1 as the backbone network was constructed. The residual module and the improved channel attention of convolutional block attention module (CBAM-ICA) were added to the multi-scale CT feature fusion module to expand the receptive field of the network to focus the attention to the effective features of the lung area and suppress unimportant information. A parallel dilated convolution module was added to the convolution layers to increase the receptive field, supplement the lost details and improve the network performance. The three improved multi-scale CT feature fusion modules were stacked in series twice to improve the ability of the network to obtain CT features. Finally, a multimodal prediction network composed of attention module and multi-layer perceptron was constructed. The multi-modal prediction network fused the multi-scale CT features extracted by the CT feature extraction network with some clinical features (e.g., age, gender and smoking) to form the first multimodal feature that predicts the linear change rate of FVC in IPF patients. Then, the FVC linear change rate was fused with other clinical features as a new feature to form the second multimodal feature that predicts the FVC values of IPF patients with different expected weeks to improve the prediction performance of the network. Result By using the prediction model for the progression of IPF on the pulmonary fibrosis test data set provided by the OSIC, a Laplace log likelihood score -6.810 7 was obtained. Experimental results show that the proposed method was better than the existing methods in predicting pulmonary function decline. The ablation experiments were conducted to show that the Laplace log likelihood scores of CT feature extraction network in the prediction model for the progression of IPF were improved by adding residual module, dilated convolution module and CBAM-ICA respectively, and the prediction score of the model was the best when the above three modules were added simultaneously. Comparison experiments were conducted to further verify the effectiveness of the model. First, the results of the quantile selection experiment show that taking[0.2, 0.5, 0.8] as the parameter of quantile loss function can improve the prediction results. Second, the attention module comparison experiment shows that the performance of CBAM-ICA is better than those of other attention modules. Third, the comparison results among different attention mechanism locations show that adding attention mechanism to the multi-scale CT feature fusion module A and C simultaneously can provide the best performance. Fourth, the comparison experiments on CT feature extraction network show that the Laplace log likelihood score of using InceptionV1 as the CT feature extraction network's backbone network is better than those of using most other networks. Finally, the prediction performance comparisons on different modal data show that multimodal data can effectively improve the accuracy of model prediction compared with monomodal data. These experiments further verify the accuracy and effectiveness of the proposed prediction model for the progression of IPF. Conclusion By integrating multi-scale residual and attention mechanism, the proposed prediction model for the progression of IPF is effective in predicting FVC values of IPF patients with different weeks. The model can help doctors better understand the severity of pulmonary function decline in IPF patients, and it can provide guidance for the prognosis of patients with.

Key words

idiopathic pulmonary fibrosis(IPF); prediction model; multi-scale residual; forced vital capacity(FVC); attention mechanism

0 引言

特发性肺纤维化(idiopathic pulmonary fibrosis，IPF)是一种慢性肺疾病，起病隐匿，病因不明，组织学或影像学表现为普通型间质性肺炎，以进行性呼吸困难和肺功能下降为特征(沈沁雪和彭红，2021)，发病率和患病率分别在每10 000人0.09~1.30和0.33~4.51(Maher等，2021)。由于IPF病情呈渐进式发展、诊断手段有限，最终可能导致患者完全性肺功能障碍(Raghu等，2018)。IPF患者一般的中位生存时间只有3~5年，病情的预后存在较大的困难(Song等，2019)。虽然现在还没有广泛使用的技术可以估计IPF病情的进展，但普遍认为IPF患者的肺功能下降情况可以对IPF的预后提供一定的指导建议。而用力肺活量(forced vital capacity，FVC)是评估肺功能下降的一个重要指标。研究预测IPF患者在一定时间范围内的FVC值变化情况对IPF患者的预后具有重要的指导意义。

人工智能技术在医学临床诊断与评估中逐渐得到广泛应用，Kaggle和开源影像协会(Open Source Imaging Consortium，OSIC)推出的肺纤维化进展挑战赛也极大地启发了利用人工智能技术对IPF预后的决策研究。Mandal等人(2020)为了得到IPF患者的肺活量下降情况，分析和比较了多分位数回归、Ridge回归和Elastic Net回归等机器学习模型的性能，并对每个患者的FVC值进行预测。Wong等人(2021)提出了基于深度卷积神经网络(convolutional neural network, CNN)的Fibrosis-Net，用于从胸部计算机断层扫描(computed tomography, CT)图像预测肺纤维化进展。Fibrosis-Net利用患者的胸部CT扫描以及肺活量测量和临床元数据来预测未来特定时间点患者的FVC。Nazi等人(2021)提出一种使用堆叠自注意力层的卷积神经网络框架，将网络提取的卷积CT特征输入堆叠自注意力层进行进一步细化，再结合其他临床特征对IPF患者的FVC值变化情况进行预测。但由于IPF患者的肺部CT图像存在改变多样、异质性大和边界不清等问题，CT图像的特征提取仍存在很大的改进空间。Glotov和Lyakhov(2021)提出了一种基于DNN(deep neural networks)、GBDT(gradient boosting decision tree)、NGBoost(natural gradient boosting)和ElasticNet共4种机器学习算法的集成模型，使用临床文本数据进行肺纤维化后IPF患者肺功能下降情况的预测。

本文提出了融合多尺度残差和注意力机制的特发性肺纤维化进展预测模型，主要进行了如下工作：

1) 提出一个以InceptionV1为骨干网络的CT特征提取网络，添加残差模块和改进的CBAM通道注意力模块(improved channel attention of convolutional block attention module，CBAM-ICA)、与卷积层并行的空洞卷积模块，以增强网络对CT特征的提取能力。

2) 提出一个基于注意力模块和多层感知机的多模态特征预测网络，融合CT特征和其他临床特征对IPF患者不同周数的FVC值进行预测。

3) 进行一系列模型对比、消融实验，验证本文提出的融合多尺度残差和注意力机制的特发性肺纤维化进展预测模型的有效性，相比其他模型具有更好的拉普拉斯对数似然得分。

1 相关工作

1.1 Inception网络

InceptionV1网络是由Szegedy等人(2015)提出并应用于图像识别和目标检测等领域的深度卷积神经网络。该网络结构的主要特点是提出Inception模块，引入多尺度感受野和多尺度融合，使得网络内部计算资源的利用率得到提高，在保持计算量不变的情况下增加网络的深度和宽度。

网络中的Inception模块采用不同大小的卷积核引入了多尺度处理，使得网络可以同时综合考虑不同尺度的信息，在卷积和池化之后再对特征进行融合，其结构如图 1所示。该多尺度并行结构相比于串行结构具有更好的特征表达能力，并在卷积之前和池化之后配置1×1卷积来减少特征维度，同时加快训练速度。

图 1 InceptionV1网络多尺度模块

Fig. 1 Multi-scale module of InceptionV1 network

InceptionV2网络(Ioffe和Szegedy，2015)则在InceptionV1网络的基础上引入了Batch-Normalization批量标准化，避免梯度爆炸和梯度消失的问题，从而可以用较大的学习率进行训练，提高训练速度。与InceptionV2相比，InceptionV3网络(Szegedy等，2016)主要利用卷积结构和平移不变性原则实现两个卷积串联对一个大卷积的替换，除此之外还使用非对称卷积核，将$n×n$卷积进一步分解为$n$×1卷积和1×$n$卷积，降低计算量并获得性能的提高。为了获得更好的性能提升，InceptionV4网络(Szegedy等，2017)提出应该对不同尺度的特征采用不同的Inception模块，并将残差连接与Inception网络相结合，使网络性能和训练速度得到巨大的提升。

本文以InceptionV1为骨干网络，使用针对不同尺度CT特征的多尺度CT特征融合模块提取CT特征。

1.2 注意力机制

注意力机制源于对人类视觉的研究，能够集中关注重点的目标区域，抑制不重要信息，提高深度学习模型的性能。Hu等人(2018)提出压缩和激励(squeeze and excitation, SE)模块，通过对各通道添加注意力权重提高网络表达能力。随后Woo等人(2018)提出CBAM模块，表明全局平均池化和全局最大池化的并行连接方式比SE模块中单一的池化效果更好，并使用了串联的通道注意力和空间注意力，其通道注意力模型的结构如图 2所示，⊕表示对两条支路上计算得到的大小相同的特征图相加，⊗表示对注意力权重和原始输入的特征图进行点乘得到最终的输出特征图。Roy等人(2018)对SE模块进行改进，提出SE模块的3个变体cSE(spatial squeeze and channel excitation)、sSE(channel squeeze and spatial excitation)、scSE(concurrent spatial and channel SE)，并通过实验表明了这样的模块可以增强重要特征、抑制无用特征。Wang等人(2020)对SE模块进行另一种方式的改进，提出了一种不降低通道维数来进行跨通道信息交互的ECA(efficient channel attention)模块，更加有效地学习通道注意力。

图 2 CBAM通道注意力模块

Fig. 2 CBAM channel attention module

以上这些注意力模块在深度学习中对网络的性能提高都发挥着重要的作用，本文对CBAM通道注意力模块进行改进，并在多尺度CT特征融合模块中引入CBAM-ICA模块，以提高模型性能。

1.3 空洞卷积

为了解决池化层导致的信息损失问题，Yu和Koltun(2016)提出了空洞卷积，向卷积层引入了扩张率(dilation rate)，在计算量相当的情况下提供更大的感受野。空洞卷积与普通卷积的差别如图 3所示，其中图 3(a)对应的是扩张率为1的3×3空洞卷积，与普通卷积相同；而图 3(b)对应的是扩张率为2的3×3空洞卷积，相比于原本的3×3卷积，在相同参数量和计算量下具有更大的5×5的感受野，使得每个卷积输出都包含较大范围的信息。

图 3 空洞卷积示意图

Fig. 3 Schematic diagram of dilated convolution

((a)dilatation rate 1;(b) dilatation rate 2)

空洞卷积模块在深度学习中对网络的性能提高发挥着一定的作用，本文将在多尺度CT特征融合模块中引入空洞卷积，以增大感受野、减少信息损失，提高网络性能。

2 数据及数据预处理

2.1 数据集

本文使用由OSIC提供的用于肺纤维化进展挑战(Kaggle，2020)的基准数据集。数据集提供一组IPF患者真实的肺部CT影像扫描和相关的临床文本数据。临床文本数据包括：测量FVC的周数、不同周的FVC、年龄、性别及吸烟情况等信息，如表 1所示。训练集包括176个IPF患者在大约1~2年之间的1 550条临床文本数据和每个患者在最初周($w$=0)拍摄的肺部CT图像。训练集中每个患者有6~10条不等的临床文本数据，这些临床文本数据

表 1 IPF患者每条临床文本数据包含的信息
Table 1 Clinical text information for each IPF patient

下载CSV

信息名称	具体说明
患者ID	每个患者唯一的ID值
测量FVC的周数	以CT扫描周为基准，测量FVC的相对周数
不同周的FVC	患者在不同周测量的用力肺活量，单位ml
不同周的FVC百分比	患者不同周的FVC近似为具有相似特征的人的FVC的百分比
年龄	患者的年龄
性别	男性为Male，女性为Female
吸烟情况	未吸烟为Never smoked，戒烟为Ex-smoker，经常吸烟为Currently smokes

记录的是在相对于最初周的前5周($w$=-5)到后133周($w$=133)之间的测量结果。测试集则包括5个IPF患者在新的一周(不同于训练集中该患者已有的临床文本数据的测量FVC周数)测量记录的1条临床文本数据和最初周($w$=0)的肺部CT图像。为了获得更好的预测效果，通过训练集中不同周的FVC值，按照最小二乘法计算得到IPF患者的FVC线性变化率，作为在CT特征提取网络进行训练时的标签值和预测的目标值。

2.2 数据预处理

对于肺部CT图像，首先将肺部CT图像数据集中首部和尾部各30%的无肺部信息的无价值肺部CT图像数据进行删除，只使用剩下40%的肺部CT图像进行模型训练；然后去除无法正常打开的、异常的肺部CT图像数据；最后统一肺部CT图像大小为512×512像素。

对于临床文本数据，首先去除不完整、错误和异常的记录；然后对表 1中的临床文本数据进行预处理，生成更有效的数据特征用于模型训练。最后，进行归一化处理。通过对特征值进行Min-Max标准化(min-max normalization)，将数据统一映射到[0, 1]区间上，提高收敛速度。计算过程为

$ x′=\frac{{x-x_{\rm{min}}}}{{x_{\rm{max}}-x_{\rm{min}}}} $

(1)

式中，$x′$为归一化后的输出数据，$x_{\rm{max}}$和$x_{\rm{min}}$分别为数据中的最大值和最小值。

预处理后的临床文本数据如表 2所示，包括相对周数、初始用力肺活量、初始用力肺活量百分比、相对年龄、年龄、性别和吸烟情况这7个特征的变量名称、归一化后的特征值以及具体说明。

表 2 预处理后的临床文本数据
Table 2 Preprocessed clinical text data

下载CSV

数据名称	特征值	具体说明
相对周数	0~1	从测量FVC的周数中生成的新特征，代表与最小周的相对周数
初始FVC	0~1	从不同周的FVC中生成的新特征，代表IPF患者在最小周时的FVC值
初始FVC百分比	0~1	从不同周的FVC百分比中生成的新特征，代表IPF患者最小周的FVC值近似为正常人FVC的百分比
相对年龄	0~1	从年龄和测量FVC的周数中生成的新特征，代表随周数变化而增加的相对年龄
年龄	0~1	原有的特征，代表患者的年龄
性别	0或1	代表患者性别，男性为0，女性为1
吸烟情况	[0, 0]、[1, 1]、[0, 1]	原有的特征，代表未吸烟、戒烟和经常吸烟3种吸烟情况

3 特发性肺纤维化进展预测模型

本文提出的特发性肺纤维化进展预测模型结构如图 4所示，包括CT特征提取网络和多模态特征预测网络两部分。CT特征提取网络负责对预处理后的肺部CT图像进行CT特征提取；而多模态特征预测网络负责将CT特征与临床特征融合形成的多模态特征作为输入预测患者不同预期周数的FVC值。

图 4 特发性肺纤维化进展预测模型

Fig. 4 Prediction model of progression of idiopathic pulmonary fibrosis

3.1 CT特征提取网络

CT特征提取网络以InceptionV1为骨干网络，网络结构如图 5所示，由前端下采样模块和多尺度CT特征融合模块两部分组成。与InceptionV1网络相比，本网络添加残差模块和CBAM-ICA模块来扩大网络的感受野，关注肺部区域的有效特征，添加与卷积层并行的空洞卷积模块，补充丢失的细节信息，最终形成3个不同的多尺度CT特征融合模块并进行两次串联堆叠。以此对肺部CT图像进行多尺度特征提取、融合，增强网络对CT特征的提取能力，获取更加准确有效的CT特征。

图 5 CT特征提取网络

Fig. 5 CT feature extraction network

3.1.1 前端下采样模块

从预处理后的数据集中随机选择一个肺部CT图像输入到网络中的大小为[512，512，1]，参数量过大，将会产生更大的模型参数和计算耗时。因此在网络前端和其他CNN网络同样使用1×1、3×3卷积层和最大池化层进行下采样获取高维特征，降低网络参数量，加快计算速度的同时防止过拟合。

3.1.2 多尺度CT特征融合模块

多尺度特征融合，即低层和高层的特征融合，以提高各项任务的精度。InceptionV1网络主要通过不同大小的卷积核来获取多尺度特征，增加网络对不同尺度的适应性，并且在增加网络深度和宽度的同时减少参数。以InceptionV1为骨干网络进行了如下改进：构建了A、B、C这3个不同结构的多尺度CT特征融合模块对不同尺度的CT特征进行提取、融合，增强网络对CT特征的提取能力；对多尺度CT特征融合模块添加残差模块和CBAM-ICA模块。使用CBAM-ICA模块为CT特征添加合适的通道注意力权重，以着重关注肺部区域的有效特征，抑制无关信息，提高网络的特征表达能力；对多尺度CT特征融合模块添加与部分卷积层并行的空洞卷积模块。以较大的感受野捕获全局信息，补充丢失的细节信息，提高网络的准确性。

1) CBAM-ICA模块。与CBAM通道注意力模块相比，CBAM-ICA模块如图 6所示。首先将CBAM通道注意力模块中原计算注意力权重的两个全连接层改为1×1卷积层，以此分别对最大池化和平均池化提取的特征进行1×1卷积，计算注意力权重值，保持图像的空间结构，更加有效地学习注意力权重；然后，对Sigmoid激活函数计算得到的两个输出大小为[1，1，$C$]的注意力权重值进行相乘，相比于使用加法，乘法(⊗)可以使两个注意力权重中都重要的通道位置更加突出，更多地关注重要位置的信息，而只有一个注意力权重较高或两个权重均较低的位置则会得到进一步抑制，以此帮助模型取得更好的预后效果。

图 6 改进的CBAM通道注意力模块

Fig. 6 Improved channel attention of convolutional block attention module

具体过程可表示为

$ \boldsymbol{F}′=(ε(C(P_{\rm{ag}}(\boldsymbol{F})))×ε(C(P_{\rm{mx}}(\boldsymbol{F}))))⊙\boldsymbol{F} $

(2)

式中，$\boldsymbol{F}$表示输入特征图，$P_{\rm{ag}}$表示全局平均池化，$P_{\rm{mx}}$表示全局最大池化，$C$代表 2个1×1卷积层，$ε$表示Sigmoid激活函数，$\boldsymbol{F}′$表示通过CBAM-ICA模块后的输出特征。在CBAM-ICA模块中，首先将输入特征图$\boldsymbol{F}$分别进行全局平均池化$P_{\rm{ag}}$和全局最大池化$P_{\rm{mx}}$，然后经过两个1×1卷积层并通过Sigmoid激活函数生成两个不同的通道注意力特征图，最后将两个通道注意力特征图相乘形成最终的注意力权重，并将其与输入特征图$\boldsymbol{F}$逐像素相乘(⊙)得到最终输出特征$\boldsymbol{F}′$。

2) 多尺度CT特征融合模块A。对于输入分辨率大小为32×32像素的特征图，使用多尺度CT特征融合模块A进行多尺度CT特征提取，其结构如图 7所示。对3×3卷积层、5×5卷积层添加并行空洞卷积模块，对进行1×1卷积降维后的特征输入进行空洞率为2的空洞卷积，并与3×3卷积层、5×5卷积层的输出特征进行相加，以此补充卷积过程中丢失的细节信息，提高网络的准确性。

图 7 多尺度CT特征融合模块A

Fig. 7 Multi-scale CT feature fusion module A

在进行Concatenate拼接形成多尺度CT特征之后，添加残差模块和CBAM-ICA模块，首先将原始CT特征图与输出的多尺度CT特征相加，缓解在深度神经网络中增加深度带来的梯度消失问题，提升网络的表征能力。然后将多尺度CT特征输入到改进CBAM的通道注意力模块中，为多尺度CT特征添加合适的通道注意力权重以提取重要信息。最后通过1×1的卷积层进行跨通道的特征融合，同时用最少的参数拓宽网络通道数。

3) 多尺度CT特征融合模块B。对于输入分辨率大小为16×16像素的特征图，本文使用多尺度CT特征融合模块B进行多尺度CT特征提取，其结构如图 8所示。在第3支路上使用密集连接将1×1卷积输出特征和第1个3×3卷积输出特征一起输入到第2个3×3卷积层中，形成密集卷积结构，增强了特征的多样性。同样对第2支路和第3支路的卷积层添加并行空洞卷积模块，补充卷积过程中的信息损失。在多尺度CT特征融合后添加残差模块，将原始CT特征图与输出的多尺度CT特征相加。最后通过1×1卷积层进行跨通道的特征融合和升维。

图 8 多尺度CT特征融合模块B

Fig. 8 Multi-scale CT feature fusion module B

4) 多尺度CT特征融合模块C。对于输入分辨率大小为8×8像素的特征图，则是使用多尺度CT特征融合模块C进行多尺度CT特征提取，其结构如图 9所示。

图 9 多尺度CT特征融合模块C

Fig. 9 Multi-scale CT feature fusion module C

该模块主要使用卷积核大小为1×3和3×1的非对称卷积来提取特征，降低了运算量并提高模型预测精度。在第2条支路上对一组非对称卷积添加并行的空洞卷积模块，在第3条支路上对第1组非对称卷积和第2组非对称卷积均添加并行的空洞卷积模块。然后将空洞卷积模块提取的特征与非对称卷积提取的特征相结合，以此补充非对称卷积过程中损失的信息。此外在第4条支路上还增加了一个与平均池化层并行的最大池化层，其输出特征将和平均池化层提取的特征信息进行相加，以获取更加全面、准确的特征信息。最后依旧对多尺度CT特征添加残差模块和CBAM-ICA模块，提高模型性能。

3.2 多模态特征预测网络

多模态特征预测网络结构如图 10所示。首先将CT特征提取网络提取得到的CT特征和部分临床特征(年龄、性别和吸烟情况)进行融合，形成第1个多模态特征，对IPF患者的FVC线性变化率进行预测。在计算得到FVC线性变化率后，再将FVC线性变化率作为一个新特征与其他临床特征进行融合组成第2个多模态特征，依次输入到注意力模块和多层感知机(muti-layer perception，MLP)中，对IPF患者不同预期周数FVC值进行预测。

图 10 多模态特征预测网络

Fig. 10 Multimodal feature prediction network

其中，注意力模块计算过程可表示为

$ \boldsymbol{F}_{wx}=ε(M(\boldsymbol{F}_{x}))⊙\boldsymbol{F}_{x}⊕\boldsymbol{F}_{x} $

(3)

式中，$\boldsymbol{F}_{x}$表示输入特征图，$M$表示多层感知机，$ε$表示Sigmoid激活函数，$\boldsymbol{F}_{wx}$表示通过注意力模块后的输出特征。多模态特征$\boldsymbol{F}_{x}$经过一个多层感知机，然后通过Sigmoid激活函数计算得到注意力权重，最后将注意力权重与输入特征$\boldsymbol{F}_{x}$相乘再相加，得到最后的输出特征$\boldsymbol{F}_{wx}$。最后，特征$\boldsymbol{F}_{wx}$通过多层感知机输出3个特征值，分别为Out1、Out2和Out3。其中，Out2为FVC的预测值，而Out3减去Out1为标准差的值，用于计算拉普拉斯对数似然得分。

4 实验及结果分析

4.1 评价指标

采用OSIC给出的模型评价指标拉普拉斯对数似然得分$L$来评价模型性能，计算过程如式(4)所示。计算得到的指标值为负值，值越大代表模型预测得到的患者不同周数的FVC值越准确、模型性能越好。

$ L=－\frac{{\sqrt {2\Delta } }}{{{\delta _{\rm{c}}}}} - \ln \left({\sqrt 2 {\delta _{\rm{c}}}} \right) $

(4)

式中，$δ_{\rm{c}}$表示标准差，在计算的标准差$δ $和70 ml之间取较大值，即

$ δ_{\rm{c}}={\rm{max}}(δ, 70) $

(5)

$ {\sqrt {2\Delta } }={\rm{min}}(|FVC_{\rm{t}}－FVC_{\rm{p}}|, 1 000) $

(6)

式中，$FVC_{\rm{t}}$代表IPF患者$FVC$的真实值，$FVC_{\rm{p}}$代表IDF患者$FVC$的预测值，${\sqrt {2\Delta } }$为误差阈值1 000 ml和$FVC_{\rm{t}}$与$FVC_{\rm{p}}$之差的绝对值之间的较小值。误差阈值设置为1 000 ml，以避免$FVC_{\rm{t}}$与$FVC_{\rm{p}}$之间过大的差距严重影响结果。

4.2 模型参数

实验使用的深度学习框架tensorflow2.1+keras2.3.1，计算机操作系统为64位Windows10，同时使用GPU加速网络模型的训练和测试。采用Adam优化器，因为Adam算法可以在训练时自适应地调节学习率，且有更快的收敛速度。

在多模态特征预测网络中，预测FVC线性变化率使用的损失函数为平均绝对误差(mean absolute error, MAE)，是目标值与预测值之差绝对值的和，表示预测值的平均误差幅度，而不需要考虑误差的方向，有更好的鲁棒性。网络训练过程中的初始学习率设置为0.002，学习率衰减decay=0.01。考虑到计算资源的局限性，batch size设为4。为了缓解网络训练过程中的过拟合现象，并使网络具有良好的泛化性，本文在网络的最后一个输出层之前添加了dropout层。

多模态特征预测网络在预测IPF患者不同预期周数的FVC值时使用的损失函数为分位数损失函数(quantile loss function)。分位数损失函数的计算公式为

$ \begin{gathered} Q=\sum\limits_{y<y(p)}(1-r) \times|y-y(p)|+ \\ \sum\limits_{y \geqslant y(p)} r \times|y-y(p)| \end{gathered} $

(7)

式中，$y$是真实值，$y(p)$是预测值，$r$是分位值，分位值用于决定对正误差和负误差的重视程度。训练过程中使用$K$折交叉验证法进行训练，从全部的多模态特征中随机选择$K$-1/$K$的样例作为训练集，剩余的作为验证集，这样在一定程度上减小过拟合的风险。本文选择$K$值为6，网络将进行6次训练，最后的预测结果为6次预测结果总和的平均值。在全连接层后使用ELU(exponential linear units)激活函数和GELU(Gaussian error linear units)激活函数，提高对噪声的鲁棒性和网络泛化能力。网络训练过程中的初始学习率为0.01，训练集的batch size为16，验证集的batch size为64，分位数损失函数的分位值设置为[0.2，0.5，0.8]，训练提前终止值patience为15。

4.3 实验分析

4.3.1 分位值选取实验

在分位数损失函数中，合适的分位值可以正确衡量正误差或负误差的价值，得到较好的预测结果。因此，本文对分位值的选取进行了实验。实验结果如表 3所示。实验首先设置第2个分位值为0.5，改变第1个和第3个分位值进行模型训练。实验结果可以发现使用[0.2, 0.5, 0.8]的分位值相比于其他的分位值得到的预测结果更加准确。在此基础上修改第2个分位值，可以看到将第2个分位值降低或提高后，预测结果的得分均有不同程度的降低。因此，本文选用[0.2, 0.5, 0.8]作为分位数损失函数的分位值以获取更好的预测结果，提高模型预测的准确性。

表 3 不同分位值结果对比
Table 3 Comparison of results of different quantiles

下载CSV

分位值	拉普拉斯对数似然得分
[0.1, 0.5, 0.9]	-6.911 8
[0.2, 0.5, 0.8]	-6.810 7
[0.3, 0.5, 0.7]	-6.856 3
[0.4, 0.5, 0.6]	-7.027 7
[0.2, 0.4, 0.8]	-6.831 0
[0.2, 0.6, 0.8]	-6.822 8
注：加粗字体表示最优结果。

4.3.2 注意力机制引入位置对比

特发性肺纤维化进展预测模型中的CT特征提取网络包含3个不同的多尺度CT特征融合模块，为了验证如何在多尺度CT特征融合模块中引入改进的CBAM通道注意力机制，以得到更好的性能提升，进行注意力机制引入位置对比实验，实验结果如表 4所示。

表 4 注意力机制引入位置对比
Table 4 Attention mechanism introduces position contrast

下载CSV

序号	引入模块	参数量	拉普拉斯对数似然得分
1	A	5 274 885	-6.829 8
2	B	5 435 429	-6.823 3
3	C	6 076 005	-6.820 9
4	A、B	5 489 477	-6.824 9
5	A、C	6 130 053	-6.810 7
6	B、C	6 290 597	-6.816 4
7	A、B、C	6 344 645	-6.820 7
注：加粗字体表示最优结果。

可以看出，在模块C上引入注意力机制后的实验得分的效果更好，而在模块A、C上引入注意力机制的模块结构方法得到的拉普拉斯对数似然得分最好。实验结果表明，将注意力机制引入多尺度CT特征融合模块中的合适位置，能够有效提高模型性能，提升预测的准确性，其中在模块A和模块C结构中同时添加注意力机制效果最优。

4.3.3 注意力模块对比实验

为了对比不同注意力模块在CT特征提取网络中的作用，以提出的特发性肺纤维化进展预测模型为基础模型，同时使用SE注意力模块、CBAM注意力模块、ECA注意力模块、scSE注意力模块和CBAM-ICA模块等注意力机制进行对比实验。注意力模块主要添加在CT特征提取网络中多尺度CT特征融合模块A、C的多尺度连接之后。实验结果如表 5所示。

表 5 注意力模块对比实验
Table 5 Attention module comparison experiment

下载CSV

注意力模块	参数量	拉普拉斯对数似然得分
ECA	5 220 861	-6.828 4
SE	5 675 445	-6.825 3
CBAM	6 130 053	-6.817 8
scSE	6 127 653	-6.827 2
CBAM-ICA	6 130 053	-6.810 7
注：加粗字体表示最优结果。

从表 5中观察到，相比于CBAM注意力模块，CBAM-ICA注意力模块在提升特发性肺纤维化进展预测模型性能上效果最好，而CBAM注意力模块使用通道和空间注意力获取重要信息的效果并不明显。因此，本文主要聚焦于通道维度，使用CBAM-ICA注意力模块为不同通道添加注意力权重。

4.3.4 残差模块和CBAM-ICA模块融合结构对比

在将注意力机制和残差模块结合时有两种方式: 一种如图 11(a)所示，在完成多尺度特征融合后，先对多尺度特征添加注意力权重，然后再与原始输入特征进行残差连接; 另一种如图 11(b)所示，在完成多尺度特征融合后，先将多尺度特征与原始输入特征进行残差连接，再添加注意力机制。为验证两种模块结构的优劣，对两种模块结构进行对比实验，实验结果如表 6所示。

图 11 残差模块和CBAM-ICA模块融合结构

Fig. 11 Fusion structure of residual module and CBAM-ICA

((a)structure A; (b)structure B)

表 6 残差模块和CBAM-ICA模块融合结构对比
Table 6 Comparison of fusion structure between residual module and CBAM-ICA

下载CSV

模块结构	参数量	拉普拉斯对数似然得分
结构A	6 130 053	-6.825 1
结构B	6 130 053	-6.810 7
注：加粗字体表示最优结果。

从表 6中可以看到，在相同参数量的条件下，结构B的得分明显优于结构A。因此，本文的多尺度CT特征融合模块采用结构B的方式进行残差模块和CBAM-ICA模块融合结构的构建。

4.3.5 CT特征提取网络效果对比

为了验证本文提出的特发性肺纤维化进展预测模型中的CT特征提取网络提取CT特征的性能，使用不同网络替换CT特征提取网络进行对比实验。实验选取的对比网络有InceptionV1、InceptionV3、Inception_ResNet_V2(Szegedy等，2017)、ResNet50(He等，2016)、DenseNet121(Huang等，2017)和EfficientNetB0(Tan和Le，2019)。实验结果如表 7所示。

表 7 CT特征提取网络效果对比
Table 7 Comparison of CT feature extraction network effects

下载CSV

网络	参数量	图像大小/像素	拉普拉斯对数似然得分
InceptionV1	6 234 837	224×224	-6.820 3
InceptionV3	22 330 885	299×299	-6.823 7
Inception_ResNet_V2	54 733 756	299×299	-6.819 5
ResNet50	49 935 653	512×512	-6.826 6
DenseNet121	7 564 261	512×512	-6.823 5
EfficientNetB0	4 381 057	512×512	-6.825 6
本文	6 130 053	512×512	-6.810 7
注：加粗字体表示最优结果。

从表 7中观察到使用Inception多尺度模块的3个网络在测试集上的拉普拉斯对数似然得分优于其他大部分网络，因此本文以InceptionV1作为CT特征提取网络的骨干网络。与其他网络相比，本文方法在测试集上得到的拉普拉斯对数似然得分为-6.8107，获得了最好的效果，而且所用网络参数量也较少。

4.3.6 特发性肺纤维化进展预测方法对比

对目前已有的几种肺功能下降情况预测方法进行对比实验，以验证提出的特发性肺纤维化进展预测模型的有效性。实验对比的肺纤维化预测方法有：FibrosisNet、Fibro-CoSANet、DNN+GBDT+NGBoost+ElasticNet集成模型以及Kaggle肺纤维化挑战赛的前3名解决方案。实验结果如表 8所示。

表 8 特发性肺纤维化进展预测方法对比
Table 8 Comparison of prediction methods for the progression of idiopathic pulmonary fibrosis

下载CSV

模型	参数量	图像大小/ 像素	拉普拉斯对数似然得分
Fibrosis Net	2 467 979	512×512	-6.827 2
Fibro-CoSA Net	4 053 112	512×512	-6.899 7
DNN+GBDT+ NGBoost+ElasticNet	/	/	-6.850 7
Kaggle第1名	29 041 333	512×512	-6.830 5
Kaggle第2名	/	/	-6.831 1
Kaggle第3名	/	/	-6.833 6
本文	6 130 053	512×512	-6.810 7
注：加粗字体表示最优结果，“/”代表原论文未给出。

由实验结果可得，本文方法相比于现有的肺功能下降情况预测方法获得了更好的拉普拉斯对数似然得分。因此，本文提出的特发性肺纤维化进展预测模型可以更加准确地预测IPF患者不同预期周数的FVC值。

4.3.7 模型消融实验

实验使用的基础模型为去除了CT特征提取网络中残差模块、空洞卷积模块和CBAM-ICA注意力模块这3个模块后的特发性肺纤维化进展预测模型，并在实验过程中分别添加这3个模块进行消融实验，与基础模型进行对比。实验结果如表 9所示。

表 9 模型消融实验
Table 9 Model ablation experiment

下载CSV

模块	参数量	拉普拉斯对数似然得分
基础模型	4 051 301	-6.822 8
基础模型+残差模块	4 051 301	-6.818 0
基础模型+空洞卷积模块	5 220 937	-6.819 7
基础模型+CBAM-ICA注意力模块	4 960 517	-6.821 7
基础模型+残差模块+CBAM-ICA注意力模块	4 960 517	-6.816 2
基础模型+残差模块+空洞卷积模块+CBAM-ICA注意力模块	6 130 053	-6.810 7
注：加粗字体表示最优结果。

由实验结果可得，特发性肺纤维化进展预测模型中的CT特征提取网络在分别添加残差模块、空洞卷积模块、CBAM-ICA注意力模块后获得的拉普拉斯对数似然得分均有不同程度的提升。而当同时添加3个模块时，模型的预测得分最佳。这表明包含残差模块、空洞卷积模块和CBAM-ICA注意力模块的特发性肺纤维化进展预测模型的预测结果更加准确。

4.3.8 不同模态数据预测效果对比

提出的特发性肺纤维化进展预测模型使用了多模态数据进行预测工作，为了验证使用多模态数据的模型方法与仅使用临床文本数据或肺部CT图像数据的模型方法之间的效果区别，对这3种情况分别进行了实验，实验结果如表 10所示。

表 10 不同模态数据预测效果
Table 10 Prediction effect of different modal data

下载CSV

数据类型	模型	拉普拉斯对数似然得分
临床文本数据	Ridge	-6.856 4
	Lasso	-6.852 5
	MLP	-6.855 8
肺部CT图像	EfficientNetB0	-6.912 6
肺部CT图像	InceptionV1	-6.895 1
多模态数据	本文	-6.810 7
注：加粗字体表示最优结果。

对于临床文本数据，使用Ridge回归、Lasso回归和MLP多层感知机方法对IPF患者不同周数的FVC值进行回归预测。对于肺部CT图像数据，使用EfficientNetB0、InceptionV1和本文特发性肺纤维化进展预测模型对肺部CT图像进行特征提取，对患者FVC线性变化率进行预测，最后通过FVC线性变化率$slope$计算得到IPF患者不同周数的FVC预测值$FVC_{\rm{pred}}$，即

$ FVC_{\rm{pred}}=slope×week+FVC_{\rm{base}} $

(8)

式中，$FVC_{\rm{base}}$是IPF患者测量记录中周数最小时的初始FVC值，$week$是预测周数与最小周数之差。

从表 10的对比实验结果可以看出，仅使用肺部CT图像数据并按照式(8)直接通过FVC线性变化率得到IPF患者不同周数的FVC值的模型，最终获得的低于仅使用临床文本数据并直接对IPF患者不同周数的FVC值进行预测的模型。但这些只使用一种医学模态数据的模型的拉普拉斯对数似然得分，均远远小于本文使用多模态数据并将FVC线性变化率作为一个新特征对IPF患者不同周数的FVC值进行预测的模型得分。由此可见，多模态数据相比于单个医学模态数据，可以有效提高模型预测的精度，得到更加准确的IPF患者未来不同周数的FVC值。

4.4 预测效果展示

对8个不同IPF患者145周内FVC的进展情况进行预测，并将不同周的预测值与真实值进行对比，结果如图 12所示。上面4幅子图是根据测试集中4个IPF患者在新的一周中记录的临床文本数据和CT图像预测的FVC值，以及该患者在训练集中真实FVC值的对比图。下面4幅子图是对训练集中4个IPF患者的FVC值预测结果与没有用于预测的真实FVC值的对比图。其中，横坐标从最初周的前12周开始，至最初周之后的133周止，单位为周数。纵坐标为FVC值，黄线为FVC真实值的变化情况，蓝线为FVC预测值的变化情况。从图 12可以直观地看出，预测的FVC值变化趋势与真实值比较接近。

图 12 8个IPF患者FVC进展的真实值与预测值对比

Fig. 12 Comparison of real value and predicted value of FVC progress in 8 IPF patients

表 11和表 12给出了图 12中第3个(第2行第1个)和第5个(第3行第1个)IPF患者部分周数的真实FVC值和预测FVC值。从表 11和表 12可以更具体地看出，模型预测的FVC值和真实FVC值比较接近。

表 11 第3个患者部分周的真实FVC值和预测FVC值
Table 11 Real FVC value and predicted FVC value of the third patients in different weeks

下载CSV

周数	真实FVC值/ml	预测FVC值/ml
6	1 930	1 966.401 9
11	1 936	1 949.502 1
13	1 955	1 942.738 3
15	1 848	1 935.973 2
17	1 897	1 929.204 2
23	1 946	1 908.887 3
35	1 862	1 868.195 4
47	1 713	1 827.420 2

表 12 第5个患者部分周的真实FVC值和预测FVC值
Table 12 Real FVC value and predicted FVC value of the fifth patients in different weeks

下载CSV

周数	真实FVC值/ml	预测FVC值/ml
-4	2 315	2 255.782 5
5	2 214	2 229.333 3
9	2 144	2 217.552 8
11	2 069	2 211.656 3
17	2 101	2 193.942 6
29	2 000	2 185.072 6
41	2 064	2 122.783 6
57	2 057	2 075.130 2

5 结论

针对目前IPF进展预测方法中存在的准确率较低等问题，本文提出一种融合多尺度残差和注意力机制的IPF进展预测模型，通过引入残差模块和CBAM-ICA模块，增加了CT特征提取网络的感受野，有助于着重关注肺部区域的有效特征；在CT特征提取网络中，通过添加与卷积层并行的空洞卷积模块，补充了丢失的细节信息；在多模态特征预测网络中，通过使用两次多模态特征并引入注意力机制进行预测，提升了网络的预测准确性。在OSIC数据集上进行实验，与其他IPF进展预测方法比较，本文方法在肺纤维化测试集上评估得到了更好的拉普拉斯对数似然得分。此外，进行了模型消融实验和不同模态数据预测对比等实验，进一步验证了本文提出模型的有效性。

本文方法通过对IPF患者不同周数的FVC值进行预测，帮助医生更好地了解IPF患者肺功能衰退的严重程度，对IPF患者的预后具有指导意义。但由于IPF患者肺部CT图像的复杂性以及样本量较少，预后结果的准确率仍有待提高。未来将通过扩大样本量，进一步提高特征提取能力和模型预测准确性，以期获得更加全面准确的预后效果。

参考文献

Glotov A and Lyakhov P. 2021. Pulmonary fibrosis progression prognosis using machine learning//2021 Ural Symposium on Biomedical Engineering, Radioelectronics and Information Technology. Yekaterinburg, Russia: IEEE: 327-329[DOI: 10.1109/USBEREIT51232.2021.9455070]

He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, USA: 770-778[DOI: 10.1109/CVPR.2016.90]

Hu J, Shen L and Sun G. 2018. Squeeze-and-excitation networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7132-7141[DOI: 10.1109/CVPR.2018.00745]

Huang G, Liu Z, Van Der Maaten L and Weinberger K Q. 2017. Densely connected convolutional networks//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 2261-2269[DOI: 10.1109/CVPR.2017.243]

Ioffe S and Szegedy C. 2015. Batch normalization: accelerating deep network training by reducing internal covariate shift[EB/OL]. [2021-07-30]. https://arxiv.org/pdf/1502.03167.pdf

Kaggle. 2020. OSIC pulmonary fibrosis progression[EB/OL]. [2021-07-10]. https://www.kaggle.com/c/osic-pulmonary-fibrosis-progression

Maher T M, Bendstrup E, Dron L, Langley J, Smith G, Khalid J M, Patel H, Kreuter M. 2021. Global incidence and prevalence of idiopathic pulmonary fibrosis. Respiratory Research, 22(1): #197 [DOI:10.1186/s12931-021-01791-z]

Mandal S, Balas V E, Shaw R N and Ghosh A. 2020. Prediction analysis of idiopathic pulmonary fibrosis progression from OSIC dataset//Proceedings of 2020 IEEE International Conference on Computing, Power and Communication Technologies. Greater Noida, India: IEEE: 861-865[DOI: 10.1109/GUCON48875.2020.9231239]

Nazi Z A, Mashrur F R, Islam M A and Saha S. 2021. Fibro-CoSANet: pulmonary fibrosis prognosis prediction using a convolutional self attention network[EB/OL]. [2021-07-30]. https://arxiv.org/pdf/2104.05889.pdf

Raghu G, Remy-Jardin M, Myers J L, Richeldi L, Ryerson C J, Lederer D J, Behr J, Cottin V, Danoff S K, Morell F, Flaherty K R, Wells A, Martinez F J, Azuma A, Bice T J, Bouros D, Brown K K, Collard H R, Duggal A, Galvin L, Inoue Y, Jenkins R G, Johkoh T, Kazerooni E A, Kitaichi M, Knight S L, Mansour G, Nicholson A G, Pipavath S N J, Buendía-Roldán I, Selman M, Travis W D, Walsh S L F, Wilson K C. 2018. Diagnosis of idiopathic pulmonary fibrosis. An official ATS/ERS/JRS/ALAT clinical practice guideline. American Journal of Respiratory and Critical Care Medicine, 198(5): e44-e68 [DOI:10.1164/rccm.201807-1255ST]

Roy A G, Navab N and Wachinger C. 2018. Concurrent spatial and channel 'squeeze and excitation' in fully convolutional networks//Proceedings of the 21st International Conference on Medical Image Computing and Computer-Assisted Intervention. Granada, Spain: Springer: 421-429[DOI: 10.1007/978-3-030-00928-1_48]

Shen Q X, Peng H. 2021. Clinical evaluation on idiopathic pulmonary fibrosis. Journal of Central South University (Medical Science), 46(3): 309-315 (沈沁雪, 彭红. 2021. 特发性肺纤维化病情的临床评估. 中南大学学报(医学版), 46(3): 309-315) [DOI:10.11817/j.issn.1672-7347.2021.190402]

Song H F, Sun D J, Ban C J, Liu Y, Zhu M, Ye Q, Yan W, Ren Y H, Dai H P. 2019. Independent clinical factors relevant to prognosis of patients with idiopathic pulmonary fibrosis. Medical Science Monitor, 25: 4193-4201 [DOI:10.12659/MSM.914725]

Szegedy C, Ioffe S, Vanhoucke V and Alemi A A. 2017. Inception-v4, inception-ResNet and the impact of residual connections on learning//Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI: 4278-4284[DOI: 10.5555/3298023.3298188]

Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V and Rabinovich A. 2015. Going deeper with convolutions//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 1-9[DOI: 10.1109/CVPR.2015.7298594]

Szegedy C, Vanhoucke V, Ioffe S, Shlens J and Wojna Z. 2016. Rethinking the inception architecture for computer vision//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 2818-2826[DOI: 10.1109/CVPR.2016.308]

Tan M X and Le Q V. 2019. EfficientNet: rethinking model scaling for convolutional neural networks[EB/OL]. [2021-07-30]. https://arxiv.org/pdf/1905.11946.pdf

Wang Q L, Wu B G, Zhu P F, Li P H, Zuo W M and Hu Q H. 2020. ECA-Net: efficient channel attention for deep convolutional neural networks//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 11531-11539[DOI: 10.1109/CVPR42600.2020.01155]

Wong A, Lu J, Dorfman A, McInnis P, Famouri M, Manary D, Lee J R H and Lynch M. 2021. Fibrosis-Net: a tailored deep convolutional neural network design for prediction of pulmonary fibrosis progression from chest CT images[EB/OL]. [2021-07-30]. https://arxiv.org/pdf/2103.04008.pdf

Woo S, Park J, Lee J Y and Kweon I S. 2018. CBAM: convolutional block attention module//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 3-19[DOI: 10.1007/978-3-030-01234-2_1]

Yu F and Koltun V. 2016. Multi-scale context aggregation by dilated convolutions[EB/OL]. [2021-07-30]. https://arxiv.org/pdf/1511.07122.pdf