网刊加载中。。。

论文引用格式：Xing S X， Ju Z H， Liu Z J， Wang Y and Fan F Q. 2023. Multi-label classification of chest X-ray images with pre-trained vision Transformer model. Journal of Image and Graphics， 28（04）：1186-1197（引用格式:邢素霞，鞠子涵，刘子骄，王瑜，范福强. 2023. 视觉Transformer预训练模型的胸腔X线影像多标签分类. 中国图象图形学报， 28（04）：1186-1197）［0　引言胸腔X线影像作为放射科重要的筛查和诊断手段，在临床医学中应用广泛。目前胸腔X线影像的阅片大多依赖放射科医生人工观察，且胸部疾病的种类繁多，病理特征多样，快速准确的阅片工作对医生专业知识和临床经验具有一定要求（施俊等，2020）。另外，医生的诊断存在主观性，长时间高负荷工作又容易导致医生的疲劳，误诊和漏诊的现象时有发生。基于计算机的胸腔X线影像多标签分类方法可以自动检测和识别潜在的一种或多种疾病，是辅助医生临床诊断的有效手段。然而与自然图像相比，不同影像间具有高度相似性，异常区域占比小、表征复杂（潘海为等，2013），且单幅影像中可能存在多发性疾病，甚至多种疾病，给病灶的准确筛查和判别造成了困难。随着人工智能在医学领域的应用（Shiraishi等，2011），基于卷积神经网络（convolutional neural network，CNN）的深度学习模型对局部细节信息尤为敏感，能够提取丰富的图像特征，尤其是通过自然图像的迁移学习，取得了很多有益成果。如：Abbas等人（2021）使用CNN模型，通过迁移学习实现了基于胸腔X线影像的新冠肺炎、正常、SARS（severe acute respiratory syndrome）三标签分类任务，分类准确率达98.23%。Rahman等人（2020）针对AlexNet（Krizhevsky等，2017）、ResNet18（He等，2016）、DenseNet201（Huang等，2017）和SqueezeNet（Iandola等，2016）4个在自然图像中预训练CNN模型使用迁移学习，对胸腔X线影像正常、病毒性肺炎、细菌性肺炎进行分类，4个模型准确率分别为88.4%、88.7%、93.3%和86.1%。CheXNet（Rajpurkar等，2017）通过迁移学习微调DenseNet121模型（Huang等，2017），使用14种疾病标签标注的11万幅胸腔X线影像数据集ChestX-Ray14（Wang等，2017）训练多标签分类模型，取得了0.845的AUC（area under ROC curve）得分。然而CNN使用的卷积核存在感受视野受限的缺陷，缺乏对影像整体信息的把握，且提取的图像特征中包含了背景、肌肉和骨骼等冗余信息，对多标签分类性能产生了一定影响。为此，有学者将基于注意力机制的视觉Transformer（vision Transformer，ViT）（Dosovitskiy等，2021）结构应用于医学影像任务，辅助CNN提取图像特征，Transformer能够同时捕捉整幅影像中的全部信息，且注意力机制的结构有助于模型重点关注有意义区域。如，TransUNet（Chen等，2021）最先将Transformer与U-Net（Ronneberger等，2015）编码器结合，用于医学影像分割，使编码器能够获取上下文信息，取得了良好的效果。CoTr3D（Xie等，2021）使用基于CNN和Transformer的结构分割3维医学影像，性能得到了实质性提升。TransMed模型（Dai等，2021）首先利用CNN对核磁共振影像进行特征提取，然后使用基于DeiT（Touvron等，2021）的小型Transformer模型完成影像中肿块良恶性分类，使模型能够同时捕捉低层次特征和跨通道的高层次特征，最终达到88.9%的准确率。CNN与Transformer相结合的模型在医学影像领域展现了出色性能。然而Transformer摆脱了CNN依赖的局部相关性和权值共享两个归纳偏置限制，在达到更高精度的同时，也增加了模型训练难度。由此可见，目前针对单一疾病分类任务的精度已经接近甚至超过医生水平，而针对多种疾病的多标签分类任务的研究相对较少，且受病人隐私、人工标注成本高等因素影响，胸腔X影像数据量有限（陈弘扬等，2021），基于Transformer的模型在胸腔X影像多标签分类性能还有较大提升空间。为此，拟开展针对ViT预训练模型的胸腔X线影像多标签分类研究，通过自然图像数据集的预训练和模型微调，使用训练好的参数初始化模型，在胸腔X线影像数据集中再次训练。经对比分析迁移学习前后的模型性能以及模型可视化，验证模型的有效性以及ViT模型在医学影像领域的有效性。1　基于ViT的视觉特征提取基于ViT的模型结构如图1所示，包含CNN模块和视觉Transformer模块两部分。CNN通过卷积核在影像中滑动的方式依序提取特征，视觉Transformer则将整幅影像一次性输入网络，并通过注意力机制帮助模型同时关注影像中不同区域的病变。10.11834/jig.220284.F001图1胸腔X线影像多标签分类模型结构Fig.1The structure of the multi-label classification model for chest X-ray images1.1　CNN模块CNN模块的结构如图2（a）所示，由卷积层、池化层和3个残差块组构成，每个残差块组中分别包含3、4、9个残差块。残差块结构如图2（b）所示，其由两个1 × 1卷积层、一个3 × 3卷积层以及群组归一化层（group normalization，GN）和线性整流函数（rectified linear unit， ReLU）组成，并采用残差连接，计算式为Xl=Fl(Xl-1)+Xl-1 （1）式中，F1代表残差块中的结构，Xl为当前残差块的输出矩阵，Xl-1为当前残差块的输入矩阵，也是上一残差块的输出矩阵。为降低图像特征的输出尺寸，每个残差块组的第1个残差块中3 × 3卷积层步长设置为2。最后将图像特征在空间维度展平，使用1 × 1卷积调整特征维度。CNN的具体参数和结构如表1所示，模型输入图像为224 × 224像素，表1中参数部分的数值分别表示卷积层的卷积核大小与数量。10.11834/jig.220284.F002图2CNN模块结构Fig.2CNN module structure（（a） overall structure of the CNN module；（b） residual block structure）10.11834/jig.220284.T001表1CNN模块参数和结构Table 1The parameters and architecture of CNN module名称层名输出尺寸参数根网络卷积层112 × 112 × 647 × 7，64，步长 2最大池化层56 × 56 × 643 × 3，步长 2主网络残差块1-156 × 56 × 2561×1,643×3,641×1,256残差块1-x56 × 56 × 2561×1,2563×3,641×1,256× 2残差块2-128 × 28 × 5121×1,2563×3,1281×1,512，步长 2残差块2-x28 × 28 × 5121×1,5123×3,1281×1,512× 3残差块3-114 × 14 × 10241×1,5123×3,2561×1,1024，步长 2残差块3-x14 × 14 × 10241×1,10243×3,5121×1,1024× 8头网络卷积层14 × 14 × 7681 × 1，768展平层196 × 768-注： 1- x、 2- x、 3- x中的x代表该残差块组中其余所有残差块，“-”代表没有参数。1.2　视觉Transformer模块视觉Transformer模块中包含了自注意力（self-attention，SA）、多头自注意力（multi-head self-attention，MSA）和多层感知机（multi-layer perception，MLP）模块，并对每个输入向量进行了位置编码。1.2.1　自注意力机制自注意力机制可以计算模型所有输入的重要程度。在视觉Transformer的自注意力层中，使用归一化的点乘注意力计算每个输入位置间的关联性。自注意力层首先对输入进行3次独立的线性变换得到查询矩阵（Q）、键矩阵（K）和值矩阵（V），计算式为Q=XWq, K=XWk, V=XWv （2）式中，Wq，Wk，Wv为参数矩阵，X为输入矩阵。使用K与Q的乘积以及Softmax函数计算得到每个位置的注意力权重，将所有位置的加权和作为自注意力层的输出，计算式为FA(Q,K,V)=δQKTdkV （3）式中，FA代表注意力层，δ表示Softmax激活函数，dk是K的维度。注意力权重矩阵除以dk以消除方差过大对反向传播造成影响，稳定模型优化过程。1.2.2　多头自注意力与CNN采用多个卷积核类似，视觉Transformer也采用MSA进行多次注意力计算，令模型学习不同子空间的序列和位置信息，如图3所示。MSA将Q、K、V拆分成相同大小的多个小型矩阵，分别进行注意力运算，最后将计算结果拼接作为最终输出。计算过程为FS(Q,K,V)=[H1,H2, ⋯, Hh]WoHi=FA(XWiq,XWik,XWiv) （4）10.11834/jig.220284.F003图3多头注意力机制Fig.3Multi-head attention式中，FS表示MSA模块，Wiq，Wik，Wiv和Wo均为参数矩阵，Hi表示MSA的第i个头，头的总数为h。1.2.3　MLP模块MLP模块由两个全连接层组成，使用高斯线性误差（Gaussian error linerar units，GELU）（Hendrycks和Gimpel，2020）激活函数，MLP的结构为FP(X)=W1(ε(W2X+b2))+b1 （5）式中，FP代表MLP模块，X为MLP层的输入矩阵，ε表示GELU激活函数，W1、W2和b1、b2分别为两个全连接层的参数矩阵和偏置矩阵。第1个全连接层将输入维度扩大至原来的4倍，第2个全连接层还原成与输入相同的维度。在MSA之后加入MLP模块，能够在一定程度上缓解网络退化（Dong等，2021）。1.2.4　视觉Transformer模块视觉Transformer模块将CNN提取的图像特征作为输入，并在整个输入序列的第1个位置加入类别向量，用于捕捉整个输入序列的所有信息。CNN头网络中的展平操作丢失了视觉特征间的位置关系，因此在输入序列中还加入了位置编码。整个输入矩阵为X=[Xcls,Xp]+Epos （6）式中，X为视觉Transformer模块的输入矩阵，Xp为CNN提取的视觉特征，Xcls为类别向量，Epos为全零初始化的位置编码矩阵，在模型优化过程中将自动学习输入之间的位置信息。视觉Transformer模块主体结构由多个Transformer块堆叠而成。每个Transformer块中包含一个MSA层和一个MLP层，并在每层最后进行层归一化（layer normalization，LN）和残差连接，即Xt-1'=L(FS(Xt-1))+Xt-1Xt=L(FP(Xt-1'))+Xt-1' （7）式中，Xt-1为当前Transformer块的输入矩阵，Xt为当前Transformer块的输出矩阵，L代表层归一化。2　ViT模型预训练与迁移学习迁移学习利用视觉任务间的关联性，将训练好的模型应用于不同的下游任务。在视觉领域，ViT模型在超大规模数据集上的训练效果可以媲美甚至超过传统的CNN模型，在小规模数据集中训练时却难以学习到有意义的特征（Dosovitskiy等，2021）。为提升模型性能，尝试使用迁移学习方法训练ViT模型。2.1　ViT模型预训练选用包含CNN结构的预训练ViT模型，其视觉Transformer模块中堆叠12个Transformer块，多头注意力使用12个头。模型在JFT 300M（Sun等，2017）数据集中进行预训练，JFT 300M拥有三亿幅自然图像，使用1.8万个类别进行标注，每幅图像可能对应一个或对多个类别，并在包含130万幅图像以及1 000个类别的ImageNet2012（Deng等，2009）数据集中进行了微调，最终得到ViT预训练模型。预训练模型的输入图像为224 × 224像素，输出为1 000个标签对应的概率分布。2.2　数据集2.2.1　IU X-RayIU X-Ray（Demner-Fushman等，2016）中的数据来自美国印第安纳患者护理网络数据库，包含3 955位患者的7 470幅正面以及侧面胸腔X线影像。每幅影像对应一个或多个标签，所有影像均以如下两种方式标注：1）使用医学文本索引（NLM medical text indexer，MTI）提取器从每幅影像对应的诊断报告中提取标签自动标注。2）使用医学主题词表（medical subject headings，MESH）和放射学词典（radiology lexicon，RedLex）标签人工标注。本文参考Alfarghaly等人（2021）采用的标签提取方法，删除了出现频次小于25的标签，最终得到的105个标签对胸腔X线影像进行多标签分类。这些标签中包含了疾病的名称、位置、严重程度和患病器官等信息，能够引导模型学习高层次语义信息，有效辅助医生进行诊断工作。2.2.2　Chest X-Ray14Chest X-Ray14（Wang等，2017）由美国国立卫生研究院收集并公开，涵盖30 805位患者的112 120幅正面胸腔X线影像，其中60 316幅影像为正常，使用“不患病”标签进行标注，其余51 804幅影像使用14种常见病理标签标注，每幅影像可能对应一个或多个标签。数据集中所有标签采用自然语言处理的方法，通过诊断报告自动标注。2.2.3　CheXpertCheXpert（Irvin等，2019）收集了来自美国斯坦福医院65 240位患者的224 316幅正面和侧面胸前X线影像，并将14个胸部成像术语作为结构化标签，使用自动标记器根据诊断报告文本对X线影像进行标注。每个标签分为未提及（记为空白）、正类（记为“1”）、负类（记为“0”）和不确定（记为“-1”）4种情况。2.3　数据预处理为避免模型过程中出现过拟合的现象，对训练集中的胸腔X线影像数据进行数据增强。如图4所示，每幅影像输入模型前缩放成512 × 512像素，再随机裁剪出一块224 × 224像素的区域，然后从水平翻转、透视变换、剪切、旋转、平移、缩放和改变亮度中随机选取一种或多种方法对影像施加相应的变换，随着迭代次数的增加，影像中的所有区域都将被输入模型训练，且每轮迭代的数据间都存在一定差异。验证集和测试集中的影像则缩放至256 × 256像素，并居中裁剪出224 × 224像素的区域作为输入，使模型能够根据整幅影像的全部信息进行分类。10.11834/jig.220284.F004图4数据增强前后胸腔X线影像对比Fig.4Comparison of chest X-ray images before and after data augmentation （（a） original images；（b） the images after random data augmentation）2.4　ViT模型的迁移学习ViT模型在胸腔X线影像数据集上的迁移学习过程如图5所示，其步骤如下：10.11834/jig.220284.F005图5迁移学习过程Fig.5Transfer learning process1）在大规模自然图像数据集训练上预训练ViT模型，获取模型初始参数。2）医学影像为灰度图像，通道数为1，自然图像为三通道的RGB图像，因此使用1 × 1卷积层对胸腔X线影像通道数进行调整。3）使用预训练的ViT模型参数初始化主干网络，并重新设计分类器，全连接层输出节点数量由1 000调整为胸腔X线影像的标签个数，使用Sigmoid激活函数。4）在X线影像数据集中训练迁移后的模型，模型的最终输出为每个标签各自的概率分布，选取概率大于0.5的标签作为预测标签，实现胸腔X线影像的多标签分类。实验中将IU X-Ray数据集按8∶1∶1随机划分训练集、验证集和测试集，训练集迭代次数为100训练模型。Chest X-Ray14数据集则随机选取1 000幅影像作为测试集，其余影像按9∶1划分为训练集和验证集。医学影像的阅片过程中应尽量降低漏诊率，而误诊则可以通过进一步的检查排除，因此实验中将CheXpert数据集中不确定标签标记为正类，未提及标签标记为负类，从不包含不确定标签的样本中随机选取1 000幅影像作为测试集，其余同样按9∶1划分为训练集和验证集。使用二元交叉熵（binary cross-entropy，BCE）损失函数和随机梯度下降法（stochastic gradient descent，SGD）优化模型，初始学习率为1E-3，采用余弦退火（He等，2019）学习率衰减策略。所有模型使用Python3.7以及PyTorch1.8搭建，RTX3090训练。3　实验结果与分析IU X-Ray数据集中使用丰富的标签对影像进行标注，更利于展示模型性能和缺陷，然而IU X-Ray数据量相对较少，且缺乏相关对比实验。因此实验中使用IU X-Ray数据集训练模型，进行超参数调整、消融实验以及可视化，最后利用Chest X-Ray14和CheXpert数据集训练和测试模型，与其他方法对比，验证模型有效性。3.1　评价指标在多标签分类任务中，每个标签都有被正确分类（简称：正类）和被错误分类（简称：负类）两种情况，因此预测标签时，会出现将正类预测为正类（TP）、将正类预测为负类（ FN）、将负类预测为正类（FP）、将负类预测为负类（TN） 4种情形。为客观全面地评价模型诊断性能，选用接受者操作特征（receiver operating characteristics，ROC）曲线下面积AUC（area under ROC curve）评价模型，ROC曲线的横坐标为假阳性率（FPR），定义为FPR =FP/（FP + TN），表示所有负类样本中被错误判断成正类的比例；纵坐标为真阳性率（TPR），定义为TPR =TP/（TP + FN），表示所有正类样本中被正确判断为正类的比例。最终使用所有标签的平均AUC作为评价指标对模型进行定量评价，AUC越接近1，模型的分类性能越好。3.2　ViT模型迁移学习前后对比实验图6展示了完全未经预训练的微调ViT模型与本文模型在IU X-Ray数据集中的对比结果，同时还对比了固定预训练ViT模型主干部分参数，将ViT作为特征提取器，仅训练分类器的迁移学习方法。以模型训练过程中测试集的平均AUC得分作为评价指标。10.11834/jig.220284.F006图6迁移学习对ViT模型性能影响Fig.6The impact of transfer learning on ViT model其中，仅训练分类器与未使用迁移学习方法相比模型平均AUC得分由0.566提升至0.681，提升幅度为20.3%，这说明自然图像与医学影像间存在某种联系，在自然影像中训练的特征提取器能够在一定程度上有效提取医学影像特征。使用迁移学习训练整个模型的方法平均AUC得分达0.774，与只训练分类器相比提升13.7%，与未使用迁移学习相比提升36.7%，证明自然图像与医学影像间的差异依然存在，针对医学影像训练模型特征提取器更利于提升模型性能。综合上述结果，使用迁移学习训练的模型在小型数据集中训练稳定性和收敛性更佳，且训练整个模型的方法能够取得更高性能。3.3　模型可视化图7展示了模型在IU X-Ray测试集中正常、异常、漏检和误诊4种情况下最顶层Transformer块中自注意力机制的热力图，红色区域代表模型的更高关注，加粗字体为正确预测的标签。10.11834/jig.220284.F007图7ViT中注意力机制热力图Fig.7Heatmap of attention mechanism in ViT由此可见，模型对正常情况的影像并未重点关注某个具体区域。当影像中出现异常时，模型对主动脉、肺不张、心脏肥大、胸腔积液等特征明显的疾病能够准确识别，且高度关注影像中的相关区域。然而对不透明、严重、上叶等疾病状态和位置等高层次信息提取能力较弱，模型在判断过程容易中出现遗漏和误诊。由误诊情况下的第2幅热力图可以看出，模型对胸腔内部大面积区域都给予了关注，却依然未能发现相关疾病，这是由于淋巴结、钙质沉着这类病灶存在体积小、特征不明显的特点，且部分标签数据量欠缺，从而产生误诊的情况。3.4　消融实验为分析CNN、Transformer以及数据增强对ViT模型的影响，开展了消融实验，实验结果如表2所示。由结果可知，综合CNN和数据增强后的ViT模型性能最佳。CNN模块的加入使模型平均AUC得分提升0.027，提升幅度为3.6%。这得益于CNN能够提取胸腔X线影像中的低层次特征，帮助模型捕捉影像中的细节信息。其次，单一的CNN结构受卷积核感受视野的限制，无法一次性关注到整幅影像的各个区域，多标签分类性能减弱，平均AUC得分仅为0.687，与本文模型相差12.6%。最后，在小型数据集中训练时，数据增强能够避免过拟合的出现，AUC提升0.013，提升幅度为1.7%，且无需增加模型复杂度。10.11834/jig.220284.T002表2针对模型结构和数据增强的消融实验Table 2Ablation experiments for model structure and data augmentation模型平均AUC本文0.774ViT0.747CNN0.687不使用数据增强0.761注：加粗字体表示最优值。为进一步提升模型精度，对训练中采用的批处理量（batch）大小进行了实验，batch是单次训练时所选取的样本数，模型训练一个batch都将经反向传播优化一次参数。图8展示了不同batch大小对本文模型的影响，括号中列出了模型训练所需时间。将batch大小分别设置为1、4、8、16、32训练模型，由实验结果可知，batch越大，模型单次反向传播时能够根据多组数据优化参数，batch越小，模型迭代一轮训练集将经历越多的反向传播和参数优化次数，从而优化至更高精度，但训练时间也更长。因此，为使ViT模型在小规模数据集中达到更高精度，应尽量选取小batch训练。10.11834/jig.220284.F008图8不同batch对比实验Fig.8Comparative experiments on different batch sizes3.5　实验结果对比胸腔疾病的多标签分类研究主要集中在Chest X-Ray14和CheXpert两个数据集上，为验证本文方法的可行性，选择在这两个数据集的运行结果与其他方法进行对比。训练过程中batch大小设置为8，初始学习率为1E-4，训练集迭代次数为40。3.5.1　Chest X-Ray14数据集的结果对比表3展示了Chest X-Ray14数据集中各标签所占比例以及本文模型与其他方法的疾病多标签分类AUC得分。对比实验中，Khanh 等人（2019）使用预训练的CNN提取图像特征，并利用人工设计的浅层特征提取器和分类器融合多层次图像特征，进行多标签分类，是传统方法与深度学习相结合的方法。张智睿等人（2020）通过改进密集挤压激励网络，提升了总体精度和部分难以识别标签的识别能力，是基于经典卷积神经网络的代表方法。Liu等人（2021）采用教师网络和半监督方法训练模型，属于最新的研究方法之一，为保证实验客观性，本文选用其监督训练的实验结果作为对比。10.11834/jig.220284.T003表3不同方法在Chest X-Ray14数据集上AUC值对比Table 3Comparison of AUC values of different algorithms on ChestX-Ray14 dataset标签名称标签占比/%He等人(2019)张智睿等人(2020)Liu等人(2021)本文模型平均AUC-0.8100.8020.8250.839肺不张10.310.7950.7850.7870.797心脏肥大2.480.8870.8770.8740.944胸腔积液11.880.8750.8630.8380.877肺浸润17.740.7030.6730.7090.715肿块5.160.8350.8040.8330.861肺结节5.640.7160.7290.7990.765肺炎1.280.7420.7420.7390.760气胸4.730.8630.8420.8710.886肺实变4.160.7860.7850.7590.835水肿2.050.8920.8730.8450.878肺气肿2.240.8750.8580.9370.927纤维化1.500.7560.7750.8340.864胸膜增厚3.010.7740.7560.7930.743疝气0.200.8360.8650.9330.888注：加粗字体表示各行最优结果。“-”代表没有具体数据。从实验结果可以看出，本文模型平均AUC得分达0.839，与其他方法相比高出1.7%～4.6%。在14种疾病标签中，肺不张、肺结节、胸膜增厚的患病区域小，特征不明显，肺浸润、肺炎的患病情况繁多，特征复杂，模型对以上5种疾病的识别相对困难，AUC得分在0.80以下。心脏肥大、胸腔积液、肿块、气胸、水肿、肺气肿、纤维化、疝气九个标签的病理特征明显， AUC得分均高于0.85。与其他方法相比，肺结节、肺气肿、胸膜增厚、疝气的AUC得分明显较低，这是由于患病区域小或训练样本量少的原因导致，模型无法有效捕捉和掌握足够的病理特征。心脏肥大、肿块、肺实变、纤维化较Liu等人（2021）的方法有3.7%～9.7%的提升，这表明本文模型在特征明显的疾病识别上更具优势。3.5.2　CheXpert数据集的结果对比表4展示了CheXpert数据集中各标签所占比例以及本文模型与其他方法在多标签分类中的AUC得分。对比方法均使用整个数据集训练模型，并将不确定标签标记为正类。其中，CheXNet（Rajpurkar等，2017）是使用胸腔X线影像预练过Densenet121模型，广泛应用于医学影像的相关研究中。Ma等人（2020）使用交叉注意力网模型实现多标签胸腔疾病的分类，是基于注意力机制的代表方法之一。10.11834/jig.220284.T004表4不同方法在CheXpert数据集上AUC值对比Table 4Comparison of AUC values of different algorithms on CheXpert dataset标签名称正类标签占比/%不确定标签占比/%CheX-NetMa等人(2020)本文模型平均AUC--0.7460.7750.806肺不张15.6315.660.7070.7130.705心脏肥大12.263.520.7750.7900.856实变6.7812.780.7550.7570.751水肿26.066.170.8630.8610.907心脏扩大4.815.410.5310.5550.685骨折3.870.260.5880.7350.793肺损伤3.650.570.7100.8050.774肺不透明49.392.310.7840.7830.766正常8.860.000.8720.8590.874胸腔积液40.345.020.8740.8920.897其他疾病1.30.940.7100.6800.754肺炎2.448.340.5350.6660.765气胸9.231.420.8420.8360.871支持装置56.40.480.8990.9130.891注：加粗字体表示各行最优结果。“-”代表没有具体数据。由表4中实验结果可知，本文模型平均AUC得分分别高出对比方法8.0%和4.0%。其中心脏肥大、水肿、胸腔积液、气胸疾病特征明显，模型能够有效识别这类疾病，AUC得分在0.85以上。肺不张、实变、心脏扩大、其他疾病、肺炎中不确定标签占比高，给模型的识别造成了影响，其AUC得分均在0.80以下，且部分标签AUC得分低于对比方法。肺损伤和肺不透明存在病理种类多样、患病特征不明显的特点，其AUC得分与对比方法相比较低。最后，与其他方法相比，模型对于“正常”的识别也更为准确，“支持装置”得分则较低，这是由于其种类繁多，部分装置体积小，模型不易识别。4　结论本文使用迁移学习方法将ViT模型应用于胸腔X线影像的多标签分类任务，以提升模型分类性能并降低对数据规模的依赖，最终在IU X-Ray数据集中达到0.744的平均AUC，与使用迁移学习前相比提高了0.208，并生成注意力机制热力图，增加模型分类结果的可解释性。消融实验进一步证明，与CNN模块相结合的ViT预训练模型性能明显提升，尤其通过数据增强技术，AUC提升0.013。模型在Chest X-Ray14和CheXpert数据集中分别达到了0.839和0.806的平均AUC得分，优于其他方法。由此得出结论：1）使用迁移学习训练的ViT模型在胸腔X线影像分类任务中的性能表现良好，对特征明显的疾病有更强的识别能力，且CNN与Transformer结合的模型结构优于任何一种单一结构模型；2）预训练模型经过迁移学习后，在胸腔多标签分类正确率更高；3）数据增强和减小batch大小能够给模型性能带来提升，但越小batch需花费越长时间训练。目前本文模型对影像中高层次语义信息的提取和特征复杂、患病区域微小的疾病判断能力较弱，对此将进一步开展提高模型针对小病灶区域病变和疾病位置、严重程度等高层语义信息提取能力，提升模型性能。