Print

发布时间: 2022-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210654
2022 | Volume 27 | Number 3




    计算机断层扫描图像    




  <<上一篇 




  下一篇>> 





面向小样本股骨骨折分型的多视角注意力融合方法
expand article info 张亚东1, 汪玲1, 兰海2, 翟禹樵2, 程洪1
1. 电子科技大学, 成都 611731;
2. 成都大学附属医院, 成都 610081

摘要

目的 股骨粗隆间骨折是老年人最常见的骨折,不同类型的骨折需要不同的治疗方法。计算机图像识别技术可以辅助医生提高诊断准确率。传统的图像特征提取和机器学习方法,无法实现细粒度、高精度的分类,且少见针对3维图像的骨折分型方法。基于深度学习方法,通常需要大量的样本参与训练才能得出较好的分型性能。针对上述问题,本文提出一种面向小样本、多分类的骨折分型方法。方法 将原始CT(computed tomography)分层扫描图像进行3维重建,获取不同视角下的2维图像信息,利用添加注意力机制的多视角深度学习网络融合组合特征,并联合旋转网络获得视角不变特征,最终得到预期分型结果。结果 针对自建训练数据集(5类,每类23个样本),实验在4种3维深度学习网络模型上进行比较。基于注意力机制的多视角融合深度学习方法比传统深度学习模型的准确率提高了25%;基于旋转网络的方法比多视角深度学习方法提高8%。通过对比实验表明,提出的多视角融合深度学习方法大大优于传统基于体素的方法,并且也有利于使网络快速收敛。结论 在骨折分型中,本文提出的添加注意力机制的多视角融合分型方法优于传统基于体素的深度学习方法,具有更高的准确率和更好的性能。

关键词

骨折分型; 3维重建; 多视角采样; 多视角融合; 注意力机制

Multi-view attention fusion method for few-shot femoral fracture classification
expand article info Zhang Yadong1, Wang Ling1, Lan Hai2, Zhai Yuqiao2, Cheng Hong1
1. University of Electronic Science and Technology of China, Chengdu 611731, China;
2. Clinical Medical College and Affiliated Hospital of Chengdu University, Chengdu 610081, China
Supported by: National Natural Science Foundation of China(61971106)

Abstract

Objective Femoral intertrochanteric fracture is the most common fracture in the elderly. Each type of fracture requires a specific treatment method. Computer imaging techniques, such as X-ray and computerized tomography (CT), are used to help doctors in clinical diagnosis. Considering the complex fracture types and the large number of patients, missed diagnosis or misdiagnosis is incurred. In recent years, the development of computer image recognition technology has helped doctors improve the diagnostic accuracy. Femoral fractures have two types, namely, Arbeitsgemeinschaftfür Osteosynthesefragen(AO)/Orthopaedic Trauma Association(OTA) and six-types. The classification methods can be divided into traditional machine learning methods and deep learning methods. In traditional machine learning methods, man-made features are used for learning to make classification. However, these methods usually cannot achieve fine-grained and high-precision classification, and only a few fracture classification methods can be used for three-dimensional images. The deep learning method usually needs a large number of samples to participate in training to obtain good performance. To solve the above problems, this paper proposes a fracture classification method for small samples and multiple classification. Method An attention-based multi-view fusion network is proposed, in which a data-fusion strategy is used to improve the feature-fusion performance. Firstly, the original CT layered scanning images are reconstructed to three-dimension, and then two-dimensional images are obtained from different viewpoints. Secondly, a multi-view depth learning network with attention mechanism is used to fuse the different features with different viewpoints. Max-pooling, fully connective layer (FC) and rectified linear unit (ReLU) layers are used for learning the weights of different viewpoints. These layers are used to learn the view attention. The max-pooling operator down-sample the H×W×M original samples' tensor to 1×1×M, which is then down-sampled to 1×1×M/r by the FC layer. The weighted parameters of each viewpoint are obtained using the ReLu and Sigmoid operations. Thirdly, the multiview images are multiplied by the view-weights and work as inputs of convolutional neural network (CNN). The probability that the sample falls into one class is learnt in the CNN. The attention mechanism helps network learning distinctive features. Moreover, the multi-view tensor reduces data dimension, thus improving CNN performance under small data sample size. With the consideration of CT scanning difference, pose changes are observed in 3D reconstructed models. These differences will result in uncertainty learning and reduce the classification performance. Then, a rotation network is used to obtain the view invariant features. RotationNet is defined as a differentiable multi-layer CNN, which has an additional viewpoint variable to learn how to compare with aforementioned multi-view network. The additional viewpoint variable functions to label incorrect view. The final layer of RotationNet is a concatenation of multi-view SoftMax layer, each of which outputs the category likelihood of each image. The category likelihood should be close to one when the estimated is correct. RotationNet only use partial set of multi-view images for classification, making it useful in typical scenarios, where only partial-view images are available. The RotationNet uses 2D CNN as backbone, in which large training sample size is needed. Then, in this paper, transfer learning is processed in the training step to improve the performance on multiple classification. The parameters of RotationNet are pre-trained on ModelNet40. A global parameter fine tuning process is employed on the fracture data in training step considering the difference of ModelNet40 and our fracture data. Result The proposed methods are compared with two three-dimensional deep learning network models, namely, 3D ResNet and original multi-view CNN. Two types of classification, namely, AO and six-type, are used. A total of 23 training samples and 10 testing samples are present in each category. Firstly, the number of viewpoints is analyzed. Experimental results illustrate that the classification performance is improved when the number of viewpoints is changed from 4 to 12. However, the performance fluctuated when viewpoint number is great than 16. The reason is because of similarity between samples, which can be considered as same sample and results to performance reduce. In the following experiments, the number of viewpoints is set to 12. Secondly, the attention mechanism is analyzed. The proposed attention multi-view CNN (MV_att) is compared with original multi-view CNN (MVCNN) on the data-fusion model. The area under curve of our proposed MV_att is improved by approximately 3% on AO classification, which is approximately 5% in average on six-type classification. Thirdly, the performance of the models is analyzed. The accuracy of MV_att is 25% higher than that of MVCNN on AO classification. The pre-training RotationNet is 8% higher than MV_att on the six-type classification. Comparative experiments show that the proposed multiview fusion depth learning method is much better than the traditional voxel-based method, and it is also conducive to the rapid convergence of the network. Conclusion In fracture classification, the multi-view fusion classification method with attention mechanism proposed in this paper has higher accuracy than the traditional voxel depth learning method. The attention mechanism is useful in extracting distinct features. The multi-view data fusion model is useful in reducing the needs of sample size. The transfer learning is useful in improving the performance of the network.

Key words

fracture classification; 3D reconstruction; multi-view sampling; multi-view fusion; attention mechanism

0 引言

股骨骨折是指股骨失去完整性或连续性,是一种常见的骨折类型。主要发生在老年妇女和青年男子群体中。股骨骨折常伴有周围肌肉和筋膜损伤,可能导致膝关节功能障碍。如果对股骨骨折治疗不当而延误,发生后遗症的可能性相对较高,特别是对于老年人而言,发生后遗症的可能性会更高。在临床诊断中,外科和放射科医生通常需要利用X射线或计算机断层扫描(computed tomography,CT)图像确定骨折的发生和确切性质,为选择正确的复位固定方法提供参考。不同的骨折类型,相应的治疗方案不同(陈振沅等,2015徐锴和李开南,2019)。但是,由于患者数量较大,医生难以在阅片工作中投入大量时间,加上医生经验和资质的差异,可能导致漏诊或误诊。计算机图像处理技术的发展,使得医生可以利用计算机辅助诊断手段提高诊断效率和准确率。

目前全世界骨科医生广泛接受的骨折分型标准是:针对X光片的AO/OTA(Arbeitsgemeinschaftfür Osteosynthesefragen/Orthopaedic Trauma Association)分型(Marsh等,2007Klaber等,2021Olczak等,2021)和针对CT 3维图像的6部分分型(郭小微,2014Yoon等,2020)。无论哪种分型,都是利用图像数据进行分析。利用计算机图像处理技术进行分型的方法可大致分为两类:基于传统的机器学习方法和基于深度卷积神经网络的方法。

传统的机器学习方法通常通过提取人为设定的特征,再使用机器学习做进一步的训练,从而利用这些特征实现分类。由于骨折可以间接通过骨密度特征进行体现,有学者提出了四元素小波变换方法分析股骨X光片中小梁结构的各项特异性变化(Sangeetha等,2014)。该文通过使用小波变换获取骨密度的四元素,然后分析不同骨密度情况下四元素与骨折之间的联系,最终分析骨折趋势。有学者利用去噪、边缘检测和背景前景分离等一系列手段实现股骨的特征增强,最后通过支持向量机(support vector machines,SVM)进行分类(Tripathi等,2017)。有学者通过对原始CT图像不同的类型骨折进行建模(Li等,2019),根据骨折的类型手动绘制前后左右的骨折线,使用k-均值(k-mean)聚类提出新的骨折分型模型--Tang式分型。之后有研究对Tang式分型做进一步数学分析(Yin等,2021),证明该模型在目前所有分型标准中能获取最好的Kappa值,具有更好的一致性。此外还有其他学者利用3维模型的多视角图像(Wang等,2016),分别提取不同兴趣区域的骨折纹理,根据分型定义和假设检验理论,对骨折进行分型。同时有研究证实在股骨转子间骨折中,3维的CT数据比2维的X光片数据在AO分型和Evans-Jensen分型中具有更高的一致性和kappa值(Wada等,2020赵旭等,2020),对3维CT图像进行分类与预测具有一定的研究价值。上述分析方法在一定程度上可以检测骨折,但不能应用于更加复杂或精细的骨折分型场景,或者需要手动提取特征,难以广泛推广应用。

随着深度学习方法的不断发展,该类方法逐步在医疗领域得到应用(唐朝生等,2021; 左艳等,2021)。有学者将文字描述和X光片进行多模态联合学习,在459例训练数据集下,实现了较好的AO分型准确率(Lee等,2020)。但由于模型较为复杂,难以得到广泛应用。有学者通过对残差网络(residual neural network, ResNet)分层模型进行训练,得到了高精度的分类模型(Olczak等,2018),但该方法仍然需要大量的样本作为支撑。为了解决在实际问题中样本量较少的问题,运用生成式对抗网络(generative adversarial networks,GAN)增强方法来增加样本的容量,从而实现高准确率的分类(Mutasa等,2020)。但GAN网络的训练又会导致样本量需求的增加,所以只能在一定程度上减少样本数量的需求。有学者利用元学习方法,解决小样本问题(Chen等,2019),但该训练模型存在跨域问题,迁移后性能严重下降。有学者使用模型未知的元学习(model-agnostic meta-learning,MAML)训练方式与课程式学习相结合(Maicas等,2018),通过把乳腺癌肿瘤分成不同类型的任务,将不同类型任务间两两组合获取多任务最优初始点,然后使用该初始参数对目标任务进一步学习,从而加快目标任务的收敛速度,减少样本数量的依赖。但将该方法应用在更加复杂的分类上,无法实现较好的效果。

目前对骨折的检查方式主要有通过X光片或者CT断层扫描后的结果进行判断。2020年有学者针对这两种骨折的检查形式进行了进一步的评估(Wada等,2020)。该论文将不同的医学X光片和CT图像分为两组,采用不同的分型标准AO分型、Tang式分型和Evens分型交给经验丰富的临床医生。最后通过统计得出,不管是哪种分型标准,CT影像判断的结果总是比X光判断得到的结果具有更高的Kappa值,即具有更高的一致性,在分型过程中分型错误的概率更小。

总体而言,目前针对骨折分型,主要集中于对X光片2维图像的研究,要么分型任务简单,要么需要大量的样本数据,针对3维图像进行分析的报道较少。但在临床实践中,由于3维的CT图像相较于X光图像,能够提供更多的空间信息和较高的分辨率,在分型中更具有优势和更高的一致性。同时由于六部分分型为新型标准,针对骨折六部分分型的3维图像研究尚未见报道。此外在实际应用中,由于骨折类型的多样性和复杂的个体差异性,以及医学领域的专业性,难以获得大量标注训练样本。具有较好性能的深度学习方法,在骨折分型中的应用面临着巨大的挑战和困难。因此,针对上述问题,本文基于图像3维重建,提出一种包含注意力机制的多视角融合深度学习方法,使得在少量标注样本的情况下能具有较好的复杂分型效果。

1 骨折分型定义

对骨折以及伴发软组织损伤的范围和严重程度进行分类,可以为医生对骨折的治疗和研究提供统一的标准,帮助医生更好地制定治疗方案,追踪治疗结果并进行对比分析,同时也为新的治疗模式提供可评价的基础。

1.1 AO分型

AO/OTA骨折分型,如表 1所示,将全身的骨骼以阿拉伯数字编码,每一骨骼分为3个部位或节段(近端、骨干和远端),每一部分骨折根据骨折形态分为3型(A、B、C),每型下面又分为3组(1、2、3),这样一个部位或节段的骨折可以有27个亚组。本文仅讨论近端骨折,分型定义如图 1所示。由于C型骨折的病例数量过少,所以本文分型仅针对于A型和B型两大类骨折。

表 1 AO分型
Table 1 AO classification

下载CSV
骨折形态 骨折分组
1组 2组 3组
A型:简单骨折 简单螺旋骨折 简单楔形骨折 简单横行骨折
B型:楔形骨折 螺旋楔形骨折 折弯楔形骨折 粉碎楔形骨折
C型:复杂骨折 复杂螺旋骨折 复杂多节段骨折 复杂不规则骨折
图 1 AO分型
Fig. 1 AO classification

1.2 六部分分型

六部分分型标准定义如下(郭小薇,2014):

两型:骨折线累及转子间线为二部分骨折。

三型:骨折线累及大转子部或小转子部时即为三部分骨折。

四型:骨折线同时累及大转子、小转子及转子间线则为四部分骨折。

五型:在四部分基础上伴有股骨外侧壁或股骨后内侧壁缺损,为五部分骨折。

六型:在五部分基础上股骨外侧壁及股骨后内侧壁同时受累,为六部分骨折。六部分分型定义如图 2所示。

图 2 六部分分型
Fig. 2 Six-type classification

2 多视角融合注意力机制骨折分型

本文基于多视角融合注意力机制的骨折分型方法主要分为以下几个步骤:选取兴趣区域;3维重建;多视角图像重采样;建立包含注意力机制的深度学习模型;分型预测。如图 3所示。

图 3 骨折分型流程图
Fig. 3 The frame of the proposed classification method

2.1 数据预处理

本文实验所用的数据来源于成都大学附属医院,原始CT图像扫描区间差异较大:有的患者可能全身包含多处骨折,CT扫描数据包含了除股骨外的肋骨;有的患者因骨折无法横卧,CT扫描的股骨为坐姿数据;有的患者仅扫描了单一患侧。因此,首先需要对原始数据的股骨区域进行裁剪,以减少算法复杂度。

将原始CT图像的医学数字成像和通信格式(digital imaging and communications in medicine,DICOM)文件导入图像处理软件3DSlicer中,利用软件的兴趣区域选取功能,将股骨骨折部位分别从横断位、冠状位和矢状位进行裁剪,仅保留病患区域,如图 4所示。将裁剪后生成的DICOM文件保存,再利用开源软件VTK(Visualization ToolKit)工具包进行3维重建,得到骨折区域的3维模型。

图 4 兴趣区域裁剪
Fig. 4 The cut of region-of-interesting

由于本文实验涉及的样本总体数量为165例,裁剪后的3维数据大小约为300×400×110。针对3维体素数据直接使用3维卷积神经网络(3 dimensional convolutional neural networks,3DCNN)处理,对硬件存储空间要求较高。并且在基于体素的3DCNN方法中,当训练样本较少时,容易出现过拟合,难以获得预期的结果。在日常生活中,人类观察空间物体时,并不能一次性地观察到3维物体的全貌,而是通过3维旋转获取该物体不同角度的视图,最终判断物体的类别属性。与此类似,在深度学习中,可以将一组不同视角下的2维图像作为输入,为3维形状识别提供丰富的信息,从而获得比基于体素学习方法更好的性能(Su等,2015)。因此,本文将空间围绕$Z$轴的360°等分为12个视角,每个视角有一个虚拟相机获得该视角下的2维图像,如图 5所示(其中数字1~12分别为12个视角)。利用多视角2维图像,充分获得3维信息,再使用深度学习方法进行模型训练。

图 5 多视角2维图像
Fig. 5 Multi-view of two-dimensional images

2.2 添加注意力机制的多视角融合学习网络

多视角融合方法(Su等,2015)是将多视角图像分别经过卷积神经网络(CNN1)提出特征后,在通道上进行视角池化融合不同视角的特征,融合后的特征再经过多层卷积和池化操作(CNN2)得到分型预测。流程如图 6 (a)所示。该融合方法可称为特征级融合。该方法仍然是针对大数量样本进行实验训练,在本文小样本数据的实验中并不能获得很好的效果。于是本文对原始的模型进行了修改,将特征级融合改为前端数据融合。由于单张视图所包含的信息重要程度不同,在模型中的权重应不同。因此,增加注意力机制,提升模型在少量样本下无法获取有效信息的能力。同时减少了原模型的卷积层,防止小样本条件下可能产生的过拟合。改进模型如图 6 (b)所示,网络结构如表 2所示。

图 6 多视角融合网络
Fig. 6 Multi-view fusion network
((a) the original multi-view network; (b) the proposed network)

表 2 网络结构
Table 2 Network structure

下载CSV
网络层类型 划分块大小/步长 输入通道数/输出通道数
注意力层 - 12/12
卷积层 3×3/2 12/64
激活层 - 64/64
归一化层 - 64/64
卷积层 3×3/2 64/192
激活层 - 192/192
归一化层 - 192/192
池化层 3×3/2 192/192
线性层 - -
注:“-”表示未涉及。

$M$为预定义视角的个数,$N$为样本数,$C$为目标对象类别数。一个对象$\boldsymbol{X}_{n}(n∈\{1, \cdots, N\})$的训练样本由$M$个图像集合$\{\boldsymbol{x}^{1}_{n}, \cdots, \boldsymbol{x}^{M}_{n}\}$和它的类别标签$y_{n}∈\{1, \cdots, C\}$组成,每幅图像大小为$H×W$

$M$个多视角图像首先组合为$H×W×M$维的张量$\boldsymbol{T}_{0}$$\boldsymbol{T}_{0}$经过最大池化(max pooling)后得到$1×1×M$维张量$\boldsymbol{T}_{1}$$\boldsymbol{T}_{1}$经全连接线性层(fully connected linear layer,FC)下采样为$1×1×M/r$维张量$\boldsymbol{T}_{2}$,其中$r$为下采样比例;$\boldsymbol{T}_{2}$再经过线性激活函数(rectified linear unit,ReLU)和FC层上采样为$1×1×M$维张量$\boldsymbol{T}_{3}$,最后经过Sigmoid激活函数归一化到$[0, 1]$区间,得到权值

$ \mathit{\boldsymbol{ \boldsymbol{\varOmega} }}=\{ω_{1},\cdots, ω_{M}\} $ (1)

式中,$ω_{m}(m∈\{1, \cdots, M\})$为每个通道的权重系数。将得到的权值系数与多视角图像$\boldsymbol{x}^{m}_{n}$做乘积,得到增加注意力的数据信息,数据经过卷积网络CNN输出。最后的输出层为全连接层,采用柔性最大值传输函数(softmax)计算属于每个类别的概率$p({\hat y}_{nc})$,即

$ p({\hat y}_{nc})=\frac{{{{\rm{e}}^{f({z_{nc}})}}}}{{\sum\limits_{c = 1}^C {{{\rm{e}}^{f({z_{nc}})}}} }} $ (2)

式中,$p({\hat y}_{nc})$为样本$\boldsymbol{X}_{n}$的属于第$c$个类别的估计概率,$f(·)$为CNN前向卷积网络,$\boldsymbol{z}_{nc}$为第$c$类训练样本$\boldsymbol{X}_{n}$的多视角注意力加权输出的级联,即:$\boldsymbol{z}_{nc}=[ω_{1}\boldsymbol{x}^{1}_{n},\cdots, ω_{M}\boldsymbol{x}^{M}_{n}]$。CNN网络优化目标函数为

$ P=\max \prod\limits_{n=1}^{N} p\left(\hat{y}_{n c} \mid \sum\limits_{m=1}^{M} \omega_{m} \boldsymbol{x}_{n}^{m}\right) $ (3)

即在多分类的情况中使得样本$ω_{m}\boldsymbol{x}^{m}_{n}$属于该类别概率最大。损失函数采用交叉熵的形式,即

$ L=\frac{1}{N} \sum\limits_{n=1}^{N}\left(-\sum\limits_{c=1}^{C} k_{n c} \log p\left(\hat{y}_{n c}\right)\right) $ (4)

式中,$k_{nc}$为符号函数,如果样本$\boldsymbol{X}_{n}$属于$c$类,则$k_{nc}=1$,否则为0。

添加注意力机制的训练数据,通过网络的学习不断更新,利用优化目标函数与数据标签的约束关系,最终选取具有代表性分类特征作为输出。同时,通过多视角张量空间的构造,降低数据维度,使得样本数据较小时,深度学习网络也有较好收敛性能。

2.3 多视角位姿配准模型

由于不同样本CT扫描的角度存在差异,3维重建后的模型姿态不固定,经过虚拟相机多视角采样后的图像存在位姿差异,在网络融合学习中可能导致极大的不确定性,从而降低分型性能。在后续的实验中确实也证实了这种假设。因此,为进一步改进多视角融合性能,引入旋转网络(RotationNet)(Kanezaki等,2018),通过对位姿的隐藏估计消除3维重建后模型本身所带来的差异。

RotationNet定义为一个差分多层神经网络$R(·)$,其中增加一个待训练的未知视角变量$v_{m}∈\{1, \cdots, M\}$。RotationNet的最后一层输出类别似然$p({\hat y}_{m}|\boldsymbol{x}^{m}_{n}, v_{m}=j)$,其中$j∈\{1, \cdots, M\}$。RotationNet可以描述为以下优化问题

$ \mathop {\max }\limits_{R, \left\{ {{v_m}} \right\}_{M = 1}^M} \prod\limits_{m = 1}^M p \left({{{\hat y}_m}\mid \mathit{\boldsymbol{x}}_n^m, {v_m}} \right) $ (5)

式中,${\hat y}_{m}$表示对样本$\boldsymbol{x}^{m}_{n}$类别标签的估计。式(5)表示对于单个样本优化的目标为:在$m$个视角下的第$m$个样本经过网络参数$R$后使得整体的概率最大。当估计的$v_{m}$视角估计正确时,类别似然$p({\hat y}_{m}|\boldsymbol{x}^{m}_{n}, v_{m})$应接近于1;换句话说,$\boldsymbol{x}^{m}_{n}$是真正从$v_{m}$的角度捕捉到的图像。否则,在估计的视角不正确的情况下,$p({\hat y}_{m}|\boldsymbol{x}^{m}_{n}, v_{m})$概率并不一定很高,因为图像$\boldsymbol{x}^{m}_{n}$是从不同的角度或者直接可以称为错误的角度捕获的。

RotationNet训练示意图如图 7所示,其中,主干网络CNN采用了AlexNet(Krizhevsky等,2017)网络(由5个卷积层和3个全连接层组成)。图 7中以视图数$M$=3为例,即$V$1,$V$2,$V$3;类别数$N$为2,即$A$1,$A$2表示所属的类型,EI(error view)表示错误视图。训练样本由$M$幅未对齐的图像及其类别标签$y$组成。对于每个视角的输入图像,CNN输出$M$个直方图,每张视图都会在每个视角输出$N$+1个类别。每个直方图的最后一行错误视图EI,作为直方图不对应于每个视角变量的可能性的权重。根据直方图的值决定哪个图像对应于视图 123。视图旋转有3个候选项:(1, 2, 3)、(2, 3, 1)和(3, 1, 2)。对于每个候选项,将直方图相乘并选择最佳选项(图示情况下为2、3、1)来计算真实类别的得分。最后,用估计的视角变量以反向传播方式更新CNN模型参数。

图 7 RotationNet原理
Fig. 7 Principle of RotationNet

由于RotationNet采用的骨干网络为常用的2维卷积神经网络,本文中为提高对复杂骨折的分型性能,在训练中采用了迁移学习的方法。首先将原始网络在3维数据集ModelNet40上的预训练模型进行载入,由于ModelNet40中样本的差异性与本实验的差异性较大,不能通过部分微调来达到效果。因此,载入模型后在骨折数据上进行全参数训练微调,从而加快模型的收敛速度。

如上所述,根据式(4)的$p({\hat y}_{m}|\boldsymbol{x}^{m}_{n}, v_{m})$,为了得到稳定解,引入一个“错误视图”类(EI)并将其添加到目标类别中。“错误视图”在目标检测中扮演类似于背景的角色,代表属于“非目标的负样本”。整个网络后端采用softmax函数计算$p({\hat y}_{m}|\boldsymbol{x}^{m}_{n}, v_{m})$概率,输出的类别总数为类别数量加上错误视角的类别,类别总数为$N$+1,其中$\sum\limits_{{y_m} = 1}^{N + 1} p({\hat y}_{m}|\boldsymbol{x}^{m}_{n}, v_{m})=1$$p({\hat y}_{m}=N+1|\boldsymbol{x}^{m}_{n}, v_{m})$对应第$m$个视图不是真正视图的概率,表明当前视图不是该视角概率的大小。

基于以上讨论,假设一个矩阵$\boldsymbol{P}_{m}=[p^{m}_{j, k}]∈{\bf{R}}^{M×(N+1)}$$p({\hat y}_{m}|\boldsymbol{x}^{m}_{n}, v_{m})$组成,且

$ p_{j, k}^{m}= \begin{cases}1 & \left(j=v_{m}, k=y\right) \text { 或 }\left(j \neq v_{m}, k=N+1\right) \\ 0 & \text { 其他 }\end{cases} $ (6)

则式(5)通过全概率公式可以写为以下交叉熵优化问题

$ \mathop {\max }\limits_{R, \left\{ {{v_m}} \right\}_{M = 1}^M} \sum\limits_{m = 1}^M {\left({\log p_{{v_m}, y}^m + \sum\limits_{j \ne {v_m}} {\log } \;p_{{v_m}, N + 1}^m} \right)} $ (7)

式中,参数$R$可以通过损失函数反向传播。由于$v_{m}$在训练中需要不断优化,通过不断预测当前视图在所有视角下的概率,最终获得最佳的视角顺序,利用该视角顺序进一步提升分类性能。

3 实验及结果分析

本文实验数据来自于成都大学附属医院临床病例,由于样本数量不均衡,最终为每种分型选取了23个训练样本,10个测试样本。实验针对AO分型和六部分分型两种标准分别进行。AO分型病例为2类,即A1和A2型;六部分分型中病例为5类,分别是二型、三型、四型、五型和六型。实验数据如表 3所示。原始数据经兴趣区域裁剪、3维重建和多视角成像后,每幅图像大小为$300×400$像素,并归一化到$224×224$像素。实验运行环境为Intel(R) Xeon(R) CPU E5-2620 v3 @ 2.40 GHz,NVIDA TITANX 12 GB的服务器。

表 3 原始实验数据
Table 3 Original experimental data

下载CSV
类别 训练集个数 测试集个数
AO分型 46 20
六部分分型 115 50

3.1 视角数量对分型性能的影响

首先验证视角数量对分型性能的影响。针对本文提出的多视角融合注意力机制的网络模型,分别计算视角数$M=4, 8, 12, 16$时,AO分型和六部分分型的曲线下面积(area under curve,AUC)和准确率,如图 8所示。从图 8可以看出,当视角数由4到12时,分类性能逐渐提高;当视角数大于16时,性能出现波动。分析其原因,多视角采样导致图像间的相似度大大增加,引入冗余信息,相当于增加重复样本,对实验结果产生一定负面影响。折中考虑分类性能与运行时间,在后续实验中,以视角$M$=12为基准进行。

图 8 不同视角数的分型性能
Fig. 8 The classification performance of different viewpoint
((a) performance of AO classification; (b) performance of six-type classification)

3.2 增加注意力对模型性能的影响

为验证注意力机制对识别性能的影响,本节将引入注意力机制后的模型(MV_Att)与未引入注意力机制的模型(MVCNN(multi-view CNN))进行对比实验。这里的MVCNN模型是指在图 6 (b)中,去掉${\boldsymbol{T}_{1}}$${\boldsymbol{T}_{3}}$,直接将${\boldsymbol{T}_{0}}$张量输入CNN网络。采用评价指标为:准确率(在图 9中为综合准确率)、各类别的真阳率(true positive rate,TPR)和各类别的AUC值,实验结果如图 9所示,其中图 9 (c) (d)为五折交叉实验结果。

图 9 增加注意力机制对模型性能的影响
Fig. 9 Effect of attention mechanism on MVCNN
((a)AUC value changing of AO; (b) accuracy changing of AO; (c) AUC value changing of six-type classification; (d) accuracy changing of six-type classification)

由上述对比实验可以看出:在加入注意力机制后,模型的整体性能有一定的提升。在AO分型中,增加注意力机制后模型的整体性能均有一定的提升; 在六部分分型中,由图 9(d)中可以看出,在复杂分型上的检出率提升较大。从综合性能上看,MV_Att模型的性能要高于不加注意力机制的多视角模型。

3.3 不同模型性能比较

本文将提出的多视角融合注意力方法,分别与3维残差神经网络(3DResNet)、原始多视角网络(MVCNN)和旋转网络(RotationNet)进行了对比实验。各网络实验设置参数如表 4所示。

表 4 网络参数设置
Table 4 Options of networks

下载CSV
参数/方法 3DResNet MVCNN MV_Att RotationNet
学习率 0.001 0.001 0.01 0.01
批次大小 40 40 20 24
神经元丢弃率 0.3 0.3 0.2 0.2
训练次数 100
二阶正则系数 0.001
学习率调整机制 每10次训练降低0.1

AO分型与六部分分型实验结果如表 5所示。从表中可以看出,本文改进后的多视角融合注意力方法明显优于直接使用体素作为网络输入的方法。其原因主要是因为样本数的限制,基于体素的深度学习方法难以很好收敛。而多视角采样的方式,相当于对样本进行了另一个维度的扩充,获得更多的2维采样样本,使得模型更容易进入收敛状态。

表 5 不同算法准确率
Table 5 The accuracy of different models

下载CSV
分型标准 3DResNet MVCNN MV_Att RotationNet
AO分型 0.85 0.66 0.91 0.86
六部分分型 0.46 0.27 0.56 0.64
注:加粗字体为每行最优值。

不同网络模型的受试者特征曲线(receiver operating characteristic,ROC)如图 10图 11所示。由于ROC曲线常用来评价一个二值分类器的优劣,而本文存在多分类的情况,于是将每个类别单独取出来做二分类预测,取到某一样本时其余样本均算作负类,对每类进行相同的操作。

图 10 不同模型的AO分型ROC曲线
Fig. 10 The ROC curves of AO classification
((a) ResNet (b) MVCNN; (c) MV_Att; (d) RotationNet)
图 11 不同模型的六部分分型ROC曲线
Fig. 11 The ROC curves of six-type classification
((a) ResNet; (b) MVCNN; (c) MV_Att; (d) RotationNet)

从ROC曲线可以看出,基于多视角的方法在性能上明显优于基于体素的深度学习方法,ROC曲线变化过程更加平稳。其原因是由于在基于体素深度的学习方法中,样本不足导致模型抖动剧烈,且容易发生比较严重的过拟合现象。

对比图 10图 11中的(b)(c)曲线,可以看出原始的多视角模型在分类效果上远低于改进后的模型。其原因是原始模型网络深度较大并且采用后端融合的方式,导致后端网络输出的特征被弱化,无法获取更多的特征信息,从而无法获取更高的准确度。

另外,在AO的分型中,由于分类任务简单,各种模型内的A1与A2的分类效果基本一致。但在六部分分型中,由于分类任务复杂,整体性能相比于AO分型都有较大幅度降低。其中四型和五型的分类性能效果均差于其他类别,究其原因是因为四型和五型分类间的差距较小,导致模型不能正常的识别两种类型的差别。而二型和六型,由于特征明显,分类性能较好。

在样本数有限的情况下,基于3维重建的多视角分类方法的分型性能优于基于体素的深度学习方法。并且在AO分型这种较粗略的分类问题中,本文提出的多视角+注意力方法具有更高的准确率。但在分类细粒度更高的六部分分型中,分类性能还有进一步的提升空间。

4 结论

针对传统深度学习方法在小样本分类任务中难以取得较好性能的问题,本文通过对3维目标重建后进行多视角采样,扩充样本信息,引入注意力机制,实现对股骨骨折的分型。

由于医疗数据集的特殊性,通常难以获得大规模标注样本,且同类定义下的样本差异性也较大,

传统的深度学习方法和基于元学习的小样本分类方法,难以通过模型迁移的方式应用在本文的数据中。因此,本文借鉴人类对3维物体进行分类识别的过程,采集多视角数据信息,并引入注意力机制,对不同角度特征进行不同权重融合相较于原始多视角模型具有更优的分类效果;同时,引入旋转网络可以归一化视角,消除视角差异带来的误差。从而,提高小样本条件下股骨骨折分型的性能。

总体来说,相比传统的直接使用3维体素数据进行深度分类学习的方法,本文提出的多视角融合注意力方法,既能减少图形处理器(graphics processing unit,GPU)的内存消耗,也能从2维的空间获取更多的数据,使得训练的过程变得更加平滑,增加了模型的稳定性,在准确性上也有一定的提升。另外,由于本文的六部分分型性能还有较大提升空间,而2维深度学习网络的种类繁多,具有更多的网络预训练参数,后续将考虑使用迁移学习来进一步提高网络模型的性能。

参考文献

  • Chen S H, Ma K and Zheng Y F. 2019. Med3D: transfer learning for 3D medical image analysis[EB/OL]. [2021-08-02]. https://arxiv.org/pdf/1904.00625.pdf
  • Chen Z Y, Li K N, Zhang Z X. 2015. A finite element analysis of six-segment classification of femur intertrochanteric fracture. Chinese Journal of Orthopaedic Trauma, 17(5): 433-437 (陈振沅, 李开南, 张之玺. 2015. 股骨转子间六部分骨折分型产生机制的有限元分析. 中华创伤骨科杂志, 17(5): 433-437) [DOI:10.3760/cma.j.issn.1671-7600.2015.05.014]
  • Guo X W. 2014. The Study of Six Part Fracture Classification of Femoral Trochanteric Fractures and Trauma Scoring System (KNXW). Zunyi: Zunyi Medical College (郭小微. 2014. 股骨转子部骨折六部分骨折分型及创伤评分系统(KNXW)的研究. 遵义: 遵义医学院)[DOI: 10.7666/d.D535727])
  • Kanezaki A, Matsushita Y and Nishida Y. 2018. RotationNet: joint object categorization and pose estimation using multiviews from unsupervised viewpoints//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 5010-5019[DOI: 10.1109/CVPR.2018.00526]
  • Klaber I, Besa P, Sandoval F, Lobos D, Zamora T, Schweitzer D, Urrutia J. 2021. The new AO classification system for intertrochanteric fractures allows better agreement than the original AO classification. An inter-and intra-observer agreement evaluation. Injury, 52(1): 102-105 [DOI:10.1016/j.injury.2020.07.020]
  • Krizhevsky A, Sutskever I, Hinton G E. 2017. ImageNet classification with deep convolutional neural networks. Communications of the ACM, 60(6): 84-90 [DOI:10.1145/3065386]
  • Lee C, Jang J, Lee S, Kim Y S, Jo H J, Kim Y. 2020. Classification of femur fracture in pelvic X-ray images using meta-learned deep neural network. Scientific Reports, 10(1): #13694 [DOI:10.1038/s41598-020-70660-4]
  • Li J T, Tang S J, Zhang H, Li Z R, Deng W Y, Zhao C, Fan L H, Wang G Q, Liu J H, Yin P, Xu G X, Zhang L C, Tang P F. 2019. Clustering of morphological fracture lines for identifying intertrochanteric fracture classification with hausdorff distance-based K-means approach. Injury, 50(4): 939-949 [DOI:10.1016/j.injury.2019.03.032]
  • Maicas G, Bradley A P, Nascimento J C, Reid I and Carneiro G. 2018. Training medical image analysis systems like radiologists//Proceedings of the 21st International Conference on Medical Image Computing and Computer-Assisted Intervention. Granada, Spain: Springer: 546-554[DOI: 10.1007/978-3-030-00928-1_62]
  • Marsh J L, Slongo T F, Agel J, Broderick J S, Creevey W, Decoster T A, Prokuski L, Sirkin M S, Ziran B, Henley B, Audigé L D V M. 2007. Fracture and dislocation classification compendium-2007:orthopaedic trauma association classification, database and outcomes committee. Journal of Orthopaedic Trauma, 21(S10): S1-S6 [DOI:10.1097/00005131-200711101-00001]
  • Mutasa S, Varada S, Goel A, Wong T T, Rasiej M J. 2020. Advanced deep learning techniques applied to automated femoral neck fracture detection and classification. Journal of Digital Imaging, 33(5): 1209-1217 [DOI:10.1007/s10278-020-00364-8]
  • Olczak J, Emilson F, Razavian A, Antonsson T, Stark A, Gordon M. 2021. Ankle fracture classification using deep learning: automating detailed AO Foundation/Orthopedic Trauma Association (AO/OTA) 2018 malleolar fracture identification reaches a high degree of correct classification. Acta Orthopaedica, 92(1): 102-108 [DOI:10.1080/17453674.2020.1837420]
  • Sangeetha S, Sujatha C M and Manamalli D. 2014. Anisotropic analysis of trabecular architecture in human femur bone radiographs using quaternion wavelet transforms//Proceedings of the 36th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. Chicago, USA: IEEE: 5603-5606[DOI: 10.1109/EMBC.2014.6944897]
  • Su H, Maji S, Kalogerakis E and Learned-Miller E. 2015. Multi-view convolutional neural networks for 3D shape recognition//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile: IEEE: 945-953[DOI: 10.1109/ICCV.2015.114]
  • Tang C S, Hu C C, Sun J D, Sima H F. 2021. Deep learning-based medical images analysis evolved from convolution to graph convolution. Journal of Image and Graphics, 26(9): 2078-2093 (唐朝生, 胡超超, 孙君顶, 司马海峰. 2021. 医学图像深度学习技术: 从卷积到图卷积的发展. 中国图象图形学报, 26(9): 2078-2093) [DOI:10.11834/jig.200666]
  • Tripathi A M, Upadhyay A, Rajput A S, Singh A P and Kumar B. 2017. Automatic detection of fracture in femur bones using image processing//Proceedings of 2017 International Conference on Innovations in Information, Embedded and Communication Systems. Coimbatore, India: IEEE: 1-5[DOI: 10.1109/ICIIECS.2017.8275843]
  • Wada K, Mikami H, Toki S, Amari R, Takai M, Sairyo K. 2020. Intra-and inter-rater reliability of a three-dimensional classification system for intertrochanteric fracture using computed tomography. Injury, 51(11): 2682-2685 [DOI:10.1016/j.injury.2020.07.047]
  • Wang L, Cheng H, Lan H, Zheng Y J and Li K N. 2016. Automatic recognition of pertrochanteric bone fractures in femur using level sets//Proceedings of the 38th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. Orlando, USA: IEEE: 3851-3854[DOI: 10.1109/EMBC.2016.7591568]
  • Xu K, Li K N. 2019. A finite element analysis of fixation with proximal femoral nail antirotation, dynamic hip screw and percutaneous compression plate for six-part intertrochanteric fractures. Chinese Journal of Orthopaedic Trauma, 21(4): 345-352 (徐锴, 李开南. 2019. 三种内固定固定股骨转子间六部分骨折各分型稳定性的有限元分析. 中华创伤骨科杂志, 21(4): 345-352) [DOI:10.3760/cma.j.issn.1671-7600.2019.04.013]
  • Yin B, He Y M, Wang D, Zhou J L. 2021. Classification of femur trochanteric fracture: evaluating the reliability of Tang classification. Injury, 52(6): 1500-1505 [DOI:10.1016/j.injury.2020.11.031]
  • Yoon S J, Kim T H, Joo S B, Oh S E. 2020. Automatic multi-class intertrochanteric femur fracture detection from CT images based on AO/OTA classification using faster R-CNN-BO method. Journal of Applied Biomedicine, 18(4): 97-105 [DOI:10.32725/jab.2020.013]
  • Zhao X, Peng H, Li S B. 2020. Application of spiral CT three-dimensional reconstruction and X-ray in diagnosis and treatment of hip fracture. Shanghai of Biomedical Engineering, 41(2): 95-97 (赵旭, 彭弘, 李圣博. 2020. 螺旋CT3维重建与X线在髋关节骨折诊断及治疗中的应用. 生物医学工程学进展, 41(2): 95-97) [DOI:10.3969/j.issn.1674-1242.2020.02.009]
  • Zuo Y, Huang G, Nie S D. 2021. Application and challenges of deep learning in the intelligent processing of medical images. Journal of Image and Graphics, 26(2): 0305-0315 (左艳, 黄钢, 聂生东. 2021. 深度学习在医学影像智能处理中的应用与挑战. 中国图象图形学报, 26(2): 0305-0315) [DOI:10.11834/jig.190470]