Print

发布时间: 2022-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210370
2022 | Volume 27 | Number 3




    超声图像    




  <<上一篇 




  下一篇>> 





结合注意力机制的乳腺双模态超声分类网络
expand article info 赵绪1, 龚勋1, 樊琳1, 罗俊2
1. 西南交通大学计算机与人工智能学院, 成都 610031;
2. 四川省医学科学院四川省人民医院超声科, 成都 610072

摘要

目的 影像学医师通常通过观察乳腺B型超声(brightness-mode ultrasound)肿瘤区域进行良恶性分析,针对难以辨别的病例则融合其对应的超声造影(contrast-enhanced ultrasound, CEUS)特征进一步判别。由于超声图像灰度值范围变化小、良恶性表现重叠,特征提取模型如果不能关注到病灶区域将导致分类错误。为增强网络模型对重点区域的分析,本文提出一种基于病灶区域引导的注意力机制,同时融合双模态数据,实现乳腺超声良恶性的精准判别。方法 通过对比实验,选取一个适合超声图像特征提取的主干分类模型ResNet34;为学习到更有分类意义的特征,以分割结节的掩膜图(region of interest,ROI-mask)作为引导注意力来修正浅层空间特征;将具有分类意义的超声造影各项评价特征向量化,与网络提取的深层特征进行融合分类。结果 首先构建一个从医院收集的真实病例的乳腺超声数据集BM-Breast(breast ultrasound images dataset),与常见分类框架ResNet、Inception等进行对比实验,并与相关最新乳腺分类研究成果对比,结果显示本文设计的算法在各项指标上都有较大优势。本文提出的融合算法的分类准确性为87.45%,AUC(area under curve)为0.905。为了评估对注意力引导机制算法设计的结果,在本文实验数据集和公开数据集上分别进行实验,精度相比对比算法提升了3%,表明本文算法具有较好的泛化能力。实验结果表明,融合两种模态超声数据的特征可以提升最终分类精度。结论 本文提出的注意力引导模型能够针对乳腺超声成像特点学习到可鉴别的分类特征,双模态数据特征融合诊断方法进一步提升了模型的分类能力。高特异性指标表现出模型对噪声样本的鲁棒性,能够较为准确地辨别出难以判别的病例,本文算法具有较高的临床指导价值。

关键词

注意力机制; 特征融合与分类; 乳腺超声; 双模态数据; 智能诊断

Attention-based networks of human breast bimodal ultrasound imaging classification
expand article info Zhao Xu1, Gong Xun1, Fan Lin1, Luo Jun2
1. School of Computing and Artificial Intelligence, Southwest Jiaotong University, Chengdu 610031, China;
2. Department of Ultrasound, Sichuan Academy of Medical Sciences, Sichuan Provincial People's Hospital, Chengdu 610072, China
Supported by: National Natural Science Foundation of China (61876158); Fundamental Research Funds for the Central Universities (2682021ZTPY030)

Abstract

Objective Brightness-mode ultra-sound images are usually generated from the interface back to the probe by the echo of sound waves amongst different tissues. This method has its priority for no ionizing radiation and low price. It has been recognized as one of the most regular medical imaging by clinicians and radiologists. Imaging physicians usually diagnose tumors via breast ultrasound tumor regions observation. These features are fused with the corresponding contrast-enhanced ultrasound features to enhance visual information for further discrimination. Therefore, the lesion area can provide effective information for discriminating the shape and boundary. Machine learning, especially deep learning, can learn the middle-level and high-level abstract features from the original ultrasound, generating several applicable methods and playing an important role in the clinic, such as auxiliary diagnosis and image-guided treatment. Currently, it is widely used in tumor diagnosis, organ segmentation, and region of interest (ROI) detection and tracking. Due to the constrained information originated from B-model ultrasound and its overlapping phenomenon, the neural network cannot focus on the lesion area of the image with poor imaging quality during the feature extraction, resulting in classification errors. Therefore, in order to improve the accuracy of human breast ultrasound diagnosis, this research illustrates an end-to-end automatic benign and malignant classification model fused with bimodal data to realize an accurate diagnosis of human breast ultrasound. Method First, a backbone networks, of ResNet34 is optioned based on experimental comparison. It can learn more clear features for classification, especially for breast ultrasound images with poor imaging effects. Hence, the ultrasound tumor segmentation mask is as a guide to strengthening the learning of the key features of classification based on the residual block. The model can concentrate on the targeting regions via reducing the interference of tumor overlapping phenomenon and lowering the influence of poor image quality. An attention guidance mechanism is facilitated to enhance key features, but the presence of noise samples in the sample, such as benign tumors exhibiting irregular morphology, edge burrs, and other malignant tumor features, will reduce the accuracy of model classification. The contrast-enhanced ultrasound morphological features can be used to distinguish the pathological results of tumors further. Therefore, we use the natural language analysis method to convert the text of the pathological results into a feature vector based on the effective contrast-enhanced ultrasound (CEUS) pathological notations simultaneously, our research analysis visualizes the spatial distribution of the converted vectors to verify the usability of the pathological results of CEUS in breast tumors classification. It is sorted out that the features are distributed in clusters and polarities, which demonstrates the effectiveness of the contrast features for classification. At the end, our research B-mode ultrasound extraction of deep image features fuses various feature vectors of CEUS to realize the classification of breast tumors. Result The adopted breast ultrasound images dataset(BM-Breast) dataset is of 1 093 breast ultrasound samples that have been desensitized and preprocessed (benign: malignant = 562 ∶531). To verify the algorithm's effectiveness, this paper uses several mainstream classification algorithms for comparison and compared them with the classification accuracy of algorithms for breast ultrasound classification. The classification accuracy of the proposed fusion algorithm reaches 87.45%, and the area under curve (AUC) reaches 0.905. In the attention guidance mechanism module, this paper also conduct experiments on both a public dataset and a private dataset. The experimental results on those two datasets show that the classification accuracy has been improved by 3%, so the algorithm application is effective and robust. Conclusion Our guided attention model demonstration can learn the effective features of breast ultrasound. The fusion diagnosis of bimodal data features improves the diagnosis accuracy. This algorithm analysis promotes cooperation further between medicine and engineering via the clinical diagnosis restoration. The illustrated specificity facilitates the model capability to recognize noise samples. More accurately distinguish cases that are difficult to distinguish in clinical diagnosis. The experimental results show that the classification model algorithm in this paper has practical value.

Key words

attention mechanism; feature fusion and classification; breast ultrasound; bimodal data; intelligent diagnosis

0 引言

乳腺癌是危害女性健康的常见癌症,各国的乳腺癌患病率和死亡率一直呈上升趋势。据世界卫生组织国际癌症研究机构(International Agency for Research on Cancer, IARC)2020年统计数据,全球乳腺癌新发病例为226万例,取代肺癌成为最常见癌症。乳腺癌变的早期确诊对降低死亡率和提高患者的治愈率有重要意义。超声影像因无电离辐射影响小、价格低廉等优点成为乳腺结节首选影像学检查和术前评估方法,但在乳腺肿瘤临床诊断中暴露出假阳性、过度活检和过度诊断等问题。

随着图像处理算法的不断发展,在自然图像分类、分割和检测等任务中,利用手工特征或神经网络自主学习特征都取得了较好进展(Krizhevsky等,2017Ronneberger等,2015Hemelings等,2019)。深度学习网络模型可直接从原始超声数据中学习中层和高层的抽象特征,减少人工设计并具有较好的稳定性,在医学图像领域受到广泛关注。为实现医学乳腺超声图像小数据集的特性分析,Qi等人(2019)提出使用具有多尺度内核和跳跃连接的深度卷积神经网络诊断乳腺超声。Wang等人(2020)提出一种基于Inception-V3(Szegedy等,2016)的多视图卷积神经网络(convolutional neural networks, CNN),并使用迁移学习弥补超声图像数据的不足。为减少标注成本,Shin等人(2019)将强标注的小数据集和弱标注的大数据集进行整合,实现在乳腺超声图像中对肿瘤进行定位和分类。为增强网络对重要特征的学习,提出了注意力机制用于特征权重的重分配。自然图像上的注意力机制主要利用网络区分目标区域的重要度而实现权重调整。Fu等人(2017)通过不断聚焦到最具辨别性的区域,反复聚焦到更细的尺度实现细粒度图像分类。但超声影像因其病灶结节区域的图像表现存在重叠(即良、恶性病灶具有类似的形态表观),并且超声影像受到采集设备和人体器官组织运动的干扰,使得图像存在运动模糊及伪影,特征提取器很难有效直接关注病灶目标。

本文通过分析网络模型对超声图像特征的关注情况,主要从增强超声肿瘤的关键鉴别特征学习层面进行算法设计。本文使用主流分类网络ResNet34(He等,2016)、Inception及VGG16(Visual Geometry Group 16-layer network)(Simonyan和Zisserman,2015)在B型超声(brightness-mode ultrasound)图像上进行模型训练并进行结节良恶性预测。为分析网络模型在乳腺超声图像上的分类关注区域,将模型对图像的特征关注度通过Gram-Cam(Selvaraju等,2017)进行可视化。不同分类模型在B型超声图像的特征关注热力图如图 1所示。其中,色阶映射图是将网络对不同特征的关注程度在原图上重叠得到的。可以发现,通过网络学习,生成的注意力与影像医师关注点相似,都是围绕病灶以及其周围区域。

图 1 不同分类模型在B型超声图像的特征关注热力图
Fig. 1 Feature heat map of B-mode ultrasound images in different classification models
((a)original input images; (b)ResNet; (c)Inception; (d)VGG16)

进一步分析大量样本的特征情况,发现预测正确的样本更集中关注病灶区,而分类错误的样本则更多关注背景或发生重叠表象的似结节区域,如图 2所示。因此,为提高网络模型对肿瘤区域有效特征的学习能力,本文使用精准分割的病灶区作为掩膜图来引导特征提取更加专注结节及周围区域,从有限医学影像信息中尽量筛选出高价值信息,从而加强有效特征学习的同时抑制不重要的特征。

图 2 特征关注热力图及其模型预测结果
Fig. 2 Heat map of network model feature attention and its prediction results
((a)malignant on gold standard and prediction result is benign; (b)benign on gold standard and predictive result is malignant)

如何提高模型对强鉴别能力特征的学习是本文解决的主要问题。但乳腺B型超声的结节样本会有图 3的表现,即某些良性肿瘤会表现出恶性肿瘤的表征状态,如图 3(b)表现出边缘、形态不规则,图 3(d)恶性病变结节却表现出似良性的特征。这些样本在网络中提取的特征虽然能精确到结节区域,但会导致模型误判,这样的样本称为噪声样本。乳腺肿瘤医学临床诊断先验知识表明,医师面对这样的噪声数据时,往往会分析其对应的超声造影多项增强后的特征来综合诊断。同样,本文在B型超声的基础上,融合超声造影特征向量辅助乳腺结节的分类。综上所述,本文主要设计一种适用于乳腺病灶分类的双模态超声网络模型,主要算法框架如图 4所示。图中的蟹足征是指强化后,病灶周围逐渐出现的放射性高增强影,称为蟹爪状形态。在实现增强神经网络对B型超声图像中乳腺结节重要特征关注度的同时,通过添加对应超声造影信息来抑制噪声数据对模型分类精度的影响,尽可能地有效利用医学数据提供的信息,还原专业影像学医师进行乳腺结节良恶性诊断过程。

图 3 乳腺超声噪声数据
Fig. 3 Noise data in B-mode ultrasound images
((a)benign sample; (b)benign samples with malignant morphological representation; (c)malign sample; (d)malign samples with benign morphological representation)
图 4 本文算法模型图
Fig. 4 Overview of the proposed method

1 方法

1.1 基于分割掩膜图的注意力引导机制

1.1.1 注意力机制

注意力机制借鉴了人类视觉的选择性注意力机制。人类视觉扫描目标图像获取需要重点关注的目标区域并投入更强的关注,得到更多重要的细节信息同时抑制其他无用信息。深度学习与视觉注意力机制结合的研究大多是使用掩码(mask)形成注意力机制。掩码的原理在于通过将图像数据中关键的特征标识出来作为一层新权重,通过学习训练,使每一幅新图像中需要关注的区域形成注意力。Wang等人(2017)提出残差注意力网络(residual attention network,RAN)捕获不同类型的注意力,主要计算为

$ \boldsymbol{H}_{i, c}(\boldsymbol{x})=\boldsymbol{M}_{i, c}(\boldsymbol{x}) * \boldsymbol{T}_{i, c}(\boldsymbol{x}) $ (1)

式中,${\boldsymbol{x}}$代表特征输入,${\boldsymbol{T}}$(${\boldsymbol{x}}$)为主干分支的输出,${\boldsymbol{M}}$(${\boldsymbol{x}}$)代表掩膜分支使用上采样、下采样的结构学习相同大小的mask特征图。${\boldsymbol{H}}$(${\boldsymbol{x}}$)是残差注意力模块的输出,是利用两个分支特征图相乘的方式将特征权重添加到特征图上的结果。$i$表示空间位置,$c$是通道的下标。为防止重复相乘会使得特征值逐渐变小,同时也尽可能不破坏主干分支提取的重要属性,本文提出改进,具体为

$ \boldsymbol{H}_{i, c}(\boldsymbol{x})=\left(1+\boldsymbol{M}_{i, c}(\boldsymbol{x})\right) \times \boldsymbol{T}_{i, c}(\boldsymbol{x}) $ (2)

这样${\boldsymbol{M}}$($x$)作为特征选择器,可以突出好特征,并抑制主干分支上提取的不好特征。Hu等人(2020)通过学习的方式自动获取每个特征通道的重要权重参数,然后依照这个重要程度提升有用的特征并抑制对当前任务用处不大的特征,具体计算为

$ \boldsymbol{Y}_{c}=F_{\text {scale }}\left(\boldsymbol{T}_{c}, S_{c}\right)=S_{c} \cdot \boldsymbol{T}_{c} $ (3)

式中,${\boldsymbol{Y}}$$_{c}$表示经过通道权重更改后的特征图。$S$是通过前面全连接层和非线性层学习得到的权重,${\boldsymbol{T}}$为主干网络卷积后得到的特征图,$c$表示第$c$个通道卷积核。$F_\text{scale}$指${\boldsymbol{T}}$$_{c}$和$S_{c}$之间的通道相乘。

可以发现,在自然图像分类任务中,多数研究都是使用网络模型自动学习到的关注区域去增强目标物的关注度,从而抑制无关区域。对于乳腺超声影像,网络的特征学习存在偏差,利用上述方法可能学习不到关键特征。因此,本文设定的注意力权重为乳腺超声病灶感兴趣区域(region of interest,ROI)分割掩膜图(ROI-mask),本文设计的注意力引导机制在超声图像的特征学习任务中具有更新特征权重的作用,如图 5所示,其中,⊗代表图像中元素值与掩膜矩阵对应位置处的值相乘;⊕代表参与运算的矩阵像素值相加。

图 5 有分割掩膜图引导的注意力机制
Fig. 5 Attention mechanism guided by segmentation mask

1.1.2 病灶区分割掩膜图引导的注意力机制

从自然图像的注意力机制结果中可以发现,自然图像中的分类目标对象与背景区域区分明显,网络能自动学习到待识别目标物。而超声图像中的结节病灶区域与背景的灰度阶梯差别不大,且成像设备及人体器官组织构造复杂,使得超声图像病灶区形态呈现不清晰的情况。如图 2所示,图像中出现多个与结节区域相似的噪声区域,使得网络在图像特征学习过程中可能无法准确关注到病灶区域,导致模型自动学习的特征存在偏差,干扰了模型分类能力。

为使超声影像在网络中学习到高效分类意义的特征信息,本文使用经专业医师交叉验证过的ROI-mask作为特征图权重更新引导依据,其表示为$M_{i, c}$∈ {0, 1},使得网络层学习分析的高权重特征是关于结节区域,而减少对不重要区域的特征分析。此外,利用残差网络加强图像特征的同时进一步增强对关键区域的特征学习,这样不仅能将ROI-mask之后的特征张量作为下一层的输入,同时也将ROI-mask之前的特征张量作为下一层的输入,得到更为丰富的关键鉴别特征。残差结构计算为

$ \boldsymbol{Y}_{i, c}(\boldsymbol{x})=\boldsymbol{x}+\boldsymbol{F}_{i, c}(\boldsymbol{x}) $ (4)

式中,${\boldsymbol{F}}$$_{i, c}$(${\boldsymbol{x}}$)是残差函数,表示学习到的残差特征,残差块输出为${\boldsymbol{Y}}$(${\boldsymbol{x}}$)。

由于超声影像数据集较小,易发生过拟合现象。因此,本文选择经包含1 000多种不同类别的120余万幅自然图像ImageNet数据集预训练的ResNet34模型权重进行转移学习。在此基础上,本文设计了两种注意力的方式,即残差前的引导注意力和残差后的引导注意力,如图 6所示。

图 6 ROI-mask注意力引导机制在残差结构中的两种方式
Fig. 6 Two ways of ROI-mask attention guidance mechanism in residual structure
((a)using residual mapping first before attention mechanism; (b)using attention mechanism first before perform residual mapping)

两种注意力的计算方式分别为

$ \boldsymbol{Y}_{i, c}(\boldsymbol{x})=\boldsymbol{W}_{i} \times \boldsymbol{M}_{i, c}(\boldsymbol{x}) \times \boldsymbol{F}_{i, c}(\boldsymbol{x})+\boldsymbol{x} $ (5)

$ \boldsymbol{Y}_{i, c}(\boldsymbol{x})=\left(F_{i, c}(\boldsymbol{x})+\boldsymbol{x}\right) \times \boldsymbol{M}_{i, c}(\boldsymbol{x}) \times \boldsymbol{W} $ (6)

式中,${\boldsymbol{x}}$代表输入,${\boldsymbol{M}}$(${\boldsymbol{x}}$)表示ROI-mask特征图,${\boldsymbol{Y}}$(${\boldsymbol{x}}$)代表注意力引导方式下学习针对的特征分支输出。${\boldsymbol{F}}$(${\boldsymbol{x}}$)表示经残差块学习到的残差特征。$i$是空间位置,$c$是通道的下标。由于ROI-mask与残差特征维度不同,使用${\boldsymbol{W}}$$_{i}$执行线性映射来匹配维度。

神经网络的不同网络层特征图表达的含义不同。在浅层结构中,特征图更关注图像的纹理、边缘等信息,特征图尺寸也不会太小;而在深层结构中,特征图更聚焦于待分类的物体,其分辨率小且包含高阶语义分类信息。ROI-mask能够提供位置信息,对于图像的特征学习权重更新有区域引导的学习能力。因此,本文提出在主干网络ResNet34中的前两个浅层网络层中添加注意力引导机制。

图 7 ROI-mask注意力引导机制在网络结构中的3种添加方式
Fig. 7 Three ways to add ROI-mask attention guidance mechanism to the network structure
((a)add a guided attention mechanism to the shallow network structure; (b)add a guided attention mechanism to the high-level network structure; (c)add a guided attention mechanism to each block of the network structure)

1.2 双模态数据融合

乳腺结节在B型灰度超声图像上表现为重叠性和多样性,通常部分良性结节会表现出恶性肿瘤的形态特征,存在较高的假阳性。超声造影(con- trast-enhanced ultrasound,CEUS)通过时间—强度曲线(time-intensity curve,TIC)表现的增强模式和形态特征参数分析肿块的良恶性表现情况,有助于乳腺良恶性病变鉴别。为降低如图 3所示噪声样本对模型性能的影响,相关医学临床统计分析(沈若霞等,2018)表明,结合超声造影增强特征可提高乳腺肿瘤临床早期明确诊断和评估的准确性。本文网络在提取B型超声特征的同时融入对应的造影增强特征,增强模型对噪声样本的判别能力。

1.2.1 乳腺超声造影属性特征表达

有相关研究直接使用超声造影(CEUS)影像数据作为实验数据进行肿瘤分类训练(Qin等,2019Wu等,2014Guo等,2018),且有相关研究证实造影增强数据在对乳腺特征的判别中具有辅助作用和诊断价值(安绍宇等,2012Wang等,2016Li等,2020)。现有方法一般使用统计学分析等方法来定性分析造影增强各项特征在良恶性肿瘤的表现规律。

本文借鉴相关研究(Leng等,2015沈若霞等,2018),通过逻辑回归定性分析结论表明增强强度、蟹足征及增强等乳腺多项造影增强特征与乳腺恶性病灶有较高的相关性。为增强噪声样本的准确判别,本文选取其中7个特征共18个属性进行辅助判别,包括增强时相(快进、同进、慢进)、增强强度(高增强、等增强及低增强)、增强顺序(向心、非向心)、增强后病灶形态(规则、不规则及难以分辨)、增强后病灶的边缘(清楚、不清楚及难以分辨)、增强均匀性(均匀、不均匀)和蟹足征(有、无)。为验证这些造影增强特征具有的分类辅助意义,使用自然语言处理(natural language processing,NLP)工具,从而实现造影属性的特征表达。对所有实验数据统计后,使用基于Wikipedia的GloVe模型(Pennington等,2014)训练,如图 8所示。增强后各项特征经向量特征转化后在空间中表现出具有紧密含义的单词,空间可视化如图 9所示。可以看出,这些特征有明显的聚类效果。位于右上角的特征代表恶性结节造影增强强度大、蟹足征等特征;位于左侧的特征则往往是良性结节的表征状态。因此这些具有高级语义的向量可以为乳腺良恶性分类提供图像以外的可靠信息。

图 8 造影增强特征文本向量转化
Fig. 8 Contrast enhancement feature text vector conversion
图 9 超声造影增强后特征向量可视化
Fig. 9 Feature vector visualization after contrast-enhanced ultrasound

1.2.2 双模态数据特征融合

图 9所示,各项造影空间向量分布显示出聚类效应。因此,本文将转化的词向量作为乳腺良恶性诊断的一个深层分类特征分支,与乳腺超声图像深层图像特征融合。转化的造影特征词向量与B型超声图像经最后卷积层提取的图像特征拼接融合,经最后的激活函数输出模型预测结果。所得模型增添了更加丰富的两种模态特征信息,使得分类模型性能得以提升。

2 实验及分析

2.1 实验数据及评价指标

使用两个数据集进行实验。BM-breast(breast ultrasound images dataset)为本文自建数据集,是多家医院2015年10月至2018年8月的乳腺超声影像数据。包含良性病例562例,恶性病例531例。原始数据中每个样本数据包含B型超声视频、对应超声造影视频、经两名以上专家交叉验证后的超声造影各项增强特征,以及经活检验证为金标准的病理诊断结果。对原始视频数据按帧裁剪处理后,去掉原始视频中的边缘信息标记,使用框内有效信息作为可训练的有效图像数据,并将对应的超声造影增强特征进行文本数据提取。BUSI(breast ultrasound images dataset)(Al-Dhabyani等,2020)为公开数据集,收集于2018年,来自约600名25—75岁的女性患者,共780幅图像,平均尺寸为500 × 500像素,PNG格式。每幅图像都有对应的分类标签以及分割掩膜图像,由医学研究者完成标注,分为正常、良性和恶性3类。本文主要使用其中的良性与恶性数据进行实验。

将完成预处理的B型超声图像和对应的超声造影增强特征文本数据制作实验数据集,按7∶2∶1的比例划分为训练集760例、验证集218例和测试集115例。根据医生建议,使用代码提取其中7个特征,共18个属性共同评价乳腺病灶的超声造影特征。包括:1)增强时相(快进、同进、慢进);2)增强强度(高增强、等增强及低增强);3)增强顺序(向心、非向心);4)增强后病灶形态(规则、不规则及难以分辨);5)增强后病灶的边缘(清楚、不清楚及难以分辨);6)增强均匀性(均匀、不均匀);7)蟹足征(有、无)。通过文本特征提取的GloVe模型将以上18种属性转化为300维的空间向量。

实验性能评价采用医学评价常用指标,包括准确度(accuracy,${\rm{ACC}}$)、敏感度(sensitivity)(也称为${\rm{TPR}}$(true positive rate))、特异度(specificity)(也称为${\rm{TNR}}$(true negative rate))以及${\rm{AUC}}$(area under curve)进行评估,具体定义为

$ A C C=\frac{T P+T N}{T P+F P+F N+T N} $ (7)

$ T P R=\frac{T P}{T P+F N} $ (8)

$ T N R=\frac{T N}{T N+F P} $ (9)

式中,$TP$表示样本的金标准及预测结果都是阳性的数目;$TN$表示表样本的金标准及预测结果都是阴性的数目;$FP$表示样本的金标准为阴性,但预测结果为阳性的数目;$FN$表示样本的金标准为阳性,但预测结果为阴性的数目。

本文网络在Pytorch框架上实现,训练平台为11GB NVDIA TITAN X GPU、16 GB内存、机械2T +固态128 GB硬盘。在训练阶段,将网络输入大小调整为224 × 224像素的三通道图像,对不满足网络输入形状224 × 224像素的变换图像使用0填充。学习率最初设置为0.001,然后每隔5 000次降低固定值。在优化过程,采用小批量梯度下降(mini-batch gradient descent)。在每次迭代中,构造每个包含8个样本的批量训练数据集进行采样,一共训练80个epoch达到稳定。在测试阶段,数据不进行缩放或裁剪,其他处理与训练阶段相同。

2.2 实验结果对比及分析

由于医学数据涉及病患隐私,相关工作一般都是基于私有数据集,但实验数据具有一定可比性,也能反映出算法性能差异。本文通过在同一数据集上复现对比了其他主流算法。为具体分析本文算法模型的性能,设计了消融实验来展示模型性能提升的具体细节。

2.2.1 模型性能对比

为验证本文模型结构能够加强关键特征关注度并提升分类精度,使用目前常用的分类模型在BM-breast数据集上分别进行实验,结果如表 1所示,可以发现本文方法在各项参数上都有提升,准确性达到87 %。同时也对比了近几年相关研究的实验结果,虽然使用不同的数据集,但是也反映出本文的算法优势。

表 1 乳腺结节不同分类算法对比
Table 1 Comparison of different classification algorithms for breast nodules

下载CSV
算法 实验数据 ACC/% TPR/% TNR/% AUC
ResNet-34 BM-breast(仅B型超声图) 78.27 77.61 80.40 0.793
Inception v3 BM-breast(仅B型超声图) 79.27 78.61 81.06 0.805
VGG16 BM-breast(仅B型超声图) 77.65 73.72 78.67 0.792
Mohammed等人(2018) B型超声图(184例私有数据集) 82.04 79.39 84.75 -
Shin等人(2019) B型超声图(800例私有数据集) 84.50 - - -
Chiao等人(2019) B型超声图(370例私有数据集) 85 - - -
Cao等人(2020) B型超声图(私有数据集) 73 80 - 0.74
Wang等人(2020) B型超声图(316例私有数据集) - 88.60 87.60 0.946 8
本文 BM-breast 87.05 84.02 89.33 0.905 2
注:加粗字体为各列最优结果;“-”表示对比论文未进行该项实验。

2.2.2 注意力引导模块对比实验

对于所选的残差网络结构来说,注意力引导与残差块的不同结合方式可能导致不同效果。为验证分析不同结构的分类性能,在公开数据集BUSI和自建数据集BM-breast上进行实验对比,仅在残差网络前两个残差块中使用注意力引导机制,实验结果如表 2所示。可以看出,在残差块融合前加入注意力引导会使得到的该层网络特征图进行修正,从而影响后续残差块的结合。这种结构在不同数据集上都比残差特征结合后再添加引导注意力提升3 %。因此本文的引导注意力采用先卷积再融合残差块的结构。

表 2 不同注意力引导机制算法对比
Table 2 Comparison of different guiding attention mechanism algorithms

下载CSV
数据集 算法结构 训练准确性 验证准确性
BUSI 图 6(a) 0.931 5 0.873 5
BUSI 图 6(b) 0.968 7 0.903 1
BM-breast 图 6(a) 0.890 0 0.793 2
BM-breast 图 6(b) 0.914 1 0.844 1
注:加粗字体为各列最优结果。

本文设计了在主干网络ResNet34不同层次添加注意力引导机制的实验来确定网络结构的设定,如图 7。同样通过在私有数据集及公开数据集上完成对比实验,结果如表 3所示。从准确性上看,虽然在每个残差块都添加引导注意力准确度达到最佳,但是会使得网络模型计算过于复杂,且准确率相比在浅层结构添加注意力的结构增长不多。因此本文选择浅层网络结合ROI-mask,此模型能够发挥较好的引导学习作用并保证模型的性能。

表 3 不同网络层添加注意力引导机制对比
Table 3 Comparison of adding attention guidance mechanisms in different network blocks

下载CSV
数据集 算法结构 训练准确性 验证准确性
BUSI 图 7(a) 0.968 7 0.903 1
BUSI 图 7(b) 0.937 3 0.881 4
BUSI 图 7(c) 0.972 1 0.912 6
BM-breast 图 7(a) 0.914 1 0.844 1
BM-breast 图 7(b) 0.894 1 0.807 1
BM-breast 图 7(c) 0.915 7 0.854 5
注:加粗字体为各列最优结果。

为验证ROI-mask注意力机制对于乳腺超声肿瘤的特征增强学习的有效性,与常见注意力机制CBMA(convolutional block attention module)中的空间注意力部分、SE-net(squeeze-and-excitation network)及RAN(region attention network)在本文B型超声数据集上进行实验对比,结果如表 4所示。可以看出,由于某些恶性超声图像中表现复杂,存在血管或其他组织结构而呈现出类似结节形态,网络模型会自动关注到这些似结节区域而忽略真实结节,导致分类预测错误。现有模型针对这类病例超声数据无法学习到关键分类特征。而本文的注意力引导方式更为精准,增强结节区域的关注度并进行特征增强,由此使得模型的分类能力更强。

表 4 本文注意力引导机制与现有注意力对比
Table 4 Comparison of the attention guidance mechanism in this paper with the existing attention  

下载CSV
/%
算法 ACC TPR TNR
CBMA(Woo等,2018) 80.27 79.33 81.86
SE-net(Hu等,2020) 81.47 79.84 83.23
RAN(Wang等,2017) 82.07 80.67 82.94
本文 84.41 85.67 83.33
注:加粗字体为各列最优结果。

2.2.3 消融实验

为验证ROI-mask注意力机制和结合造影特征这两点改进算法的有效性,设计消融实验分析各部分的优化功效,结果如表 5所示。其中,网络1表示仅使用ResNet骨干分类网络对B型超声进行训练分类,网络2表示使用超声造影各项特征向量数据进行乳腺结节良恶性分类,网络3表示在ResNet骨干网络中添加本文提出的注意力引导机制在乳腺B型超声数据上的实验,网络4表示使用ResNet骨干网络在B型超声融合对应的超声造影词向量特征进行良恶性分类实验,网络5表示对分割的B型超声ROI病灶区进行分类训练,网络6是使用本文提出的模型,即使用ROI-mask引导的注意力引导机制,并融合转化后的造影各项特征向量的双模态数据的实验。

表 5 消融实验对比
Table 5 Comparison of ablation experiments

下载CSV
算法 ACC/% TPR/% TNR/% AUC
网络1 78.27 77.61 80.40 0.793
网络2 83.47 80.13 85.23 0.841
网络3 84.41 86.02 83.33 0.851
网络4 85.31 84.33 86.31 0.863
网络5 76.27 75.61 79.40 0.773
网络6(本文) 87.45 86.92 88.33 0.905
注:加粗字体为各列最优结果。

表 5可以看出,1)网络1和网络2仅使用单一数据的分类精度不如两种模态数据的融合模型,表明不同模态的数据能提供不同层次、不同角度的信息。2)对比使用常规分类骨干网络,结合注意力引导机制的算法在各项性能上都有所上升,能尽可能地掌握肿瘤区域的关键分类依据。3)结合超声造影特征的模型使特异性TNR有所提升,能够正确识别表现出恶性肿瘤表象而实际是良性肿瘤的噪声样本,这类样本是临床诊断最易误判的样本。4)仅使用分割后的乳腺病灶区域会遗漏部分其他组织的信息而准确性不高,证明网络模型在自动学习过程中还会关注医师肉眼观察以外的信息。

为验证本文提出的引导注意力的效果,可视化了同一测试样本的特征关注效果,如图 10所示,表明模型寻找图像中最具代表性以及分辨性区域的能力有所提升。为展示算法改进效果,同样通过可视化特征关注热力图进行对比。使用模型是残差网络ResNet34添加注意力引导机制和不添加注意力引导机制两种模型。从特征关注度来看,第1行样本在未加入引导注意力机制情况下,网络关注到其他类似肿瘤的组织,提取了无用信息。其他样本特征关注到非结节区域,并因背景中其他伪影干扰未学习到肿瘤特性。而加入引导注意力的模型,显示肿瘤区域是关注度高的区域,提取到肿瘤相关的更多高效分类特征。从预测结果发现,模型修正了一些预测错误的噪声样本,达到了精准分类的效果。

图 10 不同算法特征关注可视化图对比
Fig. 10 Comparison of feature visualization map of different algorithms
((a)input; (b)model with attention guidance mechanism; (c)model without attention guidance mechanism)

3 结论

本文对神经网络在特征提取及分类预测中关注的重要分类信息进行分析,由于超声图像成像质量不佳,导致病灶区与背景区域不能很好区分,需要使用引导性的特征学习对网络模型优化。本文在重要特征学习和减少噪声样本干扰两个方面使用了图像与文本两种模态的数据完成算法设计。本文创新工作主要包括以下两方面:1)提出一种基于结节肿瘤分割掩膜图的注意力引导机制,使得神经网络提取到与乳腺肿瘤区域相关的特征,避免图像中背景与肿瘤区域的重叠和多样性干扰导致预测错误,提高模型的关键特征信息学习能力。2)解决易混淆噪声数据的预测准确性,还原实际诊断过程,本文融合两种模态信息,将乳腺超声造影的增强各项特征进行聚类向量转化,使其作为具有分类效果的深层特征,充分利用少量的医学有效数据。实验结果表明,本文算法有效利用了超声数据特征,达到了较好的分类结果,通过计算机算法还原临床诊断过程,具有医学理论的支持。

但是,本文所用注意力掩码是人工确定的,这会耗费大量人力,下一步将继续提升算法,使用模型得到关于乳腺结节区域更加精准的掩码结果。同时,多模态中融合的造影病理结果数据是通过专业影像学医师人为诊断的,耗费了较多的人力和时间,并且没有利用造影视频数据进行定性分析来辅助诊断,下一步工作将围绕图像视频数据本身特征的自动提取来进一步提升良恶性的自动诊断,同时希望能对乳腺结节进行更具体的BI-RADS(breast imaging reporting and data system)分级的预测。

参考文献

  • Al-Dhabyani W, Gomaa M, Khaled H, Fahmy A. 2020. Dataset of breast ultrasound images. Data in Brief, 28: #104863 [DOI:10.1016/j.dib.2019.104863]
  • An S Y, Liu J, Gao Y C, Zhao X B, Hou L M, Xie T. 2012. Comparison study between qualitative analysis and quantitative analysis of contrast-enhanced ultrasound to differential diagnosis of breast masses. Chinese Journal of Ultrasonography, 21(6): 492-495 (安绍宇, 刘健, 高砚春, 赵小波, 侯令密, 谢婷. 2012. 超声造影定性与定量分析鉴别乳腺肿块的对比研究. 中华超声影像学杂志, 21(6): 492-495) [DOI:10.3760/cma.j.issn.1004-4477.2012.06.013]
  • Cao Z T, Yang G W, Chen Q, Chen X L, Lyu F M. 2020. Breast tumor classification through learning from noisy labeled ultrasound images. Medical Physics, 47(3): 1048-1057 [DOI:10.1002/mp.13966]
  • Chiao J Y, Chen K Y, Liao K Y K, Hsieh P H, Zhang G, Huang T C. 2019. Detection and classification the breast tumors using mask R-CNN on sonograms. Medicine, 98(19): #e15200 [DOI:10.1097/MD.0000000000015200]
  • Fu J L, Zheng H L and Mei T. 2017. Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 4476-4484[DOI: 10.1109/CVPR.2017.476]
  • Guo L H, Wang D, Qian Y Y, Zheng X, Zhao C K, Li X L, Bo X W, Yue W W, Zhang Q, Shi J, Xu H X. 2018. A two-stage multi-view learning framework based computer-aided diagnosis of liver tumors with contrast enhanced ultrasound images. Clinical Hemorheology and Microcirculation, 69(3): 343-354 [DOI:10.3233/CH-170275]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 770-778[DOI: 10.1109/CVPR.2016.90]
  • Hemelings R, Elen B, Stalmans I, van Keer K, Blaschko M B. 2019. Artery-vein segmentation in fundus images using a fully convolutional network. Computerized Medical Imaging and Graphics, 76: #101636 [DOI:10.1016/j.compmedimag.2019.05.004]
  • Hu J, Shen L, Albanie S, Sun G, Wu E H. 2020. Squeeze-and-excitation networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(8): 2011-2023 [DOI:10.1109/TPAMI.2019.2913372]
  • Krizhevsky A, Sutskever I, Hinton G E. 2017. ImageNet classification with deep convolutional neural networks. Communications of the ACM, 60(6): 84-90 [DOI:10.1145/3065386]
  • Leng X L, Huang G F, Yao L H, Ma F C. 2015. Role of multi-mode ultrasound in the diagnosis of level 4 BI-RADS breast lesions and Logistic regression model. International Journal of Clinical and Experimental Medicine, 8(9): 15889-15899
  • Li Y S, Liu Y, Zhang M K, Zhang G L, Wang Z L, Luo J W. 2020. Radiomics with attribute bagging for breast tumor classification using multimodal ultrasound images. Journal of Ultrasound in Medicine, 39(2): 361-371 [DOI:10.1002/jum.15115]
  • Mohammed M A, Al-Khateeb B, Rashid A N, Ibrahim D A, Abd Ghani M K, Mostafa S A. 2018. Neural network and multi-fractal dimension features for breast cancer classification from ultrasound images. Computers and Electrical Engineering, 70: 871-882 [DOI:10.1016/j.compeleceng.2018.01.033]
  • Moura D C, Guevara López M A. 2013. An evaluation of image descriptors combined with clinical data for breast cancer diagnosis. International Journal of Computer Assisted Radiology and Surgery, 8(4): 561-574 [DOI:10.1007/s11548-013-0838-2]
  • Pennington J, Socher R and Manning C D. 2014. Glove: global vectors for word representation//Proceedings of 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) Doha, Qatar: Association for computational Linguistics: 2014: 1532-1543
  • Qi X F, Zhang L, Chen Y, Pi Y, Chen Y, Lyu Q, Yi Z. 2019. Automated diagnosis of breast ultrasonography images using deep neural networks. Medical Image Analysis, 52: 185-198 [DOI:10.1016/j.media.2018.12.006]
  • Qin L K, Yin H, Zhuang H, Luo Y and Liu D C. 2019. Classification for rectal CEUS images based on combining features by transfer learning//Proceedings of the 3rd International Symposium on Image Computing and Digital Medicine. Xi'an China: ACM: 187-191[DOI: 10.1145/3364836.3364873]
  • Ronneberger O, Fischer P and Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241[DOI: 10.1007/978-3-319-24574-4_28]
  • Selvaraju R R, Cogswell M, Das A, Vedantam R, Parikh D and Batra D. 2017. Grad-CAM: visual explanations from deep networks via gradient-based localization//Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE: 618-626[DOI: 10.1109/ICCV.2017.74]
  • Shen R X, Nian Y H, Yang L C. 2018. Research status and progress of real-time contrast-enhanced ultrasound in the diagnosis of breast tumors. Journal of Changzhi Medical College, 32(4): 314-317 (沈若霞, 年英华, 杨丽春. 2018. 实时超声造影在乳腺肿瘤诊断中的研究现状及进展. 长治医学院学报, 32(4): 314-317) [DOI:10.3969/j.issn.1006-0588.2018.04.025]
  • Shin S Y, Lee S, Yun I D, Kim S M, Lee K M. 2019. Joint weakly and semi-supervised deep learning for localization and classification of masses in breast ultrasound images. IEEE Transactions on Medical Imaging, 38(3): 762-774 [DOI:10.1109/TMI.2018.2872031]
  • Simonyan K and Zisserman A. 2014. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-05-15]. https:arxiv.org/pdf/1409.1556.pdf
  • Szegedy C, Vanhoucke V, Ioffe S, Shlens J and Wojna Z. 2016. Rethinking the inception architecture for computer vision//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 2818-2826[DOI: 10.1109/CVPR.2016.308]
  • Wang F, Jiang M Q, Qian C, Yang S, Li C, Zhang H G, Wang X G and Tang X O. 2017. Residual attention network for image classification//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE: 6450-6458[DOI: 10.1109/CVPR.2017.683]
  • Wang Y, Choi E J, Choi Y, Zhang H, Jin G Y, Ko S B. 2020. Breast cancer classification in automated breast ultrasound using multiview convolutional neural network with transfer learning. Ultrasound in Medicine and Biology, 46(5): 1119-1132 [DOI:10.1016/j.ultrasmedbio.2020.01.001]
  • Wang Y M, Fan W, Zhao S, Zhang K, Zhang L, Zhang P, Ma R. 2016. Qualitative, quantitative and combination score systems in differential diagnosis of breast lesions by contrast-enhanced ultrasound. European Journal of Radiology, 85(1): 48-54 [DOI:10.1016/j.ejrad.2015.10.017]
  • Woo S, Park J, Lee J Y and Kweon I S. 2018. CBAM: convolutional block attention module//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer: 3-19[DOI: 10.1007/978-3-030-01234-2_1]
  • Wu K Z, Chen X, Ding M Y. 2014. Deep learning based classification of focal liver lesions with contrast-enhanced ultrasound. Optik, 125(15): 4057-4063 [DOI:10.1016/j.ijleo.2014.01.114]