Print

发布时间: 2023-01-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.220454
2023 | Volume 28 | Number 1




    医学图像处理    




  <<上一篇 




  下一篇>> 





甲状腺超声影像的元优化多级对抗域适应网络
expand article info 应翔1,2,3, 刘振1,2,3, 朱佳琳4, 姜汉5, 张瑞璇1,2,3, 高洁1,2,3
1. 天津大学智能与计算学部, 天津 300350;
2. 天津市认知计算与应用重点实验室, 天津 300350;
3. 天津市先进网络技术与应用重点实验室, 天津 300350;
4. 天津医科大学肿瘤医院, 天津 300060;
5. 贝式计算(天津)信息技术有限公司, 天津 300456

摘要

目的 计算机辅助诊断是临床诊断中一种重要的辅助手段。然而在多机型超声影像的应用现状中,单一深度卷积神经网络面临难以从不同数据源中提取样本特征的问题,导致模型在区分多源数据方面性能欠佳。为提升单一深度模型在多源数据的泛化能力,本文提出一种无监督域自适应网络。方法 将深度对抗域适应方法应用于多源甲状腺超声影像分类任务,通过生成对抗思想提取源域图像与目标域图像的域不变特征,提出一种多级对抗域自适应网络(multi-level adversarial domain adaptation network,MADAN)。将元优化(meta-optimized)策略引入对抗域适应的学习中,将域对齐目标和样本分类目标以协调的方式联合优化,提升了模型对无标记目标域数据的分类性能。结果 在包含4种域的甲状腺超声影像数据集上实验,与7种经典域自适应方法比较。实验结果表明,MADAN在全部迁移任务中取得90.141%的目标域样本平均分类准确率,优于残差分类网络和多种经典域自适应分类网络。融合元优化训练策略后的MADAN在目标域的测试平均准确率提升约1.67%。结论 本文提出的元优化多级对抗域适应网络一方面通过多级对抗学习进行图像域不变特征的提取,另一方面使用元优化方式改进模型训练过程的优化策略,将带有人工标记的源域信息有效迁移至目标域,提升了单一模型对于不同域数据的泛化性能。

关键词

计算机辅助诊断(CAD); 多机型甲状腺超声影像; 域自适应; 元优化; 生成对抗网络(GAN)

Meta-optimized multi-adversarial domain adaptation for thyroid ultrasound image
expand article info Ying Xiang1,2,3, Liu Zhen1,2,3, Zhu Jialin4, Jiang Han5, Zhang Ruixuan1,2,3, Gao Jie1,2,3
1. College of Intelligence and Computing, Tianjin University, Tianjin 300350, China;
2. Tianjin Key Laboratory of Cognitive Computing and Application, Tianjin 300350, China;
3. Tianjin Key Laboratory of Advanced Networking, Tianjin 300350, China;
4. Medical University Cancer Institute and Hospital, Tianjin 300060, China;
5. OpenBayes (Tianjin) IT Co., Ltd., Tianjin 300456, China
Supported by: National Natural Science Foundation of China(61976155)

Abstract

Objective Artificial intelligence based (AI-based) medical clinical diagnosis technique has been developing in recent years. It can alleviate the problems of medical image analysis in China via deep networks modeling and medical image data analysis, such as the shortage of expertises, the imbalance of urban and rural medical resources allocation, and the the imaging accuracy issues. However, clinical-aided are often linked to multi-model data with different characteristics distribution in different hospitals. Therefore, improving the generalization and stability of the cross-model medical diagnosis-consistent model is required for quick response intensively. In order to alleviate the domain shift existing in the ultrasound imaging field, the unsupervised domain adaptation method can be as the one of the most concerning methods at present. It can avoid the manual labeling of ultrasound image data of various models, a single model can be learnt to adapt to the target domain sample set with data deviation through the labeled source domain sample set, which improves the generalizability of convolutional neural network (CNN) to a certain extent. However, current unsupervised domain adaptation research has some challenging constraints, such as poor feature extraction and inconsistent optimization of domain fusion and sample classification. In view of the limitations in related to domain adaptation network, we develop an intergrated domain adaptation network, which focuses on the under-expressed feature of nodular region features in thyroid ultrasound images. This research is aimed to enhance the fusion of source domain features space and target domain features space. Method In this study, a new domain adaptation network is constructed called based on domain-adversarial training of neural networks (DANN), called multi-level adversarial domain adaptation network (MADAN). In the training process, we first build a three-layer generator and discriminator structure according to the transition from general to special features, which can obtain more semantic information in the image. To ensure the coordination of the two optimization processes, the sample classification task and the domain fusion task are both implemented via a meta-optimization strategy. Furthermore, to enhance the global geometric features of diseased tissue regions, we embed a self-attention module in the adversarial structure. Our dataset is composed of 6 849 images-selected from ultrasound images in 4 different models, namely P (Philips1), T(Toshiba), F (GE), and U (Philips2). Our domain adaptation network is carried out in the PyTorch toolbox. The input image is resized to 224 × 224 pixels for training, the momentum parameter is set to 0.9, and the learning rate is set to 0.001. The stochastic gradient descent (SGD)-related learning process is accelerated using an NVIDIA GTX TITAN RTX device, which takes approximately 10 hours in 50 000 iterations. It is possible to obtain more effective samples in the context to benign and malignant labels of the source domain, the target domain during the training process, and the labels of the target domain data are not required at all. The training process performs the supervised classification task of the source domain dataset and the domain alignment task. In the testing process, the feature extractor and classifier fitted are used to verify the classification accuracy of the target domain data. In addition, we use t-distributed stochastic neighbor embedding (t-SNE) to visualize the learned data features, which demonstrates the effectiveness of our network further on the feature-fused of different datasets. Result We compared our network with 8 domain adaptation networks, including domain adaptation tasks based on 9 multi-directions on 4 domains: PT, PU, PF, TP, TU, T→F, UP, UT, and UF. The evaluation metrics are focused on the accuracy of the target domain data and the t-SNE visualization results, and the ablation experiments is conducted to demonstrate the performance and GPU memory cost of the proposed method. Experimental results show that the MADAN is optimized with an average classification accuracy of 90.141% on the multi-model thyroid ultrasound dataset through 9 transfer tasks. After introducing meta-optimization, the best classification accuracy is achieved in PU, PF, TP, TF, UP, and UF tasks respectively, and the average accuracy of all tasks is improved about 1.67%. The results of the ablation experiments illustrates that the domain adaptation, multi-adversarial structure, and self-attention modules are improved 16.238%, 20.284%, and 18.622%, respectively. The t-SNE visualization images are illustrated that the feature space of the data samples has been preliminarily fused after the multi-level adversarial domain adaptation, and the sample points of the same category are basically aggregated. The multi-adversarial domain adaptation method can achieve fusion results better via the improved meta-optimization strategy. Additionally, the comparative visualization analysis of the heat map verifies the effectiveness of the self-attention module for global geometric feature extraction of the lesion tissue. Conclusion Our research is focused on meta-optimized multi-Adversarial domain adaptation network, including a multi-level generative adversarial structure and a meta-optimization strategy. The experimental results show that the proposed method is performed well in the transfer task of multi-model medical thyroid ultrasound datasets and has better classification results in a completed unsupervised setting.

Key words

computer-aided diagnosis(CAD); multi-model thyroid ultrasound image; domain adaptation; meta-optimization; generative adversarial network(GAN)

0 引言

甲状腺结节是一种甲状腺细胞异常增生后在腺体内出现的团块,患病人群的覆盖范围和年龄跨度较大,尤其在女性群体中发病率较高(迟剑宁等,2018),因此对甲状腺结节组织进行及时筛查、诊断尤为关键。在甲状腺结节诊断过程中,超声影像是医生对结节良恶性诊断的重要依据(Tessler等,2017)。然而超声影像是灰度图,其中结节区域与背景区域差异较小,且视觉表现较弱。超声影像的诊断准确率很大程度上依赖于有丰富临床经验的医师的主观判断,这一现实情况直接导致诊断受限于医疗资源分配不均和高水平医生短缺等条件,此外也带来了诊断效率低下和标准不一等诸多问题(Wang等,2019)。

卷积神经网络(convolutional neural network,CNN)的更新迭代使图像分类、目标检测等计算机视觉任务的性能得到显著提升,在医学领域也越来越多地作为辅助手段应用于临床诊断。一般来说,拟合训练数据的深度网络模型在与该类数据特征分布相同的测试数据中表现良好,然而将其直接迁移到分布存在偏差的另一数据域中,往往表现出显著的性能下降,这是深度神经网络泛化性不强的弊端。这类应用场景在医学领域较为常见,本文以甲状腺超声影像作为研究对象,如图 1所示,不同超声影像仪器扫描方式和输出频率的差异使每个域都有特定的语义表现,如蓝色框内不同机型影像具有不同颜色的影像纹理和标记符号等,这类数据特征间的差异称为域偏移现象(Tzeng等,2014)。CNN对域偏移现象的处理有着局限性,很难将某类超声影像所学知识直接迁移至另一超声影像集。无监督域自适应方法(Pan和Yang,2010)可以缓解超声影像数据中存在的域偏移问题,此类方法能避免大规模超声影像数据的人工标记,使单一模型可以通过已标注的源域样本集学习适应于多类存在数据偏差的目标域样本集,在一定程度上提升CNN模型的泛化性。

图 1 不同仪器拍摄的超声影像之间视觉特征的异同
Fig. 1 Similarities and differences of visual characteristics between ultrasonic images taken by different instruments
((a) Philips model image;(b) Toshiba model image)

在无监督域自适应研究中,对抗学习策略将特征提取网络与域判别网络构成对抗关系,融合源域样本与目标域样本的特征空间,学习样本特征的域不变表达。该类方法在基准自然数据集上(如mnist数据集、office-31数据集(Saenko等,2010))取得了良好的成效,对解决医学影像处理的相关瓶颈问题具有巨大应用前景(张颖麟等,2022)。甲状腺超声影像数据集与传统的自然数据集存在差异,例如影像前景区域特征表达较弱,结节组织区域大小不一等,这类数据特性给对抗域自适应网络的特征提取带来了困难。

本文提出一种甲状腺超声影像的元优化深度对抗域自适应网络,缓解上述特征提取不佳,以及域融合和样本分类优化不一致等问题。网络主干模型依然遵循特征提取器与域判别器的对抗结构,为特征提取模块引入多层出口,并匹配对应输入尺度的领域判别模块进行优化,这种多尺度结构更加适用于不同大小前景组织的输入数据。此外,模型引入元优化策略,将域融合任务作为元训练任务优化网络,样本分类任务作为元测试任务验证优化结果,通过理论分析证明该策略的有效性,对比实验表明该策略可以实现协调优化。

本文主要贡献如下:1)提出一种多级对抗域自适应方法,引入多维对抗结构,优化了对于多域甲状腺超声数据集的不同尺度结节组织的特征提取。2)将元优化的策略引入对抗域自适应方法中,缓解了领域融合和样本分类的优化不一致性,进一步提升对于无标记目标域样本的分类精度。3)提出的元优化多级对抗域自适应方法泛化性较强,在自制甲状腺超声医学影像数据集的跨机型域自适应任务中取得了领先的性能。

1 相关工作

1.1 对抗域自适应

基于生成对抗的域自适应方法借鉴了生成对抗网络(generative adversarial networks, GAN)(Goodfellow等,2014)的思路,将特征提取器与域判别器构成对抗学习的关系,目的是使网络极大程度上混淆输入数据的领域判别,促进对于无标记目标数据的分类效果。域对抗神经网络(domain adversarial neural network,DANN)(Ganin等,2016)作为该类方法的创新性研究,将梯度反转层引入模型级联特征提取网络和域判别网络,实现了端到端的对抗学习。对抗判别域自适应(Tzeng等,2017)构造出独立源域特征提取器和独立目标特征提取器的双分支结构,目标特征提取器的参数由预训练的源特征提取器初始化。此外,为避免整体匹配源域与目标域特征空间导致的负迁移(Tzeng等,2017)问题,多级对抗性域自适应(multi-adversarial domain adaptation,MADA)(Pei等,2018)和条件对抗域自适应(conditional adversarial domain adaptation,CDAN)(Long等,2018)分别为域特征标签添加了类别权重,将一个域判别器更换为多个域判别器,匹配类别空间中相同类别的数据分布来促进准确迁移。Xu等人(2020)提出了将数据增强方法中的线性插值(mix-up)应用到域自适应,分别在像素级别和特征级别线性插值,获得精细的领域判别。综上所述,基于对抗的无监督域自适应方法模拟对抗学习的思路来混合源域以及目标域。

1.2 域自适应的医学应用

对抗域自适应研究在医学图像领域的应用受到广泛关注。Pacheco和Vidal (2019)提出一种无监督域自适应方法来分类干细胞衍生的心肌细胞,以最大均值差异(maximum mean discrepancy,MMD)作为训练损失的无监督域自适应方法来训练循环神经网络(recurrent neural network,RNN)分类器,达到了较优的分类准确率。在语义分割方面,Dong等人(2018)提出用于自动估算心胸比率的无监督域自适应方法,从公开数据源中学习域不变特征表示,为未标记的数据集生成准确的胸部器官分割,通过估算心胸比率来诊断心脏肥大。Wang等人(2019)提出一种无监督的领域适应框架,称为边界和熵驱动的对抗学习,创新性地加入了香农熵来获得熵图,有效提升了视盘和视杯的分割性能,尤其在边界不明确的区域。此外,多尺度自注意力无监督域自适应(multi-scale self-attention unsupervised adaptation,MSDAN)(Ying等,2020)是一种应用于甲状腺超声影像分类任务的网络,集多尺度特征提取和混合域判别于一体,用于不同域中有标记的甲状腺超声影像和未标记的甲状腺超声影像之间的域自适应。Zhao等人(2022)设计了一种语义一致性生成对抗网络,用于多模态医学影像的识别,取得了较高的分类准确率。贡荣麟等人(2022)提出一种基于两阶段深度迁移学习的乳腺超声辅助诊断算法,将超声弹性图像中的信息迁移至基于B超的乳腺癌辅助诊断模型。综上,目前域自适应方法在医学领域取得了阶段性进展,针对超声影像灰度图的特性,影像内部前景组织的特征提取是进一步的优化方向。

1.3 神经网络的甲状腺超声影像识别应用

人工智能在计算机视觉,尤其是甲状腺医疗辅助诊断方面取得了突破性进展。在甲状腺超声影像良恶性分类方面,Ma等人(2017)首先将卷积神经网络引入甲状腺超声图像的分类中,为后续研究提供了指导方向。Sun等人(2020)应用支持向量机(support vector machine,SVM)对CNN提取的特征进行分类,准确率达到92.5 %。Yu等人(2020)将深度CNN用于甲状腺的临床检查,取得了比SVM更好的结果。在甲状腺超声影像结节分割中,Song等人(2022)提出一种特征增强型双分支网络,通过在检测网络中加入语义分割分支和特征增强机制来完成结节检测任务,取得了具有竞争力的检测性能。上述研究均基于完全监督的设置,语义分割任务中的超声影像数据需要大量的人工掩码标记,并且需要专业医师的细致标注和筛选,带来了较大困难。针对上述问题,Yu等人(2022)提出一种用于弱监督语义分割的边缘自注意力擦除方法,在仅需要影像分类标签的前提下即可获取良好的结节分割结果。尽管上述研究工作的准确性已逐渐赶超专业医生的诊断结果,但大多数研究忽略了人工智能辅助诊断在多源医学影像性能不佳的现状。

1.4 深度神经网络的元优化策略

生成对抗思想的引入为域自适应方法带来了显著的性能增益,但是对抗学习的策略并非是针对样本分类任务所设计,域融合任务和样本分类任务的优化方向并不一致。然而当前大多数方法将二者直接叠加,这可能会对目标域样本分类任务造成负面影响。元优化策略是一种提升网络多阶段损失优化一致性的解决方案,这种训练策略可以在一定程度上使多个不同训练任务协调优化。元优化已广泛应用于深度神经网络(Andrychowicz等,2016)和小样本分类(Vinyals等,2016)的优化。Finn等人(2017)提出用于深度网络快速适应的模型无关元学习算法,将其应用于小样本学习和强化学习,旨在找到良好的初始化参数,以便快速适应新任务。Li和Hospedales (2020)引入一种最短路径元学习框架,进一步提升多源域自适应的性能。域自适应与元优化策略具有可结合性,因此使用元优化训练策略优化训练过程。

2 方法

2.1 问题描述和定义

本文的域自适应工作采用完全无监督的设置,目标是将源域有标记样本学习到的知识迁移至无标记的目标域样本,提升模型对于目标域数据的分类精度。

首先, 将域定义为潜在的数据分布$P$, 源域数据分布表示为$P_{\mathrm{s}}$, 目标域数据分布表示为$P_{\mathrm{t}}$, 且$P_{\mathrm{s}} \neq P_{\mathrm{t}}$。基于可获取的带有标记的源域样本$\boldsymbol{S}^{\mathrm{s}}=$ $\left\{\left(\boldsymbol{x}_i^{\mathrm{s}}, y_i^{\mathrm{s}}\right)\right\}_{i=1}^{n_{\mathrm{s}}} \sim P_{\mathrm{s}}$和无标记的目标域样本$\boldsymbol{S}^{\mathrm{t}}=$ $\left\{\left(\boldsymbol{x}_j^{\mathrm{t}}\right)\right\}_{j=1}^{n_{\mathrm{t}}} \sim P_{\mathrm{t}}, \boldsymbol{x}_i^{\mathrm{s}}$$\boldsymbol{x}_j^{\mathrm{t}}$分别为源域图像和目标域图像, $y_i^\text{s}$为源域图像标签, 源域$P_{\mathrm{s}}$与目标域$P_{\mathrm{t}}$的类别数一致。无监督域自适应分类任务的目标是学习一个特征提取函数$g(\cdot)$来拉近$P_{\mathrm{s}}$$P_{\mathrm{t}}$的距离, 进而获取适用于目标样本$\boldsymbol{S}^{\bf{t}}$的分类函数$f(\cdot)$提升准确率。

本文提出的元优化多级对抗域自适应模型流程如图 2所示,包含模型的训练阶段和测试阶段。训练阶段使用带有人工标记的源域样本和不带标记的目标域样本进行特征提取器与分类器的训练;测试阶段使用无标记目标域样本数据进行模型验证。本文首先介绍适用于多域甲状腺超声影像分类任务的基线网络。根据适应性考虑,该网络特征提取部分采用残差网络ResNet50(He等,2016),并为特征提取模块匹配多维域判别器,对应引入自注意力优化结节区域特征表达。其次,对抗域自适应中域对齐任务和对象分类任务的优化并不协调,这可能会损害特征判别能力。多层域判别网络使用元优化训练策略,目标是缓解上述优化不一致性问题。

图 2 元优化多级对抗域自适应网络架构图
Fig. 2 Architecture diagram of meta-optimized multi-adversarial domain adaptation network

2.2 对抗域自适应

本文提出的网络模型主要由3部分构成, 分别是特征提取器$G$、样本分类器$C$和域判别器$D$。模型与基线方法DANN(Ganin等, 2016) 采用相同的设置, 试图同时优化对象分类损失$L_c$和域对齐损失$L_d$。特征提取器$G$和分类器$C$联合构成样本分类分支, 源域$P_{\mathrm{s}}$中的分类损失为

$ L_c\left(P_{\mathrm{s}}\right)=\frac{1}{n_{\mathrm{s}}} \sum\limits_{i=1}^{n_{\mathrm{s}}} y_i^{\mathrm{s}} \log \left(C_{\theta_c}\left(G_\theta\left(\boldsymbol{x}_i^{\mathrm{s}}\right)\right)\right) $ (1)

式中, $n_{\mathrm{s}}$是源域样本数量, 域判别器$D$是一个二分类的全连接分类器, 其目的是基于特征提取器$G$的输人来混淆数据是来自源域或目标域, $\theta_c$为样本分类器$C$的参数。域判别损失函数为

$ \begin{gathered} L_d\left(P_{\mathrm{s}}, P_{\mathrm{t}}\right)=\frac{1}{n_{\mathrm{s}}} \sum\limits_{i=1}^{n_{\mathrm{s}}} \log \left(D_{\theta_d}\left(G_\theta\left(\boldsymbol{x}_i^{\mathrm{s}}\right)\right)\right)+ \\ \frac{1}{n_{\mathrm{t}}} \sum\limits_{j=1}^{n_{\mathrm{t}}} \log \left(1-D_{\theta_d}\left(G_\theta\left(\boldsymbol{x}_j^{\mathrm{t}}\right)\right)\right) \end{gathered} $ (2)

式中, $n_{\mathrm{t}}$是目标域样本数量, 生成对抗的目标是欺骗域判别器$D$来对齐域分布, $\theta_d$为域判别器$D$的参数。在模型训练阶段中, 训练域判别器$D$使$L_d$最大化, 同时联合训练特征提取器$G$和样本分类器$C$使$L_c$$L_d$最小化, 两损失通过梯度反转层连接, 实现端到端的训练。

综上,生成对抗思想的引入为域自适应带来了一定程度的性能提升,可以对齐源域和目标域的特征空间分布,从而实现域不变特征的提取。

2.3 对抗域自适应的元优化

在无监督域自适应任务中,生成对抗策略的引入促进了域特征空间的对齐,显著提升了模型对于无标记目标域数据的泛化性。然而域对齐的目标是减小源域特征空间与目标域特征空间的差异,并不是为目标域样本的分类任务设计,其梯度下降方向与分类任务本身存在不一致性。进一步地,目前主流对抗域自适应方法一般采用将两类损失叠加的方式($L_d+L_c $),这会导致域对齐任务和样本分类任务缺乏有效交互。然而两个任务的优化本身可能存在梯度下降方向的不同,使得域对齐削弱所需要的目标样本分类性能。

基于上述背景,考虑采用元优化的策略缓解域对齐任务和样本分类任务的优化不一致问题。元优化是一种多段学习的方式,先通过其他的任务训练出一个较好的超参数,然后再对特定任务进行训练。对抗域自适应的元优化思路来自用于深度网络快速适应的模型未知元学习(Finn等,2017),后者将训练样本划分为元训练样本和元测试样本,首先使用元训练样本来训练模型,以便在基于元训练知识的元测试中快速学习。基于2.2节所述的对抗域自适应方法,对同一组源域和目标域级联的输入数据进行处理,将域对齐任务设置为元训练任务,源域有标记样本的分类设置为元测试任务,使用元测试对于经过元训练的模型进行性能测试和再优化。

为证实采用的元优化策略的有效性, 进行下列推导。在$2.2$节介绍的多层对抗域判别网络中, 域对齐损失与样本分类损失联合优化, 可学习的网络参数由共享的特征提取器参数$\theta$、域对齐参数$\theta_d$和分类器参数$\theta_c$共同组成。其优化方式为

$ \min\limits _{\theta, \theta_c} \max\limits _{\theta_d} L_d\left(G_\theta, D_{\theta_d}\right)+L_c\left(G_\theta, C_{\theta_c}\right) $ (3)

该优化方式并没有解决两分支的优化方向不一致的问题。因此网络自然地将元学习的策略应用于两任务的优化,首先将相同数据样本的域对齐设置为元训练任务训练模型,再使用元测试任务(分类)来评估元训练任务优化效果,该设置的总体元优化损失为

$ \begin{gathered} \min _{\theta, \theta_c} \max _{\theta_d} L_d\left(G_\theta, D_{\theta_d}\right)+ \\ L_c\left(\theta-\alpha \nabla_\theta L_d\left(G_\theta, D_{\theta_d}\right), C_{\theta_c}\right) \end{gathered} $ (4)

式中, $\alpha$表示元学习率, 式(4) 第2项通过一个梯度下降步骤更新共享的特征提取器参数$\theta, \nabla$为梯度算子。元测试任务损失$L_c$使用更新后的参数$\theta^{\prime}$继续训练整体模型。继续采用一阶泰勒展开公式第2项, 可以优化为

$ \begin{gathered} \min _{\theta, \theta_c} \max _{\theta_d} L_d\left(G_\theta, D_{\theta_d}\right)+L_c\left(G_\theta, C_{\theta_c}\right)- \\ \alpha \nabla_\theta L_c\left(G_\theta, C_{\theta_c}\right) \nabla_\theta L_d\left(G_\theta, D_{\theta_d}\right) \end{gathered} $ (5)

对式(5)与式(3)进行比较可以看出,增加的最后一项通过最大化$ \nabla_\theta L_c \text {和} \nabla_\theta L_d$的点积,促进了两个任务中优化方向(梯度)的一致性。综上,元优化策略对于域自适应是很有意义的,加强了域对齐和对象分类的显式交互,二者以协调的方式进行优化。

此外,在特征提取器与域判别器的对抗过程中,仅将特征提取网络中末端层的级联输出嵌入对抗网络进行判别,不符合图像特征从一般过渡到特殊的性质,因此分别在特征提取器$G $的深层提取多个不同尺度的特征图进行处理,不同大小的特征图代表不同的语义信息(ResNet50的卷积块的每个输出作为特征图)。需要注意的是,特征图在分别进入域判别器之前需要经过一个自注意力模块,可以突出前景区域的表达。整体的优化目标为

$ \begin{gathered} \min _{\theta, \theta_c} \max _{\theta_d} L_d\left(G_\theta, D_{\theta_d}\right)+ \\ L_c\left(\left\{\theta_m-\alpha \nabla_{\theta_m} L_d\left(G_\theta, D_{\theta_d}\right)\right\}_{m=1}^3, C_{\theta_c}\right) \end{gathered} $ (6)

式中,$ \theta_m$表示不同尺度特征层参数,$m$∈{1, 2, 3},构造了一个包含不同尺度特征的3层对抗结构来进一步改善域融合效果。

2.4 自注意力模块

医学图像结节区域的外观几何信息是医生诊断的重要依据。以甲状腺超声图像为例,边缘、回声和钙化点等因素是判断甲状腺结节良恶性的重要参考指标。然而目前使用的超声仪器多为2维超声仪器,展现的影像均为抽象的2维图像,结节组织与背景区域的特征分布(如对比度)差异较小,因此前景区域特征提取较为困难。在域自适应中,病变组织的几何语义信息的传递具有极大的挑战性。

为克服以上挑战,本文引入了自注意力模块(Wang等,2018),增强了病变组织区域全局几何特征。具体而言,非局部操作通过特征矩阵乘法操作计算图中任意两个像素点之间的相关性,获得注意力矩阵,降维特征图与权重注意力图的融合进一步强化了长距离依赖的特征,起到获取病变组织区域全局几何特征的作用。

图 3所示, 自注意力模块给定一个局部特征图$\boldsymbol{H} \in {\bf{R}}^{C \times W \times H}$作为网络输人, 经过卷积操作降维获取到特征矩阵$\boldsymbol{Q}, \boldsymbol{K} \in {\bf{R}}^{C^{\prime} \times W \times H}$, 对于$\boldsymbol{Q}$的每一个像素点位置均可以得到特征向量$\boldsymbol{Q}_u \in {\bf{R}}^{C^{\prime}}$, 同时在$\boldsymbol{K}$中获取向量集$\mathit{\pmb{\Omega}}_u \in {\bf{R}}^{C^{\prime} \times W \times H}$, 通过亲和性(affinity) 计算, 得到$\boldsymbol{Q}_u$$\mathit{\pmb{\Omega}}_{i, u}$间任意两向量之间的相关性$\boldsymbol{d}_{i, u}$, 经过softmax归一化得出注意力矩阵$\boldsymbol{A} \in {\bf{R}}^{W \times H \times W} $。亲和性计算方法为

图 3 用于提取甲状腺结节特征的自注意力模块结构
Fig. 3 Self attention module structure for extracting features of thyroid nodules

$ \boldsymbol{d}_{i, u}=\boldsymbol{Q}_u \otimes \mathit{\pmb{\Omega}}_{i, u} $ (7)

式中,$ \otimes$表示像素乘积。

将计算所得的注意力矩阵$\boldsymbol{A}$作为权重应用于特征向量$\boldsymbol{V} \in {\bf{R}}^{C \times W \times H}$。同上所述, $\boldsymbol{V}$的每个位置$u$可以获得向量集合$\mathit{\pmb{\Phi}}_u \in {\bf{R}}^{C \times W \times H}$, 与生成的注意力矩阵做聚合(aggregation) 操作, 通过残差结构与原输人特征进行融合。聚合计算方法为

$ \boldsymbol{H}_u^{\prime}=\sum\limits_{i \in\left|\mathit{\pmb{\Phi}}_u\right|} \boldsymbol{A}_{i, u} \otimes \mathit{\pmb{\Phi}}_u+\boldsymbol{H}_u $ (8)

式中, $\boldsymbol{H}_u$是自注意力模块的输人特征, $\boldsymbol{H}_u^{\prime}$是经过计算后的输出特征。综上, 通过自注意力模块提取全局几何语义信息, 模型成功地增强了对于甲状腺超声影像结节区域特征提取的效果。

3 实验和分析

3.1 实验数据

实验使用多机型甲状腺超声影像数据集验证提出的网络模型及训练策略的有效性。自制医学数据集来自天津医科大学肿瘤研究院收集的6 849幅甲状腺超声影像,影像的采集和使用均受到合作医院和患者知情同意。影像来自各年龄段患者,每幅影像都包含至少1个结节。根据超声仪器的类型和设置,将甲状腺超声影像按视觉风格分为4种不同的数据域:$P $, $T $, $F $, $U $

1) $P $机型。该类影像是Philips机型1超声仪器拍摄的甲状腺部位的灰度影像,其中带有结节部位十字标识和结节部位的横纵切表示,亮度值较高,前景背景对比度差异较大。

2) $T $机型。该类影像是Toshiba机型超声仪器拍摄的甲状腺部位的灰度影像,带有横纵虚线的结节位置标识,亮度值较小且对比度较低,图像颜色偏向深绿。

3) $F $机型。该类影像是GE(general electric)机型超声仪器拍摄的甲状腺部位的灰度影像,带有黄色结节位置的十字标记,但图像分辨率较低。

4) $U $机型。该类影像是Philips机型2超声仪器拍摄的甲状腺部位的灰度影像,相较于$P $机型影像,$U $机型影像分辨率较高,前景和背景区域的区分度更高。

上述4种机型的全部影像均由甲状腺科室专业医师依据病理报告(手术)进行标注,以确保数据的真实性和可信性。由于医学影像的特殊性,数据集的公开需要一段时间。多机型甲状腺超声数据集具体数量分布如表 1所示。

表 1 医学甲状腺超声数据集的构成
Table 1 Constitution of the medical thyroid ultrasound dataset

下载CSV
数据域 良性/幅 恶性/幅 域样本量/幅
$P $ 1 995 2 000 3 995
$T $ 585 585 1 170
$U $ 764 764 1 528
$F $ 101 55 156
类别样本量 3 445 3 404 6 849

3.2 实验环境和参数设置

实验硬件环境为Intel Core i7-7700k处理器与单块NVIDIA TITAN RTX图形显卡。操作系统使用Linux Ubuntu,深度学习框架选用Pytorch 1.1,开发语言版本是python3.7。

在训练过程中,模型使用全部源域中带标签的源域图像和全部目标域无标签图像进行完全无监督迭代训练,设置模型学习率为0.001,动量为0.9,批数量为32,训练迭代轮数为50 000,测试过程对于全部目标域图像进行分类验证,批处理数量设置为4。所有图像都经过预处理,图像均调整为224 × 224像素。针对甲状腺超声数据集,在模型训练前对输入图像进行上、下、左、右、左上、右上、左下、右下和中心共9个方位的裁剪,以及随机图像旋转和翻转进行数据扩充,确保每幅输入图像的结节组织区域的语义表达。

3.3 实验结果对比及分析

3.3.1 模型性能对比

为展现所提出方法对于医学领域自适应任务的性能,实验在甲状腺超声数据集上与各种主流的无监督自适应方法进行对比。为进行公平比较,均使用ResNet50作为骨干网络,在训练过程中对目标域数据采取完全无监督的设置,即训练过程不使用目标域的良恶性监督信息。实验设置了基于4个域上9个方向的域自适应:$P $$T $, $P $$U $, $P $$F $, $T $$P $, $T $$U $, $T $$F $, $U $$P $, $U $$T $$U $$F $。由于$F $数据集的超声影像数量较少,实验没有设置$F $数据集作为源域的迁移任务,缺少约束的模型可能会对训练数据过拟合。

表 2显示了多机型甲状腺超声数据集的元优化多级对抗域自适应与其他主流方法的实验对比结果。

表 2 医学甲状腺超声数据集上目标域的分类准确率
Table 2 Classification accuracy values of target domain on the medical thyroid ultrasound dataset 

下载CSV
/ %
算法 $P $$T $ $P $$U $ P →F $T $$P $ T →U $T $$F $ $U $$P $ $U $$T $ $U $$F $ 平均值
ResNet50(仅源域) 65.128 78.469 69.231 67.159 70.924 49.359 75.995 67.521 83.333 69.680
DAN(Long等,2015) 79.658 88.481 83.333 70.638 72.971 71.153 81.076 71.282 84.615 78.134
RevGrad(Ganin和Lempitsky,2015) 81.197 87.434 86.538 68.185 72.055 73.076 80.401 70.427 82.692 78.001
D-CORAL(Sun和Saenko,2016) 80.598 88.219 82.692 69.862 71.157 73.076 78.798 70.512 85.256 77.797
DANN(Ganin等,2016) 87.436 85.668 88.462 79.975 79.188 85.897 84.406 75.812 87.179 83.780
CDAN(Long等,2018) 88.547 87.500 90.385 82.854 83.966 86.538 85.707 74.017 90.380 85.554
MRAN(Zhu等,2019) 85.982 91.557 87.179 80.976 81.086 81.410 86.983 75.726 84.615 83.946
MSDAN(Ying等,2020) 91.667 94.241 94.231 89.237 88.154 89.744 87.409 84.274 91.667 90.069
MADAN 89.573 93.848 94.231 89.186 87.220 91.615 91.589 83.624 90.386 90.141
MADAN (with meta-optimized) 90.865 94.503 96.154 91.790 87.827 93.590 92.490 83.564 95.513 91.810
注:加粗字体表示各列最优结果, meta-optimized为元优化。

根据实验结果可以看出,1)基于差异的域自适应方法与基于对抗的域自适应方法(如DANN)相比较差,甚至远低于所提方法的准确度,说明在医学影像的域自适应学习中,基于对抗的方法相较基于差异的方法是更加适用的。2)ResNet50方法表示未经过对抗域自适应的特征提取器和分类器的分支,通过对比可以看出对抗域自适应方法在处理分析不同源数据方面的优势。值得注意的是,提出的MADAN的表现优于其他算法,与未经过域自适应的网络ResNet50相比,全部迁移任务的平均准确率从69.680 % 提高至90.141 %,与DANN方法对比也有一定提升。3)MADAN(with meta-optimized)实验结果表明,引入元优化策略后平均分类精度提升约1.67 %,协调对齐和分类进行优化对模型整体泛化性有显著性增强。上述结果意味着所提方法提高了人工智能辅助诊断的准确性和泛化性。

为进一步证明元优化多级对抗域适应网络对多机型甲状腺超声数据集多域迁移的性能,实验设置了单域向多域的域自适应任务,分别将$P $$T $$U $ 3种数据域设置为源域,其他数据域联合作为目标域。如表 3所示,所提出的网络模型在单域到多域的迁移任务中取得了较优性能,相较于基础网络DANN,平均准确率提升了约2.49 %,元优化训练策略也带来一定性能增益,综合说明该模型对于单域到多域的迁移任务同样有效。但相较于单域到单域的迁移任务性能略差,这是由于本研究主要对于两域迁移进行模型优化,并未添加多域特征空间对齐的约束。

表 3 甲状腺超声数据集上混合目标域的分类准确率
Table 3 Classification accuracy values of mixed target domain on the medical thyroid ultrasound dataset 

下载CSV
/ %
算法 PT/U/F TP/U/F UP/T/F 平均值
ResNet50(仅源域) 65.312 65.067 66.783 65.720
DANN(Ganin等,2016) 85.179 86.650 88.753 86.861
MADAN 86.685 88.718 89.559 88.321
MADAN(with meta-optimized) 87.596 90.049 90.399 89.348
注:加粗字体表示各列最优结果。

3.3.2 消融实验

消融研究可以评估基于无监督对抗域自适应引入模块带来的益处,本文分别基于特征提取模块、多级对抗结构和自注意力模块进行消融实验。首先对特征提取网络的选取进行两组对比实验,分别以目标域数据集的分类精度和损失作为评价标准,在$P $$T $的域自适应任务中对比不同基线模型的特征提取器的应用效果。模型分别选取ResNet18、ResNet34、ResNet50、ResNet101和ResNet152作为特征提取器的编码分支。如图 4所示,在模型训练过程中,浅层深度卷积网络在训练初期对于目标域数据的拟合情况较差,且分类损失与对抗损失整体收敛速度较慢,层数较多的深度卷积网络相对而言收敛较快。从测试阶段目标域数据的分类精度来看,ResNet50表现出明显高于其他深度卷积网络的分类准确率。基于对甲状腺超声数据集的拟合程度、内存开销和测试精度等多方面因素的综合考虑,模型选取ResNet50作为所提域自适应方法的特征提取模块。

图 4 $P $$T $任务训练损失变化趋势图与精度变化趋势图
Fig. 4 $P $$T $ task training loss change trend graph and accuracy change trend graph
((a) loss change trend graph; (b) accuracy change trend graph)

实验采用DANN方法作为消融研究的基线网络。基于医学甲状腺超声数据集,将$P $数据集作为源域训练数据,其他数据集分别作为目标域训练数据进行域自适应任务,模型在目标域的迁移准确率作为判断依据。

表 4所示,基线方法融合多级对抗判别器DANN (with MA)后的精度优于基线方法,表明多级对抗框架能够捕捉并融合多尺度的粗细粒度的特征。基线方法融合自注意力模块DANN (with SA)后的精度优于基线方法,表明对全局几何特征提取进行优化有益于病变组织语义信息学习。与ResNet50相比,多级对抗域自适应网络(MADAN)的整体平均精度提升了21.60 %。综上所述,在基于$P $机型作为源域数据的3个迁移任务中,所提出的每个模块对域自适应过程都有积极影响。

表 4 不同算法在消融实验的分类结果和提升
Table 4 Classification results and improvements of different algorithms in ablation experiment 

下载CSV
/ %
算法 DA MA SA PT/U/F Δ
ResNet50 - - - 70.951 -
DANN - - 87.189 +16.238
DANN (with MA) - 91.235 +20.284
DANN (with SA) - 89.573 +18.622
MADAN 92.551 +21.600
注:加粗字体表示各列最优结果,Δ为相较于基线方法ResNet的精度提升,DA为域自适应,MA为多级对抗(multi-adversarial), SA为自注意力(self-attention)。-表示未采用,√表示采用。

表 5所示,元优化策略的引入和多判别器结构带来较低GPU内存成本与一定性能增益。分别使用ResNet50、DANN与元优化多级对抗域自适应网络作为基线网络,图像的批处理大小设置为32,输出的深度特征维度设置为256。与ResNet50相比,多级对抗域自适应结构和自注意力模块带来20.461 % 的目标域平均分类精度提升。元优化对于多级对抗域自适应的性能增强也是显著的,在提升准确率的同时,仅增加了0.3 GB的GPU内存开销,表明元优化策略为模型训练带来的时空开销较低。

表 5 甲状腺超声影像识别的GPU内存开销和准确性对比
Table 5 Comparison of GPU memory and accuracy for thyroid ultrasound image recognition

下载CSV
算法 MA SA meta-optimized GPU/GB 准确率平均值/% Δ/%
ResNet50 - - - 6.8 69.680 -
MADAN - 8.4 90.141 +20.461
MADAN (with meta-optimized) 8.7 91.810 +22.130
注:加粗字体表示各列最优结果,-表示未采用,√表示采用。

3.3.3 自注意力模块的有效性

为验证自注意力模块对于病变组织全局几何特征提取的有效性,实验对超声影像分阶段进行热力图的可视化展示,对比结果如图 5所示。

图 5 自注意力模块优化的可视化
Fig. 5 Visualization of self attention module optimization
((a) original input images; (b) before adding attention module; (c) after adding attention module)

通过加入自注意力模块前后的可视化结果对比,可以看出基线网络DANN的热力图只有效激活了结节的中心位置,没有完整关注超声影像中的结节区域。而加入自注意力模块后,激活区域有效扩展到结节组织的全局几何区域,域不变特征提取的效果更为明显,对甲状腺结节良恶性的判定具有积极作用。

3.3.4 特征可视化

为更清晰地表示所提方法的性能,通过t-SNE可视化$P $$T $任务的特征表达,结果如图 6所示。

图 6 特征的t-SNE可视化
Fig. 6 The t-SNE visualization of features
((a) without DA; (b) MADAN; (c) MADAN + meta-optimized)

图 6(a)所示,在经过域自适应之前,源域数据分布与目标域数据分布存在一定偏差,表明源域特征空间与目标域特征空间存在域偏移。

图 6(b)可以看出,经过多级对抗域自适应模型后的数据样本特征空间已初步融合,同类别样本点基本聚合。

图 6(c)表明,经过元优化策略改进的多级对抗域自适应方法可以得到更好的融合结果,其中同一类别样本集群更紧凑,分散在集群之间的边界上的离群点更少。

综上,对抗域自适应方法对于数据分布存在差异的域融合具有一定作用,可视化结果进一步验证了元优化对于样本逐类别融合的有效性。

4 结论

针对计算机辅助诊断模型对多机型超声影像处理性能不佳的问题,本文提出一种多级对抗域自适应网络来提升模型泛化性。根据甲状腺超声影像特征提取困难的特性,采用自注意力机制增强病变组织区域全局几何特征。此外,对抗域自适应方法中域对齐任务和分类任务本身之间的优化不一致性是另一个研究重点,本文采用元优化的策略使二者协调交互优化。实验结果表明,提出的元优化多级对抗域自适应方法在多机型医学甲状腺超声数据集的迁移任务中取得了优异的性能,在无监督设置下取得了较好的分类结果,具有一定的医疗诊断落地的应用价值与意义。

但是,所提模型仍有待改进。从模型域自适应范围的角度,提出的无监督域自适应方法在训练过程中主要针对所属两种域的数据进行特征空间对齐。从可用数据标记的角度,所提方法是基于源域带有标签的完备数据和目标域不带标签的数据进行实验,而在实际情况下大规模有标记医疗超声数据集是难以获取和使用的。综上,提升模型多域数据源的图像处理能力和减少源域类别标记的需求是后续的优化方向和目标。

参考文献

  • Andrychowicz M, Denil M, Colmenarejo S G, Hoffman M W, Pfau D, Schaul T, Shillingford B and de Freitas N. 2016. Learning to learn by gradient descent by gradient descent//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc. : 3988-3996
  • Chi J N, Yu X S, Zhang Y F. 2018. Thyroid nodule malignantrisk detection in ultrasound image by fusing deep and texture features. Journal of Image and Graphics, 23(10): 1582-1593 (迟剑宁, 于晓升, 张艺菲. 2018. 融合深度网络和浅层纹理特征的甲状腺结节癌变超声图像诊断. 中国图象图形学报, 23(10): 1582-1593) [DOI:10.11834/jig.180232]
  • Dong N Q, Kampffmeyer M, Liang X D, Wang Z Y, Dai W and Xing E. 2018. Unsupervised domain adaptation for automatic estimation of cardiothoracic ratio//Proceedings of the 21st International Conference on Medical Image Computing and Computer Assisted Intervention. Granada, Spain: Springer: 544-552 [DOI: 10.1007/978-3-030-00934-2_61]
  • Finn C, Abbeel P and Levine S. 2017. Model-agnostic meta-learning for fast adaptation of deep networks//Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia: PMLR: 1126-1135
  • Ganin Y and Lempitsky V. 2015. Unsupervised domain adaptation by backpropagation//Proceedings of the 32nd International Conference on Machine Learning. Lille, France: JMLR: 1180-1189
  • Ganin Y, Ustinova E, Ajakan H, Germain P, Larochelle H, Laviolette F, Marchand M, Lempitsky V S. 2016. Domain-adversarial training of neural networks. Journal of Machine Learning Research, 17(59): 1-35 [DOI:10.1007/978-3-319-58347-1_10]
  • Gong R L, Shi J, Zhou W J, Wang C. 2022. Two-stage deep transfer learning for human breast ultrasound computer-aided diagnosis. Journal of Image and Graphics, 27(3): 898-910 (贡荣麟, 施俊, 周玮珺, 汪程. 2022. 面向乳腺超声计算机辅助诊断的两阶段深度迁移学习. 中国图象图形学报, 27(3): 898-910) [DOI:10.11834/jig.210674]
  • Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A C and Bengio Y. 2014. Generative adversarial nets//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press: 2672-2680
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778 [DOI: 10.1109/CVPR.2016.90]
  • Li D and Hospedales T M. 2020. Online meta-learning for multi-source and semi-supervised domain adaptation//Proceedings of the 16th European Conference on Computer Vision. Glasgow, UK: Springer: 382-403 [DOI: 10.1007/978-3-030-58517-4_23]
  • Long M S, Cao Y, Wang J M and Jordan M I. 2015. Learning transferable features with deep adaptation networks//Proceedings of the 32nd International Conference on Machine Learning. Lille, France: JMLP: 97-105 [ DOI:10.48550/arXiv.1502.02791]
  • Long M S, Cao Z J, Wang J M and Jordan M I. 2018. Conditional Adversarial Domain Adaptation//Proceedings of the 31st International Conference on Neural Information Processing Systems. Montreal, Canada. : Curran Associates Inc. : 1647-1657. [DOI: 10.48550/arXiv.1705.10667]
  • Ma J L, Wu F, Jiang T A, Zhu J, Kong D X. 2017. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics, 44(5): 1678-1691 [DOI:10.1002/mp.12134]
  • Pacheco C and Vidal R. 2019. An unsupervised domain adaptation approach to classification of stem cell-derived cardiomyocytes//Proceedings of the 22nd International Conference on Medical Image Computing and Computer Assisted Intervention. Shenzhen, China: Springer: 806-814 [DOI: 10.1007/978-3-030-32239-7_89]
  • Pan S J, Yang Q. 2010. A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 22(10): 1345-1359 [DOI:10.1109/TKDE.2009.191]
  • Pei Z Y, Cao Z J, Long M S and Wang J M. 2018. Multi-adversarial domain adaptation//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI Press: 3934-3941 [DOI: 10.1609/aaai.v32i1.11767]
  • Saenko K, Kulis B, Fritz M and Darrell T. 2010. Adapting visual category models to new domains//Proceedings of the 11th European Conference on Computer Vision. Heraklion, Greece: Springer: 213-226 [DOI: 10.1007/978-3-642-15561-1_16]
  • Song R N, Zhu C, Zhang L, Zhang T, Luo Y H, Liu J, Yang J. 2022. Dual-branch network via pseudo-label training for thyroid nodule detection in ultrasound image. Applied Intelligence, 52(10): 11738-11754 [DOI:10.1007/s10489-021-02967-2]
  • Sun B C and Saenko K. 2016. Deep CORAL: correlation alignment for deep domain adaptation//Proceedings of 2016 European Conference on Computer Vision. Amsterdam, the Netherlands: Springer: 443-450 [DOI: 10.1007/978-3-319-49409-8_35]
  • Sun C, Zhang Y K, Chang Q, Liu T J, Zhang S H, Wang X, Guo Q Q, Yao J P, Sun W D, Niu L J. 2020. Evaluation of a deep learning-based computer-aided diagnosis system for distinguishing benign from malignant thyroid nodules in ultrasound images. Medical Physics, 47(9): 3952-3960 [DOI:10.1002/mp.14301]
  • Tessler F N, Middleton W D, Grant E G, Hoang J K, Berland L L, Teefey S A, Cronan J J, Beland M D, Desser T S, Frates M C, Hammers L W, Hamper U M, Langer J E, Reading C C, Scoutt L M, Stavros A T. 2017. ACR thyroid imaging, reporting and data system (TI-RADS): white paper of the ACR TI-RADS committee. Journal of the American College of Radiology, 14(5): 587-595 [DOI:10.1016/j.jacr.2017.01.046]
  • Tzeng E, Hoffman J, Saenko K and Darrell T. 2017. Adversarial discriminative domain adaptation//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 2962-2971 [DOI: 10.1109/CVPR.2017.316]
  • Tzeng E, Hoffman J, Zhang N, Saenko E and Darrell T. 2014. Deep domain confusion: maximizing for domain invariance [EB/OL]. [2022-05-08]. https://arxiv.org/pdf/1412.3474.pdf
  • Vinyals O, Blundell C, Lillicrap T, Kavukcuoglu K and Wierstra D. 2016. Matching networks for one shot learning//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc. : 3637-3645
  • Wang S J, Yu L Q, Li K, Yang X, Fu C W and Heng P A. 2019. Boundary and entropy-driven adversarial learning for fundus image segmentation//Proceedings of the 22nd International Conference on Medical Image Computing and Computer Assisted Intervention. Shenzhen, China: Springer: 102-110 [DOI: 10.1007/978-3-030-32239-7_12]
  • Wang X L, Girshick R, Gupta A and He K M. 2018. Non-local neural networks//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 7794-7803 [DOI: 10.1109/CVPR.2018.00813]
  • Xu M H, Zhang J, Ni B B, Li T, Wang C J, Tian Q, Zhang W J. 2020. Adversarial domain adaptation with domain mixup. Proceedings of 2020 AAAI Conference on Artificial Intelligence, 34(4): 6502-6509 [DOI:10.1609/aaai.v34i04.6123]
  • Ying X, Zhang Y L, Wei X, Yu M, Zhu J L, Gao J, Liu Z Q, Li X W and Yu R G. 2020. MSDAN: multi-scale self-attention unsupervised domain adaptation network for thyroid ultrasound images//Proceedings of 2020 IEEE International Conference on Bioinformatics and Biomedicine. Seoul, Korea (South): IEEE: 871-876 [DOI: 10.1109/BIBM49941.2020.9313202]
  • Yu M, Han M, Li X W, Wei X, Jiang H, Chen H L, Yu R G. 2022. Adaptive soft erasure with edge self-attention for weakly supervised semantic segmentation: thyroid ultrasound image case study. Computers in Biology and Medicine, 144: #105347 [DOI:10.1016/j.compbiomed.2022.105347]
  • Yu X, Wang H J, Ma L Y. 2020. Detection of thyroid nodules with ultrasound images based on deep learning. Current Medical Imaging, 16(2): 174-180 [DOI:10.2174/1573405615666191023104751]
  • Zhang Y L, Hu Y, Higashita R, Liu J. 2022. A review of generative adversarial networks and the application in medical image. Journal of Image and Graphics, 27(3): 687-703 (张颖麟, 胡衍, 东田理沙, 刘江. 2022. 生成对抗式网络及其医学影像应用研究综述. 中国图象图形学报, 27(3): 687-703) [DOI:10.11834/jig.210247]
  • Zhao J, Zhou X S, Shi G H, Xiao N, Song K, Zhao J J, Hao R, Li K Q. 2022. Semantic consistency generative adversarial network for cross-modality domain adaptation in ultrasound thyroid nodule classification. Applied Intelligence, 52(9): 10369-10383 [DOI:10.1007/s10489-021-03025-7]
  • Zhu Y C, Zhuang F Z, Wang J D, Chen J W, Shi Z P, Wu W J, He Q. 2019. Multi-representation adaptation network for cross-domain image classification. Neural Networks, 119: 214-221 [DOI:10.1016/j.neunet.2019.07.010]