Print

发布时间: 2022-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.211066
2022 | Volume 27 | Number 12




    医学图像处理    




  <<上一篇 




  下一篇>> 





改进U-Net3+与跨模态注意力块的医学图像融合
expand article info 王丽芳, 米嘉, 秦品乐, 蔺素珍, 高媛, 刘阳
中北大学大数据学院山西省生物医学成像与影像大数据重点实验室, 太原 030051

摘要

目的 针对目前多模态医学图像融合方法深层特征提取能力不足,部分模态特征被忽略的问题,提出了基于U-Net3+与跨模态注意力块的双鉴别器生成对抗网络医学图像融合算法(U-Net3+ and cross-modal attention block dual-discriminator generative adversal network,UC-DDGAN)。方法 结合U-Net3+可用很少的参数提取深层特征、跨模态注意力块可提取两模态特征的特点,构建UC-DDGAN网络框架。UC-DDGAN包含一个生成器和两个鉴别器,生成器包括特征提取和特征融合。特征提取部分将跨模态注意力块嵌入到U-Net3+下采样提取图像深层特征的路径上,提取跨模态特征与提取深层特征交替进行,得到各层复合特征图,将其进行通道叠加、降维后上采样,输出包含两模态全尺度深层特征的特征图。特征融合部分通过将特征图在通道上进行拼接得到融合图像。双鉴别器分别对不同分布的源图像进行针对性鉴别。损失函数引入梯度损失,将其与像素损失加权优化生成器。结果 将UC-DDGAN与5种经典的图像融合方法在美国哈佛医学院公开的脑部疾病图像数据集上进行实验对比,其融合图像在空间频率(spatial frequency, SF)、结构相似性(structural similarity, SSIM)、边缘信息传递因子(degree of edge information, $ {\rm{Q}}^{{\rm{A B / F}}}$)、相关系数(correlation coefficient, CC)和差异相关性(the sum of the correlations of differences, SCD)等指标上均有提高,SF较DDcGAN(dual discriminator generation adversative network)提高了5.87%,SSIM较FusionGAN(fusion generative adversarial network)提高了8%,$ {\rm{Q}}^{{\rm{A B / F}}}$较FusionGAN提高了12.66%,CC较DDcGAN提高了14.47%,SCD较DDcGAN提高了14.48%。结论 UC-DDGAN生成的融合图像具有丰富深层特征和两模态关键特征,其主观视觉效果和客观评价指标均优于对比方法,为临床诊断提供了帮助。

关键词

U-Net3+; 跨模态注意力块; 双鉴别器生成对抗网络; 梯度损失; 多模态医学图像融合

Medical image fusion using improved U-Net3+ and cross-modal attention blocks
expand article info Wang Lifang, Mi Jia, Qin Pinle, Lin Suzhen, Gao Yuan, Liu Yang
Shanxi Provincial Key Laboratory of Biomedical Imaging and Imaging Big Data, College of Big Data, North University of China, Taiyuan 030051, China

Abstract

Objective Multi-modal medical image fusion tends to get more detailed features beyond single modal defection. The deep features of lesions are essential for clinical diagnosis. However, current multi-modal medical image fusion methods are challenged to capture the deep features. The integrity of fusion image is affected when extracting features from a single modal only. In recent years, deep learning technique is developed in image processing, and generative adversarial network (GAN), as an important branch of deep learning, has been widely used in image fusion. GAN not only reduces information loss but also highlights key features through information confrontation between different original images. The deep feature extraction ability of current multi-modal medical image fusion methods is insufficient and some modal features are ignored. We develop a medical image fusion method based on the improved U-Net3+ and cross-modal attention blocks in combination with dual discriminator generation adversative network (UC-DDGAN). Method The UC-DDGAN image fusion modal is mainly composed of full scale connected U-Net3+ network structure and two modal features integrated cross-modal attention blocks. The U-Net3+ network can extract deep features, and the cross-modal attention blocks can extract different modal features in terms of the correlation between images. Computed tomography (CT) and magnetic resonance (MR) can be fused through the trained UC-DDGAN, which has a generator and two discriminators. The generator is used to extract the deep features of image and generate fusion image. The generator includes two parts of feature extraction and feature fusion. In the feature extraction part, the encoding and decoding of coordinated U-Net3+ network complete feature extraction. In the coding stage, the input image is down-sampled four times to extract features, and cross-modal attention blocks are added after each down-sampling to obtain two modal composite feature maps. Cross-modal attention block not only calculates self-attention in a single image, but also extends the calculation of attention to two modes. By calculating the relationship between local features and global features of the two modes, the fusion image preserves the overall of image information. In the decoding stage, the decoder receives the feature maps in the context of the same scale encoder and the maximum pooling based smaller scale encoder and the dual up-sampling based large scale encoder. Then, 64 filters with a size of 3×3 are linked to the feature image channels. The synthesized feature maps of each layer are combined and up-sampled. After 1×1 convolution for channel dimension reduction, the feature maps are fused into the image which contains depth features on the full scale of the two modes. In the feature fusion part, to obtain the fusion image with deep details and the key features of the two modes, the two feature maps are synthesized and concatenated via the concat layer, and five convolution modules for channel dimension reduction layer by layer. The discriminator is focused on leveraging original image from fusion image via the distribution of different samples. To identify the credibility of the input images, the characteristics of different modal images are integrated with different distribution. In addition, gradient loss is melted into the loss function calculation, and the weighted sum of gradient loss and pixel loss are as the loss function to optimize the generator. Result To validate the quality of fusion image, UC-DDGAN is compared to five popular multi-modal image fusion methods, including Laplasian pyramid(LAP), pulse-coupled neural network(PCNN), convolutional neural network(CNN), fusion generative adversarial network(FusionGAN) and dual discriminator generative adversarial network(DDcGAN). The edges of fusion results obtained by LAP are fuzzy in qualitative, which are challenged to observe the contour of the lesion. The brightness of fusion results obtained by PCNN is too low. The CNN-based fusion results are lack of deep details, and the internal details cannot be observed. The fusion results obtained by using FusionGAN pay too much attention to MR modal images and lose the bone information of CT images. The edges of fusion results obtained by DDcGAN are not smooth enough. 1)The fusion results of cerebral infarction disease obtained by UC-DDGAN can show clear brain gullies, 2)the fusion results of cerebral apoplexy disease can clarify color features, 3)the fusion results of cerebral tumor disease show brain medulla and bone information are fully reserved, and 4)the fusion results of cerebrovascular disease contain deep-based information of brain lobes. To evaluate the performance of UC-DDGAN, quantitative results are based on the selected thirty typical image pairs and five classical methods. The fusion image generated by UC-DDGAN is improved on spatial frequency (SF), structural similarity (SSIM), edge information transfer factor ($ {\rm{Q}}^{{\rm{A B / F}}}$), correlation coefficient (CC), and the sum of the correlations of differences (SCD). 1)SF is improved by 5.87% in contrastive to DDcGAN, 2)SSIM is improved by 8% compared to FusionGAN, 3)$ {\rm{Q}}^{{\rm{A B / F}}}$ is improved by 12.66%, CC is improved by 14.47% and 4)SCD is improved by 14.48% in comparison with DDcGAN, respectively. Conclusion A dual discriminator generation adversative network based (UC-DDGAN-based) medical image fusion method is developed based on the improved U-Net3+ and cross-modal attention blocks. The fusion image generated by UC-DDGAN is linked to richer deep features and key features of two modes.

Key words

U-Net3+; cross-modal attention block; dual discriminator generation adversative network; gradient loss; multimodal medical image fusion

0 引言

随着现代医学成像技术的发展,出现了不同模态的成像方式,单一模态的医学图像对于细节的表征具有局限性。针对单模态图像的局限性,临床上将多种模态的医学图像进行融合,可以在保留原始图像特征的同时(Gai等,2019),弥补单模态医学图像的缺陷,展示丰富的细节信息(Veshki等,2021),利于医生对疾病准确地诊断和治疗。医学图像中含有大量能反映病灶情况(Nour等,2020)的深层特征和细节信息,然而这些深层特征却难以捕捉,而且从单模态图像提取特征后再融合,容易丢失融合图像信息完整性(蔺素珍和韩泽,2017),因此,利用当前模态和其他模态特征之间的关系来提取融合所需的深层特征(Mbilinyi和Schuldt,2020), 对于多模态医学图像融合来说非常重要。

传统的图像融合方法很难表征融合图像中病变区域的深层特征。例如,基于空间域的融合方法会引起融合图像的光谱和空间失真(Maqsood和Javed,2020); 基于变换域融合方法会使图像具有块效应(Yan等,2021)。深度学习在图像融合领域发展迅速,卷积神经网络(convolutional neural network, CNN)作为其重要分支,具有强大的提取特征能力(Jung等,2020Zhang等,2020bNikolaev等,2021)。Liu等人(2017)利用卷积神经网络对聚焦区域进行分类后,生成多聚焦融合图像。但存在融合图像部分信息丢失的问题。Zhang等人(2020a)为避免信息丢失提出了全卷积神经网络的图像融合框架(image fusion based on convolutional ceural cetwork, IFCNN),引入了级联的边界感知卷积网络,但因其卷积核设置单一,导致了深层特征提取困难。Pan等人(2021)提出密集连接网络结构(DenseNetFuse),编码部分采用残差密集连接的方式连接密集块,但此结构仅能提取单一尺度上的特征。

生成对抗网络(generative adversarial network, GAN)作为深度学习的另一分支,广泛应用于图像融合领域(Kurakin等,2018Liu等,2018Wang等,2021)。Ma等人(2019)提出基于GAN的红外与可见光图像融合框架FusionGAN(fusion generative adversarial network),通过红外热辐射信息和可见光纹理信息之间的博弈,突出了图像关键信息。然而,FusionGAN仅有一个鉴别器,所以融合结果存在过于关注可见光图像信息而红外图像信息部分丢失的问题。Ma等人(2020)为避免融合图像对源图像关注度分配不均,提出了基于双鉴别器的生成对抗网络框架DDcGAN(dual discriminator generation adversative network),利用双鉴别器分别对两幅源图像训练,但其损失函数仅计算了像素损失,不利于充分提取图像的深层特征。Yang等人(2021)提出的GANFuse在DDcGAN的基础上引入梯度损失,将两种损失的加权求和作为损失函数,进一步提升了融合性能。然而,上述方法对于图像深层特征的提取及表征方面依然有所欠缺。

综上,针对目前多模态医学图像融合方法深层特征提取能力不足,部分模态特征被忽略的问题,本文提出了基于改进的U-Net3+与跨模态注意力块的双鉴别器生成对抗网络(U-Net3+ and cross-modal attention block dual-discriminator generative adversal network,UC-DDGAN),其生成器利用5层的U-Net3+实现了全尺度的特征提取,仅用很少的参数提取得到深层特征,提升了深层特征提取能力;跨模态注意力块嵌入到U-Net3+的各层下采样路径上,将深层特征的提取扩展到不同模态之间,保留了各模态丰富的细节信息,有效防止关键信息被忽略。双鉴别器将梯度损失引入到损失函数的计算中,提升了融合性能。训练后,UC-DDGAN可生成包含丰富深层特征的融合图像。

1 相关工作

1.1 U-Net3+

U-Net3+(Huang等,2020)是一种由U-Net(Ronneberger等,2015Qin等,2020)和U-Net++(Zhou等,2018)改进得到的可以有效提取深层特征的网络框架(Xiao等,2021Xiong等,2021),其将特征提取的范围扩展到全尺度,捕获了全尺度下的粗细粒度语义。

1.2 跨模态注意力机制

Song等人(2021)针对双模态图像融合和配准时两模态复合特征提取困难的问题,基于非局部注意力机制(Wang等,2017)提出了跨模态注意力机制。不同于非局部注意力机制只在单一图像上计算自我注意力,跨模态注意力机制将注意力的计算扩展到了两个模态,保留了融合图像信息的完整性,使更多的源图像细节特征得到表征,跨模态注意力(cross-modal attention)机制原理如图 1所示。

图 1 跨模态注意力机制原理
Fig. 1 Principle of cross-modal attention mechanism

跨模态输入特征图$ {\mathit{\boldsymbol{C}}}$经过线性映射函数$ {\mathit{\boldsymbol{\theta }}}(\cdot)$处理得到特征$ {\mathit{\boldsymbol{\theta }}}$($ {\mathit{\boldsymbol{C}}}$),主输入特征图$ {\mathit{\boldsymbol{P }}}$分别经过线性映射$ {\mathit{\boldsymbol{\phi }}}(\cdot)$$ {\mathit{\boldsymbol{g }}}(\cdot)$处理得到特征$ {\mathit{\boldsymbol{\phi }}}$($ {\mathit{\boldsymbol{P }}}$)和$ {\mathit{\boldsymbol{g }}}$($ {\mathit{\boldsymbol{P }}}$);转置后的$ {\mathit{\boldsymbol{\theta }}}$($ {\mathit{\boldsymbol{C}}}$)和$ {\mathit{\boldsymbol{\phi }}}$($ {\mathit{\boldsymbol{P }}}$)进行矩阵点乘,得到两输入的特征相关性矩阵$ {\mathit{\boldsymbol{R}}}$,即$ {\mathit{\boldsymbol{P }}}$局部位置特征与$ {\mathit{\boldsymbol{C}}}$全局位置特征的关系矩阵;对$ {\mathit{\boldsymbol{R}}}$进行归一化操作,得到0~1权重,用做跨模态注意力系数;最后将跨模态注意力系数对应与特征矩阵$ {\mathit{\boldsymbol{g }}}$($ {\mathit{\boldsymbol{P }}}$)进行矩阵点乘,得到跨模态注意力特征图$ {\mathit{\boldsymbol{F}}}$

1.3 DDcGAN

DDcGAN针对不同分布的源图像设置了两个鉴别器,进行针对性鉴别,如图 2所示。

图 2 DDcGAN网络结构
Fig. 2 DDcGAN network structure

DDcGAN包含一个生成器($ G$)和两个鉴别器($ D_1$$ D_2$),生成器由编码、融合和解码3部分组成,其中编码部分的任务是特征提取、融合,解码部分的任务是特征融合;鉴别器的任务是分别鉴别对应源图像,以此训练生成器。DDcGAN的输入是源图像1和源图像2,编码部分首先采用包含3×3滤波器的卷积层提取同一尺度的粗糙特征,然后采用3个包含同一尺度卷积层的DenseBlock(Cai等,2021)来保留两幅源图像同一尺度的具体特征;融合部分利用注意力机制对提取到的两幅特征图进行融合,融合部分的输出将作为解码部分的输入;解码部分采用4个包含3×3滤波器的卷积层对拼接后的特征图进行解码。两个鉴别器结构相同,先经过卷积操作和激活函数,再经全连接层扁平化数据和激活函数tanh计算概率,得到鉴别结果。DDcGAN的训练过程与GAN类似,生成器的性能在生成器和鉴别器的对抗中不断提升。DDcGAN的特征融合部分采用注意力机制,可以保留更多两模态关键信息,但其特征融合部分也存在仅可在单尺度上提取特征以及深层特征提取能力弱的问题。

2 基于UC-DDGAN的医学图像融合

UC-DDGAN包含一个生成器$ G$和两个鉴别器($ D_c$$ D_m$),网络结构如图 3所示。生成器负责生成融合图像,鉴别器用来区分源图像和融合图像。生成器生成融合图像分两阶段进行:特征提取和特征融合。以CT(computed tomography)和MR(magnetic resonance imaging)的融合为例,特征提取部分提取CT与MR图像的深层特征,特征融合部分融合提取到的深层特征,经过通道降维和卷积操作后,生成融合图像。在鉴别器区分源图像和融合图像时,将梯度损失引入到损失函数中,提升生成器生成图像的性能。

图 3 UC-DDGAN网络结构
Fig. 3 UC-DDGAN network structure

2.1 特征提取

鉴于GAN的生成器未提取到足够多包含两模态信息的深层细节,UC-DDGAN引入了U-Net3+网络和跨模态注意力块进行深层特征提取。U-Net3+可以在单模态上对深层特征进行全尺度范围的提取和融合;跨模态注意力块可以根据当前模态图像特征和待融合的另一模态图像特征之间的相关性,生成具有两模态信息的复合特征图。

2.1.1 基于U-Net3+的深层特征提取

U-Net3+分为两个阶段:编码阶段和解码阶段,如图 4所示。编码阶段对输入图像进行4次逐层下采样提取特征,解码阶段对各层解码结果进行整合并上采样,最后经过1×1的卷积进行通道降维,完成特征提取,输出特征图。图 4中,同一虚线框中的两个卷积模块为同一层卷积模块,其中前一个表示编码器,后一个表示解码器(Conv5既为编码器又为解码器),每一层编码器和解码器的结构都一样,其参数设置与在ImageNet上训练的ResNet50(He等,2016)一致。

图 4 U-Net3+网络结构
Fig. 4 U-Net3+ network structure

U-Net3+中的Conv4解码器构建输出特征图的过程如图 5所示,其他尺度解码器构建输出特征图的过程与其类似。

图 5 U-Net3+中Conv4解码器输出特征图的构建过程
Fig. 5 Construction process of Conv4 in U-Net3+ decoder output feature map at all scales

来自同尺度Conv4编码器的特征图在解码器中直接接收;来自较小尺度Conv1、Conv2、Conv3编码器的特征图,在经过最大池化操作处理之后被接收;来自较大尺度Conv5编码器的特征图,在经过二倍上采样操作处理之后被接收。然后,用64个3×3的滤波器将这5个具有相同分辨率的特征图通道数统一为64。为了更好地融合各层语义信息,进一步用320个3×3的滤波器、一个批量归一化层和一个ReLU激活函数层对5个特征图进行通道叠加。各尺度解码器输出特征图$ \boldsymbol{X}_{\mathrm{De}}^i$计算为

$\begin{array}{c} \boldsymbol{X}_{\mathrm{De}}^i=\\ \left\{\begin{array}{l} \boldsymbol{X}_{\mathrm{En}}^i \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ i=N\\ H\left(\left[\underbrace{C\left(D\left(X_{\mathrm{En}}^k\right)\right)_{k=1}^{i-1}, C\left(X_{\mathrm{En}}^i\right)}_{ {Scales: {\rm{1th}} } \sim { i{\rm{th}} }}, \underbrace{C\left(U\left(X_{\mathrm{En}}^k\right)\right)_{k=i+1}^N}_{ {Scales: }(i+1) \text { th } \sim N \text{th }}\right]\right) \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ i=1, \cdots, N-1 \end{array}\right. \end{array}$ (1)

式(1)表示当编码器和解码器来自同一尺度时(即Conv5,该层的编码器也可作为解码器使用),解码器的输出特征图等于编码器的输入特征图;当编码器和解码器来自不同尺度时,编码器的输出特征图等于编码器输入特征图的叠加,但这些特征图在叠加前需要分别经过上下采样及卷积操作。$ i$表示不同尺度的层数,$ \boldsymbol{X}_{\mathrm{En}}$表示经过编码器得到的特征图,$ C(\cdot)$表示卷积运算,$ D(\cdot)$$ U(\cdot)$分别表示下采样和上采样操作,$ H(\cdot)$表示通道叠加的函数,[·]表示串联操作,$ Scale$表示特征图的尺度。最后,Conv1的输出特征图再经过64个1×1的滤波器进行通道降维,输出全尺度特征图。

2.1.2 基于跨模态注意力块的特征相关性增强

UC-DDGAN的特征提取部分将跨模态注意力块嵌入U-Net3+提取源图像CT和MR的深层特征。生成器特征提取部分如图 6所示。

图 6 UC-DDGAN生成器内部结构
Fig. 6 UC-DDGAN generator internal structure

图 6中,UC-DDGAN在CT的U-Net3+下采样路径上($ \boldsymbol{X}_{\mathrm{En}}^1$$ \boldsymbol{X}_{\mathrm{En}}^2$$ \boldsymbol{X}_{\mathrm{En}}^2$$ \boldsymbol{X}_{\mathrm{En}}^3$$ \boldsymbol{X}_{\mathrm{En}}^3$$ \boldsymbol{X}_{\mathrm{En}}^4$$ \boldsymbol{X}_{\mathrm{En}}^4$$ \boldsymbol{X}_{\mathrm{En}}^5$)嵌入了跨模态注意力块$ \boldsymbol{X}^1$$ \boldsymbol{X}^2$$ \boldsymbol{X}^3$$ \boldsymbol{X}^4$;同样地,在MR的U-Net3+下采样路径上嵌入了跨模态注意力块$ \boldsymbol{Y}^1$$ \boldsymbol{Y}^2$$ \boldsymbol{Y}^3$$ \boldsymbol{Y}^4$。跨模态注意力块有两个输入:主输入$ {\mathit{\boldsymbol{P }}}$和跨模态输入$ {\mathit{\boldsymbol{C}}}$,CT路径上,$ \boldsymbol{X}^1$$ \boldsymbol{X}^2$$ \boldsymbol{X}^3$$ \boldsymbol{X}^4$$ {\mathit{\boldsymbol{P }}}$为CT图像相应层次下采样的输出,$ {\mathit{\boldsymbol{C}}}$为MR图像相应层次下采样的输出;MR路径上的跨模态注意力块$ \boldsymbol{Y}^1$$ \boldsymbol{Y}^2$$ \boldsymbol{Y}^3$$ \boldsymbol{Y}^4$$ {\mathit{\boldsymbol{P }}}$$ {\mathit{\boldsymbol{C}}}$$ \boldsymbol{X}^1$$ \boldsymbol{X}^2$$ \boldsymbol{X}^3$$ \boldsymbol{X}^4$相反。CT和MR的U-Net3+解码器对各层结果整合并上采样得到CT和MR特征图。跨模态注意力块在U-Net3+各层编码器逐层下采样提取特征的过程中,既提升了两模态相关性,又提取到了各模态图像的深层特征。

跨模态注意力块在U-Net3+中的连接方式,如图 7所示。将尺寸为256×256×1的源CT图像和源MR图像分别输入U-Net3+,两模态第1层编码器$ \boldsymbol{X}_{\mathrm{En}}^1$的输出特征图在对方路径的第1层跨模态注意力块中作为$ {\mathit{\boldsymbol{C}}}$被接收,而在其自身路径的第1层跨模态注意力块中作为$ {\mathit{\boldsymbol{P }}}$被接收。然后,经过各路径的第1层跨模态注意力块计算得到复合特征图,复合特征图被输入到下一尺度编码器$ \boldsymbol{X}_{\mathrm{En}}^2$中。由于经跨模态注意力块输出的复合特征图分辨率、通道数与输入一致,故嵌入跨模态注意力块对U-Net3+各层编码器的参数设置没有影响。其他尺度跨模态注意力块的输入输出类似于第1层跨模态注意力块。各层跨模态注意力块的输出$ \boldsymbol{x}^i$$ \boldsymbol{y}^i$计算式为

$\boldsymbol{x}^i =Z\left(\left[P\left(\boldsymbol{c}^i\right), C\left(\boldsymbol{m}^i\right)\right]\right), i \leqslant 4$ (2)

$\boldsymbol{y}^i =Z\left(\left[P\left(\boldsymbol{m}^i\right), C\left(\boldsymbol{c}^i\right)\right]\right), i \leqslant 4$ (3)

图 7 跨模态注意力块在U-Net3+中的连接方式
Fig. 7 Cross-modal attention block connection in U-Net3+

式中,$ \boldsymbol{c}^i$$ \boldsymbol{m}^i$分别表示CT、MR路径第$ i$层编码器的输出特征,$ P(\cdot)$表示主模态输入的运算函数,$ C(\cdot)$表示跨模态输入的运算函数,$ Z(\cdot)$表示跨模态注意力块内部先矩阵点乘再将对应元素逐个相乘的函数,[,]表示串联操作。

跨模态注意力块的内部结构如图 8所示。$ {\mathit{\boldsymbol{C}}}$$ {\mathit{\boldsymbol{P }}}$分别表示跨模态路径和主模态路径输入的特征图($ \boldsymbol{C} \in {\bf{R}}^{T \times W \times H \times 64}$$ \boldsymbol{P} \in {\bf{R}}^{T \times W \times H \times 64}$),$ T$$ H$$ W$分别表示特征图的批量数、高度和宽度,64是特征图通道数。首先,$ {\mathit{\boldsymbol{C}}}$$ {\mathit{\boldsymbol{P }}}$经过通道降维及线性变换函数$ \boldsymbol{\theta}(\cdot)$$ \boldsymbol{\phi}(\cdot)$处理,得到$ {\mathit{\boldsymbol{\theta }}}$($ {\mathit{\boldsymbol{C}}}$)、$ {\mathit{\boldsymbol{\phi }}}$($ {\mathit{\boldsymbol{P }}}$)两种特征表示($ {\mathit{\boldsymbol{\theta }}}$($ {\mathit{\boldsymbol{C}}}$)$ \in {\bf R}^{T \times W \times H \times 32}$$ {\mathit{\boldsymbol{\phi }}}$($ {\mathit{\boldsymbol{P }}}$)$ \in {\bf R}^{T \times W \times H \times 32}$),然后对$ {\mathit{\boldsymbol{\theta }}}$($ {\mathit{\boldsymbol{C}}}$)、$ {\mathit{\boldsymbol{\phi }}}$($ {\mathit{\boldsymbol{C}}}$)进行reshape操作,合并$ T$$ H$$ W$维度($ {\mathit{\boldsymbol{\theta }}}$($ {\mathit{\boldsymbol{C}}}$)$ \in {\bf R}^{T \times W \times H \times 32}$$ {\mathit{\boldsymbol{\phi }}}$($ {\mathit{\boldsymbol{P }}}$)$ \in {\bf R}^{T \times W \times H \times 32}$)。再将$ {\mathit{\boldsymbol{\theta }}}$($ {\mathit{\boldsymbol{C}}}$)的转置与$ {\mathit{\boldsymbol{\phi }}}$($ {\mathit{\boldsymbol{P }}}$)进行矩阵点乘,得到包含主模态各像素与跨模态各像素相关性的特征图$ \boldsymbol{F}$($ \boldsymbol{F}$$ \in {\bf R}^{T \times W \times H \times 32}$),然后对$ \boldsymbol{F}$进行softmax操作,实现相关性的归一化。$ {\mathit{\boldsymbol{P }}}$除了经过线性变换函数$ \boldsymbol{\theta}(\cdot)$处理,还经过线性变换$ \boldsymbol{g}(\cdot)$,得到特征表示$ {\mathit{\boldsymbol{g }}}$($ {\mathit{\boldsymbol{P }}}$)$ \in {\bf R}^{T \times W \times H \times 32}$),对得到的$ {\mathit{\boldsymbol{g }}}$($ {\mathit{\boldsymbol{P }}}$)进行reshape操作,合并$ T$$ H$以及$ W$维度($ {\mathit{\boldsymbol{g }}}$($ {\mathit{\boldsymbol{P }}}$)$ \in {\bf R}^{T \times W \times H \times 32}$)。$ \boldsymbol{F}$经过归一化操作后与合并$ T$$ H$$ W$维度的$ {\mathit{\boldsymbol{g }}}$($ {\mathit{\boldsymbol{P }}}$)进行矩阵点乘,得到${\mathit{\boldsymbol{Q}}} \in {\bf R}^{T \times W \times H \times 32}$$ {\mathit{\boldsymbol{Q}}}$表示经跨模态注意力机制调整后的残差矩阵。然后$ {\mathit{\boldsymbol{Q}}}$经过1×1×1卷积,恢复$ T$$ H$$ W$维度,表示为$ \boldsymbol{Y}\in {\bf{R}}^{T \times W \times H \times 64}$。最后,$ \boldsymbol{Y}$$ {\mathit{\boldsymbol{P }}}$做残差运算,得到跨模态注意力块的输出$ \boldsymbol{Z} \in {\bf{R}}^{T \times W \times H \times 64}$。跨模态注意力块得到的特征图计算式为

$y_i=\frac{\sum\limits_{\forall j} f\left(\boldsymbol{\theta}\left(\boldsymbol{c}_i\right)^{\mathrm{T}} \boldsymbol{\phi}\left(\boldsymbol{p}_j\right)\right) \boldsymbol{g}\left(\boldsymbol{p}_j\right)}{\sum\limits_{\forall j} f\left(\boldsymbol{\theta}\left(\boldsymbol{c}_i\right)^{\mathrm{T}} \boldsymbol{\phi}\left(\boldsymbol{p}_j\right)\right)}$ (4)

图 8 跨模态注意力块内部结构
Fig. 8 Internal structure of cross-modal attention block

式中,$ \boldsymbol{c}_i$是跨模态输入特征图中$ i$位置的特征,$ \boldsymbol{p}_j$是主模态输入特征图中所有与$ \boldsymbol{c}_i$有关的特征,$ j$表示特征$ \boldsymbol{p}_j$在跨模态输入中的位置。$ {\mathit{\boldsymbol{\theta }}}$($ \boldsymbol{c}_i$)、$ {\mathit{\boldsymbol{\phi }}}$($ \boldsymbol{p}_j$)分别是$ \boldsymbol{c}_i$$ \boldsymbol{p}_j$在经过Embedded Gaussian(Benet等,2001)中的两个嵌入权重变换 $ {W_\theta }$$ {W_\phi }$之后得到的特征图,$ {\mathit{\boldsymbol{g }}}$($ \boldsymbol{p}_j$)是$ \boldsymbol{p}_j$经过线性变换得到的特征图,$ f(\cdot)$是用于计算$ \boldsymbol{c}_i$$ \boldsymbol{p}_j$相关性的函数。$ y_i$是累加了跨模态输入中所有与主输入$ i$位置上特征相关的特征后得到的复合特征图$ i$位置的特征。

跨模态注意力块嵌入U-Net3+构成UC-DDGAN生成器特征提取部分,可以增加CT图像和MR图像的信息交互,使CT图像的骨骼信息和MR图像的软组织初步融合。该特征提取方式能促进特征学习、改善梯度流动和增加隐式深度监督。各层编码器、解码器卷积参数如表 1所示。

表 1 U-Net3+各层编码器、解码器卷积参数
Table 1 Convolution parameters of U-Net3+ encoders and decoders at each layer

下载CSV
序号 滤波器数 步长 输入尺寸 输出尺寸
$ \boldsymbol{X}_{\mathrm{En}}^{\mathrm{1}}$ 64 2 256×256×1 128×128×64
$ \boldsymbol{X}_{\mathrm{En}}^{\mathrm{2}}$ 128 2 128×128×64 64×64×128
$ \boldsymbol{X}_{\mathrm{En}}^{\mathrm{3}}$ 256 2 64×64×128 32×32×256
$ \boldsymbol{X}_{\mathrm{En}}^{\mathrm{4}}$ 512 2 32×32×256 16×16×512
$ \boldsymbol{X}_{\mathrm{En}}^5\left(\boldsymbol{X}_{\mathrm{De}}^5\right)$ 1 024 2 16×16×512 8×8×1024
$ \boldsymbol{X}_{\mathrm{De}}^4$ 320 1 16×16×512 16×16×320
$ \boldsymbol{X}_{\mathrm{De}}^3$ 320 1 16×16×320 32×32×320
$ \boldsymbol{X}_{\mathrm{De}}^2$ 320 1 32×32×320 64×64×320
$ \boldsymbol{X}_{\mathrm{De}}^1$ 320 1 64×64×320 128×128×320

2.2 特征融合

特征融合分为融合和解码两部分,如图 9所示。融合部分由一个Concat层构成(Song等,2018),解码部分由5个卷积模块组成,该卷积模块利用若干个3×3的滤波器来压缩通道数(各层滤波器数如图中$ n$所示),通过批量归一化层(batch normaligation, BN)来缓解梯度爆炸,ReLU激活函数加快训练速度。特征提取部分得到尺寸为128×128×320的CT、MR深层特征图,依次经过Concat层拼接,再经过滤波器分别为128、64、32、16、1这5个卷积模块逐层进行通道降维,将尺寸为128×128×320的CT、MR深层特征图压缩成尺寸为128×128×1深层细节丰富且充分表征两模态关键特征的融合图像。

图 9 特征融合部分网络结构
Fig. 9 Partial network structure of feature fusion

2.3 双鉴别器网络结构

UC-DDGAN设计了具有相同网络结构的两个鉴别器,其结构如图 10所示。真实图像与融合图像依次经过4个卷积模块:由16个3×3的滤波器和ReLU激活函数层构成的第1层卷积模块;32个3×3的滤波器、批量归一化层、ReLU激活函数层构成的第2层卷积模块;64个3×3的滤波器、批量归一化层、ReLU激活函数层构成的第3层卷积模块(步幅为2,填充为0);最后经过全连接层(fully connected, FC)将数据扁平化,在最后一层,利用tanh激活函数作为评估器,得出输入图像是真实图像的概率。

图 10 鉴别器网络结构
Fig. 10 Discriminator network structure

2.4 基于梯度损失加权的损失函数设计

UC-DDGAN是基于双鉴别器的生成对抗网络,因此要用损失函数分别优化一个生成器、两个鉴别器,通过对各部分损失加权来提升融合性能,保留更多源图像特征。为进一步保留源图像的深层特征,UC-DDGAN的损失函数在前人基础上引入了梯度损失,并通过加权的方式将二者结合起来用于生成器的训练。

UC-DDGAN的损失函数由生成器损失$ L_G$和两个鉴别器损失$ L_{Dc}$$ L_{Dm}$组成。生成器的损失函数$ L_G$由CT图像的损失$ L_{C}$和MR图像的损失$ L_{M}$加权相加,计算为

$L_G=L_C+\delta L_M$ (5)

式中,$ \delta $用于控制CT和MR图像损失之间的权重分配。$ L_{C}$由生成器与$ D_c$之间的对抗性损失$ L_c^{\text {adv }}$和CT的内容损失$ L_c^{\text {con }}$加权相加得到,定义为

$L_C=L_c^{\text {adv }}+\partial L_c^{\text {con }}$ (6)

式中,$ \partial $用于控制$ L_c^{\text {adv }}$$ L_c^{\text {con }}$之间的权重分配。$ L_c^{\text {con }}$旨在将更多的CT图像梯度和像素信息保留在最终的融合图像中,定义为

$\begin{aligned} & L_c^{\mathrm{con}}=\frac{1}{h \cdot w}\left[{sum}\left(\left\|\boldsymbol{I}_f-\boldsymbol{I}_c\right\|_{\mathrm{F}}\right)+\right. \\ & \ \ \ \ \left.\sigma {sum}\left(\left\|\mathit{\boldsymbol{ \boldsymbol{\varGamma} }} \boldsymbol{I}_f-\mathit{\boldsymbol{ \boldsymbol{\varGamma} }} \boldsymbol{I}_c\right\|_{\mathrm{F}}\right)\right] \\ & \end{aligned}$ (7)

式中,$ {\mathit{\boldsymbol{I}}_c}$$ {\mathit{\boldsymbol{I}}_m}$$ {\mathit{\boldsymbol{I}}_f}$分别表示源图像CT、源图像MR和融合后图像,$ \sigma $用于像素损失和梯度损失之间的权重分配,$ h$$ w$为源图像的高度和宽度,$ sum$表示输入元素的和,$ \|\cdot\|_{\rm{F}}$为矩阵Frobenius范数(Custódio等,2010),$ \mathit{\mathit{\boldsymbol{ \boldsymbol{\varGamma} }} }$为梯度运算。$ L_c^{\text {adv }}$定义为

$L_c^{\mathrm{adv}}=\frac{1}{h \cdot w} {sum}\left[-D_c\left(\left|\boldsymbol{I}_f-\boldsymbol{I}_c\right|\right)\right]$ (8)

式中,$ D_c\left(\left|\boldsymbol{I}_f-\boldsymbol{I}_c\right|\right)$代表$ D_c$的正确率,因此在$ D_c\left(\left|\boldsymbol{I}_f-\boldsymbol{I}_c\right|\right)$前面设置一个负号,表示减去判定正确的部分。

$ L_G$的第2项$ L_{M}$表示MR图像的损失,定义与$ L_{C}$类似,计算式分别为

$L_M=L_m^{\mathrm{adv}}+\beta L_m^{\mathrm{con}}$ (9)

$\begin{gathered} L_m^{\text {con }}=\frac{1}{h \cdot w}\left[{sum}\left(\left\|\boldsymbol{I}_f-\boldsymbol{I}_m\right\|_{\mathrm{F}}\right)+\right. \\ \left.{\sigma sum}\left(\left\|\mathit{\boldsymbol{ \boldsymbol{\varGamma} }} \boldsymbol{I}_f-\mathit{\boldsymbol{ \boldsymbol{\varGamma} }} \boldsymbol{I}_m\right\|_{\mathrm{F}}\right)\right] \end{gathered}$ (10)

$L_m^{\mathrm{adv}}=\frac{1}{h \cdot w} {sum}\left[-D_m\left(\left|\boldsymbol{I}_f-\boldsymbol{I}_m\right|\right)\right]$ (11)

$ D_c$$ D_m$的损失函数$ L_{Dc}$$ L_{Dm}$计算式为

$\begin{aligned} L_{D c}= & \frac{1}{h \cdot w} {sum}\left[D_c\left(\left|\boldsymbol{I}_f-\boldsymbol{I}_m\right|\right)\right]- \\ & \frac{1}{h \cdot w} {sum}\left[D_c\left(\left|\boldsymbol{I}_f-\boldsymbol{I}_c\right|\right)\right] \end{aligned}$ (12)

$\begin{gathered} L_{D m}=\frac{1}{h \cdot w} {sum}\left[D_m\left(\left|\boldsymbol{I}_f-\boldsymbol{I}_c\right|\right)\right]- \\ \quad \frac{1}{h \cdot w} {sum}\left[D_m\left(\left|\boldsymbol{I}_f-\boldsymbol{I}_m\right|\right)\right] \end{gathered}$ (13)

式中,$ D_c\left(\left|\boldsymbol{I}_f-\boldsymbol{I}_m\right|\right)$$ D_m\left(\left|\boldsymbol{I}_f-\boldsymbol{I}_c\right|\right)$分别代表$ D_c$$ D_m$的错误率。因为鉴别器损失表示鉴别失败的概率,所以$ L_{Dc}$$ L_{Dm}$$ D_c$$ D_m$的错误率分别减去其正确率来表示。随着$ G$$ D_c$$ D_m$的对抗训练不断进行,$ G$$ D_c$$ D_m$达到纳什平衡(Ratliff等,2013),$ L_{Dc}$$ L_{Dm}$$ L_G$达到最优值,训练完成。

2.5 算法步骤

在训练阶段,利用训练集数据分别对生成器$ G$和鉴别器$ D_c$$ D_m$进行对抗训练。首先固定$ G$训练$ D_c$$ D_m$,之后再固定$ D_c$$ D_m$训练$ G$,接着循环训练,来提高$ G$生成融合图像的能力以及$ D_c$$ D_m$鉴别出$ G$生成的图像与真实CT、MR图像差别的能力,直至$ G$生成的图像足以通过$ D_c$$ D_m$的鉴别即可停止。此时,将测试集数据输入到$ G$中,得到最终融合结果。在测试阶段,使用经过训练的生成器来生成融合图像。UC-DDGAN算法的详细训练步骤为:

参数描述:$ \boldsymbol{I}_G$$ \boldsymbol{I}_{Dc}$$ \boldsymbol{I}_{Dm}$分别表示训练$ G$$ D_c$$ D_m$的训练次数,$ I_{\max }$是训练UC-DDGAN的最大次数,在本实验中,$ I_{\max }$ =20;$ L_{\max }$$ L_{\min }$$ L_{G\max }$表示生成器训练完成时的损失范围;$ L_{\max }$$ L_{\min}$用于$ G$$ D_c$$ D_m$的对抗损失的优化,$ L_{G\max }$用于$ G$总体损失的优化;

在实验的第1批次中,$ L_{\max }$ =0.065,$ L_{\min }$ =0.055,$ L_{G\max }$=0.2; $ D_c$$ D_m$的初始化参数为$ \theta_{D c}$$ \theta_{Dm}$$ G$的初始化参数为$ \theta_{G}$,在每次的训练迭代中:

1) 训练鉴别器$ D_c$$ D_m$

$ s$个CT图像样本{${\mathit{\boldsymbol{c}}^1}$,…,${\mathit{\boldsymbol{c}}^s}$}和$ s$个MR图像样本$\left\{\boldsymbol{m}^1, \cdots, \boldsymbol{m}^s\right\}$;

生成器获取到待生成数据$ \left\{G\left(\boldsymbol{c}^1, \boldsymbol{m}^1\right), \cdots\right.$$ \left.G\left(\boldsymbol{c}^s, \boldsymbol{m}^s\right)\right\}$;

在Adam优化器优化$ L_{Dc}$ (式(12))更新$ \theta_{D c}$;

在Adam优化器优化$ L_{Dm}$ (式(13))更新$ \theta_{Dm}$;

如果$ L_{Dc}$>$L_{\max }$并且$ L_{Dm}$<$L_{\max }$,则继续利用Adam优化器优化$ L_{Dc}$;

$ I_{D c}=I_{D c}+1$;

如果$ L_{Dm}$>$L_{\max }$并且$ L_{Dc}$<$L_{\max }$, 则继续利用Adam优化器优化$ L_{Dm}$;

$ I_{D m}=I_{D m}+1$

2) 训练生成器$ G$

$ s$个CT图像样本{${\mathit{\boldsymbol{c}}^1}$,…,${\mathit{\boldsymbol{c}}^s}$}和$ s$个MR图像样本$ \left\{\boldsymbol{m}^1 、\cdots, \boldsymbol{m}^s\right\}$

生成器获取到待生成数据$ \left\{G\left(\boldsymbol{c}^1, \boldsymbol{m}^1\right), \cdots\right.$$ \left.G\left(\boldsymbol{c}^s, \boldsymbol{m}^s\right)\right\}$;

在SGD(stochastic gradient descent)优化器优化$ L_G$(式(5))的过程中更新$ \theta_{G}$;

如果$ L_{Dc}$>$ L_{\min }$$ L_{Dm}$<$L_{\max }$$ I_G<I_{\max }$,则在SGD优化器优$ L_c^{\text {adv }}$(式(8))的过程中更新$ \theta_{G}$

$ I_G=I_G+1$;

如果$ L_{Dc}$<$ L_{\min }$$ L_{Dm}$>$ L_{\max }$$ L_G$>$ I_{\max }$,则在SGD优化器优化$ L_c^{\text {adv }}$(式(8))的过程中更新$ \theta_{G}$

$I_G=I_G+1$;

如果$ L_{Dc}$>$ L_{\max }$并且$ L_{Dm}$ < $L_{\max }$,则继续利用SGD优化器优化$ L_G$;

$I_G=I_G+1$

3 实验结果与分析

3.1 数据集与实验环境

实验数据集来自美国哈佛医学院(http://www.med.harvard.edu)、山西省生物医学成像与影像大数据重点实验室。实验从其开源的常见脑部疾病图像数据集中选取了500对具有清晰脑部纹理、丰富细节特征的高质量CT和MR图像作为数据集。数据集分为训练集和测试集, 其中包括400对用于网络训练的训练集图像和100对用于测试网络泛化性能的测试集图像。为避免因数据集较小而导致的网络模型过拟合,采用Albumentations(Buslaev等,2020)对训练集数据进行扩充,将MR和对应CT图像调整到256×256像素,进行0°旋转、90°旋转、180°旋转、270°旋转、水平翻转、垂直翻转,再在上述6种变换的基础上分别进行随机亮度、弹性变换2种操作,获得6×2=12倍的数据,即4 800对图像进行训练。

实验的硬件平台:CPU为i7-11700, 内存16 GB;GPU为RTX 3060Ti 8 GB GDR6;软件平台:操作系统为64位的Windows10;环境框架为PyTorch;Python版本为3.6.0。

3.2 训练细节

在训练过程中,UC-DDGAN分别采用Adam优化算法(Kingma和Ba,2017)和SGD(Cherry等,1998)促使鉴别损失和生成损失函数趋向最小来更新网络的参数。本文网络的参数设置为:初始学习率2E-4,动量参数为0.9,权重衰减为5E-2。为降低GPU显存对训练的影响,训练采用mini-batch的方式进行(王丽芳等,2020),batch-size设置为40,epoch设置为200,迭代次数为4 800/40×200=24 000次(训练样本数4 800,batch-size为40,epoch为200)。随着迭代次数的增加,生成器损失$ L_G$和两个鉴别器损失$ L_{Dc}$$ L_{Dm}$的变化趋势如图 11所示。图 11(a)中,$ L_G$曲折下降后趋于平稳,在0.2附近小幅波动;图 11(b)(c)中,$ L_{Dc}$$ L_{Dm}$整体缓慢上升后稳定在0.06附近。此外,由图 11可以看出,$ L_G$$ L_{D_c}$$ L_{D_m}$无较大波动,说明UC-DDGAN在训练过程中较为稳定。

图 11 损失折线图
Fig. 11 Loss line diagram
((a) generator $ G$ loss; (b) discriminator $ D_c$ loss; (c) discriminator $ D_m$ loss)

3.3 对比实验及分析

为验证UC-DDGAN的融合性能,实验选取基于拉普拉斯金字塔(Laplasian pyramid,LAP)的方法(黄福升和蔺素珍,2019)、基于脉冲耦合神经网络(pulse-coupled neural network,PCNN)的方法(Indhumathi等,2021)、基于卷积神经网络(CNN)的方法、基于融合生成对抗网络(FusionGAN)的方法以及基于双鉴别器生成对抗网络(DDcGAN)的方法作为对比方法。

3.3.1 定性结果分析

首先对脑梗、脑中风、脑瘤和脑血管4种脑部疾病的图像进行了定性比较实验。融合结果的定性比较如图 12所示。图中显示LAP方法得到的融合结果边缘模糊,不利于医生观察病灶轮廓;PCNN方法得到的融合结果亮度过低,损失掉大量细节信息;CNN方法得到的融合结果深层细节表征不够,观察不到其内部细节;FusionGAN方法得到的融合结果过分关注MR模态的图像,损失了CT图像的骨骼信息;DDcGAN方法得到的融合结果边缘不够平滑; UC-DDGAN方法得到的脑梗疾病融合结果脑部沟壑清晰可见、脑中风疾病融合结果脑组织颜色层次分明、脑瘤疾病融合结果脑髓质及骨骼信息得以充分保留、脑血管疾病融合结果包含有脑叶的深层细节。综上,UC-DDGAN的融合效果优于其他5种用于对比的融合方法。

图 12 本文算法与5种对比算法在CT和MR图像对上的定性比较结果图
Fig. 12 Qualitative comparison results
((a)CT resource images; (b) MR resource images; (c) LAP; (d)PCNN; (e) CNN; (f) FusionGAN; (g) DDcGAN; (h) UC-DDGAN(ours))

3.3.2 客观评价指标及定量结果分析

为客观地评价融合效果,实验选取了5个客观评价指标:空间频率(spatial frequency,SF)、结构相似性(structural similarity,SSIM)、边缘信息传递因子(edge information transfer factor,${\rm{Q}}^{{\rm{A B / F}}}$)、相关系数(correlation coefficient,CC)以及差异相关性的和(the sum of the correlations of differences, SCD)评价UC-DDGAN在脑部医学图像数据集上的性能。

其中,SF与融合图像分辨率成正比,SF指标越高表明融合图像细节表征越明显;SSIM从图像亮度、对比度和结构方面衡量融合图像与CT/MR两幅源图像的相似性,SSIM值越大,图像结构完整度越高;边缘评价因子用于评价边缘或梯度质量,${\rm{Q}}^{{\rm{A B / F}}}$的值越大,融合图像边缘信息损失越小;CC测量融合图像与CT/MR两幅源图像之间的相关性,CC值为正且越大,表示融合图像与两幅源图像的相关性越高;SCD利用另一源图像和融合图像之间的差异来描述当前源图像在融合图像中的信息,两幅源图像在融合图像中的信息相加得到SCD值。SCD值为正且越大,表示融合图像与源图像$ A$的相关性越高。SF、SSIM和${\rm{Q}}^{{\rm{A B / F}}}$主要用于评价UC-DDGAN深层特征提取能力;CC、SCD主要用于评价UC-DDGAN保留两模态信息的能力。实验利用上述5个客观评价指标测试了30对脑部CT和MR图像,UC-DDGAN的表现均优于对比的5种融合方法,UC-DDGAN及5种对比融合方法在SF、SSIM、${\rm{Q}}^{{\rm{A B / F}}}$、CC和SCD的测试结果折线图分别如图 13所示,其中红色折线表示UC-DDGAN的客观评价结果,评价结果平均值如表 2所示。由表 2可知,利用UC-DDGAN进行融合可以获得各项指标的最大均值。

图 13 UC-DDGAN及5种对比融合方法的定量结果
Fig. 13 Quantitative results of UC-DDGAN and five comparative fusion methods
((a)SF; (b)SSIM; (c)${\rm{Q}}^{{\rm{A B / F}}}$; (d)CC; (e)SCD)

表 2 客观评价指标平均值
Table 2 Average value of objective evaluation indexes

下载CSV
方法 SF SSIM CC ${\rm{Q}}^{{\rm{A B / F}}}$ SCD
LAP 19.540 9 0.650 9 0.102 2 0.697 7 -0.464 5
PCNN 19.653 3 0.600 4 0.214 8 0.607 0 -0.669 7
CNN 19.294 2 0.669 7 0.309 5 0.763 6 -0.431 4
FusionGAN 19.305 6 0.683 2 0.746 6 0.775 8 0.985 1
DDcGAN 20.604 5 0.790 1 0.759 8 0.792 1 1.616 7
UC-DDGAN(本文) 21.816 7 0.809 3 0.869 0 0.868 5 1.656 4
注:加粗字体表示各列最优结果。

3.4 消融实验

为了验证UC-DDGAN中U-Net3+与跨模态注意力块保留两模态信息及提取深层特征的效果,进行了两组消融实验。

实验1表示不添加U-Net3+和跨模态注意力块的图像融合网络得到的结果,即DDcGAN;实验2表示仅添加U-Net3+得到的结果;实验3表示仅添加跨模态注意力块得到的结果;实验4表示损失函数中不引入梯度损失的UC-DDGAN效果。定性结果如图 14所示, 对比实验评价结果如表 3所示。由表 3可知,UC-DDGAN达到了保留两模态信息且提取更多深度特征的目的。此外,本实验还对损失函数中的梯度损失和像素损失的权重$ \sigma $的参数进行了研究。UC-DDGAN的损失函数权重$ \sigma $设置为0.1。实验5和实验6的权重$ \sigma $分别为0.3和0.5,定量结果如表 4所示。

图 14 UC-DDGAN消融实验的定性比较结果
Fig. 14 Qualitative comparison results of UC-DDGAN ablation experiment
((a)CT resource images; (b) MR resource images; (c)UC-DDGAN; (d) experiment 1;(e)experiment 2;(f)experiment 3;(g)experiment 4)

表 3 对比实验客观评价指标
Table 3 Objective evaluation indexes of compartive experiments

下载CSV
方法 SF SSIM CC ${\rm{Q}}^{{\rm{A B / F}}}$ SCD
UC-DDGAN 21.81 0.81 0.87 0.87 1.66
无U-Net3+/无跨模态注意力块 21.79 0.79 0.85 0.85 1.61
有U-Net3+/无跨模态注意力块 21.79 0.80 0.86 0.86 1.62
无U-Net3+/有跨模态注意力块 21.80 0.79 0.85 0.85 1.61
无梯度损失 21.81 0.79 0.86 0.87 1.61
注:加粗字体表示各列最优结果。

表 4 不同权重对比实验客观评价指标
Table 4 Objective evaluation indexes of compartive experiments with different weights

下载CSV
SF SSIM CC ${\rm{Q}}^{{\rm{A B / F}}}$ SCD
$ \sigma $=0.1 21.81 0.81 0.87 0.87 1.66
$ \sigma $=0.3 21.79 0.79 0.85 0.85 1.62
$ \sigma $=0.5 21.8 0.80 0.86 0.86 1.63
注:加粗字体表示各列最优结果。

表5显示,当权重$ \sigma $设置为0.1时获得的定量结果最优,因此,实验权重$ \sigma $设置为0.1是合理的。

4 结论

本文提出基于U-Net3+与跨模态注意力块的双鉴别器生成对抗网络(UC-DDGAN)的医学图像融合方法,解决了目前多模态医学图像融合方法深层特征提取能力不足、部分模态特征被忽略的问题。从实验结果可知,UC-DDGAN在主观视觉观察和客观指标评价方面都有较好的表现,将UC-DDGAN应用于多模态医学图像融合,可以辅助医生对病灶部位做出准确地诊断与治疗。UC-DDGAN具有以下特点:1)利用U-Net3+网络,提取到了图像深层特征,其融合图像病灶细节完整且深层特征丰富;2)利用跨模态注意力块将深层特征的提取扩展到了不同模态之间,保留了各模态丰富的细节信息;3)双鉴别器通过在损失函数中引入梯度损失,更好地训练生成器生成融合图像,保留更多源图像特征。

但本文算法也存在局限性,仍有较大提升空间,具体表现在:1)生成器网络较为复杂,存在训练时间长的问题,后续工作将致力于降低计算复杂度;2)本文所做改进主要针对的是特征提取部分,针对融合部分设计能够保留两模态信息的网络模型是今后研究的重点。

下一步工作是改进融合部分网络结构,提升模型泛化性,可用于其他图像融合,例如红外与可见光图像融合。

参考文献

  • Buslaev A, Iglovikov V I, Khvedchenya E, Parinov A, Druzhinin M, Kalinin A A. 2020. Albumentations: fast and flexible image augmentations. Information, 11(2): #125 [DOI:10.3390/info11020125]
  • Cai X, Liu X Y, An M Y, Han G. 2021. Vision-based fall detection using dense block with multi-channel convolutional fusion strategy. IEEE Access, 9: 18318-18325 [DOI:10.1109/ACCESS.2021.3054469]
  • Cherry J M, Adler C, Ball C A, Chervitz S A, Dwight S S, Hester E T, Jia Y K, Juvik G, Roe T, Schroeder M, Weng S, Botstein D. 1998. SGD: saccharomyces genome database. Nucleic Acids Research, 26(1): 73-79 [DOI:10.1093/nar/26.1.73]
  • Custódio A, Rocha H, Vicente L N. 2010. Incorporating minimum Frobenius norm models in direct search. Computational Optimization and Applications, 46(2): 265-278 [DOI:10.1007/s10589-009-9283-0]
  • Gai D, Shen X J, Cheng H, Chen H P. 2019. Medical image fusion via PCNN based on edge preservation and improved sparse representation in NSST domain. IEEE Access, 7: 85413-85429 [DOI:10.1109/ACCESS.2019.2925424]
  • He K M, Zhang X Y, Ren S Q and Sun J. 2016. Deep residual learning for image recognition//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE: 770-778 [DOI: 10.1109/cvpr.2016.90]
  • Huang F S, Lin S Z. 2019. Multi-band image fusion rules comparison based on the Laplace pyramid transformation method. Infrared Technology, 41(1): 64-71 (黄福升, 蔺素珍. 2019. 基于拉普拉斯金字塔变换方法的多波段图像融合规则比较. 红外技术, 41(1): 64-71)
  • Huang H M, Lin L F, Tong R F, Hu H J, Zhang Q W, Iwamoto Y, Han X H, Chen Y W and Wu J. 2020. UNet 3+: a full-scale connected UNet for medical image segmentation//Proceedings of 2020 IEEE International Conference on Acoustics, Speech and Signal Processing. Barcelona, Spain: IEEE: 1055-1059 [DOI: 10.1109/icassp40776.2020.9053405]
  • Indhumathi R, Nagarajan S and Indira K P. 2021. Hybrid pixel-based method for multimodal medical image fusion based on integration of pulse-coupled neural network (PCNN) and genetic algorithm (GA)//Patnaik S, Yang X S and Sethi I K. Advances in Machine Learning and Computational Intelligence. Singapore, Singapore: Springer: 853-867 [DOI: 10.1007/978-981-15-5243-4_82]
  • Jung H, Kim Y, Jang H, Ha N, Sohn K. 2020. Unsupervised deep image fusion with structure tensor representations. IEEE Transactions on Image Processing, 29: 3845-3858 [DOI:10.1109/TIP.2020.2966075]
  • Kingma D P and Ba J. 2017. Adam: a method for stochastic optimization[EB/OL]. [2021-01-30]. https://arxiv.com/pdf/1412.6980.pdf
  • Kurakin A, Goodfellow I J and Bengio S. 2018. Adversarial examples in the physical world//Proceedings of the 5th International Conference on Learning Representations. Toulon, France: OpenReview. net: 98-111
  • Lin S Z, Han Z. 2017. Images fusion based on deep stack convolutional neural network. Chinese Journal of Computers, 40(11): 2506-2518 (蔺素珍, 韩泽. 2017. 基于深度堆叠卷积神经网络的图像融合. 计算机学报, 40(11): 2506-2518) [DOI:10.11897/SP.J.1016.2017.02506]
  • Liu Y, Chen X, Peng H, Wang Z F. 2017. Multi-focus image fusion with a deep convolutional neural network. Information Fusion, 36: 191-207 [DOI:10.1016/j.inffus.2016.12.001]
  • Liu Y, Chen X, Wang Z F, Wang Z J, Ward R K, Wang X S. 2018. Deep learning for pixel-level image fusion: recent advances and future prospects. Information Fusion, 42: 158-173 [DOI:10.1016/j.inffus.2017.10.007]
  • Ma J Y, Xu H, Jiang J J, Mei X G, Zhang X P. 2020. DDcGAN: a dual-discriminator conditional generative adversarial network for multi-resolution image fusion. IEEE Transactions on Image Processing, 29: 4980-4995 [DOI:10.1109/TIP.2020.2977573]
  • Ma J Y, Yu W, Liang P W, Li C, Jiang J J. 2019. FusionGAN: a generative adversarial network for infrared and visible image fusion. Information Fusion, 48: 11-26 [DOI:10.1016/j.inffus.2018.09.004]
  • Maqsood S, Javed U. 2020. Multi-modal medical image fusion based on two-scale image decomposition and sparse representation. Biomedical Signal Processing and Control, 57: #101810 [DOI:10.1016/j.bspc.2019.101810]
  • Mbilinyi A and Schuldt H. 2020. Cross-modality medical image retrieval with deep features//Proceedings of 2020 IEEE International Conference on Bioinformatics and Biomedicine. Seoul, Korea (South): IEEE: 2632-2639 [DOI: 10.1109/bibm49941.2020.9313211]
  • Nikolaev A V, de Jong L, Weijers G, Groenhuis V, Mann R M, Siepel F J, Maris B M, Stramigioli S, Hansen H H G, de Korte C L. 2021. Quantitative evaluation of an automated cone-based breast ultrasound scanner for MRI-3D US image fusion. IEEE Transactions on Medical Imaging, 40(4): 1229-1239 [DOI:10.1109/TMI.2021.3050525]
  • Nour M, Cömert Z, Polat K. 2020. A novel medical diagnosis model for COVID-19 infection detection based on deep features and Bayesian optimization. Applied Soft Computing, 97: #106580 [DOI:10.1016/j.asoc.2020.106580]
  • Pan Y, Pi D C, Khan I A, Khan Z U, Chen J F, Meng H. 2021. DenseNetFuse: a study of deep unsupervised DenseNet to infrared and visual image fusion. Journal of Ambient Intelligence and Humanized Computing, 12(11): 10339-10351 [DOI:10.1007/s12652-020-02820-3]
  • Qin X B, Zhang Z C, Huang C Y, Dehghan M, Zaiane E R, Jagersand M. 2020. U2-Net: going deeper with nested U-structure for salient object detection. Pattern Recognition, 106: #107404 [DOI:10.1016/j.patcog.2020.107404]
  • Ratliff L J, Burden S A and Sastry S S. 2013. Characterization and computation of local Nash equilibria in continuous games//Proceedings of the 51st Annual Allerton Conference on Communication, Control, and Computing. Monticello, USA: IEEE: 917-924 [DOI: 10.1109/allerton.2013.6736623]
  • Ronneberger O, Fischer P and Brox T. 2015. U-Net: convolutional networks for biomedical image segmentation//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer: 234-241 [DOI: 10.1007/978-3-319-24574-4_28]
  • Song H, Kang J and Lee S. 2018. ConcatNet: a deep architecture of concatenation-assisted network for dense facial landmark alignment//Proceedings of the 25th IEEE International Conference on Image Processing. Athens, Greece: IEEE: 2371-2375 [DOI: 10.1109/icip.2018.8451375]
  • Song X R, Guo H T, Xu X N, Chao H Q, Xu S, Turkbey B, Wood B J, Wang G and Yan P K. 2021. Cross-modal attention for MRI and ultrasound volume registration//Proceedings of the 24th International Conference on Medical Image Computing and Computer-Assisted Intervention. Strasbourg, France: Springer: 66-75 [DOI: 10.1007/978-3-030-87202-1_7]
  • Veshki F G, Ouzir N, Vorobyov S A and Ollila E. 2021. Coupled feature learning for multimodal medical image fusion[EB/OL]. [2021-02-17]. https://arxiv.org/pdf/2102.08641.pdf
  • Wang L F, Zhang C C, Qin P L, Lin S Z, Gao Y, Dou J L. 2020. Image registration method with residual dense relativistic average CGAN. Journal of Image and Graphics, 25(4): 745-758 (王丽芳, 张程程, 秦品乐, 蔺素珍, 高媛, 窦杰亮. 2020. 残差密集相对平均CGAN的脑部图像配准. 中国图象图形学报, 25(4): 745-758) [DOI:10.11834/jig.190116]
  • Wang X L, Girshick R, Gupta A and He K M. 2017. Non-local neural networks [EB/OL]. [2021-04-13]. https://arxiv.org/pdf/1711.07971.pdf
  • Wang Y C, Xu S, Liu J M, Zhao Z X, Zhang C X, Zhang J S. 2021. MFIF-GAN: a new generative adversarial network for multi-focus image fusion. Signal Processing: Image Communication, 96: #116295 [DOI:10.1016/j.image.2021.116295]
  • Xiao B, Xu B C, Bi X L, Li W S. 2021. Global-feature encoding U-Net (GEU-Net) for multi-focus image fusion. IEEE Transactions on Image Processing, 30: 163-175 [DOI:10.1109/TIP.2020.3033158]
  • Xiong Y J, Gao Y B, Wu H, Yao Y. 2021. Attention U-Net with feature fusion module for robust defect detection. Journal of Circuits, Systems and Computers, 30(15): #2150272 [DOI:10.1142/S0218126621502728]
  • Yan L, Hao Q, Cao J, Saad R, Li K, Yan Z G, Wu Z M. 2021. Infrared and visible image fusion via octave Gaussian pyramid framework. Scientific Reports, 11(1): #1235 [DOI:10.1038/s41598-020-80189-1]
  • Yang Z G, Chen Y P, Le Z L, Ma Y. 2021. GANFuse: a novel multi-exposure image fusion method based on generative adversarial networks. Neural Computing and Applications, 33(11): 6133-6145 [DOI:10.1007/s00521-020-05387-4]
  • Zhang X C, Ye P and Xiao G. 2020b. VIFB: a visible and infrared image fusion benchmark//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Seattle, USA: IEEE: 468-478 [DOI: 10.1109/cvprw50498.2020.00060]
  • Zhang Y, Liu Y, Sun P, Yan H, Zhao X L, Zhang L. 2020a. IFCNN: a general image fusion framework based on convolutional neural network. Information Fusion, 54: 99-118 [DOI:10.1016/j.inffus.2019.07.011]
  • Zhou Z W, Siddiquee M R, Tajbakhsh N and Liang J M. 2018. UNet++: a nested u-net architecture for medical image segmentation//Proceedings of the 4th International Workshop on Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Granada, Spain: Springer: 3-11 [DOI: 10.1007/978-3-030-00889-5_1]