Print

发布时间: 2023-01-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.220603
2023 | Volume 28 | Number 1




    综述    




  <<上一篇 




  下一篇>> 





医学图像融合方法综述
expand article info 黄渝萍, 李伟生
重庆邮电大学计算机科学与技术学院,重庆 400065

摘要

多模态医学图像能够为医疗诊断、治疗规划和手术导航等临床应用提供更为全面和准确的医学图像描述。由于疾病的类型多样且复杂,无法通过单一模态的医学图像进行疾病类型诊断和病灶定位,而多模态医学图像融合方法可以解决这一问题。融合方法获得的融合图像具有更丰富全面的信息,可以辅助医学影像更好地服务于临床应用。为了对医学图像融合方法的现状进行全面研究,本文对近年国内外发表的相关文献进行综述。对医学图像融合技术进行分类,将融合方法分为传统方法和深度学习方法两类并总结其优缺点。结合多模态医学图像成像原理和各类疾病的图像表征,分析不同部位、不同疾病的融合方法的相关技术并进行定性比较。总结现有多模态医学图像数据库,并按分类对25项常见的医学图像融合质量评价指标进行概述。总结22种基于传统方法和深度学习领域的多模态医学图像融合算法。此外,本文进行实验,比较基于深度学习与传统的医学图像融合方法的性能,通过对3组多模态医学图像融合结果的定性和定量分析,总结各技术领域医学图像融合算法的优缺点。最后,对医学图像融合技术的现状、重难点和未来展望进行讨论。

关键词

多模态医学图像; 医学图像融合; 深度学习; 医学图像数据库; 质量评价指标

A review of medical image fusion methods
expand article info Huang Yuping, Li Weisheng
Chongqing Key Laboratory of Image Cognition, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
Supported by: National Key R & D Program of China (2019YFE0110800, 2016YFC1000307-3); National Natural Science Foundation of China (61972060, U1713213, 62176071, 62027827); Chongqing Municipal Natural Science Foundation (cstc2020jcyj-zdxmX0025, cstc2019cxcyljrc-td0270, cstc2019jcyj-cxttX0002)

Abstract

Multimodal medical-fused images are essential to more comprehensive and accurate medical image descriptions for various clinical applications like medical diagnosis, treatment planning, and surgical navigation. However, single-modal medical images is challenged to deal with diagnose disease types and localize lesions due to its variety and complexity of disease types.As a result, multimodal medical image fusion methods are focused on obtaining medical images with rich information in clinical applications. Medical-based imaging techniques are mainly segmented into electromagnetic energy-based and acoustic energy-based. To achieve the effect of real-time imaging and provide dynamic images, the latter one uses the multiple propagation speed of ultrasound in different media. Current medical image fusion techniques are mainly concerned of static images in terms of electromagnetic energy imaging techniques. For example, it is related to some key issues like X-ray computed tomography imaging, single photon emission computed tomography, positron emission tomography and magnetic resonance imaging. We review recent literature-relevant based on the current status of medical image fusion methods. Our critical analysis can divide current medical image fusion techniques into two categories: 1) traditional methods and 2) deep learning methods. Nowadays, spatial domain and frequency domain-based algorithms are very proactive for traditional medical image fusion methods. The spatial domain techniques are implemented for the evaluation of image element values via prior pixel-level strategies, and the images-fused can realize less spatial distortion and a lower signal-to-noise ratio. The spatial domain-based methods are included some key aspects like 1) simple min/max, 2) independent component analysis, 3) principal component analysis, 4) weighted average, 5) simple average, 6) fuzzy logic, and 7) cloud model. The fusion process of spatial domain-based methods is quite simple, and its algorithm complexity can lower the computation cost. It also has a relatively good performance in alleviating the spectral distortion of fused images. However, the challenging issue is called for their fusion results better in terms of clarity, contrast and continuous lower spatial resolution. In the frequency domain, the input image is first converted from the null domain to the frequency domain via Fourier transform computation, and the fusion algorithm is then applied to the image-converted to obtain the final fused image, followed by the inversed Fourier transform. The commonly-used fusion algorithms in the frequency domain are composed of 1) pyramid transform, 2) wavelet transform and 3) multi-scale geometric transform fusion algorithms. This multi-level decomposition based methods can enhance the detail retention of the fused image. The output fusion results contain high spatial resolution and high quality spectral components. However, this type of algorithm is derived from a fine-grained fusion rule design as well. The deep learning-based methods are mainly related to convolutional neural networks (CNN) and generative adversarial networks (GAN), which can avoid fine-grained fusion rule design, reduce the manual involvement in the process, and their stronger feature extraction capability enables their fusion results to retain more source image information. The CNN can be used to process the spatial and structural information effectively in the neighborhood of the input image. It consists of a series of convolutional layers, pooling layers and fully connected layers. The convolution layer and pooling layer can extract the features in the source image, and the fully connected layer can complete the mapping from the features to the final output. In CNN, image fusion is regarded as a classification problem, corresponding to the process of feature extraction, feature option and output prediction. The fusion task is targeted on image transformation, activity level measurement and fusion rule design as well. Different from CNN, GAN network can be used to model saliency information in medical images through adversarial learning mechanism. GAN is a generative model with two multilayer networks, the first network mentioned is a generator-used to generate pseudo data, and the second following network is a discriminator-used to classify images into real data and pseudo data. The back-propagation-based training mode can improve the ability of GAN to distinguish between real data and generated data. Although GAN is not as widely used in multi-model medical image fusion (MMIF) as CNN, it has the potential for in-depth research. A completed overview of existing multimodal medical image databases and fusion quality evaluation metrics is developed further. Four open-source freely accessible medical image databases are involved in, such as the open access series of imaging studies (OASIS) dataset, the cancer immunome atlas (TCIA) dataset, the whole brain atlas (AANLIB) dataset, and the Alzheimer' s disease neuroimaging initiative (ANDI) dataset. And, a gene database for green fluorescent protein and phase contrast images are included as well, called the John Innes centre (JIC) dataset. Our critical review is based on the summary of 25 commonly-used medical image fusion result evaluation indicators in four types of metrics: 1) information theory-based; 2) image feature-based; 3) image structural similarity-based and 4) human visual perception-based, as well as 22 fusion algorithms for medical image datasets in recent years. The pros and cons of the algorithms are analyzed in terms of the technical-based comparison, fusion modes and evaluation indexes of each algorithm. In addition, our review is carried out on a large number of experiments to compare the performance of deep learning-based and traditional medical image fusion methods. Source images of three modal pairs are tested qualitatively and quantitatively via 22 multimodal medical image fusion algorithms. For qualitative analysis, the brightness, contrast and distortion of the fused image are observed based on the human vision system. For quantitative-based analysis, 15 objective evaluation indexes are used. By analyzing the qualitative and quantitative results, some critical analyses are discussed based on the current situation, challenging issues and future direction of medical image fusion techniques. Both of the traditional and deep learning methods have promoted fusion performance to a certain extent. More medical image fusion methods with good fusion effect and high model robustness are illustrated in the context of the algorithm optimization and the enrichment of medical image data sets. And, the two technical fields will continue to be developed towards the common research trends of expanding the multi-facet and multi-case medical images, proposing effective indicators suitable for medical image fusion, and deepening the research scope of image fusion.

Key words

multimodel medical image; medical image fusion; deep learning; medical image database; quality evaluation metrics

0 引言

医学图像是临床诊断的重要依据,广泛应用于治疗规划、手术导航中。临床诊断的准确性需要同时提取多幅不同模态的医学图像信息来保证。因此,图像融合技术受到广泛关注。图像融合是计算机视觉和图像处理领域的一个热门课题,包括多聚焦图像融合(Zhang等,2018)、多曝光图像融合(Zhang,2021)和多模态图像融合(Zhang等,2021)等。而多模态医学图像融合(multimodal medical image fusion,MMIF)是多模态图像融合中的代表性融合场景。通过将不同模态医学图像中的互补信息整合到一幅图像中,帮助放射科或肿瘤医生等加快诊断过程,提高决策能力,降低储存成本(Rajalingam和Priya,2018b)。同时,由于医疗保健行业的巨大进步,医学成像传感器也飞速发展,加大了医疗系统对图像融合的需求。

图像融合过程由预处理、图像配准、图像融合和性能评价4部分组成。在预处理阶段,识别出图像中的噪声和伪影并完全去除,获得高质量的医学图像(Zhao和Lu,2017)。然后,选取一幅参考图像,对剩余图像进行几何变换,使其与参考图像同步,获得配准后的待融合图像(El-Gamal等,2016),这是与图像融合直接相关的步骤,它纠正了输入图像之间的偏差,补偿了原始信号重建、平移、旋转和缩放过程中造成的变化,从根本上保证了图像融合的精度。在融合过程中,图像融合等级按照作用的层次分为像素级、特征级和决策级(Du等,2016),如图 1所示。像素级融合对图像像素进行综合分析,能够保持尽可能多的现场数据;特征级融合对图像特征进行综合分析,可以压缩信息使其具有良好的实时性;决策级融合对图像进行特征提取和特征分类,通过大量的决策系统对分类后的图像特征进行融合。

图 1 图像融合等级
Fig. 1 Image fusion levels

融合性能评价分为主观评价和客观评价。主观评价基于人眼视觉系统。在医疗领域中,通过观察图像的失真情况、空间细节、颜色和亮度等,或结合主观的标准化分数计算来判断融合质量是简单而可靠的。客观评价则通过一系列与人类视觉系统高度一致的指标来定量评估融合算法的性能。

图 2所示,自2000年起,针对图像融合的算法研究文献数量迅速增加。其中,医学领域融合算法的文献数量占比逐渐升高。随着该研究领域的逐渐成熟和图像处理领域的阶段性停滞,每2—3年会迎来一个小幅度的上升期。这样增长的背后有3个原因:1)医学图像数据库的逐渐丰富;2)图像与信号处理技术的进步;3)医学图像融合算法得到实际应用(如多模态医学图像一体机的发展)。在每一个历史性的发展阶段都会涌现一些关于医学图像融合技术的调查或评论性文章。James等人(2014)总结了医学图像融合技术中待解决的问题。其中包括:1)现阶段的融合算法创新性有限,大部分MMIF算法都是从已有图像融合研究中衍生出来的;2)图像之间物体配准的不准确与MMIF算法的特征级或决策级融合性能不佳密切相关,需要医学领域知识和算法洞察力来提高融合的准确性;3)由于像素强度异常、特征缺失、传感器误差、空间误差和图像间变异性的存在而导致的特征处理和提取算法的主要问题仍然是医学图像融合中的一个开放问题。El-Gamal等人(2016)预测了未来几年医学图像融合技术的发展趋势。张俊杰等人(2016)对特征级多模态医学图像融合技术的研究进展进行深度讨论。Meher等人(2019)展示了对基于区域的图像融合技术的相似比较。周涛等人(2021)对多尺度变换的像素级医学图像融合进行综述,阐述了多尺度变换图像融合的基本原理和框架。Azam等人(2022)对医学图像的原理和分类进行概括,并对不同融合技术的优缺点进行总结。

图 2 以医学图像融合为主题的科学出版物(2000年—2022年第1季度)
Fig. 2 Scientific publications with topic of medical image fusion(2000 to the first-quarter of 2022)

与上述综述类文章相比,本文不仅对MMIF算法的文献进行比较与总结,还对不同疾病的MMIF研究进展进行了重点分析和总结,通过对比最新的MMIF方法的定性及定量指标,探索该课题的未来研究趋势,助力医疗领域新型成像传感器的发展。

1 医学图像模态

医学成像的研究目的在于借助各种科学技术可视化人体内部的结构和组织,为疾病诊断提供重要信息。不同的成像技术可以从不同方面互补地反映患者的信息,而图像融合技术可以将它们结合起来。医学图像是由能量和人体组织相互作用形成的。在医学领域中,成像技术主要分为利用电磁能成像和利用声能成像。利用声能成像是指利用超声波在不同介质中的传播速度不同来达到实时成像的效果,直接提供动态图像。而MMIF技术主要针对由电磁能成像技术形成的静态图像。如X射线计算机断层扫描成像(computed tomography,CT)、单光子发射型计算机断层成像(single photon emission computed tomography,SPECT)、正电子发射型断层成像(positron emission tomography,PET)和磁共振成像(magnetic resonance imaging,MRI)等。图 3显示了基于电磁能成像技术各电磁波频谱上的可形成的医学图像。

图 3 各电磁波频谱上的可形成的医学图像
Fig. 3 A formable medical image of the electromagnetic spectrum

1.1 计算机扫描成像

1895年,W.K.Roentgen发现了X射线,人类历史上第一次实现用科学技术观察人体内部结构。X射线将3维目标投影在2维的检测平面上,但投影方向上信息相互重叠,成像的分辨率低,仅能区别密度差别很大的脏器。20世纪60年代,计算机断层扫描技术(CT)逐渐发展起来,并从根本上解决了上述问题。CT利用X射线对人体进行平移扫描,获取多个方向上的投影数据,然后用精确的数学公式重建出人体内部的剖面结构。而数字图像处理技术将感兴趣区域的细微灰度差变换为屏幕上人眼可分辨的灰度差,大幅提高了区分密度差异小的不同组织的能力,其灰度仅与组织的强度有关,与细胞的活性无关。CT图像的应用范围几乎涵盖了全身各个系统,特别是对于中枢神经系统、头颈部和呼吸系统病变的检出和诊断具有明显优势。对于心血管系统、生殖系统和骨骼肌肉系统病变也具有较高的诊断价值。但是,CT检查对某些病变的检出具有一定难度。例如,CT对骨骼肌肉系统中的骨骼敏感,但对软骨、关节盘和韧带等软组织的病变显示仍十分困难。

1.2 磁共振成像

磁共振成像(magnetic resonance imaging,MRI)利用与原子核共振波长相同的电磁波激发人体内部的原子核,使之处于受激的状态。原子核恢复到平衡态时会产生辐射,并携带核周围生化环境相关信息,它不仅可以显示解剖学形态的图像,还可以指示病理特征。据美国健康研究所(National Institute of Health,NIH)统计,现在全世界每年有6千多万人次接受MRI检查。MRI可以对人体所有器官成像,尤其是对大脑组织和脊髓的成像最为精细,在研究和临床上极有价值。如同CT图像,MRI图像也是数字化的模拟灰度图像,亦具有窗技术显示和能够进行各种图像后处理的特点。然而,MRI图像上的灰度并非表示组织和病变的密度,而是代表它们的信号强度,反应弛豫时间的长短。MRI检查对于癌症的诊断、治疗和病程跟踪非常有效,可以为手术和放射治疗精确定位肿瘤的位置、边界以及对周边组织浸润的情况。但是在临床应用中,MRI图像容易产生不同类型的伪影且有时不能完全消除,给图像解释带来困难,对某些系统疾病的检出和诊断的贡献有限,如MRI对于呼吸系统中大多数疾病诊断价值不高。

1.3 核医学成像

医学上放射性核素成像是将放射性核素标记在药物上,通过口服或注射方式引入人体内,检测体外该核素发射出来的能量形成图像。由于各脏器对同位素标记物的选择性吸收、正常组织与病变组织的吸收差异、代谢差异以及病变对标记物在体内循环产生影响等因素,使不同生理、病理的图像形成差异,故可以据此诊断疾病。临床应用的核素成像系统有两种,单光子发射型计算机断层成像(SPECT)和正电子发射型断层成像(PET),二者都用来测定人体各部位的生物化学和代谢过程。PET图像的成像质量更高,但其示踪剂较少,应用范围受到限制,而SPECT的示踪剂更易制作,可根据不同部位、不同症状选取合适的示踪剂进行成像。由于PET和SPECT图像的分辨率比较低,人们更强调其功能性研究。

1.4 融合模态

医学影像检查技术发展迅速,除了CT、MRI和核素显像,还有X射线、超声等常规成像技术。不同成像技术有各自优势和限度以及明确的范围。以脑部医学图像为例,CT获取的图像可以提供丰富的解剖细节,能够清晰分辨脑内颅骨、脑实质、脑脊液和非病理性钙化区域;MRI能够显示丰富的生理和生化信息,包括脑内神经、脑血管以及软组织;而PET/SPECT图像能够反映正常组织和病变组织对标记物的代谢情况以及脑部的血流信号。在实际的临床诊断中,对于某一系统疾病、某一类疾病通常需要综合应用几种成像技术才能满足诊断的需要。

图 4是几种不同病例的多模态影像。图 4(a)显示了生活中常见的一种脑变性疾病阿尔茨海默症,其早期症状表现为短期记忆障碍,随着时间推移逐渐出现语言障碍、生活无法自理等症状。针对该疾病的首选检查方法为MRI,其主要的影像依据是以海马为显著区域的脑萎缩,而导致脑萎缩的原因众多,如结合PET图像,则可明显观察到海马区域的血流信号减少、代谢降低等,从而确诊阿尔兹海默症。图 4(b)显示了脑膜瘤的医学影像。CT可以扫出颅内的高密度区域(多为肿瘤区)以及其边界,肿瘤密度是否均匀等。而MRI图像可显示出肿瘤内是否存在条状流空血管、肿瘤内部信号是否均匀,亦可显示由脑膜瘤所致的骨改变。当脑膜瘤发生在功能区时,可有不同程度的神经性功能障碍,需结合PET或SPECT图像联合诊断。图 4(c)为Ⅳ级星形细胞肿瘤患者的医学影像,MRI图像可体现其占位效应,瘤内坏死或出血以及微血管的密度和通透性,有助于评估肿瘤的病理分级。SPECT图像可标记其葡萄糖代谢情况,可对其进行良、恶性肿瘤的鉴定。

图 4 几种不同病例的多模态影像
Fig. 4 Multimodal images of several different cases
((a)Alzheimer's disease; (b)intracranial tumors; (c)grade Ⅳ astrocytic tumors)

基于实际的临床需求和应用价值,可以将主流的融合模态归纳为灰度图像的融合以及灰度与伪彩图像的融合两种。其中,灰度图像的融合主要涉及CT和MRI图像,灰度与伪彩图像的融合主要涉及CT、MRI、PET、SPECT 4种模态。融合示例如图 5所示。

图 5 多模态医学图像融合示意图
Fig. 5 Schematic diagram of multimodal medical image fusion
((a)grayscale image fusion; (b)grayscale and pseudo-color image fusion)

2 融合方法

2.1 传统融合方法

传统MMIF方法着重处理源图像中的噪声、纹理、梯度、细节和颜色等信息,针对不同需求设计分解或重构策略和融合规则。这些方法按照对像素的处理方式和作用域的不同可分为基于空间域的融合方法、基于频率域的融合方法和基于梯度域的融合方法3类。

2.1.1 基于空间域的MMIF方法

空间域技术利用基础的像素级策略,对图像中的像元值起作用,得到的图像表现出更少的空间失真和较低的信噪比。基于空间域的方法主要包括简单最小/最大值、独立分量分析(independent component analysis,ICA)、主成分分析(principal component analysis,PCA)、加权平均、简单平均、模糊逻辑(fuzzy logic,FL)和云模型(cloud model,CM)等。其中,简单最小/最大值、简单平均方法相对原始,计算复杂度低,可以快速实现图像融合,然而融合效果并不理想。ICA为了区分待融合图像中的有用信息和无用信息,在ICA域对源图像进行分解,并将其独立分量系数进行融合。而PCA则按照信息量对各个成分进行排序,将彼此不相关的各主成分分量进行筛选,丢弃信息量少的分量。模糊逻辑通常应用在融合规则的构造中,利用模糊隶属函数对图像内部的不确定性进行描述,从而对图像系数进行分配。云模型具有考虑随机性和模糊性的优点,利用逆向云发生器自适应地生成点云模型,计算其隶属度,找到合适的云模型构建融合规则。

从多组数据中融合信息以提取一组最具特征的数据是融合任务的重点。而ICA提供一个简单的生成模型,对分解后的各个分量独立性进行度量,使多个模态充分交互以估计所有模态的潜在特征。Akhonda等人(2021)讨论了ICA在多集融合中的两个重要扩展,即联合ICA(joint independent component analysis,JICA)以及多集典型相关分析和联合ICA技术,两种方法都假设相同的混合矩阵,强调跨多个数据集通用的组件,提出一个通用的框架,使用ICA的不相交子空间分析,不仅识别和提取多个数据集的共同成分,还可以提取不同的成分。该方法的一个关键组成部分是在后续分析之前识别这些子空间并分离它们,这有助于建立更好的模型匹配,并在算法和顺序选择方面提供了灵活性。Faragallah等人(2021)提出一种基于主成分分析和奇异值分解(singular value decomposition,SVD)的多模态MMIF方法。该算法基于PCA与SVD的结合,将CT和MRI两种成像模式的所有相关信息整合在一起作为融合CT和MRI图像的预处理手段,可以减少融合过程的处理时间和对内存的需求,且图像质量与其他算法相同。Gao等人(2021)采用基于图形的视觉显著性算法(graph-based visual saliency,GBVS)计算两个配准源图像的视觉显著性,在非下采样剪切波变换(non-subsampled shearlet transform,NSST)域内对源图像进行分解,得到低频和高频子带。对于低频子带,以局部能量和GBVS图为输入,利用模糊逻辑系统分别得到融合后低频子带的权值。此外,利用粒子群算法优化模糊逻辑系统的隶属度函数,使其更好地适应于医学图像和特征提取。Liu等人(2015b)提出一种基于改进和修正的拉普拉斯矩阵的像素级融合方法,利用局部拉普拉斯滤波对解剖图像和功能图像进行处理,然后通过最大化局部能量对子图像进行融合,来克服阻塞效应和伪影。Li等人(2019b)提出一种基于自适应云模型(adaptive cloud model,ACM)的MMIF方法,利用ACM融合经过局部拉普拉斯金字塔分解后的近似图像,使用拟合曲线通过捕获拟合曲线的谷点来表示图像细节信息。

2.1.2 基于频率域的MMIF方法

在频域领域中,原始的手段是通过计算傅里叶变换将输入的图像从空域转换为频域,然后对转换后的图像应用融合算法,再进行傅里叶逆变换,得到最终的融合图像。常见的变换域中的融合算法有基于金字塔、基于小波和基于多尺度几何变换的融合算法。

金字塔变换是最原始的图像分解手段之一,分解过程由连续滤波和下采样组成,产生一组类似金字塔结构的图像,过程如图 6所示。首先将源图像分解为塔形结构的子图,随着分解层数的增加,子图尺寸逐渐减小,再将每一层的分解数据分别融合,最后重构成融合图像。在MMIF算法中,最流行的金字塔分解方法包括拉普拉斯金字塔(Laplacian pyramids,LP)、梯度金字塔(gradient pyramids,GP)和形态金字塔(morphological pyramids,MP)等。这些方法在面对有噪声干扰的图像时,容易产生块效应。形态金字塔边缘呈现的效率不高,而梯度金字塔会加入不需要的伪影(Lewis等,2007)。基于小波变换的融合算法成功克服了这些缺点。

图 6 基于金字塔的图像融合方法
Fig. 6 Pyramid based image fusion method diagram

在20世纪90年代中期,出现了第1种基于小波的图像融合方法,并且证明其性能优于金字塔变换,其过程如图 7所示。处理的基本步骤如下:1)对已配准的源图像进行小波分解,相当于使用一组高低通滤波器进行滤波,分离出高频信息和低频信息;2)对每层分解得到的高频和低频信息依据得到的信息特点采取不同的融合策略,在各自的变换域进行特征信息抽取,分别进行融合;3)采用步骤1)小波变换的重构算法对处理后的小波系数进行反变换重建图像,即可得到融合图像。

图 7 基于小波的图像融合方法图示
Fig. 7 Wavelet based image fusion method diagram

小波域通过将图像进行分解来保存图像信息,其系数对应源图像中不同的图像特征(Pajares和de la Cruz,2004)。由于小波分解的近似图像包含了图像的绝大部分能量,且小波系数的均值基本为零,因此,基于小波变换的MMIF算法可以保留源图像的基本亮度和色调(周朋等,2006)。Shabanzade和Ghassemian(2017)为了解决小波变换在表示方向性特征时缺乏位移不变性的缺点(Dogra等,2017),提出了使用平稳小波变换(stationary wavelet transform,SWT)进行MRI与PET融合的算法框架,将非下采样轮廓波变换与SWT结合以发挥SWT的优势。Daniel(2018)利用同态小波(homomorphic wavelet,HW)对源图像进行多级分解,并提出了针对解剖图像和功能图像的最佳比例系数。Prakash等人(2019)利用双正交小波的线性相位特性来完成MMIF中的图像分解与重构。Ashwanth和Swamy(2020)利用散小波变换(discrete wavelet transform,DWT)和SWT对源图像进行多级分解,针对分解后的子带图像分别采用基于边缘和基于能量的融合规则进行特征融合。在MMIF中,小波变换的有方向性得到充分利用,且图像的频率信息利用率很高,但是小波变换本身不具有方向选择性和平移不变性,因此通常与其他频域变换方法结合来克服其局限性。而多尺度几何变换是通过定义特定的小波函数规则或在小波变换内进行特殊处理来克服这些限制。Bhateja等人(2015)提出小波变换和几何变换域中的脊波域(ridgelet domain,RD)具有一定的互补性。小波变换在边缘特征提取上能力较弱,而脊波却能很好地捕捉边缘信息。张鑫和陈伟斌(2014)提出基于曲线波变换(curvelet transform,CVT)的区域方差加权和条件加权融合算法并应用于CT和MRI图像融合。Mathiyalagan(2018)提出一种基于曲线波变换的融合算法,对低通子带图像进行小波变换,对高通子带图像进行脊波变换,利用子带图像的最大局部能量融合PET和MRI。Do和Vetterli(2005)提出轮廓波变换(contourlet transform,CRT)。CRT是利用拉普拉斯塔形分解和方向滤波器组实现的多分辨的、局域的、方向的图像表示方法。基于CRT的MMIF算法可以保持灰度图像的局部亮度,减少融合图像的失真。而CRT的平移可变性和方向混叠等缺陷促成了剪切波变换(shearlet transform,ST)的出现(Guo和Labate,2007)。为了解决ST出现的伪吉布斯现象,Easley等人(2008)提出非下采样剪切波变换(non-subsampled shearlet transform,NSST),利用卷积代替下采样。目前,非下采样剪切波已经成为热门的图像分解和重构工具之一。

2.2 深度学习融合方法

深度学习(deep learning,DL)在计算机视觉领域取得了巨大成就,在图像融合、语义分割和图像分类等视觉任务中都有卓越表现。DL应用于图像融合的动机有两点(Liu等,2018)。一是为了改进传统方法中多尺度和空间变换能力的局限性,DL可以提供新的特征表示方法;二是传统方法的融合策略设计面临发展的瓶颈期,DL能够更有效地映射输入与输出之间的相关性。深度学习领域内的融合方法主要包括卷积神经网络(convolutional Neural Networks,CNN)、生成对抗网络(generative adversarial networks,GAN)、卷积稀疏编码(convolution sparse coding,CSC)、自动编码器(auto encoders,AE)、循环神经网络(recurrent neural networks,RNN)和受限玻尔兹曼机(restricted Boltzmann machine,RBM)等。其中,以基于CNN和GAN的MMIF方法为主。

CNN可以有效处理输入图像中邻域内的空间和结构信息。CNN由一系列的卷积层、池化层和全连接层组成。卷积层和池化层可以提取源图像中的特征,全连接层完成从特征到最终输出的映射。图像融合在CNN中被视为一个分类问题,对应其特征提取、特征选择和输出预测的过程,融合任务则面对的是图像变换、活动水平测量和融合规则的设计。Liu等人(2017)首次将用于多聚焦图像融合的CNN扩展到MMIF中,其中,图像变换利用了频域的拉普拉斯金字塔方法进行多尺度的分解,图像的活动水平测量利用CNN生成的权重图来计算。不同于其他数据类型的丰富储备,医学图像常常面临着小样本的限制,而CNN可以从小样本的医学图像数据集中进行学习,并且不容易产生过拟合的模型。Hermessi等人(2018)提出了一种基于多通道CNN的MRI和CT图像的融合方法,先采用非下采样剪切波对图像进行高频和低频的子带分解,然后利用多通道CNN完成对高频子带图像的特征提取。Xia等人(2018)提出一种深度堆叠的CNN融合方法,该方法去除子采样层以获得与输入图像尺寸相同的输出大小,虽然用整个数据集作为输入所训练的网络可能忽略了模态之间的局部相似性,但该文献表明算法的融合能力受训练数据量的影响可以通过增加训练数据量来防止过拟合。Lahoud和Süsstrunk(2019)提出一种基于CNN的零学习快速融合算法,不需要对特定模态的数据集进行预先训练,对各种模态的输入图像都能够提供有效融合。该算法通过充分利用已经训练好的网络来检测图像中的显著区域,并提取描述这些区域的深度特征图。通过比较这些特征映射,生成融合权重来合并源图像。Wang等人(2020)在一个预先训练好的CNN模型下,采用对比金字塔分解源图像。Xu和Ma(2021)提出一种无监督增强融合模型,通过一个转换网络完成灰度图像到伪彩图像的映射,利用编码解码器提取出具有独特信息的通道作为融合网络的信息约束。

与CNN不同,GAN网络通过对抗性学习机制对医学图像中的显著性信息进行建模。GAN是具有两个多层网络的生成模型,第1个网络是用来生成伪数据的生成器,第2个网络是用来将图像进行真实数据和伪数据分类的判别器。基于反向传播的训练模式提高了GAN区分真实数据和生成数据的能力,尽管GAN在MMIF中应用不如CNN广泛,但具有深度研究的潜力。Tang等人(2019)通过GAN融合了绿色荧光蛋白(green fluorescent protein,GFP)和相位对比图(phase-contrast image,PC)两种图像,利用生成器与鉴别器之间的对抗博弈,提取GFP图像的功能信息,同时提取PC图像的结构信息,并且提高融合图像与源图像之间的整体相似性。Xu等人(2020)使用有密集连接的卷积层替换生成器中的U-Net,因为密集连接可以加强层之间特征图的传递,使特征图的利用过程更加高效。移除池化层后,没有了大步长的卷积核下采样造成的模糊,网络输出的融合图像更加清晰,并且判别器的输入不再是图像梯度,而是图像本身。对于生成器中不同分辨率源图像的输入,不再对低分辨率源图像进行上采样,而是使用反卷积层来学习从低分辨率到高分辨率的映射。Zhao等人(2021)构建了一个基于密集块和编码解码器的生成模块以及鉴别模块组成的GAN。并且在生成器的构造中,灵活设计了特征融合规则,扩大了算法的应用范围。

卷积稀疏编码(convolution sparse coding,CSC)起源于反卷积网络,该技术的主要目标是在稀疏性约束下实现图像的卷积分解。输入图像的多阶段特征表示是通过发展这种分解的层次结构来从反卷积网络中学习的。然后,利用这些多重分解层次对输入图像进行分层重构(Zeiler等,2010)。Liu等人(2015a)通过融合PET/MRI的感兴趣区域(region of interest,ROI)来研究阿尔茨海默病的进展。Shi等人(2017)通过使用堆叠去噪和稀疏自动编码器(denoising and sparse auto-encoder,DSAE)融合MRI特征来判断阿尔茨海默症的发展程度。Islam等人(2019)比较了通过融合MRI/CT学习的SEA(stacked auto-encoder)的分类准确性,并基于单一模式,取得了更好的性能。循环神经网络(recurrent neural network,RNN)的主要应用领域是语音识别和文本分析,Chen等人(2018)融合了CNN和RNN结构,利用RNN从MRI中提取特征,根据上下文信息,利用全卷积网络推断病变的概率。受限玻尔兹曼机(restricted Boltzmann machine,RBM)是玻尔兹曼机(Boltzmann machine,BM)的一种变体,RBM是由对称连接的可见层和隐藏层组成的概率性、生成性、随机性和双向图形模型,动机是从隐藏层的向后传递中生成输入,并估计原始输入的概率分布。Suk等人(2014)使用深度玻尔兹曼机(deep Boltzmann machine,DBM)进行深度特征融合,从PET和MRI中提取层次特征以提供阿尔茨海默症的计算机诊断辅助,但由于融合概念的动机不足,在这一背景下开展的融合工作较少。

3 相关数据集及评价指标

3.1 多模态医学图像数据集

MMIF任务使用的数据需要通过配准注册,因此多数研究人员倾向于使用公开的免费数据集。

3.1.1 OASIS数据集

影像研究开放获取系列(open access series of imaging studies,OASIS)是一系列公开的用于研究和分析的脑部磁共振成像数据集,共3个数据项目,OASIS-1、OASIS-2和OASIS-3。OASIS-1公布于2007年,共收集416名18~96岁受试者的横截面图像,其中,100名超过60岁的受试者临床诊断为轻度至中度阿尔茨海默症,每位受试者采集3或4个单独的T1加权磁共振扫描成像,所有的采集图像都提供了极高的对比噪声比,使数据能够适应广泛的分析方法。此外,OASIS-1包括20名非痴呆受试者在接受初始治疗后90天内的后续访问图像。OASIS-2公布于2009年,收集了150名60~96岁受试者的纵向MRI数据,每个受试者接受两次或两次以上扫描,时间间隔至少1年,共进行373次影像学检查,每个受试者数据都包括3或4次单次扫描获得的T1加权磁共振扫描。在整个研究过程中,72名受试者确定为精神正常,64名受试者初次就诊时诊断为精神错乱,并在随后的医学影像检查中保持这种状态,其中51名为轻度至中度阿尔茨海默病患者,14名在第1次就诊时诊断为非精神错乱,在随后就诊中诊断为精神错乱。OASIS-3公布于2019年,是通过对超过1 000名参与者的回溯性数据汇编合成,并在MRI图像收集的基础上,提供了3种不同示迹剂的PET成像。

3.1.2 TCIA数据集

肿瘤免疫图谱数据库(the cancer immunome atlas,TCIA)提供了20个癌种的免疫数据分析。肿瘤免疫图谱数据库由美国国家癌症研究所(National Cancer Institute,NCI)癌症影像计划资助,合同由美国阿肯色大学医学科学院管理。TCIA分别对每个病人进行分析,数据也提供下载,DICOM(digital imaging and communications in medicine)是TCIA用于图像存储的主要文件格式。网站还提供与图像相关的支持数据,如患者结果、治疗细节、基因组学、病理学和专家分析。大多数数据以DICOM格式存储的CT、MRI和核医学(例如PET)图像为主,也提供或链接其他类型的支持数据,以增强研究效用。网页中可以看到患者的ID、疾病、性别和年龄信息。该数据库还提供了总共52个解剖器官的图像,如乳房、胸部、大脑和结肠。

3.1.3 AANLIB数据集

美国哈佛医学院提供了全脑图谱的脑图像数据集(the whole brain atlas,AANLIB),该数据集是在线公共访问的,AANLIB数据集主要分为基于正常和病变的脑图像。正常的脑图像是2维或3维的,而病变图像则进一步分为脑下疾病,包括脑卒中和肿瘤、退行性和感染性疾病,以及许多其他脑相关疾病。这个数据库中的所有图像都是GIF文件格式,易于使用。AANLIB数据库专注于大脑图像,并包含MRI、CT、PET和SPECT等成像方式。针对MRI图像,AANLIB数据集提供了T1和T2加权的图像,并且在网页中可直接查看PET和MRI的叠加图像。同一单元的不同模态病例图像均已经过配准,是目前MMIF使用的最广泛的数据集。

3.1.4 ANDI数据集

阿尔茨海默症神经影像数据(the Alzheimer’s disease neuroimaging initiative,ADNI)研究的目标是使用生物标志物以及临床措施来跟踪疾病的进展,以评估疾病变化过程中的大脑结构和功能。ADNI研究人员生成的所有数据都输入到美国南加州大学神经影像实验室的数据存储库中。全球的研究人员可以提交在线数据访问请求,并且通常在提交请求几天后即可开始使用ADNI数据,包括认知/神经心理学、图像、生物流体和遗传数据集。ADNI主要针对正常衰老、早期轻度认知障碍和阿尔兹海默症的医学数据,其中包括MRI、CT和PET共3种医学影像。

3.1.5 JIC数据库

英国约翰英尼斯中心(John Innes Centre,JIC)是一个独立的国际植物科学、遗传学和微生物学研究中心。该研究中心将细胞生物学、化学、遗传学和分子生物学等学科作为主要研究内容。在细胞和分子生物学中,GFP图像暴露在蓝—紫外光下时显示出明亮的绿色荧光,并提供了与生物活细胞中的分子分布相关的功能信息。然而,GFP图像的空间分辨率较低,导致细胞缺乏特定的结构细节。PC图像通过将透明标本的光相位移转换为图像的振幅或对比度的变化来可视化相位差,显示了具有高空间分辨率的结构信息,如细胞核和线粒体。GFP和PC的融合图像可以同时显示相关生物活细胞的分子分布和结构信息中的细胞核和线粒体。在近几年的图像融合文献中,针对医学图像的融合算法也常常在该数据集上进行验证。

上述5个多模态医学图像数据集的主要信息如表 1所示。

表 1 多模态数据库比较
Table 1 Multimodal database comparisons

下载CSV
数据集 年份 模态 部位 病例 格式
OASIS 2010 MRI、PET 脑部 轻度/中度痴呆、阿尔茨海默症 NIFTI
TCIA 2014 X射线、超声、CT、MRI、PET、SPECT 脑、胸、肺、胸、腹部、肾、心脏、颈部等 多种人体器官疾病 DICOM
ANNLIB 1995 CT、MRI、PET、SPECT 脑部 正常脑部、脑中风、脑肿瘤、退行性疾病等 GIF
ADNI 2003 CT、MRI、PET 脑部 阿尔茨海默症 -
JIC 1994 PC、GFP - - GIF
注:“-”表示不涉及该项内容。

3.2 评价指标

融合图像的质量需要从主观定性和客观定量两方面评价, 目前没有统一的评价标准。在定性评价中,根据每个算法的可视化结果,对其相关区域进行突出显示以反映差异,这种评价方法相对主观,主要基于人眼视觉观察。对于定量评价,根据不同的方法特征和融合场景,选择不同的客观指标。目前已有数十个评价指标,例如结构相似性、空间频率和平均梯度等。图像融合的度量指标可分为4种类型,即基于信息理论的指标、基于图像特征的指标、基于图像相似性的指标和基于人类视觉感知的指标(Liu等,2012b)。

3.2.1 基于信息理论的指标

1) 交叉熵(cross entropy,CE)。CE(Bulanon等,2009)表达的是融合图像与两幅源图像信息的差异度,一般是大于0的数,其定义为

$ C E=\frac{C E_{A . F}+C E_{B . F}}{2} $ (1)

式中,$C E_{X, F}$表示计算图像X与融合图像F之间的交叉熵。X代表源图像AB$C E_{X, F}$的计算定义为

$ C E_{X, F}=\sum\limits_{i=0}^{255} {\boldsymbol{h}}_X(i) \log _2 \frac{{\boldsymbol{h}}_X(i)}{{\boldsymbol{h}}_F(i)} $ (2)

式中,${\boldsymbol{h}}_X(i)$代表图像的归一化直方图。较小的$CE$值意味着融合图像与源图像具有相当的相似性,表明融合图像具有良好的性能。

2) 熵(entropy,EN)。EN(Roberts等,2008)测量融合图像中包含的信息,其定义为

$ E N=\sum\limits_{l=0}^{L-1} {\boldsymbol{p}}_l \log _2 {\boldsymbol{p}}_l $ (3)

式中,$L$代表灰度级的数量,${\boldsymbol{p}}_l$表示融合图像中相应灰度级的归一化直方图。较大的$EN$值表示更好的融合表现。

3) 互信息(mutual information,MI)。MI(Singh和Khare,2014)测量从源图像传输到融合图像中的信息量,其定义为

$ M I=M I_{A, F}+M I_{B, F} $ (4)

其中,$M I_{A, F}$$M I_{B, F}$表示源图像AB向融合图像中传输的信息量。$M I_{X, F}$的定义为

$ M I_{X, F}=\sum\limits_{x, f} {\boldsymbol{p}}_{X, F}(x, f) \log _2 \frac{{\boldsymbol{p}}_{X, F}(x, f)}{{\boldsymbol{p}}_X(x) {\boldsymbol{p}}_F(f)} $ (5)

式中,${{\boldsymbol{p}}}_X(x)$${{\boldsymbol{p}}}_F(f)$分别代表源图像X和融合图像F的边缘直方图。${\boldsymbol{p}}_{X, F}(x, f)$为源图像X和融合图像F的联合直方图。$MI$的值越大,代表越多的源图像信息传输到融合图像中,同时说明融合性能越好。

4) 峰值信噪比(peak signal-to-noise ratio,PSNR)。PSNR(Jagalingam和Hegde,2015)表示融合图像中的峰值功率与噪声功率的比值,可以测量图像融合过程中的失真。其定义为

$ P S N R=10 \lg \frac{r^2}{M S E} $ (6)

式中,$r$为融合图像的峰值,$MSE$为均方误差,其计算式为

$ M S E=\frac{M S E_{A, F}+M S E_{B, F}}{2} $ (7)

$ M S E_{X, F}=\frac{1}{M N} \sum\limits_{i=0}^{M-1} \sum\limits_{j=0}^{N-1}(X(i, j)-F(i, j))^2 $ (8)

$PSNR$值较大,表示融合后的图像更接近源图像,失真程度较小。因此,$PSNR$值越大,融合性能就越好。

5) 非线性相关信息熵(nonlinear correlation information entropy,NCIE)。NCIE(Wang等,2008)测量源图像AB与融合图像F之间的非线性相关性。首先,基于源图像与融合图像之间的非线性相关系数(nonlinear correlation coefficient,NCC)(Wang等,2005),构造一个非线性相关矩阵${\boldsymbol{R}}$,具体为

$ {\boldsymbol{R}}=\left[\begin{array}{ccc} 1 & N C C_{A, B} & N C C_{A, F} \\ N C C_{B, A} & 1 & N C C_{B, F} \\ N C C_{F, A} & N C C_{F, A} & 1 \end{array}\right] $ (9)

利用${\boldsymbol{R}}$计算$NCIE$值,其值为

$ N C I E=1+\sum\limits_{i=1}^3 \frac{\lambda_i}{3} \log _{256} \frac{\lambda_i}{3} $ (10)

式中,$\lambda_i$是矩阵${\boldsymbol{R}}$的特征值。$NCIE$的取值范围为封闭区间[0, 1],其中,0表示最小非线性相关,1表示最大非线性相关。

6) 空域和光谱信息熵(spatial-spectral entropy based quality,SSEQ)。SSEQ(Liu等,2014)在图像失真类型未知的情况下衡量融合图像在空域信息和光谱信息两方面的失真程度。其定义为

$ \begin{aligned} S S E Q & =libsvm\left(mean\left({\boldsymbol{S}}_c\right), skew({\boldsymbol{S}}), \right. \\ & \left.mean\left({\boldsymbol{F}}_c\right), skew({\boldsymbol{F}})\right) \end{aligned} $ (11)

式中,${\boldsymbol{S}}$${{\boldsymbol{S}}}_c$分别表示局部空域特征和池化处理后的空域特征。${\boldsymbol{F}}$${{\boldsymbol{F}}}_c$分别表示局部光谱特征和池化处理后的光谱特征。$libsvm$是一个支持向量机库,$mean$指计算数据均值,$skew$指计算数据的偏斜度。$SSEQ$值越小,融合图像的空域信息和光谱信息保留越好。

7) 基于色调映射(tone mapped image quality index, TMQI)。TMQI(Yeganeh和Wang,2013)度量融合图像相比于输入图像在亮度信息和对比度信息两方面的丢失程度。其定义为

$ TMQI\left({\boldsymbol{I}}_{{\mathrm{R}}}, {\boldsymbol{I}}_{{\mathrm{F}}}\right)=a T^\alpha+(1-a) M^\beta $ (12)

式中,${{\boldsymbol{I}}}_{{\mathrm{R}}}$为输入的源图像,${\boldsymbol{I}}_{{\mathrm{F}}}$为融合图像,$T$为结构保真度,$M$为图像的统计特性,常数的取值为$a$=0.801 2,$α$=0.304 6,$β$=0.708 8。$MQI$值越大,表示其保留信息的能力越好。

8) 归一化的加权边缘信息(normalized weighted edge information,QAB/F)。QAB/F(Sengupta等,2020)是一种基于分数阶微分、逻辑函数的融合图像边缘信息的度量指标。利用3个特征几乎相同的S型函数,以边缘强度和方向强度作为输入,估计归一化的加权融合度量。其定义为

$ \begin{gathered} Q_{A B / F}= \\ \frac{\sum\limits_{x=1}^M \sum\limits_{y=1}^N\left(R^{F A}(x, y) W^A(x, y)+R^{F B}(x, y) W^B(x, y)\right)}{\sum\limits_{x=1}^M \sum\limits_{y=1}^N\left(W^A(x, y)+W^B(x, y)\right)} \end{gathered} $ (13)

式中,AB为源图像,F为融合图像。$W^A(x, y)$$W^B(x, y)$分别为相对强度值$R^{F A}(x, y)$$R^{F B}(x, y)$的权重,$M$$N$为图像尺寸。$Q_{A B / F}$值的典型范围是从0到1。较低的值即接近于0对应较差的融合算法,而较高的值即接近于1表示更好的融合算法。

9) Arimoto熵度量(metric based on Arimoto entropy,AEN)。AEN(Li等,2019a)是香农熵的一种推广,基于Arimoto熵的性质,测量融合图像中包含的来自两个输入图像的信息量。其定义为

$ A E N({\boldsymbol{A}}, {\boldsymbol{B}} ; {\boldsymbol{F}})=I_\alpha({\boldsymbol{F}}, {\boldsymbol{A}})+I_\alpha({\boldsymbol{F}}, {\boldsymbol{B}}) $ (14)

$ I_\alpha({\boldsymbol{F}}, {\boldsymbol{X}})=\frac{\alpha}{1-\alpha}\left[1-\left(\sum\limits_{i=1}^N \frac{p(f, x)^\alpha}{(p(f) \cdot p(x))^{\alpha-1}}\right)^{\frac{1}{\alpha}}\right] $ (15)

式中,X代表源图像${\boldsymbol{A}}$${\boldsymbol{B}}$$I_\alpha({\boldsymbol{F}}, {\boldsymbol{X}})$表示${\boldsymbol{F}}$${\boldsymbol{X}}$之间的联合Arimoto熵。该值与融合结果的主观效果相关,其值越大,融合性能越好。

10) 梯度—强度混合信息指数(gradient-intensity mixed information index,GIMI)。GIMI(Wang等,2018)是一种基于图像强度互信息(MI)的度量指标。GIMI指数将梯度与强度结合在一起,以捕获两个体积之间的空间相似性,其中都涉及强度分布、类别和边界信息。其定义为

$ G I M I=2\left(\frac{H_{i g}({\boldsymbol{A}}, {\boldsymbol{F}})}{H_{i g}({\boldsymbol{A}})+H_{i g}({\boldsymbol{F}})}+\frac{H_{i g}({\boldsymbol{B}}, {\boldsymbol{F}})}{H_{i g}({\boldsymbol{B}})+H_{i g}({\boldsymbol{F}})}\right) $ (16)

式中,$H_{i g}({\boldsymbol{A}}, {\boldsymbol{F}})$为源图像${\boldsymbol{A}}$和融合图像${\boldsymbol{F}}$之间的联合熵, $H_{i g}({\boldsymbol{B}}, {\boldsymbol{F}})$为源图像${\boldsymbol{B}}$和融合图像${\boldsymbol{F}}$之间的联合熵。该值越高,说明其融合效果越好。

3.2.2 基于图像特征的指标

1) 平均梯度(average gradien,AG)。AG(Cui等,2015)能够测量融合图像的梯度信息,并表示其细节和纹理。其定义为

$ A G=\frac{1}{M N} \sum\limits_{i=1}^M \sum\limits_{j=1}^N \sqrt{\frac{\nabla F_x^2(i, j)+\nabla F_y^2(i, j)}{2}} $ (17)

式中,$\nabla F_x(i, j)=F(i, j)-F(i+1, j)$, $\nabla F_y(i, j)$=$F(i, j)-F(i, j+1)$$AG$值越大,说明融合图像中包含的梯度信息越多,因此融合性能越好。

2) 边缘强度(edge intensity,EI)。EI(Rajalingam和Priya,2018a)测量图像的边缘强度信息。EI值越高,表示图像越清晰,图像质量越高。EI可以使用Sobel算子(Vincent和Folorunso,2009)进行计算,其定义为

$ E I=\sqrt{S_x^2+S_y^2} $ (18)

式中,$S_x={\boldsymbol{F}} * {\boldsymbol{h}}_x, S_y={\boldsymbol{F}} * {\boldsymbol{h}}_y, {\boldsymbol{h}}_x=\left[\begin{array}{ccc} -1 & 0 & 1 \\ -2 & 0 & 2 \\ -1 & 0 & 1 \end{array}\right]$${\boldsymbol{h}}_y=\left[\begin{array}{ccc} -1 & -2 & -1 \\ 0 & 0 & 0 \\ 1 & 2 & 1 \end{array}\right]$

3) 基于边缘的相似度度量(edge based similarity measurement,ESM)。ESM(Xydeas和Petrović,2000)表示从源图像传输到融合图像的边缘信息量。其定义为

$ \begin{gathered} E S M= \\ \frac{\sum\limits_{i=1}^M \sum\limits_{j=1}^N\left(E S M^{A, F}(i, j) \omega^A(i, j)+E S M^{B, F}(i, j) \omega^B(i, j)\right)}{\sum\limits_{i=1}^M \sum\limits_{j=1}^N\left(\omega^A(i, j)+\omega^B(i, j)\right)} \end{gathered} $ (19)

式中,$ESM^{X, F}(i, j)=ESM_g^{X, F}(i, j) ESM_\alpha^{X, F}(i, j)$是边缘信息保存值。$ESM_g^{X, F}(i, j)$$ESM_\alpha^{X, F}(i, j)$分别表示像素位置$(i, j)$处的边缘强度和方向保留值。$ESM$的取值区间在[0, 1]内,传输到融合图像上的边缘信息越多,$E S M^{X, F}$值就越大。因此,较大的$ESM$值表明其具有良好的融合性能。

4) 标准偏差(standard deviation,SD)。SD(Rao,1997)反映了融合图像的分布和对比度。其定义为

$ S D=\sqrt{\sum\limits_{i=1}^M \sum\limits_{j=1}^N(F(i, j)-\mu)^2} $ (20)

式中,μ表示融合图像的平均值。人类的视觉系统对于对比度很敏感,因此高对比度图像中的区域总是能吸引人类的注意。由于融合图像的高对比度导致SD值较大,因此SD越大,说明融合图像具有良好的视觉效果。

5) 空间频率(spatial frequency,SF)。SF(Eskicioglu和Fisher,1995)可以测量图像的梯度分布,从而揭示图像的细节和纹理。其定义为

$ S F=\sqrt{R F^2+C F^2} $ (21)

式中,$R F=\sqrt{\sum\limits_{i=1}^M \sum\limits_{j=1}^N(F(i, j)-F(i, j-1))^2}$$C F=\sqrt{\sum\limits_{i=1}^M \sum\limits_{j=1}^N(F(i, j)-F(i-1, j))^2}$。SF值越大,说明边缘和纹理越丰富,融合的性能越好。

6) 自然图像质量评价指标(natural image quality evaluator,NIQE)。NIQE(Mittal等,2013)从自然图像库提取特征,再利用多元高斯模型对这些特征进行建模以衡量融合图像在多元分布上的差异。其定义为

$ NIQE=\\\sqrt{\left(\mu_F-\mu_N\right)^T \times\left(\frac{cov_F+cov_N}{2}\right)^{-1} \times\left(\mu_F-\mu_N\right)} $ (22)

式中,$\mu_F$$\mu_N$分别代表融合图像和自然图像的高斯模型均值。$cov_F$$cov_N$分别表示融合图像和自然图像的高斯模型协方差。$NIQE$值越小,表示其分布差异越小,融合效果越好。

7) 基于相位一致性和标准差的联合度量(joint measurement based on phase consistency and standard deviation,${{\rm{Q}}}_{{\mathrm{PSD}}}$)。${{\rm{Q}}}_{{\mathrm{PSD}}}$(Tang等,2018)结合了一致性度量和标准差,提取图像的显著性特征来度量融合图像的视觉质量。其定义为

$ Q_{{\mathrm{PSD}}}=a\left(Q_{{\mathrm{P}}}\right)^b+(1-a)\left(Q_{{\mathrm{SD}}}\right)^c $ (23)

式中,$Q_{{\mathrm{P}}}$表示相位一致性度量,$Q_{{\mathrm{SD}}}$表示标准差。$a$, $b$, $c$用来调整两者之间的相关性。$Q_{{\mathrm{PSD}}}$值越大,说明算法的融合性能越好。

3.2.3 基于图像相似性的指标

1) 结构相似性度量(structural similarity index measure,SSIM)。SSIM(Wang等,2004)用于建模图像的丢失和失真程度,从而重新反映图像之间的结构相似性。SSIM由3部分组成,即相关性损失、亮度和对比度失真。源图像${\boldsymbol{X}}$与融合图像${\boldsymbol{F}}$之间的SSIM值定义为这3部分的乘积,其值具体为

$ \begin{gathered} SSIM_{X, F}=\sum\limits_{x, f} \frac{2 \mu_x \mu_f+C_1}{\mu_x^2+\mu_f^2+C_1} \times \\ \frac{2 \sigma_x \sigma_f+C_2}{\sigma_x^2+\sigma_f^2+C_2} \times \frac{2 \sigma_{x, f}+C_3}{\sigma_x \sigma_y+C_3} \end{gathered} $ (24)

式中,${\boldsymbol{x}}$${\boldsymbol{f}}$分别表示滑动窗口中源图像和融合图像的图像块。另外,$\sigma_{x, f}$是源图像和融合图像的协方差,$\sigma_x$$\sigma_f$表示标准差,$\mu_x$$\mu_f$分别为源图像和融合图像的平均值。$C_1$, $C_2$, $C_3$是当分母非常接近于零时用来避免不稳定性的参数。融合图像与两个源图像之间的结构相似性$SSIM$定义为

$ S S I M=S S I M_{A, F}+S S I M_{B, F} $ (25)

$SSIM$值越大,说明融合性能越好, 最优值为1。

2) 杨氏度量(Yang’s metric,$Q_Y$)。$Q_Y$(Li等,2008)是一种基于SSIM的融合质量度量指标,表示来自两个源图像的融合图像${\boldsymbol{F}}$中保留的结构信息的量。其定义为

$ Q_Y=\\\left\{\begin{array}{c} \lambda({\boldsymbol{w}}) SSIM({\boldsymbol{A}}, {\boldsymbol{F}} \mid {\boldsymbol{w}})+(1-\lambda({\boldsymbol{w}})) SSIM({\boldsymbol{B}}, {\boldsymbol{F}} \mid {\boldsymbol{w}}) \\ SSIM({\boldsymbol{A}}, {\boldsymbol{B}} \mid {\boldsymbol{w}}) \geqslant 0.75 \\ \max (SSIM({\boldsymbol{A}}, {\boldsymbol{F}} \mid {\boldsymbol{w}}), SSIM({\boldsymbol{B}}, {\boldsymbol{F}} \mid {\boldsymbol{w}})) \\ SSIM({\boldsymbol{A}}, {\boldsymbol{B}} \mid {\boldsymbol{w}})<0.75 \end{array}\right. $ (26)

式中,${\boldsymbol{w}}$是一个局部窗口,而$\lambda({\boldsymbol{w}})$定义为

$ \lambda({\boldsymbol{w}})=\frac{s({\boldsymbol{A}} \mid {\boldsymbol{w}})}{s({\boldsymbol{A}} \mid {\boldsymbol{w}})+s({\boldsymbol{B}} \mid {\boldsymbol{w}})} $ (27)

式中,$s$是窗口${\boldsymbol{w}}$内图像方差的局部度量。$Q_Y$值越大,说明融合图像中保留的源图像信息越多,从而说明融合性能越好,$Q_Y$的最大值为1。

3) 特征相似性度量(feature similarity index mersure,FSIM)。FSIM(Zhang等,2011)通过使用相位一致性特征(phase comgruency,PhC)和梯度幅值(gradient magnitude,GM)两个特征进行质量评价。PhC刻画图像局部结构,GM计算图像梯度特征,两者互为补充。其定义为

$ \begin{gathered} F S I M=\frac{\sum\limits_{x \in {{\boldsymbol{\varOmega }}}} S_L(x) \cdot P h C_m(x)}{\sum\limits_{x \in {\boldsymbol{\varOmega}}} P h C_m(x)} \\ \left\{\begin{array}{l} S_L(x)=\left[S_{P C}(x)\right]^\alpha \cdot\left[S_G(x)\right]^\beta \\ S_{P C}(x)=\frac{2 P h C_1(x) \cdot P h C_2(x)+T_1}{P h C_1^2+P h C_2^2+T_1} \\ S_G(x)=\frac{2 G_1(x) \cdot G_2(x)+T_2}{G_1^2+G_2^2+T_2} \end{array}\right. \end{gathered} $ (28)

式中,${{\boldsymbol{\varOmega }}}$是整个图像像素空间,$P h C_m(x)$=$\max \left(P h C_1(x), P h C_2(x)\right)$$FSIM$值越大,则融合图像和输入图像越相似,且融合质量越高。

4) 梯度相似性(gradient similarity measure,GSM)。GSM(Liu等,2012a)用于衡量融合图像与输入图像梯度信息之间的相似程度。其定义为

$ G S M=\frac{2 g_F g_X+C_4}{g_F^2+g_X^2+C_4} $ (29)

式中,$C_4=10^{-5}$$g_F$$g_X$分别为融合图像${\boldsymbol{F}}$和输入图像${\boldsymbol{X}}$的中心像素梯度值。

5) 多尺度加权融合质量度量(multi-scale weighted fusion quality index,${\rm { MS-Q_W }} $)。${\rm { MS-Q_W }} $(Martinez等,2019)用于评估融合图像的保真度,由多尺度计算和结构相似性评分组成。其定义为

$ M S-Q_W(1-f)=\prod\limits_{l=1}^L\left[Q_W\left({\boldsymbol{I}}_l, f_l\right)\right]^{\beta_l} $ (30)

式中,$L$为尺度总数,${{\boldsymbol{I}}}_l$表示源图像在尺度$l$上的多值图。$Q_W$计算源图像与融合图之间的全局多尺度融合度量。其定义为

$ Q_W({\boldsymbol{I}}, f)=\sum\limits_{n=1}^K \sum\limits_{w=W} c({\boldsymbol{w}}) \lambda_n({\boldsymbol{w}}) SSIM\left({\boldsymbol{I}}_n, f \mid {\boldsymbol{w}}\right) $ (31)

式中,$\lambda_n({\boldsymbol{w}})$为局部权值,$n$为源图像数量。${\rm { MS-Q_W }} $值越靠近1,说明融合性能越好。

3.2.4 基于人类视觉感知的指标

1) 人类视觉感知(human visual perception,CB)。CB(Chen和Blum等,2009)主要衡量人类视觉系统中主要特征的相似性。其定义为

$ \begin{gathered} C B=\frac{1}{M N}\left(\sum\limits_{i=1}^N \sum\limits_{j=1}^M \beta_A(i, j) W_{A, F}(i, j)+ \\ \beta_B(i, j) W_{B, F}(i, j)\right) \end{gathered} $ (32)

式中,$W_{A, F}(i, j)$$W_{B, F}(i, j)$表示从源图像转换到融合图像的对比度,$\beta_A$$\beta_B$分别为$W_{A, F}(i, j)$$W_{B, F}(i, j)$的显著性映射。$CB$取值范围为[0, 1],$CB$值越大,说明融合图像中保留的源图像信息越多,从而说明融合性能越好。

2) 视觉信息保真度(visual information fidelity,VIF)。VIF(Han等,2013)是一种基于视觉信息保真度的图像质量评价指标。VIF模拟了人类视觉原理,取得了较高的评价精度。其定义为

$ \begin{gathered} V I F=\sum\limits_{i=1}^N p_i \cdot VIF({\boldsymbol{A}}, {\boldsymbol{B}}, {\boldsymbol{F}})= \\ \sum\limits_{i=1}^N p_i \frac{\sum\limits_b F V I D_{i, b}({\boldsymbol{A}}, {\boldsymbol{B}}, {\boldsymbol{F}})}{\sum\limits_b F V I N D_{i, b}({\boldsymbol{A}}, {\boldsymbol{B}}, {\boldsymbol{F}})} \end{gathered} $ (33)

式中,$FVID$是扭曲的融合视觉信息,$FVIND$是非扭曲的融合视觉信息,${p_i}$是权重。

3) 视觉显著性指标(visual saliency-induced index,VSI)。VSI(Zhang等,2014)利用显著特征图变化来计算图像质量。研究发现,图像失真会引起视觉显著性改变,且两者具有强关联性。该指标包含3部分,即梯度$S_G$、色度$S_C$和视觉显著图${\boldsymbol{VS}}$,其定义为

$ V S I=\frac{\sum\limits_{x \in {{\boldsymbol{\varOmega }}}} S(x) \cdot V S_m(x)}{\sum\limits_{x \in {{\boldsymbol{\varOmega }}}} V S_m(x)} $ (34)

式中,${{\boldsymbol{\varOmega }}}$是整个图像像素空间,$V S_m(x)$=$\max \left(V S_1(x), V S_2(x)\right)$作为$S(x)$的权重。

综上所述,本文总结了图像融合领域代表性的度量指标。需要注意的是,这些指标用于评价图像融合性能,而不是产生融合图像。也就是说,在应用这些指标之前,MMIF算法已经生成了融合的图像F。所有的MMIF算法都以某些形式结合了源图像AB的信息,所以在实践中,A=FB=F通常不会发生。此外,两个源图像都包含重要的信息,因此有许多评价指标用于度量融合图像F与源图像之间的相似性。一个好的图像融合算法应该从两个源图像向融合的图像同时传递重要的信息。除此之外,UQI(universal quality index)、FMI(feature mutual information)、SCD(sum of the correlations of differences)、RMSE(root mean square error)、BIQI(blind image quality indices)、QM(multiscale feature based metric)、QS(Piella’s metric)、VAR(variance)、CC(correlation coefficient)、QG(the gradient-based metric)、QP(phase congruency-based metric)、QAC(quality-aware clustering)、LPIPS(learned perceptual image patch similarity)等也是图像融合的度量指标。

4 实验和结果分析

本文进行大量实验评估MMIF算法的性能。实验在具有NVIDIA RTX2080 GPU和i9-9900K CPU的计算机进行,各算法采用原文献使用的参数。

4.1 实验设置

实验对22种MMIF算法进行比较,分别是EMFusion(enhanced medical image fusion)(Xu和Ma,2021)、FusionDN(densely connected network for image fusion)(Xu等,2020)、IFCNN(convolutional neural network for image fusion)(Zhang等,2020)、U2Fusion(unified unsupervised image fusion network)(Xu等,2022)、MSENet(multi-scale enhanced network)(Li等,2022b)、DPCN(detail preserving cross network)(Tang等,2021)、MSRPAN(multiscale residual pyramid attention network)(Fu等,2021a)、FusionGAN(Ma等,2019)、MSDRA(multiscale double-branch residual attention network)(Li等,2022c)、TL-SR(three-layer decomposition and sparse representation)(Li等,2021c)、NSST-CNPS(coupled neural p systems)(Li等,2021a)、NSCT-DTNP(dynamic threshold neural P systems)(Li等,2021b)、Cloud(Wang等,2022b)、GED(gradient enhanced decomposition)(Wang等,2022a)、TL-ST(three-layer representation with structure tensor)(Du等,2020a)、CFL(coupled feature learning)(Veshki等,2021)、JBF-LGE(joint bilateral filter and local gradient energy)(Li等,2021d)、Re-LP(redecomposition Laplacian)(Li等,2020)、EIB(three-layer representation with enhanced illumination fusion rule)(Du等,2020b)、LLF-IJF(local Laplacian decomposition and iterative joint filter)(Li等,2022a)、DDcGAN(dual-discriminator conditional generative adversarial network)(Ma等,2020)和DSAGAN(generative adversarial network based on dual-stream attention mechanism)(Fu等,2021b)。其中,基于深度学习的方法11种,基于传统的方法11种,部分算法可用于执行多种数据的图像融合任务,如IFCNN和U2Fusion。FusionDN和FusionGAN尽管在设计时并不针对医学图像,但近期的MMIF算法文献常用其作为对比算法。这22种方法的详细信息如表 2所示。

表 2 对比方法详细信息
Table 2 Details of comparison methods

下载CSV
方法 年份 融合技术 技术领域 融合模态 项目 数据集 所用指标
Re-LP 2020 拉普拉斯重构算法 频域 MRI-PET/SPECT 脑部 ANNLIB SD、MI、UQI、TMQI
NSST-CNPS 2021 耦合神经P系统和NSST 频域 MRI_T1-MRI_T2/ MRI-PET/SPECT/CT 脑部 ANNLIB QAB/F、FMI、SSIM、SF、SD
NSCT-DTNP 2021 动态阈值神经P系统和NSCT 频域 MRI-PET/SPECT/CT 脑部 ANNLIB QAB/F、FMI、MI、SSIM、SCD、SD
LLF-IJF 2022 局部拉普拉斯和迭代联合滤波器 频域 MRI-PET/SPECT 脑部 ANNLIB SD、PSNR、RMSE、AG、EI、SSIM
EIB 2020 光源校正的3层图像表示方案 空间域 PC-GFP 脑部 ANNLIB BIQI、EN、SF、EI
MRI-PET/CT 基因
JBF-LGE 2021 联合双边滤波和局部梯度能量 空间域 MRI_T1-MRI_T2/MRI-PET/SPECT/CT 脑部 ANNLIB MI、QAB/F、NICE、QM、QS、CB
TL-SR 2021 稀疏表示的3层图像分解 空间域 MRI_T1-MRI_T2/MRI-SPECT 脑部 ANNLIB MI、QAB/F、QM、QS
Cloud 2022 云模型 空间域 MRI-PET/SPECT/CT 脑部 ANNLIB MI、QAB/F、NIQE、VIF、FSIM、SSEQ、AG、EI
CFL 2021 同时稀疏逼近的耦合字典学习 稀疏表示 MRI-PET/SPECT/CT 脑部 ANNLIB QY、QCB、TMQI、SD
TL-ST 2020 结构张量和颜色张量 张量信息 MRI-PET/SPECT 脑部 ANNLIB MI、TMQI、EN、VAR
GED 2022 梯度增强分解模型 梯度域 PC/GFP 脑部 ANNLIB SF、AG、EI、TMQI
DDcGAN 2020 双重鉴别器的条件GAN网络 深度学习 MRI-PET 脑部 ANNLIB SF、SD、PSNR、CC、SSIM、VIF
FusionGAN 2019 GAN网络 深度学习 - - - EN、SD、CC、VIF、SF、SSIM
DSAGAN 2021 双流注意机制图像融合GAN网络 深度学习 MRI-PET/SPECT 脑部 ANNLIB AG、EN、NIQE、SSEQ
FusionDN 2020 密集连接块的无监督融合网络 深度学习 - - - SD、EN、VIF、SSIM
IFCNN 2020 通用的CNN框架 深度学习 CT-MRI 脑部 ANNLIB VIF、SSIM、MI、SF、AG
DPCN 2021 细节保留交叉网络 深度学习 PC/GFP 基因 JIC MI、QY、QG、QP、FMI、VIF
MSDRA 2021 多尺度双分支残差注意力网络 深度学习 MRI-PET/SPECT 脑部 ANNLIB SF、AG、EI、QAC、VAR、QAB/F、VIF、FMI
MSRPAN 2021 多尺度注意力机制的残差金字塔网络 深度学习 MRI-PET/SPECT/CT 脑部 ANNLIB SSIM、MI、PSNR、QAC、TMQI、FSIM
EMFusion 2021 无监督的增强融合模型 深度学习 MRI-PET/SPECT/CT 脑部 ANNLIB SSIM、PSNR、CC、VIF
MSENet 2022 特征引导的多尺度增强网络 深度学习 MRI-PET/SPECT/CT 脑部 ANNLIB SSIM、MI、NIQE、EN、TMQI、QAB/F、FSIM、LPIPS
U2Fusion 2022 相似性约束的融合网络 深度学习 MRI-PET 脑部 ANNLIB SSIM、EI、PSNR、CC
注:“-”表示不涉及该项内容。

本研究使用公开的美国哈佛医学院提供的脑图像数据集。该数据集包含多个模态的脑部疾病图像,每幅图像都经过图像配准,大小均为256 × 256像素。采用6种病例图像对以上方法进行实验,每种病例分别收集10对模态对,共60对,120幅单一模态图像,分别为脑弓形虫病、多发栓塞性梗死的MRI-CT融合;莱姆脑病、轻度阿尔茨海默症的MRI-PET融合;脑胶质瘤、海绵状血管瘤MRI-SPECT融合的主观效果。共采用15种客观指标,分别为基于信息理论的ENMITMQIPSNRSSEQ;基于图像特征的AGEIQAB/FSDSF;基于相似性的SSIMFSIMGSM;基于人类视觉的VIFVSI等指标。

4.2 融合性能比较

4.2.1 定性评价

图 8图 13展示了上述22种MMIF算法的主观效果。从6组实验结果来看,基于传统方法的MMIF具有更稳定的融合性能,主观效果几乎与文献描述一致。传统算法对于灰度图像的信息保留相对较好,对于像素重叠区域容易受到伪彩图像的高能量影响,使得融合结果更倾向于伪彩图像而丢失了重叠区域的解剖细节。基于结构张量和颜色张量的TL-ST在多个病例中均未展示较好的融合性能,产生了不同程度的颜色失真。在多尺度几何变换域中,NSST和NSCT两种图像分解方法表现出了较好的颜色保留能力。而基于局部拉普拉斯和重构拉普拉斯的方法在多个数据集上均产生了颜色失真。3种基于GAN网络的方法经过代码迁移后未能表现出与原文献一致的主观效果,融合结果在多个数据集上都产生了严重的颜色失真、信息丢失以及大量的图像伪影。两种基于通用框架的深度学习方法U2Fusion和IFCNN在医学图像数据集上出现了丢失灰度图像细节的问题,尤其是在重叠区域较多的MRI-PET融合中,伪彩图像拥有的能量大于灰度图像,在进行特征融合时,伪彩图像能获得较大的权重,使融合结果向某一模态倾斜。基于细节保留交叉网络的DPCN方法在主观效果上未能达到保留细节的目的,融合结果在多个数据集中都表现得过度平滑。EMFusion利用灰度图像生成人工的伪彩图像补充真实伪彩图像进行颜色空间转换后的马赛克现象,但主观效果产生了严重的颜色失真。FusionDN和FusionGAN不是针对医学图像设计的融合方法,在医学图像上没有产生适应性和鲁棒性。基于多尺度注意力机制和残差网络的MSDRA和MSRPAN在两种模态的重叠区域较小时,能够有效保留灰度图像的信息,产生高对比度的融合效果以及保留伪彩图像的颜色信息,但是在重叠区域较多的病例数据上,融合结果同样倾向伪彩图像。

图 8 多发栓塞性脑梗死病例的CT-MRI融合结果
Fig. 8 CT-MRI fusion results of multiple embolic infarctions
图 9 脑弓形虫病例的CT-MRI融合结果
Fig. 9 CT-MRI fusion results of cerebral toxoplasmosis
图 10 阿尔茨海默症的PET-MRI融合结果
Fig. 10 PET-MRI fusion results of mild Alzheimer's disease
图 11 莱姆病的PET-MRI融合结果
Fig. 11 PET-MRI fusion results of Lyme encephalopathy
图 12 海绵状血管瘤的SPECT-MRI融合结果
Fig. 12 SPECT-MRI fusion results of cavernous angioma
图 13 脑胶质瘤的SPECT-MRI融合结果
Fig. 13 SPECT-MRI fusion results of glioma with a tour

4.2.2 定量评价

表 3表 5展示了22种MMIF算法在CT-MRI、PET-MRI和SPECT-MRI 3组融合模态上的15组客观指标,每组数据由每个模态的20个模态对取均值所得,文中仅展示至小数点后两位,实际最优值以原始指标为依据给出。可以看出,最优指标大多集中在使用深度学习的算法中。其中,FusionGAN在3种数据集上均能保持最高熵,表明其融合结果包含丰富的图像信息。MSENet在MI指标上有良好表现,说明其能够有效地将源图像信息传输至融合图像中。FusionDN在3种数据集上保持最优的TMQI值,说明该方法具有良好的亮度信息和对比度信息提取能力。DDcGAN和DSAGAN分别在CT-MRI和SPECT-MRI融合中取得最优的AGEI值。说明这两种方法对图像梯度信息和边缘信息具有较好的提取能力。EMFusion在PET-MRI融合中取得了最高的基于人类视觉特征的指标。从整体指标来看,基于GAN网络的MMIF方法在提取图像基本信息方面具有一定优势;基于CNN的MMIF方法在提取和保留图像特征上有明显优势。而传统算法虽然没有获取最优指标,但结合可视化结果来看,传统算法能够提供更符合人眼视觉观察的主观效果。

表 3 不同方法的CT-MRI融合指标对比
Table 3 Comparison of CT-MRI fusion metrics of different methods

下载CSV
方法 基于图像信息 基于图像特征 基于相似性 基于人类视觉
EN MI TMQI PSNR/dB SSEQ AG EI QAB/F SD SF SSIM FSIM GSM VIF VSI
Re-LP 5.63 4.60 0.74 15.44 50.72 8.84 88.37 0.41 83.40 31.84 0.53 0.74 0.97 0.16 0.87
NSST-CNPS 5.57 3.24 0.55 10.53 46.70 9.90 100.12 0.08 80.88 36.72 0.18 0.58 0.93 0.01 0.79
NSCT-DTNP 5.67 4.49 0.71 17.19 47.67 9.64 97.15 0.49 81.71 35.95 0.50 0.76 0.97 0.20 0.87
LLF-IJF 5.86 4.63 0.72 16.45 51.58 8.42 85.78 0.41 83.27 31.84 0.46 0.74 0.97 0.17 0.86
EIB 5.86 4.33 0.75 12.52 58.95 10.45 100.62 0.32 87.76 37.31 0.22 0.69 0.96 0.12 0.85
JBF-LGE 5.36 5.42 0.72 15.35 38.39 9.50 95.88 0.53 83.51 35.48 0.55 0.76 0.97 0.23 0.89
TL-SR 5.53 4.96 0.73 16.10 37.76 9.18 92.56 0.55 81.75 35.46 0.57 0.77 0.97 0.23 0.88
Cloud 5.64 5.59 0.73 14.99 50.34 8.79 89.17 0.52 83.07 30.14 0.54 0.77 0.97 0.22 0.88
CFL 5.41 4.51 0.73 15.13 52.39 10.28 103.83 0.50 85.00 36.32 0.56 0.74 0.97 0.18 0.87
TL-ST 5.78 4.38 0.72 13.55 52.44 10.41 100.59 0.44 87.81 42.25 0.41 0.73 0.96 0.13 0.86
GED 5.43 4.73 0.73 15.95 50.68 10.21 100.28 0.50 84.04 39.00 0.59 0.76 0.97 0.18 0.88
DDcGAN 6.11 3.70 0.65 11.72 45.96 11.10 115.33 0.20 85.29 31.19 0.06 0.60 0.94 0.04 0.81
FusionGAN 6.92 2.94 0.70 10.08 40.11 10.59 108.17 0.34 45.71 28.99 0.18 0.66 0.94 0.16 0.85
DSAGAN 5.94 3.88 0.68 18.40 43.85 9.82 97.78 0.35 55.65 30.32 0.24 0.70 0.96 0.17 0.87
FusionDN 5.87 4.15 0.87 11.97 38.97 7.88 77.94 0.38 57.70 26.71 0.24 0.74 0.96 0.15 0.87
IFCNN 5.48 4.47 0.72 16.90 47.64 9.75 97.34 0.51 71.70 35.45 0.35 0.74 0.97 0.17 0.87
DPCN 5.80 3.91 0.75 15.04 38.36 5.10 53.51 0.12 58.17 15.31 0.08 0.63 0.95 0.07 0.85
MSDRA 4.84 4.41 0.71 14.19 53.82 10.51 104.57 0.44 88.66 42.70 0.56 0.74 0.96 0.16 0.87
MSRPAN 5.19 5.16 0.73 15.72 54.55 8.53 85.89 0.51 83.28 33.40 0.57 0.78 0.97 0.16 0.88
EMFusion 5.38 4.80 0.73 15.10 35.61 7.76 79.35 0.46 72.85 24.92 0.56 0.77 0.97 0.20 0.88
MSENet 5.27 5.47 0.74 15.69 51.78 8.62 86.83 0.55 85.45 33.24 0.57 0.78 0.97 0.19 0.90
U2Fusion 5.37 3.98 0.73 15.75 38.56 7.58 76.31 0.35 49.49 23.67 0.26 0.73 0.97 0.15 0.89
注:加粗字体表示各列最优结果。

表 4 不同方法的PET-MRI融合指标对比
Table 4 Comparison of PET-MRI fusion metrics of different methods

下载CSV
方法 基于图像信息 基于图像特征 基于相似性 基于人类视觉
EN MI TMQI PSNR/dB SSEQ AG EI QAB/F SD SF SSIM FSIM GSM VIF VSI
Re-LP 5.12 4.45 0.76 12.98 53.33 7.98 77.44 0.51 76.42 29.77 0.59 0.79 0.97 0.20 0.87
NSST-CNPS 5.01 4.40 0.75 13.77 53.28 8.30 81.74 0.55 72.72 30.60 0.57 0.79 0.97 0.23 0.87
NSCT-DTNP 5.22 4.40 0.75 14.27 53.12 7.40 71.24 0.44 71.30 27.67 0.55 0.79 0.97 0.21 0.86
LLF-IJF 5.07 4.51 0.75 13.39 54.54 8.04 78.06 0.51 73.55 28.62 0.57 0.79 0.97 0.20 0.86
EIB 5.42 4.40 0.79 11.44 57.22 8.37 79.33 0.36 83.49 35.44 0.18 0.77 0.96 0.14 0.86
JBF-LGE 4.86 4.83 0.75 13.80 55.37 8.34 81.41 0.58 73.36 31.44 0.60 0.80 0.97 0.25 0.87
TL-SR 4.81 4.81 0.76 13.93 54.60 8.15 79.25 0.57 73.31 31.19 0.59 0.81 0.97 0.24 0.87
Cloud 4.86 4.77 0.76 13.36 54.96 8.08 78.15 0.55 74.83 31.03 0.58 0.80 0.97 0.22 0.87
CFL 4.63 4.48 0.75 13.31 53.40 8.66 85.58 0.54 76.83 32.80 0.62 0.79 0.97 0.22 0.86
TL-ST 5.17 4.05 0.66 12.97 56.40 7.82 74.58 0.10 75.28 32.92 0.38 0.72 0.95 0.03 0.79
GED 4.79 4.61 0.76 14.05 54.32 9.36 87.17 0.55 75.38 40.38 0.61 0.79 0.97 0.23 0.87
DDcGAN 5.14 3.91 0.70 13.95 51.23 5.51 55.20 0.17 47.16 18.15 0.05 0.71 0.96 0.05 0.83
FusionGAN 6.06 3.36 0.81 10.87 53.76 3.89 41.56 0.17 29.76 11.60 0.15 0.73 0.96 0.14 0.86
DSAGAN 5.42 4.20 0.71 19.09 51.25 8.55 85.88 0.49 56.63 29.29 0.18 0.77 0.97 0.18 0.86
FusionDN 5.40 4.05 0.84 10.35 52.21 8.43 82.86 0.44 54.62 29.53 0.19 0.74 0.96 0.18 0.85
IFCNN 4.68 4.26 0.74 15.87 50.78 8.24 81.72 0.59 63.90 30.77 0.28 0.79 0.97 0.24 0.86
DPCN 5.38 4.39 0.74 15.50 54.84 4.50 46.67 0.13 54.82 13.92 0.10 0.67 0.96 0.10 0.86
MSDRA 4.60 4.43 0.74 12.44 54.71 9.49 92.58 0.43 79.55 42.46 0.56 0.77 0.96 0.16 0.85
MSRPAN 4.77 5.06 0.75 13.07 55.22 7.28 72.55 0.54 73.59 29.29 0.63 0.80 0.97 0.23 0.87
EMFusion 4.49 4.46 0.71 22.39 52.19 7.73 75.40 0.61 54.60 29.61 0.60 0.81 0.97 0.27 0.88
MSENet 4.86 5.37 0.76 13.08 54.74 7.05 70.30 0.55 75.42 27.75 0.65 0.80 0.97 0.27 0.87
U2Fusion 4.15 4.09 0.72 16.49 52.45 6.16 63.55 0.36 52.48 20.99 0.55 0.77 0.97 0.16 0.86
注:加粗字体表示各列最优结果。

表 5 不同方法的SPECT-MRI融合指标对比
Table 5 Comparison of SPECT-MRI fusion metrics of different methods

下载CSV
方法 基于图像信息 基于图像特征 基于相似性 基于人类视觉
EN MI TMQI PSNR/dB SSEQ AG EI QAB/F SD SF SSIM FSIM GSM VIF VSI
Re-LP 4.59 3.17 0.61 12.88 52.41 5.23 52.59 0.11 70.11 18.85 0.40 0.73 0.96 0.07 0.84
NSST-CNPS 4.42 3.28 0.60 13.21 53.79 5.28 53.68 0.12 67.18 18.96 0.40 0.73 0.96 0.08 0.84
NSCT-DTNP 4.39 3.32 0.62 13.17 52.47 4.94 50.11 0.13 68.16 17.88 0.43 0.74 0.96 0.10 0.85
LLF-IJF 4.69 3.21 0.61 13.10 54.65 5.41 54.34 0.10 68.68 18.62 0.37 0.72 0.96 0.06 0.83
EIB 4.91 3.08 0.65 10.84 56.34 6.58 64.36 0.09 82.70 27.59 0.05 0.70 0.95 0.05 0.80
JBF-LGE 4.39 3.35 0.60 12.97 51.73 5.25 53.29 0.11 69.15 18.78 0.41 0.73 0.96 0.07 0.84
TL-SR 4.44 3.31 0.60 12.97 52.92 5.20 52.80 0.11 69.15 18.69 0.39 0.73 0.96 0.07 0.84
Cloud 4.72 3.25 0.60 12.97 53.80 5.23 53.11 0.11 69.09 18.71 0.33 0.73 0.96 0.06 0.84
CFL 4.25 3.28 0.61 12.63 51.50 5.60 57.21 0.12 71.63 20.34 0.42 0.73 0.96 0.07 0.83
TL-ST 4.86 3.04 0.63 11.95 53.93 5.40 52.40 0.09 76.25 23.26 0.35 0.72 0.96 0.05 0.82
GED 4.46 3.33 0.63 12.45 51.65 6.18 60.23 0.12 72.46 23.87 0.42 0.72 0.96 0.08 0.84
DDcGAN 5.03 2.87 0.62 15.00 54.72 4.96 49.71 0.09 43.64 16.55 0.01 0.64 0.96 0.05 0.82
FusionGAN 5.58 2.53 0.59 9.93 52.31 2.71 28.95 0.12 30.44 9.22 0.04 0.74 0.96 0.13 0.87
DSAGAN 5.29 2.99 0.61 13.59 55.92 6.64 68.08 0.10 58.42 23.12 0.03 0.63 0.95 0.07 0.83
FusionDN 4.74 3.08 0.74 9.89 53.46 6.20 63.03 0.11 64.66 22.58 0.02 0.69 0.95 0.08 0.83
IFCNN 4.46 2.90 0.61 14.66 50.84 5.50 55.85 0.11 57.50 20.19 0.07 0.73 0.96 0.07 0.83
DPCN 4.85 3.15 0.61 14.93 54.33 3.54 37.63 0.12 54.00 11.36 0.07 0.68 0.96 0.12 0.87
MSDRA 4.42 3.29 0.61 11.91 51.74 6.34 63.74 0.11 75.98 24.16 0.42 0.72 0.96 0.07 0.83
MSRPAN 4.33 3.34 0.60 13.08 51.67 5.14 52.24 0.13 68.38 18.65 0.42 0.74 0.96 0.08 0.84
EMFusion 4.20 3.00 0.59 14.21 51.94 4.91 49.55 0.10 61.10 17.78 0.40 0.74 0.96 0.06 0.84
MSENet 4.35 3.35 0.61 12.96 52.21 5.12 52.02 0.13 69.39 18.45 0.43 0.74 0.96 0.08 0.84
U2Fusion 3.82 3.02 0.61 16.38 51.64 3.63 37.09 0.11 41.10 13.61 0.45 0.76 0.97 0.09 0.86
注:加粗字体表示各列最优结果。

表 6展示了22种融合方法在3种模态上的平均融合时间,传统方法中基于多尺度变换的方法整体运行时间较长。在实际的临床应用中,高效的融合算法更有利于医学成像设备的发展。

表 6 不同融合方法的平均融合时间的比较
Table 6 Comparison of average fusion time between different fusion methods

下载CSV
方法 时间/s 方法 时间/s
Re-LP 117.13 DDcGAN 19.43
NSST-CNPS 4.56 FusionGAN 5.02
NSCT-DTNP 24.63 DSAGAN 0.02
LLF-IJF 130.43 FusionDN 1.62
EIB 9.36 IFCNN 0.19
JBF-LGE 0.52 DPCN 2.42
TL-SR 6.02 MSDRA 0.13
Cloud 56.85 MSRPAN 0.02
CFL 11.15 EMFusion 0.22
TL-ST 1.16 MSENet 0.11
GED 5.78 U2Fusion 0.60
注:加粗字体表示最优结果。

5 当前挑战与研究趋势

根据以上内容可得出,无论是传统方法还是深度学习方法都能够在一定程度上取得优越的融合表现。随着算法的不断优化和医学图像数据集的不断丰富, 出现了越来越多融合效果好且模型鲁棒性高的医学图像融合方法。但是,在医学图像融合领域仍存在一些问题。本文通过总结上述研究工作, 提出在MMIF领域中一些尚未解决的挑战和未来研究趋势。

5.1 现有挑战

现有MMIF算法主要面临以下问题:1)有限的算法创新没有推动MMIF产生质的飞跃,在助力图像融合系统、图像融合硬件设备发展过程中,算法创新性和性能提升带来的推动力远远不够。2)现有MMIF算法高度依赖图像配准,配准的精确程度直接影响融合的结果。3)像素强度异常、特征缺失、传感器误差、空间误差和图像间的变异性导致的特征处理和提取算法中的主要问题仍是医学图像融合中的一个开放问题。4)在近几年的MMIF算法中, 对设备在采集图像过程中造成的噪声影响没有过多研究,多数MMIF算法未验证噪声鲁棒性。5)传统的MMIF算法中仍然存在计算量大、自适应性差和高度依赖人工设计融合策略的问题。6)基于深度学习的MMIF算法对数据集的量级和模态类别多样性的需求远大于目前可获取的内容,而网络的构建、损失函数的设计以及实验数据的设置同样缺乏合理的可解释性。7)图像融合结果的评价高度主观,针对其客观指标没有统一的标准,且目前没有针对医学图像融合结果评价的客观指标。

5.2 研究趋势

深度学习方法具有非常好的特征提取能力,能够完成绝大多数图像处理任务,但在没有ground truth的图像融合领域,传统方法仍然占据着一席之地。传统方法基于图像像素操作进行空间变换或系数变换。近几年,越来越多的学者将两者结合起来,充分利用两者的优势,其共同的研究趋势在于:拓展多种部位多种病例的医学图像、提出适合医学图像融合的客观指标以及拓展图像融合的研究范围。

6 结语

本研究对国内外医学图像融合方法相关文献进行归纳,将医学图像融合技术分为传统方法和深度学习方法两类。在传统医学图像融合方法中,基于空间域和频率域的融合算法是近年的研究热点。空间域技术利用底层像素级策略作用于图像中的图像元素值,融合过程相对简单,算法复杂度低,通常计算量较少,在降低融合图像的光谱失真方面具有较好的性能。缺点是融合结果在清晰度和对比度上并不优越,时常导致空间分辨率较低。在频域,原始手段是通过计算傅里叶变换将输入图像从空域转换到频域,然后对转换后的图像应用融合算法,再进行傅里叶逆变换得到最终的融合图像。这类方法通常采用多级分解来增强融合图像的细节保持能力。输出的融合结果具有较高的空间分辨率和高质量的光谱成分。然而,这种算法也依赖于细粒度的融合规则设计。基于深度学习的方法主要是CNN和GAN网络,主要优点是不再依赖于细粒度的融合规则设计,减少了人工在融合过程中的参与,更强的特征提取能力使融合结果可以保留更多的源图像信息。然后,对现有多模态医学图像数据库和融合质量评价指标进行全面概述。包括5个开源和免费访问的医学图像数据库OASIS、TCIA、AANLIB、ANDI和JIC。常用的融合图像评价指标可以归纳为4类,即基于信息论的指标、基于图像特征的指标、基于图像结构相似性的指标和基于人类视觉感知的指标。此外,本研究进行大量实验比较基于深度学习的图像融合方法与传统医学图像融合方法的性能。通过对定性和定量结果的分析,对医学图像融合技术的现状、重点难点进行讨论,并指出未来发展前景。

参考文献

  • Akhonda M A B S, Gabrielson B, Bhinge S, Calhoun V D, Adali T. 2021. Disjoint subspaces for common and distinct component analysis: application to the fusion of multi-task FMRI data. Journal of Neuroscience Methods, 358: #109214 [DOI:10.1016/j.jneumeth.2021.109214]
  • Ashwanth B and Swamy K V. 2020. Medical image fusion using transform techniques//Proceedings of the 5th International Conference on Devices, Circuits and Systems. Coimbatore, India: IEEE: 303-306 [DOI: 10.1109/ICDCS48716.2020.243604]
  • Azam M A, Khan K B, Slahuddin S, Rehman E, Khan S A, Khan M A, Kadry S, Gandomi A H. 2022. A review on multimodal medical image fusion: compendious analysis of medical modalities, multimodal databases, fusion techniques and quality metrics. Computers in Biology and Medicine, 144: #105253 [DOI:10.1016/j.compbiomed.2022.105253]
  • Bhateja V, Krishn A, Patel H, Sahu A. 2015. Medical image fusion in wavelet and ridgelet domains: a comparative evaluation. International Journal of Rough Sets and Data Analysis, 2(2): 78-91 [DOI:10.4018/IJRSDA.2015070105]
  • Bulanon D M, Burks T F, Alchanatis V. 2009. Image fusion of visible and thermal images for fruit detection. Biosystems Engineering, 103(1): 12-22 [DOI:10.1016/j.biosystemseng.2009.9.02.009]
  • Chen M J, Zheng H, Lu C S, Tu E M, Yang J and Kasabov N. 2018. A spatio-temporal fully convolutional network for breast lesion segmentation in DCE-MRI//Proceedings of the 25th International Conference on Neural Information Processing. Siem Reap, Cambodia: Springer: 358-368 [DOI: 10.1007/978-3-030-04239-4_32]
  • Chen Y, Blum R S. 2009. A new automated quality assessment algorithm for image fusion. Image and Vision Computing, 27(10): 1421-1432 [DOI:10.1016/j.imavis.2007.12.002]
  • Cui G M, Feng H J, Xu Z H, Li Q, Chen Y T. 2015. Detail preserved fusion of visible and infrared images using regional saliency extraction and multi-scale image decomposition. Optics Communications, 341: 199-209 [DOI:10.1016/j.optocm.2014.12.032]
  • Daniel E. 2018. Optimum wavelet-based homomorphic medical image fusion using hybrid genetic-grey wolf optimization algorithm. IEEE Sensors Journal, 18(16): 6804-6811 [DOI:10.1109/JSEN.2018.2822712]
  • Do M N, Vetterli M. 2005. The contourlet transform: an efficient directional multiresolution image representation. IEEE Transactions on Image Processing, 14(12): 2091-2106 [DOI:10.1109/TIP.2005.859376]
  • Dogra A, Goyal B, Agrawal S. 2017. From multi-scale decomposition to non-multi-scale decomposition methods: a comprehensive survey of image fusion techniques and its applications. IEEE Access, 5: 16040-16067 [DOI:10.1109/ACCESS.2017.2735865]
  • Du J, Li W S, Lu K, Xiao B. 2016. An overview of multi-modal medical image fusion. Neurocomputing, 215: 3-20 [DOI:10.1016/j.neucom.2015.07.160]
  • Du J, Li W S, Tan H. 2020a. Three-layer medical image fusion with tensor-based features. Information Sciences, 525: 93-108 [DOI:10.1016/j.ins.2020.03.051]
  • Du J, Li W S, Tan H L. 2020b. Three-layer image representation by an enhanced illumination-based image fusion method. IEEE Journal of Biomedical and Health Informatics, 24(4): 1169-1179 [DOI:10.1109/JBHI.2019.2930978]
  • Easley G, Labate D, Lim W Q. 2008. Sparse directional image representations using the discrete shearlet transform. Applied and Computational Harmonic Analysis, 25(1): 25-46 [DOI:10.1016/j.acha.2007.09.003]
  • El-Gamal F E Z A, Elmogy M, Atwan A. 2016. Current trends in medical image registration and fusion. Egyptian Informatics Journal, 17(1): 99-124 [DOI:10.1016/j.eij.2015.09.002]
  • Eskicioglu A M, Fisher P S. 1995. Image quality measures and their performance. IEEE Transactions on Communications, 43(12): 2959-2965 [DOI:10.1109/26.477498]
  • Faragallah O S, Muhammed A N, Taha T S, Geweid G G N. 2021. PCA based SVD fusion for MRI and CT medical images. Journal of Intelligent and Fuzzy Systems, 41(2): 4021-4033 [DOI:10.3233/JIFS-202884]
  • Fu J, Li W S, Du J, Huang Y P. 2021a. A multiscale residual pyramid attention network for medical image fusion. Biomedical Signal Processing and Control, 66: #102488 [DOI:10.1016/j.bspc.2021.102488]
  • Fu J, Li W S, Du J, Xu L M. 2021b. DSAGAN: a generative adversarial network based on dual-stream attention mechanism for anatomical and functional image fusion. Information Sciences, 576: 484-506 [DOI:10.1016/j.ins.2021.06.083]
  • Gao Y, Ma S W, Liu J J, Liu Y Y, Zhang X X. 2021. Fusion of medical images based on salient features extraction by PSO optimized fuzzy logic in NSST domain. Biomedical Signal Processing and Control, 69: #102852 [DOI:10.1016/j.bspc.2021.102852]
  • Guo K H, Labate D. 2007. Optimally sparse multidimensional representation using shearlets. Siam Journal on Mathematical Analysis, 39(1): 298-318 [DOI:10.1137/060649781]
  • Han Y, Cai Y Z, Cao Y, Xu X M. 2013. A new image fusion performance metric based on visual information fidelity. Information Fusion, 14(2): 127-135 [DOI:10.1016/j.inffus.2011.2011.08.002]
  • Hermessi H, Mourali O, Zagrouba E. 2018. Convolutional neural network-based multimodal image fusion via similarity learning in the shearlet domain. Neural Computing and Applications, 30(7): 2029-2045 [DOI:10.1007/s00521-018-3441-1]
  • Islam Z U, Singh V and Verma N K. 2019. Feature learning using stacked autoencoder for multimodal fusion, shared and cross learning on medical Images//Proceedings of 2019 IEEE Bombay Section Signature Conference. Mumbai, India: IEEE: 1-6 [DOI: 10.1109/IBSSC47189.2019.8973087]
  • Jagalingam P, Hegde A V. 2015. A review of quality metrics for fused image. Aquatic Procedia, 4: 133-142 [DOI:10.1016/j.aqpro.2015.02.019]
  • James A P, Dasarathy B V. 2014. Medical image fusion: a survey of the state of the art. Information Fusion, 19: 4-19 [DOI:10.1016/j.inffus.2013.12.002]
  • Lahoud F and Süsstrunk S. 2019. Zero-learning fast medical image fusion//Proceedings of the 22nd International Conference on Information Fusion. Ottawa, Canada: IEEE: 1-8 [DOI: 10.23919/FUSION43075.2019.9011178]
  • Lewis J J, O'Callaghan R J, Nikolov S G, Bull D R, Canagarajah N. 2007. Pixel-and region-based image fusion with complex wavelets. Information Fusion, 8(2): 119-130 [DOI:10.1016/j.inffus.2005.09.006]
  • Li B, Peng H, Luo X H, Wang J, Song X X, Pérez-Jiménez M J, Riscos-Núeez A. 2021a. Medical image fusion method based on coupled neural P systems in nonsubsampled shearlet transform domain. International Journal of Neural Systems, 31(1): #2050050 [DOI:10.1142/S0129065720500501]
  • Li B, Peng H, Wang J. 2021b. A novel fusion method based on dynamic threshold neural P systems and nonsubsampled contourlet transform for multi-modality medical images. Signal Processing, 178: #107793 [DOI:10.1016/j.sigpro.2020.107793]
  • Li B C, Li R C, Liu Z F, Li C L, Wang Z M. 2019a. An objective non-reference metric based on arimoto entropy for assessing the quality of fused images. Entropy, 21(9): #879 [DOI:10.3390/e21090879]
  • Li S S, Hong R C and Wu X Q. 2008. A novel similarity based quality metric for image fusion//Proceedings of 2008 International Conference on Audio, Language and Image Processing. Shanghai, China: IEEE: 167-172 [DOI: 10.1109/ICALIP.2008.4589989]
  • Li W S, Chao F F, Wang G F, Fu J, Peng X X. 2022a. Medical image fusion based on local Laplacian decomposition and iterative joint filter. International Journal of Imaging Systems and Technology, 32(5): 1631-164 [DOI:10.1002/ima.22714]
  • Li W S, Du J, Zhao Z M, Long J Y. 2019b. Fusion of medical sensors using adaptive cloud model in local Laplacian pyramid domain. IEEE Transactions on Biomedical Engineering, 66(4): 1172-1183 [DOI:10.1109/TBME.2018.2869432]
  • Li W S, Li R Y, Fu J, Peng X X. 2022b. MSENet: a multi-scale enhanced network based on unique features guidance for medical image fusion. Biomedical Signal Processing and Control, 74: #103534 [DOI:10.1016/j.bspc.2022.103534]
  • Li W S, Peng X X, Fu J, Wang G F, Huang Y P, Chao F F. 2022c. A multiscale double-branch residual attention network for anatomical-functional medical image fusion. Computers in Biology and Medicine, 141: #105005 [DOI:10.1016/j.compbiomed.2021.105005]
  • Li X S, Zhou F Q, Tan H S. 2021c. Joint image fusion and denoising via three-layer decomposition and sparse representation. Knowledge-based Systems, 224: #107087 [DOI:10.1016/j.knosys.2021.107087]
  • Li X S, Zhou F Q, Tan H S, Zhang W N, Zhao C Y. 2021d. Multimodal medical image fusion based on joint bilateral filter and local gradient energy. Information Sciences, 569: 302-325 [DOI:10.1016/j.ins.2021.04.052]
  • Li X X, Guo X P, Han P F, Wang X, Li H G, Luo T. 2020. Laplacian redecomposition for multimodal medical image fusion. IEEE Transactions on Instrumentation and Measurement, 69(9): 6880-6890 [DOI:10.1109/TIM.2020.2975405]
  • Liu A M, Lin W S, Narwaria M. 2012a. Image quality assessment based on gradient similarity. IEEE Transactions on Image Processing, 21(4): 1500-1512 [DOI:10.1109/TIP.2011.2175935]
  • Liu L X, Liu B, Huang H, Bovik A C. 2014. No-reference image quality assessment based on spatial and spectral entropies. Signal Processing: Image Communication, 29(8): 856-863 [DOI:10.1016/j.image.2014.06.006]
  • Liu S Q, Liu S D, Cai W D, Che H Y, Pujol S, Kikinis R, Feng D G, Fulham M J and ADNI, ADNI. 2015a. Multimodal neuroimaging feature learning for multiclass diagnosis of Alzheimer's disease. IEEE Transactions on Biomedical Engineering, 62(4): 1132-1140 [DOI:10.1109/TBME.2014.2372011]
  • Liu S Q, Zhao J, Shi M Z. 2015b. Medical image fusion based on improved sum-modified-Laplacian. International Journal of Imaging Systems and Technology, 25(3): 206-212 [DOI:10.1002/ima.22138]
  • Liu Y, Chen X, Cheng J and Peng H. 2017. A medical image fusion method based on convolutional neural networks//Proceedings of the 20th International Conference on Information Fusion. Xi'an, China: IEEE: 1-7 [DOI: 10.23919/ICIF.2017.8009769]
  • Liu Y, Chen X, Wang Z F, Wang Z J, Ward R K, Wang X S. 2018. Deep learning for pixel-level image fusion: recent advances and future prospects. Information Fusion, 42: 158-173 [DOI:10.1016/j.inffus.2017.10.007]
  • Liu Z, Blasch E, Xue Z Y, Zhao J Y, Laganiere R, Wu W. 2012b. Objective assessment of multiresolution image fusion algorithms for context enhancement in night vision: a comparative study. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(1): 94-109 [DOI:10.1109/TPAMI.2011.109]
  • Ma J Y, Yu W, Liang P W, Li C, Jiang J J. 2019. FusionGAN: a generative adversarial network for infrared and visible image fusion. Information Fusion, 48: 11-26 [DOI:10.1016/j.inffus.2018.09.004]
  • Ma J Y, Xu H, Jiang J J, Mei X G, Zhang X P. 2020. DDcGAN: a dual-discriminator conditional generative adversarial network for multi-resolution image fusion. IEEE Transactions on Image Processing, 29: 4980-4995 [DOI:10.1109/TIP.2020.2977573]
  • Martinez J, Pistonesi S, Maciel M C, Flesia A G. 2019. Multi-scale fidelity measure for image fusion quality assessment. Information Fusion, 50: 197-211 [DOI:10.1016/j.inffus.2019.01.003]
  • Mathiyalagan P. 2018. Multi-modal medical image fusion using curvelet algorithm//Proceedings of 2018 International Conference on Advances in Computing, Communications and Informatics. Bangalore, India: IEEE: 2453-2458 [DOI: 10.1109/icacci.2018.8554759]
  • Meher B, Agrawal S, Panda R, Abraham A. 2019. A survey on region based image fusion methods. Information Fusion, 48: 119-132 [DOI:10.1016/j.inffus.2018.07.010]
  • Mittal A, Soundararajan R, Bovik A C. 2013. Making a "completely blind" image quality analyzer. IEEE Signal Processing Letters, 20(3): 209-212 [DOI:10.1109/LSP.2012.227726]
  • Pajares G, de la Cruz J M. 2004. A wavelet-based image fusion tutorial. Pattern Recognition, 37(9): 1855-1872 [DOI:10.1016/j.patcog.2004.03.010]
  • Prakash O, Park C M, Khare A, Jeon M, Gwak J. 2019. Multiscale fusion of multimodal medical images using lifting scheme based biorthogonal wavelet transform. Optik, 182: 995-1014 [DOI:10.1016/j.ijleo.2018.12.028]
  • Rajalingam B, Priya D R. 2018a. Hybrid multimodality medical image fusion technique for feature enhancement in medical diagnosis. International Journal of Engineering Science Invention, 2: 52-60
  • Rajalingam B, Priya D R. 2018b. Review of multimodality medical image fusion using combined transform techniques for clinical application. International Journal of Scientific Research in Computer Science Applications and Management Studies, 7(3): #326913531
  • Rao Y J. 1997. In-fibre Bragg grating sensors. Measurement Science and Technology, 8(4): 355-375 [DOI:10.1088/0957-0233/8/4/002]
  • Roberts J W, Aardt J A V, Ahmed F B. 2008. Assessment of image fusion procedures using entropy, image quality, and multispectral classification. Journal of Applied Remote Sensing, 2(1): #023522 [DOI:10.1117/1.2945910]
  • Sengupta A, Seal A, Panigrahy C, Krejcar O, Yazidi A. 2020. Edge information based image fusion metrics using fractional order differentiation and sigmoidal functions. IEEE Access, 8: 88385-88398 [DOI:10.1109/ACCESS.2020.2993607]
  • Shabanzade F and Ghassemian H. 2017. Combination of wavelet and contourlet transforms for PET and MRI image fusion//Proceedings of 2017 Artificial Intelligence and Signal Processing Conference. Shiraz, Iran: IEEE: 178-183 [DOI: 10.1109/AISP.2017.8324077]
  • Shi B B, Chen Y N, Zhang P, Smith C D, Liu J D. 2017. Nonlinear feature transformation and deep fusion for Alzheimer′s disease staging analysis. Pattern Recognition, 63: 487-498 [DOI:10.1016/j.patcog.2016.09.032]
  • Singh R and Khare A. 2014. Redundant discrete wavelet transform based medical image fusion//Advances in Signal Processing and Intelligent Recognition Systems. Switzerland: Springer: 505-515 [DOI: 10.1007/978-3-319-04960-1_44]
  • Suk H I, Lee S W, Shen D G. 2014. Hierarchical feature representation and multimodal fusion with deep learning for AD/MCI diagnosis. NeuroImage, 101: 569-582 [DOI:10.1016/j.neuroimage.2014.06.077]
  • Tang L, Tian C G, Qian J S, Li L D. 2018. No reference quality evaluation of medical image fusion. International Journal of Imaging Systems and Technology, 28(4): 267-273 [DOI:10.1002/ima.22277]
  • Tang W, Liu Y, Cheng J, Li C, Chen X. 2021. Green fluorescent protein and phase contrast image fusion via detail preserving cross network. IEEE Transactions on Computational Imaging, 7: 584-597 [DOI:10.1109/TCI.2021.3083965]
  • Tang W, Liu Y, Zhang C, Cheng J, Peng H, Chen X. 2019. Green fluorescent protein and phase-contrast image fusion via generative adversarial networks. Computational and Mathematical Methods in Medicine, 2019: #5450373 [DOI:10.1155/2019/5450373]
  • Veshki F G, Ouzir N, Vorobyov S A and Ollila E. 2021. Coupled feature learning for multimodal medical image fusion [EB/OL]. [2022-06-03]. https://arxiv.org/pdf/2102.08641.pdf
  • Vincent O R and Folorunso O. 2009. A descriptive algorithm for sobel image edge detection//Proceedings of 2009 Informing Science and IT Education Conference. Macon, USA: 97-107
  • Wang G F, Li W S, Gao X B, Xiao B, Du J. 2022a. Functional and anatomical image fusion based on gradient enhanced decomposition model. IEEE Transactions on Instrumentation and Measurement, 71: #2508714 [DOI:10.1109/TIM.2022.3170983]
  • Wang G F, Li W S, Gao X B, Xiao B, Du J. 2022b. Multimodal medical image fusion based on multichannel coupled neural P systems and max-cloud models in spectral total variation domain. Neurocomputing, 480: 61-75 [DOI:10.1016/j.neucom.2022.01.059]
  • Wang K P, Zheng M Y, Wei H Y, Qi G Q, Li Y Y. 2020. Multi-modality medical image fusion using convolutional neural network and contrast pyramid. Sensors, 20(8): #2169 [DOI:10.3390/s20082169]
  • Wang N, Zhang W and Li D. 2018. GIMI: a new evaluation index for 3D multimodal medical image fusion//Proceedings of 2018 International Conference on Computational Intelligence and Security. Hangzhou, China: IEEE: 25-29 [DOI: 10.1109/CIS2018.2018.00014]
  • Wang Q, Shen Y and Jin J. 2008. Performance evaluation of image fusion techniques//Image Fusion: Algorithms and Applications. Amsterdam: Academic Press: 469-492 [DOI: 10.1016/B978-0-12-372529-5.00017-2]
  • Wang Q, Shen Y, Zhang J Q. 2005. A nonlinear correlation measure for multivariable data set. Physica D: Nonlinear Phenomena, 200(3/4): 287-295 [DOI:10.1016/j.physd.2004.11.001]
  • Wang Z, Bovik A C, Sheikh H R, Simoncelli E P. 2004. Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing, 13(4): 600-612 [DOI:10.1109/TIP.2003.819861]
  • Xia K J, Yin H S, Wang J Q. 2018. A novel improved deep convolutional neural network model for medical image fusion. Cluster Computing, 22: 1515-1527 [DOI:10.1007/s10586-018-2026-1]
  • Xu H, Ma J Y. 2021. EMFusion: an unsupervised enhanced medical image fusion network. Information Fusion, 76: 177-186 [DOI:10.1016/j.inffus.2021.06.001]
  • Xu H, Ma J Y, Jiang J J, Guo X J, Ling H B. 2022. U2Fusion: a unified unsupervised image fusion network. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(1): 502-518 [DOI:10.1109/TPAMI.2020.3012548]
  • Xu H, Ma J Y, Le Z L, Jiang J J, Guo X J. 2020. FusionDN: a unified densely connected network for image fusion. Proceedings of the AAAI Conference on Artificial Intelligence, 34(7): 12484-12491 [DOI:10.1609/aaai.v34i07.6936]
  • Xydeas C S, Petrović V. 2000. Objective image fusion performance measure. Electronics Letters, 36(4): 308-309 [DOI:10.1049/el:20000267]
  • Yeganeh H, Wang Z. 2013. Objective quality assessment of tone-mapped images. IEEE Transactions on Image Processing, 22(2): 657-667 [DOI:10.1109/TIP.2012.2221725]
  • Zeiler M D, Krishnan D, Taylor G W and Fergus R. 2010. Deconvolutional networks//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE: 2528-2535 [DOI: 10.1109/CVPR.2010.5539957]
  • Zhang H, Xu H, Tian X, Jiang J J, Ma J Y. 2021. Image fusion meets deep learning: a survey and perspective. Information Fusion, 76: 323-336 [DOI:10.1016/j.inffus.2021.06.008]
  • Zhang J J, Zhou T, Lu H L, Wang H Q. 2016. Research progress of multi-model medical image fusion at feature level. Journal of Biomedical Engineering, 33(2): 394-399 (张俊杰, 周涛, 陆惠玲, 王惠群. 2016. 特征级多模态医学图像融合技术的研究与进展. 生物医学工程学杂志, 33(2): 394-399) [DOI:10.7507/1001-5515.20160067]
  • Zhang L, Shen Y, Li H Y. 2014. VSI: a visual saliency-induced index for perceptual image quality assessment. IEEE Transactions on Image Processing, 23(10): 4270-4281 [DOI:10.1109/TIP.2014.2346028]
  • Zhang L, Zhang L, Mou X Q, Zhang D. 2011. FSIM: a feature similarity index for image quality assessment. IEEE Transactions on Image Processing, 20(8): 2378-2386 [DOI:10.1109/TIP.2011.2109730]
  • Zhang Q, Liu Y, Blum R S, Han J G, Tao D C. 2018. Sparse representation based multi-sensor image fusion for multi-focus and multi-modality images: a review. Information Fusion, 40: 57-75 [DOI:10.1016/j.inffus.2017.05.006]
  • Zhang X, Chen W B. 2014. Medical image fusion based on weighted Contourlet transformation coefficients. Journal of Image and Graphics, 19(1): 133-140 (张鑫, 陈伟斌. 2014. Contourlet变换系数加权的医学图像融合. 中国图象图形学报, 19(1): 133-140) [DOI:10.11834/jig.20140117]
  • Zhang X C. 2021. Benchmarking and comparing multi-exposure image fusion algorithms. Information Fusion, 74: 111-131 [DOI:10.1016/j.inffus.2021.02.005]
  • Zhang Y, Liu Y, Sun P, Yan H, Zhao X L, Zhang L. 2020. IFCNN: a general image fusion framework based on convolutional neural network. Information Fusion, 54: 99-118 [DOI:10.1016/j.inffus.2019.07.011]
  • Zhao C, Wang T F, Lei B Y. 2021. Medical image fusion method based on dense block and deep convolutional generative adversarial network. Neural Computing and Applications, 33(12): 6595-6610 [DOI:10.1007/s00521-020-05421-5]
  • Zhao W D, Lu H C. 2017. Medical image fusion and denoising with alternating sequential filter and adaptive fractional order total variation. IEEE Transactions on Instrumentation and Measurement, 66(9): 2283-2294 [DOI:10.1109/TIM.2017.2700198]
  • Zhou P, Xi R H, Song L L, Wu X D. 2006. Realization of medical image fusion based on wavelet transform. Journal of Image and Graphics, 11(11): 1720-1723 (周朋, 奚日辉, 宋玲玲, 吴小丹. 2006. 基于小波变换的医学图像融合技术的实现. 中国图象图形学报, 11(11): 1720-1723) [DOI:10.11834/jig.2006011301]
  • Zhou T, Liu S, Dong Y L, Huo B Q, Ma Z J. 2021. Research on pixel-level image fusion based on multi-scale transformation: progress application and challenges. Journal of Image and Graphics, 26(9): 2094-2110 (周涛, 刘珊, 董雅丽, 霍兵强, 马宗军. 2021. 多尺度变换像素级医学图像融合: 研究进展、应用和挑战. 中国图象图形学报, 26(9): 2094-2110) [DOI:10.11834/jig.200803]