论文引用格式:Yang X H, Gou T K, Xue Y, Jin H Y and Shi Z H. 2024. Low-rank tensor recovery using sparse prior and multi-modal tensor factorization. Journal of Image and Graphics, 29(04):0922-0938(引用格式:杨秀红, 苟田坤, 薛怡, 金海燕, 石争浩. 2024. 结合稀疏先验与多模式分解的低秩张量恢复方法. 中国图象图形学报, 29(04):0922-0938)[0 引 言张量作为向量和矩阵的多维扩展,在现实生活中发挥着越来越重要的作用,例如,视频图像、高光谱成像(刘盛 等,2021)、磁共振成像(Yama等,2020)和计算机断层扫描(Zhang等,2020b)等。然而,在实际应用中,由于获得的张量数据可能是不完整的,严重降低数据质量以及限制应用。张量补全(tensor completion,TC)旨在从不完整的观测中恢复缺失条目,在计算成像中有许多应用,如高光谱图像恢复(杨润宇 等,2019)、彩色图像/视频补全(Jiang等,2023;Qin等,2022)和人脸识别(Fu等,2019)。对于这种不适定性逆问题,当考虑缺失元素和已观测元素之间的关系时,与矩阵数据的结构先验相比,张量数据的结构先验信息是复杂的,往往难以确定(Cichocki等,2017)。张量数据能够描述真实世界中多个数据通道之间结构特征的耦合,相对低维的相关特征信息被嵌入了更高维的度量中,因而结构先验信息的表示比矩阵数据更加复杂。张量分解可有效挖掘张量数据的内在特征,但传统分解方法诱导的张量秩函数无法探索张量不同模式之间的相关性;另外,传统张量补全方法通常将全变分约束施加于整体张量数据,无法充分利用张量低维子空间的平滑先验。为了解决这两个问题,本文旨在有效提取关于潜在张量结构的有用信息,以提高缺失元素的恢复性能。1 相关研究现状张量秩最小化方法在TC中有着广泛的应用。然而,与矩阵秩不同,张量秩的定义并不是唯一的。基于不同的张量分解,张量秩有不同的定义。Tucker秩可以定义为张量沿着每个模式展开矩阵秩的多线性组合。HaLRTC(high accuracy low-rank tensor completion)(Liu等,2013)将矩阵核范数扩展到高维张量,建立沿着张量每个模式方向的展开矩阵秩之和(sum-of-nuclear-norms,SNN),并将SNN作为Tucker秩函数的凸近似,同时将张量补全表示为一个凸优化问题。Mu等人(2014)证明了将SNN作为张量秩函数的凸松弛是次优的,因此为缩减SNN与非凸模型之间的差距,提出一种更适合的凸松弛,在保持张量低秩性的同时,将张量展开成一组更平衡的矩阵。然而,现有的方法与非凸模型相比,时间、计算复杂度仍然不是最优的,并不适合处理大规模张量数据。Han等人(2017)受矩阵截断核范数(Guo等,2017)启发,提出一种张量截断核范数,并在目标函数中定义了一个多维离散余弦变换的1-范数约束的稀疏正则化项。基于张量奇异值分解(tensor singular value decomposition, T-SVD)的多线性秩和张量管秩可用于构造张量秩最小化模型,Song等人(2020)提出基于变换的张量管秩,使用酉变换代替传统张量奇异值分解中的离散傅里叶变换,可以得到更低的张量管秩,对于鲁棒性张量补全更加有效。张量管核范数的部分和(partial sum of tubal nuclear norm,PSTNN)(Jiang等,2020)研究了T-SVD(tensor singular value decomposition)框架下的张量恢复问题,即提出张量管核范数的部分和(PSTNN)作为张量管多秩的替代物,建立了基于PSTNN的张量恢复模型。Chen等人(2021)提出一种基于自动加权机制的张量链秩鲁棒性补全模型,该模型可利用一个自动加权机制来平衡同一张量中不同矩阵的重要性。传统的基于张量环分解模型对于张量秩的选择非常敏感,因此,Long等人(2021)提出了一种基于贝叶斯方法的低秩张量环补全方法,通过自动学习数据的低秩结构来恢复图像。利用稀疏诱导的分层先验约束因子张量的水平切片和正向切片,采用贝叶斯推理得到张量环秩。然而这些传统的方法只能独立地利用张量每个模式的低秩性,无法有效利用张量多个维度之间紧密的多线性相互作用的先验知识。低秩张量分解(low-rank tensor decomposition,LRTD)是TC的另一条研究主线,它可以解决张量秩最小化的部分缺点。然而,LRTD面临的挑战是设计一个合适的分解模型来表示不完整张量的低秩结构。Tucker分解(Tucker等,1966)是指将一个张量分解为一个核张量以及一组因子矩阵的模式乘积之和。随着张量缺失条目的增加,因子分解方案可能会因错误预设秩大小,从而导致过拟合现象。为了解决这一难题,并实现在补全张量的同时捕获底层的模型结构。Chen等人(2014)提出一种在张量补全的同时进行张量分解的方法(simultaneous tensor decomposition and completion,STDC)。TRLRF(tensor ring low-rank factors)(Yuan等,2019a)建立了多线性张量秩与TR(tensor ring)因子秩之间的理论关系,使得低秩约束可以隐式地在TR潜在空间上进行。Zeng(2021)通过对Tucker分解的深入研究,提出一种新的基于多模式核张量分解的低秩张量补全模型,同时提出该模型的非凸松弛形式。统计先验的帮助下,最近的LRTD方法利用贝叶斯框架来增强TC模型,Zhang等人(2019)提出一种基于自适应低秩表示的张量补全模型,在贝叶斯框架中分别表示潜在的张量低秩和非低秩结构。在T-SVD分解框架(Zhang和Aeron,2017)中,张量数据可以用一个定义的张量乘积算子来表示,元素之间具有循环卷积和乘法运算。基于张量奇异值分解(Lu等,2020;Zhang等,2019)下张量多秩和张量管秩的定义,建立了张量恢复模型。张量链分解(Oseledets,2011)是一种高级张量网络分解模型,可将高维张量分解为一系列三维核张量,这些核张量相互作用,在张量补全领域中有着广泛的应用。Yuan等人(2019b)提出两种基于张量链分解的张量补全算法,分别是张量链加权优化(tensor train weighted optimization,TT-WOPT)和张量链随机梯度下降(tensor train stochastic gradient descent,TT-SGD)优化张量链分解因子,用以捕获张量数据的潜在特征,重构缺失数据。然而,张量链分解和张量环分解只能建立相邻两个分解因子之间的联系,并且对张量模式排列方式特别敏感,无法灵活地表示张量。因此,Zheng等人(2021)提出全连接张量网络分解。全连接张量网络分解的优势在于能够充分描述任意两种张量模式之间的内在关联,并具有充分表征全局相关性和保持其换位不变性的能力。低秩分解作为一种强大的张量分析工具,在深度学习领域也有着广泛的应用。Hou等人(2017)为解决遥感图像检测问题,提出了一种基于低秩的显著性计算和深度特征表示方法。利用卷积神经网络(convolutional neural network,CNN)提取超像素特征,并对两幅输入图像的变化特征进行低秩分解,生成显著性映射,表示每个像素的变化概率。Luo等人(2022)提出一种非线性多层神经网络,仅利用观测张量来学习非线性变换。该网络利用变换张量的低秩表示和观测张量与重构张量之间的数据拟合来学习非线性变换。Wang等人(2022)提出了一种新的基于耦合非线性变换(coupled nonlinear transform,CoNoT)的低秩张量表示,以获得更好的低秩近似,并使用CNN作为CoNoT,它可以以无监督的方式仅从观察到的多维图像中学习。针对现有张量补全方法在表征低秩结构方面的能力有限问题, Xue等人(2022)提出一种基于稀疏性的多层张量分解(multilayer sparsity-based tensor decomposition,MLSTD)方法,以描述具有隐藏在张量中的隐式稀疏属性的复杂层次知识,提高低秩张量补全的效果。Yu和Yang(2023)定义了一个新的非凸张量伪范数来代替张量核范数的加权和(weighted sum of the tensor nuclear norm,WSTNN)作为更紧秩近似,然后引入时空矩阵以利用低秩静态背景和稀疏前景的固有时空特征,最后引入了一个非相干项来约束稀疏前景和动态背景以提高可分性。全变分(total variation,TV)(Chen和Zhang等,2021)正则化是一种图像去噪和图像恢复技术,通过对图像灰度级梯度度量,可描述图像的边缘和纹理信息,为图像处理(He等,2019)和模式识别(Zhang等,2020a)应用提供了新思路。在TC问题中,TV项通常被纳入到一个低秩框架中,以便表征在不同维度上的局部分段平滑特性和全局低秩结构,比较典型的工作有MF-TV(matrix factorization-total variation)(Ji等,2016)和LRTC-TV-II(low-rank tensor completion total variation-II)(Li等, 2017;Ko等,2020)。Wang等人(2018)提出一种基于各向异性空间光谱全变分正则化(anisotropic spatial-spectral total variation,SSTV)与Tucker分解的高光谱图像去噪算法。在全变分的基础之上,Yang等人(2022)提出将分数阶有界变分空间中的分数阶全变分纳入至低秩张量补全模型中,以便高效恢复高损失率的多通道视觉图像。然而,基于TV的张量局部稀疏性的描述无法利用张量子空间稀疏先验知识。本文在张量秩最小化基础上,融入多模式张量分解技术描述全局低秩特性;对于张量局部稀疏性,本文在多模式张量分解框架中假设因子矩阵具有潜在的局部分段平滑特性,即利用因子梯度稀疏性衡量局部稀疏性。基于以上两点,提出了一个结合全局低秩性与局部稀疏性的张量恢复模型,主要贡献如下:1)受多模式核张量分解技术的启发,将多模式张量分解技术与张量秩最小化思想相结合,可以有效利用张量不同模式之间的相关性。2)利用多模式张量分解模型的因子梯度稀疏先验作为有效约束,来表征张量的底层子空间局部结构的稀疏性。3)提出一种稀疏先验多模式张量分解恢复模型,同时利用张量的全局低秩性与局部稀疏性来恢复受损的张量数据。其中,对原始张量施加核范数约束,以此捕获张量的全局低秩性,并对因子矩阵施加因子梯度稀疏正则化约束,以便探索张量子空间的局部稀疏性,从而进一步提高了张量恢复性能。最终,本文采用一种基于乘子交替方向法(alternating direction method of multipliers,ADMM)(Boyd等,2011)的有效优化算法来求解所提模型,其中每个变量和相关参数都可以通过求解封闭子问题进行更新。另外,本文模型可应用于深度学习网络的轻量化中。例如:对张量数据在局部稀疏性的约束下进行低秩分解,采用结构化蒸馏方式保留最主要的网络参数,去除冗余参数,在尽量保持网络性能的前提下,达到轻量级的目的,所以本文算法有着重要的研究价值。2 相关工作2.1 本文相关符号为便于介绍本文方法以及张量代数,本小节统一规定所使用的符号。标量表示为小写字母,例如x,y;向量表示为粗体小写字母,例如x,y;矩阵表示为粗体大写字母,例如X,Y;张量表示为加粗花体字母,例如X,Y。对于两个大小相同的N阶张量X∈RI1×I2×⋯×IN和Y∈RI1×I2×⋯×IN,其内积可定义为X,Y=∑i1,i2,⋯,iN xi1,i2,⋯,iN×yi1,i2,⋯,iN,其Frobenius范数定义为XF=X,X。张量模式-n排列:给定一个三阶张量X∈RI1×I2×I3其模式-n排列可定义为X⃗k或permuteX,k,X⃗k的第i个模式-3切片是X沿着模式-i方向的切片,即Xi1i2i3=X⃗i2i3i11=X⃗i3i1i22=X⃗i1i2i33,其逆运算可定义为X=ipermutepermuteX⃗k,k。张量模式-n乘积:张量模式-n乘积可以看做是矩阵乘积向高维张量的扩展,对于X∈RI1×I2×⋯×IN和矩阵U∈RJn×In的模式-n乘积可以表示为Z=X×nU,张量X的模式-n乘积的展开形式可表示为Zn=U×nXn。2.2 相关工作2.2.1 多模式张量分解多模式张量分解可将整体张量沿着每个模式分解为一组低维张量和一组因子矩阵。对于一个三阶张量X∈RI1×I2×I3,其多模式张量分解可定义为X=Cn×nAn, n=1, 2, 3 (1)式中,Cn为因子张量,An为因子矩阵。多模式张量分解如图1所示。10.11834/jig.230490送排稿.F001图1三阶张量的多模式张量分解Fig.1Multi-mode tensor factorization of a third-order tensor2.2.2 张量秩最小化模型基于张量秩最小化模型可表述为minX rankXs.t. XΩ=MΩ (2)式中,X是潜在的张量,M是观测到的张量,Ω则是观测元素的索引集。张量秩有很多种形式,如Tucker秩、CP秩、TT秩和TR秩等。由于直接描述张量秩是一个NP-hard问题,在矩阵补全中常常利用矩阵非零奇异值的数量,即核范数来代替矩阵秩函数。因此将核范数的概念推广至描述张量秩,优化模型(2)可以表述为minX X* s.t. XΩ=MΩ (3)式中, ⋅*为在不同张量分解技术诱导下产生的张量秩函数,即张量核范数。基于张量秩最小化模型本质上是寻找张量秩函数的近似代替,将张量补全问题优化为张量核范数最小化问题,并试图在张量补全过程中,保持张量内部精细结构。在恢复不完整张量时,基于张量秩最小化模型比基于张量分解模型在准确度和效率方面表现更加突出。3 本文方法本节在张量秩最小化模型的基础上,提出结合稀疏先验与多模式张量分解的低秩张量恢复(sparsity prior multi-modal tensor factorization completion,SMTFC)方法。该方法核心思想是在张量秩最小化的同时,利用多模式张量分解技术处理张量不同模式方向的相关性,对整体张量施加低秩约束,以此捕获张量全局低秩特性,同时完成张量分解与张量恢复任务。此外,对多模式分解矩阵施加因子梯度平滑约束,以此探索张量低秩子空间的稀疏先验。3.1 张量多模式相关性分析传统的基于张量秩最小化的低秩张量补全模型是在张量低秩属性约束下,通过最小化张量秩优化恢复张量,张量秩可以是Tucker秩、TNN等。大量研究表明,张量数据的各个模式间具有相关性(Zheng等,2020),例如,高光谱图像是同一场景在不同光谱波段上产生的不同成像结果,这表明光谱图像在光谱维度中存在较高的相关性;一段视频包含多帧图像,在时间维度上不同的帧存在着高度相关。如图2所示,图2(a)为256 × 256 × 80的Urban高光谱图像,图2(b)是图2(a)沿着每个模式展开矩阵的奇异值曲线。10.11834/jig.230490送排稿.F002图2张量不同模式之间的相关性Fig.2Correlation between different modes of a tensor((a) Urban hyperspectral image; (b) singular value curve plot for unfolding matrix along each mode of (a) )从图2可以观察到,3种模式展开矩阵的奇异值都呈现锐减趋势,且只有一小部分奇异值大于零,这意味着张量在每个模式方向都是相关的,同时也反映了其在每个模式方向上均位于低秩子空间上。但Tucker分解诱导的Tucker秩和T-SVD诱导的TNN无法灵活处理张量的多模式相关性,因此将多模式张量分解技术融入张量秩最小化模型中,优化后的张量秩最小化模型可表示为minX∑n=1NαnXTNNs.t. X=Cn×nAnn=1N, XΩ=MΩ, N=3 (4)式中,∑n=1Nαn=1,αn0,在更新张量X时可以采用张量奇异值分解方式进行优化,所优化的张量秩最小化模型对整体张量施加低秩约束,可以有效保留张量全局低秩特性。与此同时,通过引入多模式张量分解技术,在不断迭代恢复整体张量的同时,有效探索张量不同模式之间相互关联的特性。该模型解决了传统TNN无法充分捕获张量多个模式之间相关性的问题。3.2 稀疏性分析式(4)将低秩性推广至沿着张量每个模式方向的全局空间,称为张量全局低秩性,但其缺乏对张量局部信息的描述。对于一个张量,多模式张量分解框架中的每个因子矩阵都包含着与其相应模式的对应潜在信息,并揭示了模式内部和模式之间有价值的相关辅助信息。自然的张量数据通常具有局部稀疏性,例如高光谱图像中的道路和建筑等具有相似性,以及视频的帧之间具有较强的连续性,沿着时域方向静态背景的可重复性,这些均可以视为局部稀疏性。在数学上,对于给定的N阶张量X∈RI1×I2×⋯×IN,其张量子空间局部稀疏性可表示为fAn=LnAnpp (5)式中,Ln∈RIn-1×In为平滑矩阵,Lni,i=1,Lni,i+1=-1,平滑矩阵其他元素为零。p是选择稀疏性约束类型的参数,当p = 1时,fAn为基于拉普拉斯分布的稀疏先验,当p = 2时,fAn为基于高斯分布的稀疏先验。为进一步验证局部稀疏先验有效性,在一个开源高光谱数据集上进行实验。图3为一个三阶张量的多模式张量分解因子梯度稀疏性示意图。10.11834/jig.230490送排稿.F003图3三阶张量的多模式张量分解因子梯度稀疏性示意图Fig.3Illustration of the gradient sparsity of the multi-mode tensor factorization factor for a third-order tensor图3左侧是大小为256 × 256 × 80的Urban高光谱数据集及其多模式张量分解示意图,右侧为因子梯度稀疏性示意图。在图3中,因子梯度直方统计图的绝大多数因子梯度值为零或接近零,可以证明多模式张量分解因子具有局部稀疏性。综上,本文在张量秩最小化模型的基础上,结合多模式张量分解与局部稀疏先验优化,构建SMTFC模型,即在张量潜在子空间假设的基础上,选择局部稀疏性先验用以保留局部分段的相似性。SMTFC模型的目标函数表示为minX,Cn,Ann=1N∑n=1N αnXTNN+λnCnF2+τnLnAn1s.t. X=Cn×nAnn=13,XΩ=MΩ (6)式中,λn0,τn0为正则化参数,同样利用Frobenius范数约束𝒞⃗ nn,从而防止在优化迭代中过拟合。此外,与Xue等人(2022)方法相同,这里p = 1。4 整体算法流程本节在稀疏先验与多模式张量分解的低秩张量恢复模型构建基础上,对张量恢复模型展开讨论,并对模型优化求解过程进行详细阐述,以便实现基于稀疏先验与多模式张量分解的低秩张量恢复任务。4.1 模型说明图4为SMTFC模型的整体流程示意图。如图4所示,本文算法首先通过多模式张量分解将不完整张量分解为一系列低维因子张量与因子矩阵,使用张量核范数对整体张量进行低秩约束,并利用张量奇异值分解对整体张量进一步分解。与此同时,为进一步探索张量潜在子空间的先验条件,对因子矩阵施加因子梯度稀疏正则化约束。通过对整体张量施加张量核范数约束,可有效捕获张量全局低秩特性,利用多模式张量分解可有效处理张量不同模式之间的相关性,同时因子梯度稀疏先验可充分利用张量潜在信息,从而进一步提高张量恢复性能。10.11834/jig.230490送排稿.F004图4SMTFC模型示意图Fig.4Illustration of SMTFC model4.2 求解过程与LRTC-3DTV模型优化求解过程相似,本节同样采用ADMM技术求解优化该模型。在实际应用中为方便后续的优化求解,可以利用张量模式-n排列操作对原始张量进行permute运算,即X⃗n=permute𝒳,n,n=1,2,3。将模式-n乘积转化为模式-3乘积,转化后的模式-n分解可表示为X⃗n=𝒞⃗ nn×3An。因此,通过permute运算优化后的式(6)可表述为minX,C⃗nn,Ann=1N∑n=1NαnX⃗nTNN+λnC⃗nnF2+τnLnAn1s.t. X⃗n=C⃗nn×3Ann=13, XΩ=MΩ(7)由目标函数(7)可知,X⃗n,C⃗nn,An彼此相互依赖,使模型求解困难,因此通过引入辅助变量,即张量𝒴⃗ nn= X⃗nn=1N与矩阵Qn=LnAnn=1N,利用ADMM技术将式(7)优化为minX,Yn,C⃗nn,An,Znn=1N∑n=1NαnY⃗nnTNN+λnC⃗nnF2+τnLnAn1s.t. Y⃗nn=X⃗n, X⃗n=C⃗nn×3An, LnAn=Qnn=1NXΩ=MΩ, N=3 (8)利用增广拉格朗日乘子法将式(8)优化为增广拉格朗日函数,即L=∑n=1NαnY⃗nnTNN+λnC⃗nnF2+ 𝒲 n, X⃗n-Y⃗nn+ρ12X⃗n-Y⃗nnF2+ τnQn1+Γn, LnAn-Qn+ρ22LnAn-QnF2+𝒯n, X⃗n-C⃗nn×3An+ρ32X⃗n-C⃗nn×3AnF2 (9)式中,张量Wn, Tn以及矩阵Γnn=1N均为拉格朗日乘子, ρ1, ρ2和ρ3为惩罚参数,随后通过以下解决方案更新各个变量。1)更新变量Qnn=1N。通过固定其他变量,可获得关于Qnn=1N的优化子问题,即minZnn=1NτnQn1+ρ22LnAn-Qn+Γnρ2F2 (10)这个最小化问题可以通过软阈值收缩运算解决,即Qn=shrinkageτn/ρ2LnAn+Γnρ2 (11)式中,shrinkageςx=sign(x).*maxx-ς,0,“.*”代表元素级乘积,x为矩阵中的一个元素。2)更新变量Ann=1N。通过固定其他变量,可获得关于Ann=1N的优化子问题,即minAnn=1Nρ22LnAn-Qn+Γnρ2F2+ρ32X⃗n-C⃗nn×3An+𝒯nρ3F2 (12)因此,关于Ann=1N的优化子问题可以利用如下优化方案解决,即ρ2LnLnTAn+ρ3AnC⃗n3nC⃗n3nT=LnTρ2Qn-Γn+ρ3X⃗3n+T3nC⃗n3nT (13)对于上述优化子问题(13)可以视为sylvester矩阵方程。观察式(13)可得,矩阵LnLnT为循环矩阵,C⃗n3nC⃗n3nT为对称矩阵,因此可以利用一维快速傅里叶变换和奇异值分解将矩阵LnLnT与矩阵C⃗n3nC⃗n3nT进行对角化,即LnLnT=F1TΨ1F1, C⃗n3nC⃗n3nT=U1Σ1U1T (14)式中,F1为一维离散傅里叶变换(discrete fourier transform,DFT)矩阵。通过sylvester矩阵方程快速求解法并结合式(13)可以求解式(12),即An=F1T((1⊘T1)⊙(F1KU1))U1T (15)式中,K=LnTρ2Qn-Γn+ρ3X⃗3n+T3nC⃗n3nT,T1=ρ2(diag(Ψ1), diag(Ψ1), ⋯, diag(Ψ1))+ρ3diag(Σ1),diag(Σ1),⋯,diag(Σ1)T,⊘表示张成对角矩阵。3)更新变量C⃗nnn=1N:通过固定其他变量,可获得关于C⃗nnn=1N的优化子问题,即min𝒞⃗ nnn=1NλnC⃗nnF2+ρ32X⃗n-C⃗nn×3An+𝒯 nρ3F2 (16)因此,关于C⃗nnn=1N的优化子问题可以利用如下优化方案解决,即H=2λnIn+ρ3AnTA-1AnTρ3X⃗3n+T⃗3nC⃗nn=foldH, 3 (17)式中,fold表示将H矩阵沿模-3折叠为张量。4)更新变量Y⃗nnn=1N。通过固定其他变量,可获得关于Y⃗nnn=1N的优化子问题,即min𝒴⃗ nnn=1NαnY⃗nnTNN+ρ12X⃗n-Y⃗nn+𝒲 nρ1F2 (18)上述优化子问题可以通过张量奇异值阈值算子(tensor singular value thresholding,t-SVT)解决,因此Y⃗nnn=1N的求解方式可表示为Y⃗nn=𝒟αn/ρ1X⃗n+𝒲 nρ1 (19)式中,𝒟ςZ=U * Sς * VT,这里U,S,V为张量Z进行T-SVD后产生的张量,Sς满足以下形式:𝒮¯ςi1,i2,i3=max𝒮¯i1,i2,i3-ς,0,S¯= fftS,[],3,fft为傅里叶变换,ς为阈值。5)更新变量X。通过固定其他变量,可得到关于X 的优化子问题,即minX∑n=1Nρ12X⃗n-Y⃗nn+𝒲 nρ1F2+ρ32X⃗n-C⃗nn×3An+Tnρ3F2 (20)因此,关于X的优化子问题可以利用如下优化方案解决,即X=PΩipermute∑n=1N ρ1Y⃗nn+ρ3C⃗nn×3An-Wn-Tnρ1+ρ3, n+ PΩ¯M (21)更新拉格朗日乘子Wn、Tn以及矩阵Γnn=1N,具体计算为Wn=Wn+ρ1X⃗n-Y⃗nnTn=Tn+ρ3X⃗n-C⃗nn×3AnΓn=Γn+ρ2LnAn-Qn (22)目标函数中的惩罚参数ρii=13可以通过ρi=minβ ρi,ρimax得到。SMTFC模型的算法伪代码如下,其中,观测张量M∈RI1×I2×I3,恢复张量X∈RI1×I2×I3,最大迭代次数为K,迭代停止条件为ε。输入:观测张量M,正则化参数αn、λn,观测张量条目索引Ω。输出:恢复张量X。1) 初始化:X、C⃗nnn=1N,Ann=1N,β,K,ρii=13,ρimax, ε;2) for k = 1, 2, …, K do;3) 更新变量Qnn=1N,通过式(11)求解;4) 更新变量Ann=1N,通过式(15)求解;5) 更新变量C⃗nnn=1N,通过式(17)求解;6) 更新变量Y⃗nnn=1N,通过式(19)求解;7) 更新变量X,通过式(21)求解;8) 更新拉格朗日乘子Wnn=1N、Tnn=1N和Γnn=1N,通过式(22)求解;9) if X-XlastF2/XF2≤ε,break;10) end。5 实验与结果分析本文将在高光谱图像(hyperspectral image,HSI)数据集、多光谱图像(multispectral image,MSI)数据集、MRI(magnetic resonance imaging)数据集以及YUV(也称YCbCr)视频数据集上进行对比实验。1)实验环境。软件环境为windows11 64位,MATLAB R2021b,实验硬件环境为AMD Ryzen 7 6800H处理器和16.0 GB RAM内存。2)评估准则。本文将恢复张量数据的所有通道的PSNR(peak signal-to-noise ratio)和SSIM(structural similarity)分别取平均值,记为MPSNR和MSSIM。PSNR的定义为PSNR=10lgMAX2MSE (23)式中,MAX表示图像中最大的像素,MSE表示恢复图像X˜与原始图像X的均方误差。MSE定义为MSE=X˜-XFN (24)式中,N代表图像像素的总个数。对于恢复图像X˜与原始图像X的SSIM定义为SSIM=2μX˜μX+c12σX˜X+c2μX˜2+μX2+c1σX˜2+σX2+c2 (25)式中, μX˜是X˜的平均值, μX是X的平均值,σX˜X是X˜与X的协方差,σX˜2是X˜的方差,σX2是X˜的方差,c1和c2是常数,用以维持稳定。3)对比方法。选择HaLRTC(Liu等,2013)、LRTC-TV-II(Li等,2017)、MF-TV(Ji等,2016)、TRLRF(Yuan,2019a)、PSTNN(Jiang等,2020)、LPRN(solve the non-convex LRTC model)(Yu和Yang,2023)、LGNet(Quan等,2022)和GP-WLRR(global prior refined weighted low-rank representation)(Liao等,2024)作为对比方法。其中,后两种是深度学习的方法。在预训练参数的基础上,LGNet和GP-WLRR使用高光谱图像数据集、多光谱图像数据集、YUV视频图像数据集、fastMRI医学图像数据集进行参数微调,数据集均为200幅图像。设置LGNet的学习率为0.000 2,epoch为100;GP-WLRR的学习率为0.000 1,epoch为100。4)参数设置。对于所有的张量恢复模型,迭代停止阈值条件均为ε=1.0×10-6,最大迭代次数K = 300。本文方法惩罚参数ρii=13=1.0×10-2,调优参数β=1.1。与LRTC-TV-II相似,对于每组实验λnn=13=1.0×103, τnn=13=1, αn=1,1,1/3。5.1 高光谱图像测试图像为Urban、Washington DC Mall高光谱图像数据集,均由Hydice传感器取得,其中原始Urban图像数据集大小为307 × 307 × 210,去除严重吸水波段后大小为307 × 307 × 162,原始Washington DC Mall图像数据集大小1 208 × 307 × 191。实验中Urban和Washington DC Mall高光谱图像数据集大小为256 × 256 × 80。每个高光谱数据均可视为3阶张量,并将每个高光谱图像进行归一化处理。图5为本次实验所使用到的高光谱图像数据集。其中,图5(a)(b)分别为高光谱图像数据集Urban和Washington DC Mall的第70波段图像。10.11834/jig.230490送排稿.F005图5高光谱图像数据集Fig.5HSIs datasets ((a) Urban; (b) Washington DC Mall)实验中设置的3种丢失率(missing rate,MR)分别为80%、90%、95%。为了验证不同方法在高光谱图像上的恢复性能,将从定量评价以及视觉评价的角度对不同的实验方法进行评估。在客观评价指标方面,表1为在各丢失率下不同恢复方法在Urban以及Washington DC Mall上恢复张量的MPSNR、MSSIM值。如表1所示,在所有实验方法中,SMTFC模型在客观评价指标上均获得最佳的恢复精度。在统计意义上,SMTFC模型获得最佳的恢复性能。10.11834/jig.230490送排稿.T001表1不同恢复方法在高光谱图像上的定量比较Table 1Quantitative comparison of different completion methods for HSIs类别方法Urban数据集Washington DC Mall数据集MR = 80%MR = 90%MR = 95%MR = 80%MR = 90%MR = 95%MPSNR/dBMSSIMMPSNR/dBMSSIMMPSNR/dBMSSIMMPSNR/dBMSSIMMPSNR/dBMSSIMMPSNR/dBMSSIM张量建模HaLRTC27.540.769 124.360.601 715.700.044 529.490.829 925.540.670 913.650.028 1LRTC-TV-II26.600.720 324.640.595 926.530.695 327.320.733 524.770.582 923.120.474 5MF-TV40.200.940 730.750.724 027.510.628 039.500.959 433.90.870 026.950.649 6TRLRF28.220.746 327.360.700 026.180.630 530.080.829 929.170.797 429.140.755 6PSTNN35.550.925 226.960.690 420.390.337 134.990.924 627.280.749 519.950.399 0LPRN35.480.923 820.870.502 130.470.802 433.460.902 532.330.855 130.350.771 1SMTFC (本文)51.190.998 343.610.991 836.600.963 353.670.999 444.090.992 837.010.961 4深度学习LGNet50.230.994 241.820.972 134.920.959 351.980.994 542.890.981 336.160.958 7GP-WLRR50.740.992 743.810.984 136.400.960 953.490.999 143.190.994 237.720.965 6注:加粗字体表示各列最优结果。在主观视觉效果方面,图6和图7显示了当MR为90%时,不同方法在高光谱图像数据集Urban和Washington DC Mall的第70光谱波段恢复结果的视觉评价,图中数值为PSNR值。以Washington DC Mall为例,TRLRF和PSTNN可以获得一定的视觉效果,而HaLRTC、LRTC-TV-II和MF-TV由于在构建张量恢复模型时采用了张量矩阵化思想,破坏了张量复杂的高维内在结构,导致恢复结果的边缘模糊不清,无法精确恢复图像。SMTFC模型的PSNR值最高,恢复图像获得了良好的视觉效果,将局部细节放大,SMTFC模型可以有效保留图像的边缘结构与精细的纹理结构,获得了最佳视觉效果。10.11834/jig.230490送排稿.F006图6不同方法在高光谱图像数据集Urban上的视觉评价Fig.6Visual evaluation of different completion methods on Urban dataset of HSIs10.11834/jig.230490送排稿.F007图7不同方法在高光谱图像数据集Washington DC Mall上的视觉评价Fig.7Visual evaluation of different completion methods on Washington DC Mall dataset of HSIs5.2 多光谱图像本小节测试图像来自CVAE(Columbia Imaging and Vision Laboratory),以Toy和Feathers为例,数据集尺寸均为256 × 256 × 31,将每个多光谱图像进行归一化处理,MR同样设置为80%、90%和95%。图8为本次实验多光谱图像数据集中Toy和Feathers的第30波段。10.11834/jig.230490送排稿.F008图8多光谱图像数据集Fig.8MSI datasets ((a) Toy;(b) Feathers)在客观评价指标方面,表2为在各丢失率下,不同方法在Toy和Feathers上恢复张量的MPSNR、MSSIM值。如表2所示,在所有实验方法中, SMTFC模型在客观评价指标上均获得最佳的恢复精度。在统计意义上,SMTFC模型获得最佳的恢复性能。10.11834/jig.230490送排稿.T002表2不同恢复方法在多光谱图像上的定量比较Table 2Quantitative comparison of different completion methods for MSI方法类别方法图像Toy图像FeathersMR = 80%MR = 90%MR = 95%MR = 80%MR = 90%MR = 95%MPSNR/dBMSSIMMPSNR/dBMSSIMMPSNR/dBMSSIMMPSNR/dBMSSIMMPSNR/dBMSSIMMPSNR/dBMSSIM张量建模HaLRTC32.730.936 026.050.832 818.270.689 032.700.933 327.320.854 220.750.704 9LRTC-TV-II30.610.936 927.370.885 224.740.826 131.430.943 727.790.898 125.090.843 7MF-TV40.310.971 133.620.928 518.020.932 140.930.968 426.530.821 319.260.560 2TRLRF32.220.871 931.340.843 330.070.798 131.980.839 031.140.812 029.510.765 2PSTNN38.020.955 824.250.786 317.230.617 432.400.934 523.650.745 518.950.560 6LPRN42.380.962 138.140.968 819.510.789 741.540.970 137.550.891 226.270.711 2SMTFC (本文)46.170.992 139.720.977 632.280.915 351.220.990 247.090.973 742.530.937 0深度学习LGNet45.020.984 238.250.969 131.980.903 543.850.976 346.120.961 038.280.898 3GP-WLRR46.170.992 039.010.975 333.390.924 145.820.993 148.610.985 240.510.929 1注:加粗字体表示各列最优结果。在主观视觉效果方面,图9和图10显示了在丢失率为90%的情况下,不同方法在图像Toy和Feathers第30光谱波段的恢复结果。以Feathers图像为例,提出的SMTFC模型的PSNR值最高,并且在较高数据丢失率下,该模型仍能有效恢复羽毛的边缘细节以及精细纹理结构,其他方法无法恢复图像的纹理结构和边缘信息。因此,提出的SMTFC方法可以有效保留图像的边缘结构与精细纹理结构,在恢复多光谱图像方面优于其他方法。10.11834/jig.230490送排稿.F009图9不同恢复方法在多光谱图像Toy上的视觉评价Fig.9Visual evaluation of different completion methods on Toy of MSI10.11834/jig.230490送排稿.F010图10不同恢复方法在多光谱图像Feathers上的视觉评价Fig.10Visual evaluation of different completion methods on Feathers of MSI5.3 视频测试数据为YUV视频,以Akyio和Suzie为例,测试数据尺寸为144 × 176 × 150。将每个视频数据进行归一化处理,MR同样设置为80%、90%和95%。图11为本次实验视频数据集,其中图11(a)(b)分别为Akyio和Suzie视频数据的第1帧。10.11834/jig.230490送排稿.F011图11YUV视频图像数据集Fig.11YUV video datasets ((a) Akyio; (b) Suzie)表3为在丢失率为80%、90%、95%时,不同方法在Akyio以及Suzie视频数据集上恢复张量的MPSNR、MSSIM值。在所有实验方法中,对于不同丢失率的视频图像,提出的SMTFC模型在Akyio、Suzie数据集上获得了最佳的恢复精度。10.11834/jig.230490送排稿.T003表3不同恢复方法在视频数据集上的定量比较Table 3Quantitative comparison of different completion methods for video datasets类别方法视频Akyio视频SuzieMR = 80%MR = 90%MR = 95%MR = 80%MR = 90%MR = 95%MPSNR/dBMSSIMMPSNR/dBMSSIMMPSNR/dBMSSIMMPSNR/dBMSSIMMPSNR/dBMSSIMMPSNR/dBMSSIM张量建模HaLRTC28.480.893 023.240.739 714.860.481 127.660.813 522.200.659 315.030.404 7LRTC-TV-II26.400.840 724.170.750 322.450.668 728.770.853 526.310.777 723.780.703 1MF-TV35.750.961 023.000.802 714.110.495 431.970.872 922.380.625 513.810.095 5TRLRF30.260.897 429.300.879 528.190.849 627.540.770 226.740.742 523.890.624 8PSTNN33.20.907 429.250.814 618.850.360 830.550.835 626.550.688 617.480.194 0LPRN33.670.901 431.320.895 429.530.865 432.470.883 430.010.821 427.070.798 5SMTFC (本文)37.200.982 133.810.964 930.890.935 333.010.914 230.290.863 628.020.810 5深度学习LGNet34.450.916 231.780.949 828.180.921 330.730.860 127.780.792 324.730.729 1GP-WLRR36.010.962 833.290.951 328.860.912 831.820.896 228.910.783 926.180.748 7注:加粗字体表示各列最优结果。在视觉评价方面,图12和图13显示了在MR为90%的情况下,不同恢复方法修复Akyio和Suzie视频数据的第10帧图像。可以看出,提出的SMTFC模型PSNR值最高,有效保留了视频中精细的纹理结构与边缘细节,获得了良好的视觉效果。综上所述,SMTFC模型在恢复视频图像数据上优于其他方法。10.11834/jig.230490送排稿.F012图12不同恢复方法在视频数据Akyio上的视觉评价Fig.12Visual evaluation of different completion methods on Akyio of video datasets10.11834/jig.230490送排稿.F013图13不同恢复方法在视频数据Suzie上的视觉评价Fig.13Visual evaluation of different completion methods on Suzie of video datasets5.4 医学图像本小节测试图像模拟了正常大脑的磁共振成像,数据集大小为181 × 217 × 181,数据中每个像素的大小均在0至1之间。在客观指标方面,表4为在丢失率为80%、90%和95%时,不同恢复方法在医学图像数据集上的定量比较。在所有实验方法中,对于不同丢失率的医学影像图像,SMTFC模型获得了最佳的恢复精度。在统计意义上,SMTFC获得最佳的恢复性能。综上所述,提出的SMTFC模型在恢复医学图像数据上优于其他方法。10.11834/jig.230490送排稿.T004表4不同恢复方法在医学图像数据集上的定量比较Table 4Quantitative comparison of different completion methods for medical images datasets类别方法MR = 80%MR = 90%MR = 95%MPSNR/dBMSSIMMPSNR/dBMSSIMMPSNR/dBMSSIM张量建模HaLRTC24.380.681 719.040.431 915.400.288 3LRTC-TV-II26.800.864 922.680.734 620.060.607 5MF-TV25.890.714 416.940.331 913.730.160 0TRLRF23.430.524 522.460.460 121.740.407 2PSTNN29.870.812 022.760.512 716.670.272 5LPRN32.940.901 228.890.832 524.360.693 5SMTFC (本文)33.170.932 429.060.847 225.460.726 3深度学习LGNet31.930.900 128.890.821 924.780.710 2GP-WLRR33.120.925 329.100.831 125.610.715 2注:加粗字体表示各列最优结果。图14显示了在丢失率为90%的情况下,不同恢复方法恢复医学图像数据的第10个切片。如图14所示,提出的SMTFC模型恢复图像的PSNR值最高,LRTC-3DTV模型恢复图像的PSNR值次高。SMTFC模型恢复的图像主观视觉效果最佳,而其他的实验方法在高丢失率的情况下无法有效恢复医学图像的精细的纹理信息与边缘结构。10.11834/jig.230490送排稿.F014图14不同恢复方法在医学图像数据集上的视觉评价Fig.14Visual evaluation of different completion methods for medical images datasets另外,表5进一步给出了SMTFC和GP-WLRR在某些方面的对比结果。其中,GP-WLRR方法使用PyTorch 1.13.1框架,开发环境为PyCharm Community Edition 2021.1.3,本文SMTFC方法运行环境为MATLAB R2021b,不需要进行神经网络预训练,经过算法迭代即可得出结果。GP-WLRR模型采用49.39 M大小的数据集进行预训练之后,还需要使用200个张量数据进行针对本任务的参数微调,而本文方法不必进行微调。当MR为95%时,本文方法在4种不同数据集上达到最高MSSIM的情况下,修复一个多维张量数据所需平均时间为310.83 s,GP-WLRR为789.75 s。因为运行环境不同无法严格进行时间比对,但从一般意义上来说,本文方法平均所需时间远少于GP-WLRR。10.11834/jig.230490送排稿.T005表5本文方法与GP-WLRR比较Table 5Comparison between SMTFC and GP-WLRR方法运行环境预训练数据集大小/M微调数据集大小参数量/MFLOPs/MMR = 95%时修复所需平均时间/sGP-WLRRPyCharm Community Edition 2021.1.349.3920061.20714.59789.75SMTFC(本文)MATLAB R2021b无需无需8.73150.91310.836 结论在传统方法中,全变分施加于整体张量数据,无法探索张量低维子空间的平滑先验,并且传统张量分解诱导的张量秩无法灵活处理不同模式下的相关性,导致张量恢复模型缺乏稳定性。本文提出了一种基于稀疏先验与多模式张量分解的低秩张量恢复算法,能够处理张量数据不同模式之间的相关性和张量子空间稀疏性。具体而言,在对原始张量施加核范数约束,恢复张量全局低秩性的同时,利用张量多模式分解将原始张量沿着每个模式方向分解为一个低维张量和一个因子矩阵,以便处理不同模式下的相关性,增加模型的稳定性。其次,因子梯度稀疏正则化约束可以有效处理张量子空间稀疏性,也可为模型提供更多的辅助信息。将本文方法与8种张量恢复方法在高光谱图像、多光谱图像以及医学影像图像上进行对比实验,本文模型在4种张量数据相比于传统方法及LGNet均获得了最佳的实验结果,与深度学习方法GP-WLRR的实验效果基本持平。本文模型可同时利用张量的全局低秩性与局部稀疏性,能够对不完整张量数据进行修复。本文模型对整体张量施加了张量核范数约束,可以有效利用张量的全局低秩性,然而,在优化求解时,会使用到大量的张量奇异值分解操作,导致模型收敛速度减慢。在未来工作中,将考虑使用更加高效的张量秩函数,减少张量奇异值分解次数。
使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,
确定继续浏览么?
复制成功,请在其他浏览器进行阅读