Print

发布时间: 2020-03-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190279
2020 | Volume 25 | Number 3




    CACIS 2019会议专栏    




  <<上一篇 




  下一篇>> 





线性模型的遥感图像时空融合
expand article info 方帅1,2, 姚振稷1, 曹风云3
1. 合肥工业大学计算机与信息学院, 合肥 230601;
2. 工业安全与应急技术安徽省重点实验室, 合肥 230601;
3. 合肥师范学院计算机学院, 合肥 230601

摘要

目的 时空融合是解决当前传感器无法兼顾遥感图像的空间分辨率和时间分辨率的有效方法。在只有一对精细-粗略图像作为先验的条件下,当前的时空融合算法在预测地物变化时并不能取得令人满意的结果。针对这个问题,本文提出一种基于线性模型的遥感图像时空融合算法。方法 使用线性关系表示图像间的时间模型,并假设时间模型与传感器无关。通过分析图像时间变化的客观规律,对模型进行全局和局部约束。此外引入一种多时相的相似像素搜寻策略,更灵活地选取相似像素,消除了传统算法存在的模块效应。结果 在两个数据集上与STARFM(spatial and temporal adaptive reflectance fusion model)算法和FSDAF(flexible spatiotemporal data fusion)算法进行比较,实验结果表明,在主要发生物候变化的第1个数据集,本文方法的相关系数CC(correlation coefficient)分别提升了0.25%和0.28%,峰值信噪比PSNR(peak signal-to-noise ratio)分别提升了0.153 1 dB和1.379 dB,均方根误差RMSE(root mean squared error)分别降低了0.05%和0.69%,结构相似性SSIM(structural similarity)分别提升了0.79%和2.3%。在发生剧烈地物变化的第2个数据集,本文方法的相关系数分别提升了6.64%和3.26%,峰值信噪比分别提升了2.086 0 dB和2.510 7 dB,均方根误差分别降低了1.45%和2.08%,结构相似性分别提升了11.76%和11.2%。结论 本文方法根据时间变化的特点,对时间模型进行优化,同时采用更加灵活的相似像素搜寻策略,收到了很好的效果,提升了融合结果的准确性。

关键词

遥感图像; 时空融合; 线性模型; 权重函数; 参数估计

Spatio-temporal method of satellite image fusion based on linear model
expand article info Fang Shuai1,2, Yao Zhenji1, Cao Fengyun3
1. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230601, China;
2. Anhui Province Key Laboratory of Industry Safety and Emergency Technology, Hefei 230601, China;
3. School of Computer Science and Technology, Hefei Normal University, Hefei 230601, China
Supported by: National Natural Science Foundation of China (61872327)

Abstract

Objective Fine resolution images with high acquisition frequency play a key role in earth surface observation. However, due to technical and budget limitations, current satellite sensors have a tradeoff between spatial and temporal resolutions. No single sensor can simultaneously achieve a fine spatial resolution and a frequent revisit cycle although a large number of remote sensing instruments with different spatial and temporal characteristics have been launched. For example, Landsat sensors have fine spatial resolutions (15~60 m) but long revisit frequencies (16 days). By contrast, a moderate resolution imaging spectro-radiometer (MODIS) instrument has a frequent revisit cycle (1 day) but a coarse spatial resolution (250~1 000 m). In addition, optical satellite images are frequently contaminated by clouds, cloud shadows, and other atmospheric conditions. These factors limit applications that require data with both high spatial resolution and high temporal resolution. Spatio-temporal satellite image fusion is an effective way to solve this problem. Many spatio-temporal fusion methods have been proposed recently. Existing spatio-temporal data fusion methods are mainly divided into the following three categories:weight function-based methods, unmixing-based methods, and dictionary learning-based methods. All of these methods require at least one pair of observed coarse- and fine-resolution images for training and a coarse-resolution image at prediction date as input data. The output of spatio-temporal fusion methods is a synthetic fine-resolution image at prediction date. All spatio-temporal fusion methods use spatial information from the input fine-resolution images and temporal information from the coarse-resolution images. Unfortunately, existing spatio-temporal fusion methods cannot achieve satisfactory results in accurately predicting land-cover type change with only one pair of fine-coarse prior images. Thus, spatio-temporal satellite image-fusion method based on linear model is proposed to improve the prediction capacity and accuracy, especially for complex changed landscapes. Method The temporal model is assumed to be independent of sensors, and a linear relationship is used to represent the temporal model between images acquired on different dates. Therefore, the spatio-temporal fusion is transformed into estimating parameters of the temporal model. To accurately capture earth surface change during the period between the input and prediction dates, we carefully analyzed the reasons for the temporal change, and then the temporal change was divided into two types:phonological and land cover type. The former is mainly caused by differences in atmospheric condition, solar angle at different dates, and is global and flat. The latter is mainly caused by the change on the surface, and is local and abrupt. Therefore, parameters of the model from global and local perspectives were estimated. To accurately estimate the parameters, we need to search for similar pixels in the local window to ensure that the pixels used for parameter estimation satisfies spectral consistency. Moreover, considering that the land-cover type may change during the period, we find that the spatial distribution of similar pixels may change at different dates. Therefore, a multi-temporal search strategy is introduced to flexibly select appropriate neighboring pixels. Only pixels that have similar spectral information to the target pixel at both base date and prediction date are considered to be similar pixels, which eliminate the block effect of traditional algorithms. After searching similar pixels and solving the temporal model, the input fine resolution image was combined with the temporal model to predict fine image at target date. The aforementioned strategies make our method achieve good prediction results even if the earth surface changed drastically. Result We compared our model with two popular spatio-temporal fusion models:spatial and temporal adaptive reflectance fusion model (STARFM) and flexible spatiotemporal data fusion (FSDAF) method on two datasets. The experiment results show that our model outperforms all other methods in both datasets. In the first experiment, the dataset constitutes primarily phenological change. Therefore, all three methods achieve satisfactory results and our method achieves the best result. Quantitative comparisons show that our method achieves high correlation coefficient (CC), peak signal-to-noise ratio (PSNR), structural similarity (SSIM), and lower root mean square error (RMSE). Compared with STARFM and FSDAF, our method increases CC by 0.25% and 0.28%, PSNR by 0.153 1 dB and 1.379 dB, SSIM by 0.79% and 2.3%, and decreases RMSE by 0.05% and 0.69%. In the second experiment, the dataset has undergone dramatic land-cover type change. Therefore, both STARFM and FSDAF have block effects at different levels visually. In quantitative assessment, compared with STARFM and FSDAF, our method increases CC by 6.64% and 3.26%, PSNR by 2.086 dB and 2.510 7 dB, SSIM by 11.76% and 11.2%, and decreases RMSE by 1.45% and 2.08%. Conclusion In this study, a spatio-temporal satellite image-fusion method based on linear model is proposed. This method uses a linear model to represent the temporal change. By analyzing the characteristics of the temporal change, the temporal model is constrained from local and global perspectives, and the solved model can represent the temporal change accurately. In addition, the method uses a multi-temporal similar pixel search strategy to search for similar pixels more flexibly, thereby eliminating the block effect of previous methods, fully utilizing spectral information in neighboring similar pixels, and improving the accuracy of prediction results. The experimental results show that in terms of visual comparison, compared with two popular spatiotemporal fusion methods, the proposed method can predict land-cover type change more accurately, and our findings are close to the true image. In the quantitative evaluation, our method improves CC, PSNR, RMSE, SSIM, and other indicators to varying degrees in each band.

Key words

remote sensing; spatio-temporal fusion; linear model; weight function-based method; parameter estimation

0 引言

卫星图像同时具有高空间分辨率和高时间分辨率,是研究地表动态的重要数据,在监测土地变化、灾害检测和估算农作物生长态势等方面具有广泛应用(He等,1999)。然而,由于技术限制等原因,目前没有传感器可以同时具有高精度的空间分辨率和频繁的重访周期,限制了那些同时需要高空间分辨率和高时间分辨率数据的应用(Luo等,2000)。例如,Landsat ETM+(landsat enhanced thematic mapper plus)传感器具有精细的空间分辨率(15~60 m),但重访频率较长(16 d);相比之下,中分辨率成像光谱仪MODIS(moderate resolution imaging spectroradiometer)传感器的重访频率仅为1 d,但空间分辨率比较粗略(250~1 000 m)。为了获取同时具有高空间分辨率和高时间分辨率的数据,将在时间和空间分辨率上互补的多个传感器卫星图像进行融合。以两个传感器为例,其中传感器Ⅰ(如MODIS和Sentinel-3)具有高的重访频率但是空间分辨率很低,传感器Ⅱ(如Landsat ETM+和Sentinel-2)具有高的空间分辨率但重访频率较低。时空融合的目的是输出具有传感器Ⅰ的时间频率和传感器Ⅱ的空间分辨率的合成图像(Zhu等,2018)。

近年来,时空融合经历了快速发展,在该领域已经诞生了多种方法来融合不同类型的遥感图像。现有的时空数据融合方法主要分为以下3类:基于加权函数的方法(Chen等,2018Cheng等,2017Gao等,2006Wang和Huang,2017Wang等,2015Wang等,2017Zhao等,2018Zhu等,2010)、基于解混的方法(Amorós-López等,2013Gevaert和García-Haro,2015Zhukov等,1999Zurita-Milla等,2008)和基于字典的学习方法(Huang和Song,2012Song和Huang,2013)。此外,还有基于贝叶斯的方法,基于神经网络的方法(Song等,2018)等。

在基于加权函数的方法中,Gao等人(2006)提出一种遥感图像时空自适应反射率融合模型STARFM(spatial and temporal adaptive reflectance fusion model),假设在相同的时间段内,高空间分辨率低时间分辨率图像(以下称为精细图像)的变化与低空间分辨率高时间分辨率图像(以下称为粗略图像)的变化是一致且可比较的,从而可以将从粗略像素导出的时间变化直接添加到精细图像中的像素上以获得预测。基于STARFM模型,Hilker等人(2009)提出了自适应时空融合变化检测方法STAARCH(spatial temporal adaptive algorithm for mapping reflectance change),能够精确检测土地覆盖类型的变化,但需要多组精细—粗略空间分辨率图像作为输入。Zhu等人(2010)提出了一种增强型的时空自适应反射率融合模型ESTARFM(enhanced spatial and temporal adaptive reflectance fusion model),认为精细图像间的时间变化与粗略图像间的时间变化存在线性关系,并用线性回归的方法来拟合这种关系,与原始的STARFM模型相比,该方法在异质区域取得了更好的效果。

基于解混的方法中,Zhukov等人(1999)提出的多传感器多分辨率技术MMT(multisensor multiresolution technique)是最早的用解混来获得高时间分辨率和空间分辨率图像的方法,主要通过4个步骤预测精细分辨率图像:1)对输入精细图像进行分类以定义粗略图像的端元;2)计算每个粗略像素的端元丰度;3)在移动窗口内解混预测时间的粗略像素;4)将解混的反射率分配给精细像素。近年来,许多研究者对MMT进行改进,Zurita-Milla等人(2008)在线性分离过程中引入约束,以确保求解的反射率值为正且在适当的范围内。Wu等人(2012)通过加权线性混合方法计算反射率变化,并将估计的变化加到基准日期的精细分辨率图像上以得到融合结果。Amorós-López等人(2013)修改代价函数以避免不切实际的光谱估计同时减少解混误差。Gevaert和García-Haro (2015)直接对粗略像素的变化进行解混,以估计端元的变化。Zhu等人(2016)将解混技术与权重函数相结合,提出一种灵活的时空数据融合算法FSDAF(flexible spatiotemporal data fusion),在地物发生剧烈变化时仍能取得良好的预测效果。

在基于字典的学习方法中,Huang和Song(2012)最先将自然图像超分辨率的字典学习技术引入时空数据融合,提出了基于稀疏表达的时空反射率融合模型SPSTFM(sparse-representation-based spatio temporal reflectance fusion model),使用不同观测时间得到的图像间的差分图像块来训练字典,通过稀疏表达建立精细分辨率图像和粗略分辨率图像之间的对应关系,并使用稀疏编码技术重建精细分辨率图像。在SPSTFM之后,Song和Huang(2013)开发了另一种基于单对图像学习的融合方法,仅使用一对精细—粗略图像来训练字典,在输入的精细和粗略分辨率图像对上训练耦合字典,然后通过稀疏编码技术在目标日期重建精细分辨率图像。由于MODIS图像和Landsat图像之间巨大的分辨率差异,该方法使用了双层架构,即首先预测精细分辨率和粗略分辨率之间的中等分辨率图像,然后基于中等分辨率图像预测精细分辨率图像。

在目前的时空融合领域,基于权重函数的融合框架是最主流的方法,该类方法沿用了STARFM算法中的框架。但是在只有一对精细—粗略图像作为先验的条件下,只能通过不同观测时间粗略图像间的差分图像来表达图像的时间变化。然而由于粗略图像的低分辨率,这种方法存在严重的模块效应,并不能准确表达地物的时间变化。因此在地物发生剧烈变化时,难以取得令人满意的结果。针对这种情况,本文提出一种新的遥感图像时空融合方法,主要有以下特点:1)使用线性关系表示遥感图像之间的时间模型,根据时间变化的特性,从局部和全局两个方面对模型进行约束,使得求解的模型能够更准确地表示图像间的时间变化。2)提出一种多时相的相似像素搜寻策略,在搜寻相似像素时更加灵活,能够克服以往的时空融合算法在搜寻相似像素时存在的模块效应,从而提高预测结果的准确性。

1 方法介绍

1.1 算法理论基础

在时空数据融合中,不同时间观测到的图像之间的关系称为时间模型。本文假设时间模型与传感器无关,且可以用线性模型来表示,即

$ C_{2}(x, y, B)=a(x, y, B) \times C_{1}(x, y, B)+b(x, y, B) $ (1)

式中,$C_{1}(x, y, B)$$C_{2}(x, y, B)$分别表示$t_{1}$$t_{2}$时刻坐标$(x, y)$的粗略像素点,$B$是指定的波段,$a$$b$是对应的线性模型系数,$a$称为增益系数,$b$称为偏差。

忽略大气校正和成像角度的差异,$t_{1}$$t_{2}$时刻精细图像之间同样满足上述关系,即

$ F_{2}(x, y, B)=a(x, y, B) \times F_{1}(x, y, B)+b(x, y, B) $ (2)

式中,$F$表示精细图像像素。

就本文的时空融合问题而言,已知观测的粗略图像$\boldsymbol{C}_{1}$$\boldsymbol{C}_{2}$和精细图像$\boldsymbol{F}_{1}$,目标是求解精细图像$\boldsymbol{F}_{2}$。依据观测数据$\boldsymbol{C}_{1}$$\boldsymbol{C}_{2}$,估计式(1)中的线性模型系数$a$$b$,然后通过式(2)求解出精细图像$\boldsymbol{F}_{2}$,将时空融合转化为估计时间模型参数。

1.2 时间变化的分析

依据1.1节对时间模型的分析,将时空融合问题转化为估计模型参数,分析模型参数$a$$b$的特性。

同一场景不同时刻拍摄的图像发生变化可能有以下两种原因:1)由于拍摄时的大气状态、拍摄角度等条件的差异导致的改变,这种改变可以认为是全局一致的,且变化相对比较平缓;2)由于地物目标发生变化导致的改变,这种改变是局部性的,且改变相对比较剧烈。

基于以上两个原因,模型参数$a$有以下3个特点:1)就全局而言,$a$是关于空间的变量,不同位置的$a$可能会有较大的差异;2)就局部块而言,$a$满足局部一致性;3)在地物没有发生变化的区域,$a$在局部是一致的;在地物发生变化的区域,$a$也是局部一致的;在变化区域与非变化区域邻接的边缘,$a$会有较剧烈的变化。

对于模型参数$b$,其含义是模型残差项,用来保证时间模型的准确性是由于准确捕获了时间变化规律,而不是通过巨大的偏差实现的。因此,$b$应该在0周围变化。

2 方法实现

图 1展示了本文方法的流程图。大体来说,本文方法主要分为3个部分:搜寻相似像素,参数估计,精细图像重建。

图 1 本文算法流程图
Fig. 1 Flowchart of the proposed spatio-temporal fusion method

2.1 搜寻相似像素

1.2节中的分析是基于局部一致性前提下进行的,然而在异质区域进行参数估计时,并不能完全满足局部一致性,尤其随着局部块增大,违背局部一致性的可能性加大。为了准确地进行参数估计,需要在局部区域内搜寻相似像素,确保用来做参数估计的数据满足局部一致性假设。另外,考虑到$t_{1}$$t_{2}$时刻地物目标可能会发生变化,两个时刻相似像素空间分布也可能会发生变化。

基于以上分析,提出一种多时相的相似像素搜寻策略,只有在基础时间和预测时间都与中心像素有着相似光谱信息的像素,才会被认为是中心像素的相似像素。由于$t_{2}$时刻可用的光谱信息都在粗略图像中,如果直接在粗略图像中搜寻相似像素,可能会产生严重的模块效应,因此需要对粗略图像做上采样处理。考虑到粗略图像与精细图像之间巨大的分辨率差异,如果直接将粗略图像上采样到精细分辨率,可能会引入巨大的采样误差,因此将粗略图像$\boldsymbol{C}_{1}$$\boldsymbol{C}_{2}$上采样到介于精细分辨率与粗略分辨率之间的中等分辨率,得到中等分辨率图像$\boldsymbol{M}_{1}$$\boldsymbol{M}_{2}$。然而上采样得到的图像缺少高频信息,无法提供充足的光谱信息,因此引入了高通调制操作,具体为

$ \boldsymbol{F M}_{2}=\boldsymbol{M}_{2}+\frac{\boldsymbol{M}_{2}}{\boldsymbol{M}_{1}}\left(\boldsymbol{F}_{1}-\boldsymbol{M}_{1}\right) $ (3)

式中,$\boldsymbol{FM}_{2}$是将$\boldsymbol{F}_{1}$中的高频信息使用$\boldsymbol{M}_{1}$$\boldsymbol{M}_{2}$的转换系数调制后注入到$\boldsymbol{M}_{2}$后生成的图像。通过式(3)的高通调制操作,$\boldsymbol{FM}_{2}$可以提供更丰富的光谱信息。使用ISODATA(iterative self-organizing data analysis techniques algorithm)算法分别对$\boldsymbol{F}_{1}$$\boldsymbol{FM}_{2}$做分类处理。值得注意的是,本文认为中心像素的相邻相似像素应该在多个时相与中心像素拥有相似的光谱特性。因此基于以下3个条件来寻找相似像素:1)该像素处于中心像素邻域内;2)在$\boldsymbol{F}_{1}$分类结果中与中心像素属于同一类别;3)在$\boldsymbol{FM}_{2}$分类结果中与中心像素属于同一类别。

图 2展示了寻找相似像素的流程。图 2(a)(b)分别是在$\boldsymbol{F}_{1}$$\boldsymbol{FM}_{2}$分类图中寻找光谱相似像素的结果,其中黑色像素表示只在某一个时刻被认定为光谱相似的像素,橙色像素表示在多个时刻均被认定为光谱相似的像素,即最终要寻找的像素,图 2(c)展示了最终的相似像素。

图 2 搜寻相似像素
Fig. 2 Search for similar pixels ((a) similar pixels in $t_1$; (b) similar pixels in $t_2$; (c) final similar pixels)

2.2 参数估计

在完成相似像素的搜寻后,在局部区域内使用不同时间对应的相似像素进行参数估计。

基于之前对于时间变化的分析,对参数$a$的约束为

$ \min \sum\limits_{i}\left[a \times C_{1}\left(x_{i}, y_{i}\right)+b-\bar{r}\right]^{2} $ (4)

式中,$C_{1}\left(x_{i}, y_{i}\right)$$C_{2}\left(x_{i}, y_{i}\right)$)分别表示$t_{1}$$t_{2}$时刻的第$i$个像素,($x_{i}$, $y_{i}$)表示第$i$个像素的坐标,$\bar{r}=\frac{1}{N} \sum\limits_{i} C_{2}\left(x_{i}, y_{i}\right)$表示$t_{2}$时刻第$i$个像素对应的局部均值,$N$表示局部块像素的数量。在满足图像局部一致性假设的情况下,当局部地物没有发生改变时,$t_{1}$$t_{2}$时刻对应的局部均值也相似,因此为了满足式(4)最小化,$a$的值会在1周围变化;当局部地物发生变化时,$t_{1}$$t_{2}$时刻对应的局部均值会发生较大变化,为了满足式(4)最小化,$a$值会有较大幅度的变化。

根据之前的分析,希望$b$的影响尽可能小。因此,对$b$的约束为

$ \min |b|^{2} $ (5)

综上所述,通过优化代价函数

$ \begin{array}{c} \min \frac{1}{2} \sum\limits_{i}\left[a \times C_{1}\left(x_{i}, y_{i}\right)+b-C_{2}\left(x_{i}, y_{i}\right)\right]^{2}+ \\ \frac{\gamma}{2 N} \sum\limits_{i}\left[a \times C_{1}\left(x_{i}, y_{i}\right)+b-\bar{r}\right]^{2}+\frac{\beta}{2}|b|^{2} \end{array} $ (6)

来估计时间模型参数。式(6)中,$γ$$β$代表约束项权重系数。值得注意的是,以上是从局部角度出发进行参数估计,当参与估计的像素存在噪声时,求解的参数很可能会引入误差,不能很准确地表示图像的时间变化。根据之前的分析,参数$a$在同一性质的区域内部(变化区域或者非变化区域)是局部一致的,而在两种区域邻接的边缘则可能会发生突变,因此引入L0范数对参数$a$进行全局优化(Xu等,2011),具体为

$ \begin{array}{c} \min \sum\limits_{i}\left(a^{*}\left(x_{i}, y_{i}\right)-a\left(x_{i}, y_{i}\right)\right)^{2}+ \\ \lambda \cdot c\left(\partial_{x} a^{*}, \partial_{y} a^{*}\right)+\delta \cdot \sum\limits_{i}\left(\left(\partial_{x} a^{*}\left(x_{i}, y_{i}\right)-\right.\right. \\ \left.\left.h\left(x_{i}, y_{i}\right)\right)^{2}+\left(\partial_{y} a^{*}\left(x_{i}, y_{i}\right)-v\left(x_{i}, y_{i}\right)\right)^{2}\right) \end{array} $ (7)

式中,$c\left(\partial_{x} a^{*}, \partial_{y} a^{*}\right)=\#\left\{i|| \partial_{x} a^{*}\left(x_{i}, y_{i}\right) |+\right.$$\left.\left|\partial_{y} a^{*}\left(x_{i}, y_{i}\right)\right| \neq 0\right\}, \left(x_{i}, y_{i}\right)$表示参与计算像素的坐标,由于是进行全局优化,因此所有像素均会参与计算。$a$表示之前估计得到的增益系数,$a^*$表示优化后的增益系数,$\partial_{x}$$\partial_{y}$分别表示水平和竖直方向的梯度算子,$h$$v$是引入的辅助变量,分别对应$\partial_{x}$$\partial_{y}$。式(7)的求解过程参见Xu等人(2011)的方法。

2.3 精细图像重建

相似像素具有近似的光谱特性和时间变化,引入相似像素的光谱信息,可以让预测模型具有更好的鲁棒性。因此引入权重函数修改式(2),重建预测日期的精细图像,具体为

$ \begin{array}{c} F_{2}\left(x_{w / 2}, y_{w / 2}, B\right)= \\ \sum\limits_{i} W_{i} \times\left(a\left(x_{i}, y_{i}, B\right) * F_{1}\left(x_{i}, y_{i}, B\right)+b\left(x_{i}, y_{i}, B\right)\right) \end{array} $ (8)

式中,$w$表示滑动窗口,$\left(x_{w / 2}, y_{w / 2}\right)$表示滑动窗口的中心像素,$W_{i}$表示第$i$个相似像素的权重。为了不引入可能会造成误差的信息,只使用2.1节寻找到的相邻相似像素来计算式(8)。$W_{i}$表明每个相邻相似像素对中心像素反射率估计的贡献程度,考虑到应在多方面做出约束以确保算法的鲁棒性,$W$由以下因素确定:

1) 相似像素与中心像素的位置距离,可以使用像素的几何坐标来计算它们之间的几何距离,具体为

$ {dis}\left(x_{i}, y_{i}\right)=\sqrt{\left(x_{w / 2}-x_{i}\right)^{2}+\left(y_{w / 2}-y_{i}\right)^{2}} $ (9)

为了避免几何距离差异过大降低算法的鲁棒性,将几何距离转化为相对几何距离,具体为

$ D\left(x_{i}, y_{i}\right)=1+{dis}\left(x_{i}, y_{i}\right) / R $ (10)

式中,$R$表示滑动窗口的半径。式(10)可以将像素间的几何距离约束在$[1, 1+\sqrt{2}]$的范围内,避免了过大的几何距离差异可能带来的不稳定。

2)$t_{1}$时刻相似像素与中心像素的光谱差异,可以表示为

$ S_{t_{1}}\left(x_{i}, y_{i}, B\right)=\left|F_{1}\left(x_{w / 2}, y_{w / 2}, B\right)-F_{1}\left(x_{i}, y_{i}, B\right)\right| $ (11)

由此可以判断第$i$个相似像素与中心像素在$t_{1}$时刻的光谱相似性,差异更小的像素有更高的相似性。

3)$t_{2}$时刻相似像素与中心像素的光谱差异,由于没有$t_{2}$时刻的精细图像,因此只能从$FM_{2}$中计算$t_{2}$时刻的光谱差异,具体为

$ \begin{array}{c} S_{t_{2}}\left(x_{i}, y_{i}, B\right)= \\ \left|F M_{2}\left(x_{w / 2}, y_{w / 2}, B\right)-F M_{2}\left(x_{i}, y_{i}, B\right)\right| \end{array} $ (12)

由此可以判断第$i$个相似像素与中心像素在$t_{2}$时刻的光谱相似性,差异更小的像素有更高的相似性。

通过以上3个因素,可以在空间几何距离以及两个时间点的光谱相似性上做出有效约束,使得相似性更高的像素得到更高的权重。综合3个因子,可以计算相似像素的权重,即

$ \begin{array}{c} Q\left(x_{i}, y_{i}, B\right)=\\ \exp \left(-\frac{D\left(x_{i}, y_{i}\right)+S_{t_{1}}\left(x_{i}, y_{i}, B\right)+S_{t_{2}}\left(x_{i}, y_{i}, B\right)}{h^{2}}\right) \end{array} $ (13)

式中,$h$是衰减因子,对式(13)的计算结果进行归一化,得到最终的相似像素权重,即

$ W\left(x_{i}, y_{i}, B\right)=\frac{Q\left(x_{i}, y_{i}, B\right)}{\sum\limits_{i=1} Q\left(x_{i}, y_{i}, B\right)} $ (14)

3 实验结果与分析

3.1 实验数据与实验参数

本文提到的参数,可以根据处理图像的特性做出调整。在实验中,为了将权重函数约束在一个合理区间内,设置衰减因子$h=\sqrt{2}$,且在式(14)中进行归一化处理,可以适用于大多数情况。线性参数拟合正则项权重系数$γ$过大会导致求解的参数整体过于平滑,过小则无法约束参数的局部特性。参数$β$过大可能会导致过拟合,过小则导致求解的参数存在巨大的误差。本文设置$γ=1$$\beta=\sqrt{2}$。全局优化参数$λ$如果太大,会导致全局优化后的$a$全部游荡在某一个值周围,无法准确表示图像的时间变化,如果设置太小,则优化效果不明显,也无法准确表示图像的时间变化,在前两组实验和后两组实验中分别设置为0.02和0.01。$δ$控制优化迭代的次数,初始值和最大值分别设置为2$λ$和105。滑动窗口大小可以根据所处理图像的特点来设置,在像素光谱差异比较小的同质区域,可以适当缩小滑动窗口以加快计算速度。反之,在像素光谱差异较大的异质区域,则需要扩大滑动窗口寻找足够多的相似像素。在本文实验中,为了找到足够的相似像素以保证预测结果,设置滑动窗口大小为51×51像素。

为了避免引入大气校正和图像配准带来的误差,本文中的粗略图像是由精细图像聚合而成的, 该方法在时空融合研究中得到广泛应用(Gevaert和García-Haro,2015Zhu等,2016Wang和Atkinson,2018)。为方便计算,实验中的所有图像均映射为精细图像的大小,即这些图像都具有相同的空间分辨率和覆盖范围。

为了展示本文算法的特性,选取4个场景在不同日期的精细—粗略图像对进行实验。

前两组实验使用Landsat ETM+卫星图像和以此聚合而成的类MODIS图像,精细图像空间分辨率为30 m,粗略图像空间分辨率为480 m,聚合尺度系数为16。场景1是2001年5月24日和2001年7月11日在54°N、104°W地区获取的$t_{1}$$t_{2}$时刻图像,在研究时段内该区域主要发生了地表事物的物候变化,如图 3所示。场景2是2004年11月26日和2004年12月28日在澳大利亚新南威尔士州获取的$t_{1}$$t_{2}$时刻图像,在这段时间内该区域发生了剧烈的土地覆盖类型变化,如图 4所示。

图 3 场景1观测到的真实图像
Fig. 3 Real image observed in scene 1 ((a) fine image at $t_1$; (b) fine image at $t_2$; (c) coarse image at $t_1$; (d) coarse image at $t_2$)
图 4 场景2观测到的真实图像
Fig. 4 Real image observed in scene 2 ((a) fine image at $t_1$; (b) fine image at $t_2$; (c) coarse image at $t_1$; (d) coarse image at $t_2$)

后两组实验使用Sentinel-2卫星图像和以此聚合而成的类Sentinel-3图像。与前两组实验所用卫星图像相比,后两组实验所用图像的空间分辨率差异更大,Sentinel-2图像空间分辨率为10 m,类Sentinel-3图像空间分辨率为300 m,聚合尺度系数为30。场景3为2019年4月17日和2019年6月11日在安徽庐江获取的$t_{1}$$t_{2}$时刻的图像,该地区在研究时段内发生了一定程度的物候和土地覆盖类型变化,如图 5所示。场景4为2019年4月8日和2019年6月27日在湖南省洞庭湖周边获取的$t_{1}$$t_{2}$时刻图像,该地区在研究时段内发生了大幅的物候变化,且在局部地区发生了剧烈的土地覆盖类型变化,对当前的时空融合算法是一个巨大的挑战,如图 6所示。

图 5 场景3观测到的真实图像
Fig. 5 Real image observed in scene 3 ((a) fine image at $t_1$; (b) fine image at $t_2$; (c) coarse image at $t_1$; (d) coarse image at $t_2$)
图 6 场景4观测到的真实图像
Fig. 6 Real image observed in scene 4 ((a) fine image at $t_1$; (b) fine image at $t_2$; (c) coarse image at $t_1$; (d) coarse image at $t_2$)

3.2 实验结果分析

选取STARFM(spatial and temporal adaptive reflectance fusion model)算法(Gao等,2006)和FSDAF(flexible spatiotemporal data fusion)算法(Zhu等,2016)与本文算法进行对比实验,比较相关系数CC(correlation coefficient)、峰值信噪比PSNR(peak signal-to-noise ratio)、均方根误差RMSE(root mean squared error)、结构相似性SSIM(structural similarity)、相对全局误差ERGAS(erreur relative globale adimensionnelle de synthèse)和光谱角映射SAM(spectral angle mapper)等6个评价指标。从实验结果来看,本文在物候和土地覆盖类型变化时都能取得良好效果。

场景1主要发生了物候变化,没有剧烈的土地覆盖类型变化,STARFM、FSDAF和本文算法均能取得良好的预测效果,图 7表 1分别展示了各种算法的视觉比较和量化指标,图 7第2行是第1行红色框内的内容。可以看出,本文算法取得了更好的视觉效果,与STARFM和FSDAF算法相比,本文算法具有更好的评价指标。

图 7 场景1时空融合算法视觉比较
Fig. 7 Visual comparison spatio-temporal fusion methods in scene 1 ((a) fine image at $t_2$; (b) STARFM; (c) FSDAF; (d) ours)

表 1 场景1时空融合算法量化比较
Table 1 Quantitative comparison of spatio-temporal fusion methods in scene 1

下载CSV
方法 波段 CC PSNR/dB RMSE SSIM ERGAS SAM
1 0.871 0 32.661 3 0.023 3 0.833 9
STARFM 2 0.816 6 30.134 2 0.031 2 0.791 6 0.168 8 3.109 4
3 0.918 6 27.852 8 0.040 5 0.832 7
平均 0.868 7 30.216 1 0.031 7 0.819 4
1 0.875 9 32.769 2 0.023 0 0.825 7
FSDAF 2 0.812 9 29.296 6 0.034 3 0.763 7 0.188 1 0.038 1
3 0.916 5 24.904 7 0.056 9 0.823 4
平均 0.868 4 28.990 2 0.038 1 0.804 3
1 0.871 9 32.749 3 0.023 1 0.839 6
本文 2 0.822 9 30.496 8 0.029 9 0.807 2 0.163 4 2.942 7
3 0.918 9 27.861 5 0.040 5 0.835 1
平均 0.871 2 30.369 2 0.031 2 0.827 3
注:加粗字体表示最优结果。

场景2的地物在两个日期之间发生了剧烈的土地覆盖类型变化,图 8展示了3种算法在土地覆盖类型发生剧烈变化时的预测效果,第2行是第1行红色框内的内容。从图 8可以看出,STARFM与FSDAF算法在土地覆盖类型发生变化时都没有取得良好的预测效果。由于STARFM算法将从粗略像素导出的时间变化直接添加到精细图像中,因此在预测结果中出现了明显的模块效应。FSDAF算法虽然引入了$t_{2}$时刻粗略图像中的空间信息,但在估计预测结果时只使用了$t_{1}$时刻的光谱分类结果,所以在发生剧烈变化的区域,仍然有比较大的预测误差。本文方法结合了$t_{1}$$t_{2}$时刻的光谱信息,因此能更准确地预测土地覆盖类型发生的变化。表 2展示了各算法在场景2预测结果的量化指标,可以看出,本文算法在各个量化指标上都取得了更好的效果。

图 8 场景2时空融合算法视觉比较
Fig. 8 Visual comparison spatio-temporal fusion methods in scene 2 ((a) fine image at $t_2$; (b) STARFM; (c) FSDAF; (d) ours)

表 2 场景2时空融合算法量化比较
Table 2 Quantitative comparison of spatio-temporal fusion methods in scene 2

下载CSV
方法 波段 CC PSNR/dB RMSE SSIM ERGAS SAM
1 0.844 4 24.947 8 0.056 6 0.617 8
STARFM 2 0.869 6 24.354 2 0.060 6 0.625 7 0.21 4.760 3
3 0.791 8 21.342 6 0.085 7 0.536 6
平均 0.835 3 23.548 2 0.067 6 0.593 7
1 0.884 0 26.221 6 0.055 9 0.640 8
FSDAF 2 0.900 4 23.565 6 0.066 4 0.638 4 0.225 8 4.616 5
3 0.822 8 19.583 2 0.099 5 0.518 7
平均 0.869 1 23.123 5 0.073 9 0.599 3
1 0.902 7 26.952 6 0.044 9 0.714 2
本文 2 0.919 2 26.437 6 0.047 7 0.728 6 0.165 3 4.206 4
3 0.883 2 23.512 5 0.066 7 0.691 2
平均 0.901 7 25.634 2 0.053 1 0.711 3
注:加粗字体表示最优结果。

场景3和场景4由于粗略图像和精细图像之间的巨大空间分辨率差异,且两个场景都存在一定程度的土地覆盖类型变化,因此与前两组实验相比,更难得到良好的预测结果。图 9图 10分别展示了场景3和场景4的视觉比较,第2行是第1行中黄色方框的内容。从结果来看,3种算法均与观测到的真实图像存在较大差异,STARFM算法出现了明显的模块效应,FSDAF算法在预测土地覆盖类型变化时出现了明显误差,相比之下,本文方法更接近真实图像。表 3表 4是各算法在场景3和场景4预测结果的量化指标。可以看出,与前两组实验相比,后两组实验各个算法在各项指标上均出现了大幅下滑,这是由于更加巨大的空间分辨率差异造成的。不过,与STARFM和FSDAF算法相比,本文方法在大部分指标上均有不同程度的提升。

图 9 场景3时空融合算法视觉比较
Fig. 9 Visual comparison spatio-temporal fusion methods in scene 3 ((a) fine image at $t_2$; (b) STARFM; (c) FSDAF; (d) ours)
图 10 场景4时空融合算法视觉比较
Fig. 10 Visual comparison spatio-temporal fusion methods in scene 4 ((a) fine image at $t_2$; (b) STARFM; (c) FSDAF; (d) ours)

表 3 场景3时空融合算法量化比较
Table 3 Quantitative comparison of spatio-temporal fusion methods in scene 3

下载CSV
方法 波段 CC PSNR/dB RMSE SSIM ERGAS SAM
1 0.624 8 14.359 3 0.191 4 0.321 0
STARFM 2 0.615 4 14.387 5 0.190 8 0.289 6 0.389 5 9.149
3 0.651 4 15.543 4 0.167 0.297 6
平均 0.630 5 14.763 4 0.183 1 0.302 7
1 0.645 8 15.215 3 0.173 5 0.303 7
FSDAF 2 0.643 4 14.952 8 0.178 8 0.284 3 0.358 8.788 4
3 0.685 0 16.397 0.151 4 0.290 4
平均 0.658 1 15.521 7 0.167 9 0.292 8
1 0.724 6 15.941 8 0.159 6 0.422 1
本文 2 0.716 2 15.738 3 0.163 3 0.401 5 0.330 4 8.293 4
3 0.739 0 16.876 4 0.143 3 0.399 5
平均 0.726 6 16.185 5 0.155 4 0.407 7
注:加粗字体表示最优结果。

表 4 场景4时空融合算法量化比较
Table 4 Quantitative comparison of spatio-temporal fusion methods in scene 4

下载CSV
方法 波段 CC PSNR/dB RMSE SSIM ERGAS SAM
1 0.447 0 15.244 5 0.172 9 0.228 0
STARFM 2 0.471 3 18.959 4 0.112 7 0.311 0 0.451 6 9.344
3 0.512 4 21.308 8 0.086 0.402 9
平均 0.476 9 18.504 2 0.123 9 0.314
1 0.487 8 17.113 4 0.139 4 0.258 3
FSDAF 2 0.488 4 19.014 4 0.112 0.345 0.435 5 8.433 7
3 0.516 3 21.753 8 0.081 7 0.453 4
平均 0.497 5 19.293 9 0.111 0.352 2
1 0.576 1 17.842 0.128 2 0.374 5
本文 2 0.523 5 20.788 7 0.091 3 0.389 6 0.408 3 8.584 4
3 0.537 1 22.962 0.071 1 0.45
平均 0.545 6 20.530 9 0.096 87 0.404 7
注:加粗字体表示最优结果。

4 结论

本文提出一种基于线性模型的遥感图像时空融合算法。通过使用线性模型来表示不同观测时间之间图像的变化,并根据时间变化的特性,从局部和全局两方面对时间模型进行约束,求解出的模型能够准确表示图像之间的时间变化。此外,本文算法使用一种多时相的相似像素搜寻策略,能够更灵活地搜寻相似像素,消除以往算法在搜寻相似像素时存在的模块效应,充分利用相邻相似像素中的光谱信息,提升了预测结果的准确度。从实验结果来看,与传统时空融合算法相比,在视觉比较方面,本文算法能够更准确预测地物发生的变化,预测结果更接近真实图像;在定量评价方面,本文方法在各波段的相关系数、峰值信噪比、均方根误差、结构相似性等指标上均有不同程度的提高。

然而,本文算法仍然存在局限性。为了引入多时相图像的光谱信息,需要对多个时相的图像分别做分类处理,虽然提高了融合的准确性和鲁棒性,但增加了计算的复杂性,降低了算法效率。此外,对$t_{2}$时刻中等分辨率图像$\boldsymbol{FM}_{2}$进行分类处理仍然可能会因为分类不够精确而引入误差。因此,将来的研究工作应尝试着从以上方面继续改进,以期得到更好的效果。

参考文献

  • Amorós-López J, Gómez-Chova L, Alonso L, Guanter L, Zurita-Milla R, Moreno J, Camps-Valls G. 2013. Multi-temporal fusion of Landsat/TM and ENVISAT/MERIS for crop monitoring. International Journal of Applied Earth Observation and Geo-information, 23: 132-141 [DOI:10.1016/j.jag.2012.12.004]
  • Chen B, Chen L F, Huang B, Michishita R, Xu B. 2018. Dynamic monitoring of the Poyang lake wetland by integrating Landsat and MODIS observations. ISPRS Journal of Photogrammetry and Remote Sensing, 139: 75-87 [DOI:10.1016/j.isprsjprs.2018.02.021]
  • Cheng Q, Liu H Q, Shen H F, Wu P H, Zhang L P. 2017. A spatial and temporal nonlocal filter-based data fusion method. IEEE Transactions on Geoscience and Remote Sensing, 55(8): 4476-4488 [DOI:10.1109/TGRS.2017.2692802]
  • Gao F, Masek J, Schwaller M, Hall F. 2006. On the blending of the Landsat and MODIS surface reflectance:predicting daily Landsat surface reflectance. IEEE Transactions on Geoscience and Remote Sensing, 44(8): 2207-2218 [DOI:10.1109/tgrs.2006.872081]
  • Gevaert C M, García-Haro F J. 2015. A comparison of STARFM and an unmixing-based algorithm for Landsat and MODIS data fusion. Remote Sensing of Environment, 156: 34-44 [DOI:10.1016/j.rse.2014.09.012]
  • He G J, Li K L, Hu D Y, Cong B L, Zhang W H. 1999. Information fusion of multisensory satellite remote sensing data:theory, methodology and experiment. Journal of Image and Graphics, 4(9): 744-750 (何国金, 李克鲁, 胡德永, 从柏林, 张雯华. 1999. 多卫星遥感数据的信息融合:理论, 方法和实践. 中国图象图形学报, 4(9): 744-750) [DOI:10.11834/jig.199909177]
  • Hilker T, Wulder M A, Coops N C, Linke J, McDermid G, Masek J G, Gao F, White J C. 2009. A new data fusion model for high spatial- and temporal-resolution mapping of forest disturbance based on Landsat and MODIS. Remote Sensing of Environment, 113(8): 1613-1627 [DOI:10.1016/j.rse.2009.03.007]
  • Huang B, Song H H. 2012. Spatiotemporal reflectance fusion via sparse representation. IEEE Transactions on Geoscience and Remote Sensing, 50(10): 3707-3716 [DOI:10.1109/TGRS.2012.2186638]
  • Luo J C, Zhou C H, Yang Y. 2000. Radial basis function map theory based remote sensing image classification modal. Journal of Image and Graphics, 5(2): 94-99 (骆剑承, 周成虎, 杨艳. 2000. 基于径向基函数(RBF)映射理论的遥感影像分类模型研究. 中国图象图形学报, 5(2): 94-99) [DOI:10.11834/jig.20000202]
  • Song H H, Huang B. 2013. Spatiotemporal satellite image fusion through one-pair image learning. IEEE Transactions on Geoscience and Remote Sensing, 51(4): 1883-1896 [DOI:10.1109/TGRS.2012.2213095]
  • Song H H, Liu Q S, Wang G J, Huang R L, Huang B. 2018. Spatiotemporal satellite image fusion using deep convolutional neural networks. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 11(3): 821-829 [DOI:10.1109/JSTARS.2018.2797894]
  • Wang J, Huang B. 2017. A rigorously-weighted spatiotemporal fusion model with uncertainty analysis. Remote Sensing, 9(10): 990-1010 [DOI:10.3390/rs9100990]
  • Wang Q M, Atkinson P M. 2018. Spatio-temporal fusion for daily sentinel-2 images. Remote Sensing of Environment, 204: 31-42 [DOI:10.1016/j.rse.2017.10.046]
  • Wang Q M, Shi W Z, Atkinson P M, Zhao Y L. 2015. Downscaling MODIS images with area-to-point regression Kriging. Remote Sensing of Environment, 166: 191-204 [DOI:10.1016/j.rse.2015.06.003]
  • Wang Q M, Zhang Y H, Onojeghuo A O, Zhu X L, Atkinson P M. 2017. Enhancing spatio-temporal fusion of MODIS and Landsat data by incorporating 250 m MODIS data. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 10(9): 4116-4123 [DOI:10.1109/jstars.2017.2701643]
  • Wu M Q, Niu Z, Wang C Y, Wu C Y, Wang L. 2012. Use of MODIS and Landsat time series data to generate high-resolution temporal synthetic Landsat data using a spatial and temporal reflectance fusion model. Journal of Applied Remote Sensing, 6(1): 063507-1 [DOI:10.1117/1.JRS.6.063507]
  • Xu L, Lu C W, Xu Y, Jia J Y. 2011. Image smoothing via l0 gradient minimization. ACM Transactions on Graphics, 30(6): 1-12 [DOI:10.1145/2070781.2024208]
  • Zhao Y Q, Huang B, Song H H. 2018. A robust adaptive spatial and temporal image fusion model for complex land surface changes. Remote Sensing of Environment, 208: 42-62 [DOI:10.1016/j.rse.2018.02.009]
  • Zhu X L, Cai F Y, Tian J Q, Williams T K A. 2018. Spatiotemporal fusion of multisource remote sensing data:literature survey, taxonomy, principles, applications, and future directions. Remote Sensing, 10(4): 527-549 [DOI:10.3390/rs10040527]
  • Zhu X L, Chen J, Gao F, Chen X H, Masek J G. 2010. An enhanced spatial and temporal adaptive reflectance fusion model for complex heterogeneous regions. Remote Sensing of Environment, 114(11): 2610-2623 [DOI:10.1016/j.rse.2010.05.032]
  • Zhu X L, Helmer E H, Gao F, Liu D S, Chen J, Lefsky M A. 2016. A flexible spatiotemporal method for fusing satellite images with different resolutions. Remote Sensing of Environment, 172: 165-177 [DOI:10.1016/j.rse.2015.11.016]
  • Zhukov B, Oertel D, Lanzl F, Reinhäckel G. 1999. Unmixing-based multisensor multire solution image fusion. IEEE Transactions on Geoscience and Remote Sensing, 37(3): 1212-1226 [DOI:10.1109/36.763276]
  • Zurita-Milla R, Clevers J G P W, Schaepman M E. 2008. Unmixing-based Landsat TM and MERIS FR data fusion. IEEE Geoscience and Remote Sensing Letters, 5(3): 453-457 [DOI:10.1109/lgrs.2008.919685]