Print

发布时间: 2018-05-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170434
2018 | Volume 23 | Number 5




    遥感图像处理    




  <<上一篇 




  下一篇>> 





基于GF-1 WFV影像和机器学习算法的玉米叶面积指数估算
expand article info 贾洁琼1, 刘万青1, 孟庆岩2,3, 孙云晓2,3, 孙震辉2,3
1. 西北大学, 城市与环境学院, 西安 710127;
2. 中国科学院遥感与数字地球研究所, 北京 100101;
3. 三亚中科遥感研究所, 三亚 572029

摘要

目的 叶面积指数(LAI)是重要的植被生物理化参数,对农作物长势和产量预测具有重要研究意义。基于物理模型和经验模型的LAI估算方法被认为是当前最常用的方法,但两种方法的估算效率和精度有限。近年来,机器学习算法在遥感监测领域广泛应用,算法具有描述非线性数据拟合、融合更多辅助信息的能力,为了评价机器学习算法在玉米LAI遥感估算中的适用性,本文分析比较了随机森林和BP神经网络算法估算玉米LAI的能力,并与传统经验模型进行了比较。方法 以河北省怀来县东花园镇为研究区,基于野外实测玉米LAI数据,结合同时期国产高分卫星(GF1-WFV影像),首先分析了8种植被指数与LAI的相关性,进而采用保留交叉验证的方式将所有样本数据分为两部分,65%的数据作为模型训练集,35%作为验证集,重复随机分为3组,构建以8种植被指数为自变量,对应LAI值为因变量的RF模型、BP神经网络模型及传统经验模型。采用决定系数$ R^2$和均方根误差(RMSE)作为模型评价指标。结果 8种植被指数与LAI的相关性分析表明所有样本数据中,实测LAI值与各植被指数均在($ P$<0.01)水平下极显著相关,且相关系数均高于0.5;将3组不同样本数据在随机森林、BP神经网络算法中多次训练,并基于验证数据集进行估算精度检验,经验模型采用训练数据集建模,验证数据集检验,结果表明,RF模型表现出了较强的预测能力,LAI预测值与实测值$ R^2$分别为0.681、0.757、0.701,均高于BP模型(0.504、0.589、0.605)和经验模型(0.492、0.557、0.531),对应RMSE分别为0.264、0.292、0.259;均低于BP模型(0.284、0.410、0.283)和经验模型(0.541、0.398、0.306)。结论 研究表明,RF算法能更好地进行玉米LAI遥感估算,为快速准确进行农作物LAI遥感监测提供了技术参考。

关键词

随机森林; BP神经网络; 叶面积指数; 机器学习; 植被指数; 农业遥感监测

Estimation of maize leaf area index based on GF-1 WFV image and machine learning random algorithm
expand article info Jia Jieqiong1, Liu Wanqing1, Meng Qingyan2,3, Sun Yunxiao2,3, Sun Zhenhui2,3
1. College of Urban and Environmental Sciences, Northwest University, Xi'an 710127, China;
2. Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100101, China;
3. Institute of Remote Sensing of Sanya Sanya 572029, China
Supported by: China National Key S & T Project of High Resolution Earth Observation System (11-Y20A05-9001-15/16, 03-Y20A11-9001-15/16)

Abstract

Objective Leaf area index (LAI) is an important biological and physical parameter of vegetation, and it plays an important role in predicting crop growth and yield. A number of LAI estimation methods have been developed from remotely sensed data, each of which presents unique advantages and limitations. The empirical regression and physical models are the most widely used among these methods. The empirical regression model can reduce the effect of background noise on the spectral reflectance of plant canopies, and the physical model simulates the radiative transfer process in vegetation and describes the canopy spectral variation as a function of canopy, leaf, and soil background characteristics. However, the efficiency and accuracy of the two methods are limited. In recent years, machine learning algorithms have been widely used in remote sensing monitoring, and they can describe nonlinear data fitting and fuse more auxiliary information. This study evaluates the applicability of machine learning algorithms in maize LAI remote sensing estimation. Method In this study, the east garden of Huailai County in Hebei Province was used as the study area. Eight kinds of vegetation indices based on the GF1 WFV satellite images were calculated, and the correlation between the same-period measured LAI and the vegetation index was analyzed. Then, all the in situ measured corn LAI and corresponding eight vegetation indices were randomly divided into a training dataset and an independent model validation dataset (65% and 35% of the data, respectively). These datasets were randomly divided into three groups repeated three times. The training dataset was used to establish models to predict corn LAI, and the validation dataset was employed to test the quality of each prediction model. Finally, utilizing random forest, backpropagation (BP) neural network algorithm, and the traditional empirical model, the LAI inverting model was established based on previous work. This study compared the estimation accuracy of the three models for each sample group on the basis of the coefficient of determination ($ R^2$) and root mean square error (RMSE) to evaluate the estimation accuracy of each model and to compare the performances of the three models further. Result Results showed that the LAI values were significantly correlated with the vegetation index at the $ P$ < 0.01 level in all the sample data and that the correlation coefficients were higher than 0.5. Three groups of different sample data were trained in random forest and BP neural network for many times, and the accuracy of estimation was checked based on the validation dataset. The empirical model was established by training dataset and verified by validation dataset. The results show that the RF model outperformed BP and the traditional empirical model in each group of sample data. For the RF models, $ R^2$ of the estimated and measured LAI values were 0.681, 0.757, and 0.701 in contrast to the RMSE of 0.264, 0.292, and 0.259, respectively. For the BP model, $ R^2$ for the three groups was 0.504, 0.589, and 0.605, and the corresponding RMSE was 0.284, 0.410, and 0.283, respectively. However, for the traditional empirical model, $ R^2$ for the three groups was 0.492, 0.557, and 0.531, and the corresponding RMSE was 0.541, 0.398, and 0.306, respectively. Conclusion The RF algorithm provides an effective approach to improve the prediction accuracy of corn LAI and provides a technical reference for the rapid and accurate monitoring of crop LAI remote sensing.

Key words

random forest; back propagation neural network; leaf area index; machine learing; vegetation index; agricultural remote sensing monitoring

0 引言

叶面积指数(LAI)指单位地表面积上绿叶表面积总和的一半[1],它可以表征叶片的疏密程度和冠层结构特征,是植被重要的结构参数之一,与植被的光合、呼吸、蒸腾等生物物理过程及地球生态系统的碳、氮、水循环等密切相关[2-3],LAI的变化是估算植被覆盖度,监测和预报农作物长势、生物量、产量等的重要指标[4],因此,快速准确估算LAI对农业监测、生物地球化学循环等具有重要的研究意义。

目前基于遥感技术的LAI反演方法主要有基于植被指数的经验模型法和基于辐射传输模型的物理模型法。两种模型具有本质区别但又具有互补性[5]。物理模型机理性强,使用的植被类型和空间范围更广,但模型参数较多且难获取,存在模型反演的病态问题[6]。基于植被指数的经验模型虽然机理性弱,受植被类型、地域等影响,但它是耦合遥感观测与地面观测数据的一种重要手段,可及时有效、无损害地监测作物长势[7]。众多学者从不同角度采用不同形式对基于植被指数的经验模型反演LAI进行了大量研究。文献[8-9]基于高光谱植被指数,探讨了不同植被指数建立的高光谱模型对玉米LAI的反演精度;文献[10-11]研究了不同卫星植被指数对玉米LAI反演精度的影响;文献[12-13]通过构建新型植被指数,并与传统植被指数作比较,分别估算了冬小麦和玉米LAI,结果表明新型植被指数估算LAI精度明显提高。已有研究多基于单一植被指数建立一元回归模型进行作物LAI估算。单一植被指数只能包含特定波段信息,存在不同程度的饱和现象且植被指数具有明显的地域性和时效性,确定的最优植被指数也并不固定[14],其次,一元回归模型虽然简单、直观,但稳定性及非线性解释较差[15]。机器学习回归算法通过相关数据拟合一个灵活的模型,学习输入变量与输出变量之间的关系,将模型参数调整为在一个独立验证集中预测误差最小,使模型获得最好的泛化能力[16],它可以同时输入多个与LAI相关性高的植被指数,并具有很好的非线性拟合能力,可提高模型的稳定性及估测精度,是玉米LAI估算的重要手段。

近年来,已有众多学者使用机器学习回归算法进行LAI遥感估算。如夏天等人[17]采用回归分析法和反向传播(BP)神经网络法,基于高光谱数据对冬小麦LAI进行反演,结果表明BP神经网络法较回归分析法精度有较大提高。梁栋等人[18]基于支持向量机回归算法,将不同植被指数与波段反射率作为输入参数,在冬小麦多个生育期反演LAI具有较好的适用性。王丽爱等人[19]利用随机森林回归算法建立了冬小麦LAI反演模型,并以神经网络模型为参比模型,结果表明随机森林算法预测结果优于BP神经网络模型。尽管机器学习回归算法在LAI遥感估算中取得了较好的结果,但目前国内关于随机森林算法估算玉米LAI方面的研究还鲜有报道[20]。本研究以河北怀来东花园镇玉米为研究对象,首次探索针对国产高分卫星(GF1-WFV影像),采用随机森林算法估算玉米叶面积指数的可行性,并与传统BP神经网络模型、经验模型方法进行对比,研究机器学习回归算法在玉米LAI估算中的适用性。

1 材料与方法

1.1 研究区概况

研究区位于河北省张家口市怀来县东花园镇,地处八达岭长城脚下,临近官厅湖南岸,地理范围为115°46′~115°47′E,40°19′~40°20′N,地形南高北低,平均海拔高度680 m,气候类型为温带大陆性季风气候,年平均降雨量400 mm,年平均气温9~10℃,无霜期145 d,常年盛行西北风,每年大风天气平均47 d,平均风速3.3 m/s,研究区内主要种植作物为夏玉米,间种少量向日葵、果树等,受当地气候条件、玉米种植时间及水肥管理等措施影响,8月下旬玉米正处于灌浆期,根、茎、叶等营养器官生长基本停止,玉米籽粒开始形成。本次试验期间研究区内玉米整体的植株外观在叶色上表现为由绿变黄,LAI值开始下降,株高平均2.45 m,茎宽平均20.63 mm,长势平稳。研究区位置及采样点分布如图 1所示。

图 1 研究区位置及采样点分布
Fig. 1 The location for study area and the distribution of sampling points

1.2 数据获取与处理

地面数据采集于2016年8月26日至8月29日在东花园镇周边玉米样地开展,在研究区内选择42个16 m×16 m玉米样方,为避免道路、建筑物、树木等地物干扰,各样方均位于此类地物20 m之外。每个样方内选择3处长势均一的样点,使用LAI2200植物冠层分析仪测量LAI并采用GPS记录对应样点经纬度坐标,取3个样点测量平均值为该样方LAI测量结果。LAI2200植物冠层分析仪利用“鱼眼”光学传感器测量树冠上、下5个角度的透射光线,利用植被树冠的辐射传输模型计算叶面积指数、空隙比等树冠结构参数。LAI测量时应尽量避免在直射光背景下测量,测量模式采用ABBBB,测量时首先背对太阳光测量一个冠层上A值,然后将仪器靠近玉米根部测量4次冠层下B值,取4次测量平均值作为该样点LAI值,所有样方LAI值主要分布在1.395到4.561之间,平均值为3.508、标准差为0.739。

遥感影像使用GF1-WFV影像,影像级别1A级,空间分辨率16 m,获取时间为2016年8月26日,同步地面数据采集时间。对获取的影像进行辐射定标,大气校正和正射校正。辐射定标采用中国资源卫星中心下载的GF1-WFV绝对定标系数进行,将原始影像的DN值转换为绝对辐射亮度值,大气校正采用ENVI5.1中的FLAASH大气校正模块进行,主要目的是消除大气散射、吸收、反射等因素对传感器所获得地物反射率的影响,得到地表真实反射率。采用影像自带的RPC文件进行正射校正。

1.3 植被指数选取

LAI的变化与叶片光学性质的变化相关联,与植被光谱的可见光近红外波段存在很强的相关性,利用这些特征波段构建的植被指数可用来估算叶面积指数,并监测植被长势[21-22]。Broge等人[23, 4]研究表明当使用多波段光谱数据反演LAI时,反演方法计算复杂且易受遥感影像中水汽吸收等因素干扰,而植被指数计算简便,可代替多波段光谱数据作为模型参数,减弱干扰因子,突出目标信息。本文选择8种广泛使用的植被指数(NDVI、OSAVI、SAVI、ARVI、EVI、SARVI、MSR、TGDVI)作为模型输入变量,各植被指数计算公式如表 1所示。

表 1 本文采用的植被指数
Table 1 Vegetation indices in this paper

下载CSV
植被指数 计算公式
归一化差值植被指数[24] NDVI=($ {\mathit{\rho }}_{NIR}$-$ {\mathit{\rho }}_R$)/($ {\mathit{\rho }}_{NIR}$+$ {\mathit{\rho }}_R$)
优化土壤调节植被指数[25] OSAVI=($ {\mathit{\rho }}_{NIR}$-$ {\mathit{\rho }}_R$)/($ {\mathit{\rho }}_{NIR}$+$ {\mathit{\rho }}_R$+0.16)
土壤调节植被指数[26] SAVI=($ {\mathit{\rho }}_{NIR}$-$ {\mathit{\rho }}_R$)(1+$ L$)/($ {\mathit{\rho }}_{NIR}$+$ {\mathit{\rho }}_R$+$ L$)
大气阻抗植被指数[27] ARVI=($ {\mathit{\rho }}_{NIR}$-$ A$)/($ {\mathit{\rho }}_{NIR}$+$ A$)
增强植被指数[28] EVI=2.5($ {\mathit{\rho }}_{NIR}$-$ {\mathit{\rho }}_R$)/($ {\mathit{\rho }}_{NIR}$+6$ {\mathit{\rho }}_R$-7.5$ \mathit{\rho }_B$+1)
抗土壤和大气植被指数[29] SARVI=($ {\mathit{\rho }}_{NIR}$-$ A$)(1+$ L$)/($ {\mathit{\rho }}_{NIR}$+$ A$+$ L$)
改进简单比值植被指数[30] MSR=($ {\mathit{\rho }}_{NIR}$/$ {\mathit{\rho }}_R$-1)/($ \sqrt{{{\mathit{\rho }}_{\mathit{NIR}}}/{{\mathit{\rho }}_{\mathit{R}}}\rm{+1}}$)
三波段梯度差值植被指数[31] TGDVI=($ {\mathit{\rho }}_{NIR}$-$ {\mathit{\rho }}_R$)/($ {{\mathit{\lambda }}_{\mathit{NIR}}}$-$ {{\mathit{\lambda }}_{\mathit{R}}}$)-($ {\mathit{\rho }}_R$-$ \mathit{\rho }_G$)/($ {{\mathit{\lambda }}_{\mathit{R}}}$-$ {{\mathit{\lambda }}_{\mathit{G}}}$)
注:$ {\mathit{\rho }}_{NIR}$$ {\mathit{\rho }}_R$$ \mathit{\rho }_B$$ \mathit{\rho }_G$分别为GF-1 WFV影像的近红外波段、红波段、蓝波段、绿波段反射率。$ L$为土壤调节系数,本文取$ L$=0.5,$ A$= $ {\mathit{\rho }}_R$-$ y$($ \mathit{\rho }_B$-$ {\mathit{\rho }}_R$),$ y$=1。

1.4 模型算法构建

随机森林算法(RF)于2001年由Breiman提出,是一种基于多棵分类回归树的集成机器学习方法[32]。该算法主要利用重采样技术bootstrap(自助采样法)在原始数据集$ X$中有放回地随机抽取$ K$个与原始数据集同样大小的训练集{$ T_k$$ k$=1, 2, …, $ K$},并由此构建$ K$棵分类回归树$ \left\{ \mathit{h}\left( \mathit{X}\rm{, }{{\mathit{\theta }}_{\mathit{k}}} \right), \mathit{k}=1, 2, \cdots, \mathit{K} \right\}$,每次未被抽取的样本组成了$ K$个袋外(OOB)数据集,OOB数据集预测残差均方用于估计变量重要性及模型泛化误差[33],即

$ \mathit{MS}{{\mathit{E}}_{\rm{OOB}}}\rm{=}{{\mathit{n}}^{\rm{-1}}}\sum\limits_{1}^{\mathit{n}}{{{\left\{ {{\mathit{y}}_{\mathit{i}}}\rm{-}\mathit{\hat{y}}_{\mathit{i}}^{\rm{OOB}} \right\}}^{2}}} $ (1)

$ \mathit{R}_{^{\rm{RF}}}^{2}\rm{=1-}\frac{\mathit{MS}{{\mathit{E}}_{\rm{OOB}}}}{\mathit{\hat{\sigma }}_{\mathit{y}}^{2}} $ (2)

式中,$ y_i$为袋外数据中因变量的实际值, $ \mathit{\hat{y}}_{\mathit{i}}^{\rm{OOB}}$为随机森林对袋外数据预测值,$ n$为OOB数据集的总个数,$ \hat{\sigma }_{\mathit{y}}^{2}$为随机森林对袋外数据预测值的方差,$ MSE_{\rm OOB}$为OOB数据集的残差均方。

构建每棵分类回归树时,在$ n$个自变量集合中随机抽取$ m$个特征变量($ m<n$),通过计算每个特征的信息量,每棵分类回归树在$ m$个特征变量中选择一个最具有分类能力的特征变量进行节点分裂,每棵树最大限度生长,不进行任何裁剪,设定叶节点$ nodesize$为回归树生长的终止条件,最后将生成的$ K$棵分类回归树组成随机森林,利用随机森林进行回归预测时,$ K$棵树{$ \mathit{h}\left( \mathit{X}\rm{, }{{\mathit{\theta }}_{\mathit{k}}} \right)$}输出值的平均值为因变量的最终预测结果。

BP神经网络是一种多层前馈型神经网络,该网络的主要特点是信号前向传播、误差反向传播,在目前人工神经网络中得到广泛应用,其中心思想是根据模拟的输出值与真实输出值之间的误差,反向调整神经网络的权值,使网络总误差最小,从而达到学习的目的[34]。BP神经网络可以看做一个非线性函数,能够在无需先验知识的条件下,建立复杂的非线性映射关系[35]。通常BP神经网络由输入层、隐含层、输出层3部分组成,相邻之间的神经元由权重系数相互连接,同一层内神经元之间是平行的,无连接关系,其网络拓扑结构如图 2所示,$ {{\mathit{X}}_{\rm{1}}}\rm{, }{{\mathit{X}}_{\rm{2}}}\rm{, }\cdots \rm{, }{{\mathit{X}}_{\mathit{n}}}$为BP神经网络的输入值,$ {{\mathit{Y}}_{\rm{1}}}\rm{, }{{\mathit{Y}}_{\rm{2}}}\rm{, }\cdots \rm{, }{{\mathit{Y}}_{\mathit{m}}}$为网络预测值,$ W_{ij}$$ W_{jk}$分别为输入层至隐含层和隐含层至输出层之间的网络权值,每层之间的数据传递通过激活函数来进行,一般选取sigmoid型函数,表达式为[36]

$ \mathit{f}\left( \mathit{x} \right)\rm{=}\frac{\rm{1}}{\rm{1+}{{\rm{e}}^{\rm{-}\mathit{x}}}} $ (3)

图 2 BP神经网络结构图
Fig. 2 Structure of BP neural network

式中,$ x$取值(-∞,+∞),函数输出值在(0,1)。

1.5 分析方法与精度评价

结合表 1中的植被指数表达式,提取GF1-WFV影像对应实测LAI点的8种植被指数,利用SPASS软件分析植被指数与LAI之间的相关性。在MATLAB环境下实现RF、BP神经网络算法,将植被指数作为模型输入变量,对应LAI值作为模型输出变量,分别进行玉米LAI估算模型构建。为了保证模型的稳定性,采用保留样本交叉验证方式将LAI及对应的各类植被指数划分为两部分,65%的数据作为模型训练集,剩余35%作为验证集,重复进行3次随机分组,分别记为样本组1、样本组2、样本组3[37]图 3显示了3组样本训练集、验证集LAI值均呈正态分布,为本研究奠定了理论基础。

图 3 训练样本、验证样本正态分布图
Fig. 3 Normal distribution of training and verification samples

采用决定系数$ R^2$和均方根误差(RMSE)作为模型评价指标,$ R^2$越接近1,表明模型拟合精度越高,RMSE越小,表明预测值与实测值差异越小,模型预测能力越好。将模型对训练集的预测值与实测值进行回归拟合,比较模型学习能力;将训练好的模型对验证集的预测值与实测值进行回归拟合,绘制验证集预测值与实测值散点图,分析评价RF与BP模型的预测精度,最后选择预测精度较高的模型估算研究区LAI。

2 结果与分析

2.1 植被指数与LAI相关性分析

表 2为不同样本组中8种典型植被指数与实测LAI相关性分析结果,由表 2可以看出,样本组1和样本组3中除TGDVI与LAI在($ P$<0.05)水平显著相关外,其余LAI与各植被指数均在($ P$<0.01)水平呈极显著相关,训练集相关系数均高于0.56,验证集相关系数均高于0.66,样本组2中,除训练集TGDVI与LAI无显著相关外,剩余LAI值与各植被指数均在($ P$<0.01)水平呈极显著相关且相关系数均大于0.6。全体样本LAI与各植被指数均在($ P$<0.01)水平呈极显著相关,相关性最高为0.835。总体来看,各样本组与全样本组中,除TGDVI外,LAI值与各植被指数均在($ P$<0.01)水平极显著相关。表明选取的植被指数能较好地反映玉米LAI值变化,可用来作为RF、BP模型的输入变量。

表 2 植被指数与LAI相关性分析
Table 2 Correlation analysis between vegetation index and LAI

下载CSV
植被指数 样本组1 样本组2 样本组3 全体样本
训练集 验证集 训练集 验证集 训练集 验证集
NDVI 0.673** 0.675** 0.691** 0.704** 0.620** 0.683** 0.754**
OSAVI 0.695** 0.766** 0.609** 0.658** 0.781** 0.763** 0.744**
SAVI 0.561** 0.662** 0.644** 0.682** 0.783** 0.753** 0.835**
ARVI 0.682** 0.681** 0.819** 0.635* 0.708** 0.678** 0.743**
SARVI 0.803** 0.757** 0.801** 0.661** 0.803** 0.821** 0.767**
MSR 0.794** 0.748** 0.640** 0.723** 0.794** 0.748** 0.725**
TGDVI 0.442* 0.616* 0.396 0.472* 0.473* 0.491* 0.545**
EVI 0.718** 0.736** 0.721** 0.731** 0.718** 0.694** 0.749**
注:***分别表示在($ P$<0.05)水平显著相关和($ P$<0.01)水平极显著相关。

2.2 LAI估算模型构建与验证

基于不同样本组中的训练集,以植被指数为自变量,对应LAI为因变量,分别采用RF、BP算法和传统经验模型构建3组不同样本组的LAI遥感估算模型。RF模型参数采用5折交叉验证法通过对3组不同样本多次训练,确定回归树数量$ K$为500,每棵树随机抽取特征变量$ m$为3,叶节点$ nodesize$在RF算法用于回归时默认取值为5。BP模型目前尚无确定的参数设定方法,本文在借鉴文献[38-39]的研究及模型多次训练的基础上,确定BP模型采用3层结构,即输入层—隐含层—输出层,隐含层节点数为16,最大训练迭代次数为1 000次,学习速率为0.000 1,采用S型双曲正切函数为隐含层传递函数、输出层函数为线性函数。经验模型中基于各种植被指数分别使用线性、对数、二项式、指数等模型与对应LAI进行回归拟合,筛选出每一样本组中与LAI拟合精度最高的回归模型,结果如表 3所示。

表 3 不同样本组中拟合精度最高的回归模型及模型精度检验
Table 3 Regression model with the highest fitting accuracy and accuracy verification in different sample sets

下载CSV
样本组 植被指数 模型建立(训练集$ n$=27) 模型检验(验证集$ n$=15)
关系模型 $ R^2$ RMSE $ R^2$ RMSE
1 SAVI $ y$ = 0.277 5$ {\rm e}^{3.723\ 8x}$ 0.589 0.596 0.492 0.541
2 OSAVI $ y$ = 0.247 4$ {\rm e}^{4.253\ 7x}$ 0.617 0.594 0.557 0.398
3 MSR $ y$=0.670 1$ x^2$-1.268 5$ x$+ 2.998 0.685 0.475 0.531 0.306

采用$ R^2$、RMSE为评价指标,基于不同样本组中独立于训练集的验证集,将预测LAI值与实测LAI值进行比较,分析不同模型的预测精度,对实测LAI值与预测LAI值进行回归分析并拟合其散点图,对比机器学习模型与传统经验模型的估算精度,结果如表 3图 4所示。

图 4 LAI实测值与预测值散点图
Fig. 4 Scatter plot of measured and predicted values of LAI((a) BP model; (b) RF model)

2.3 模型比较与分析

表 3图 4可以看出,3个样本组中,RF模型在每一样本组训练集中均表现出了较强的学习能力,决定系数$ R^2$均高于0.8,均方根误差RMSE最大不超过0.398,均优于同组BP模型和经验模型。基于验证集对模型学习能力进行检验,RF模型决定系数$ R^2$分别为0.681、0.757、0.701,比BP模型提高了17.7%、16.8%、9.6%,比经验模型提高了18.9%、20%、17%。均方根误差RMSE为0.264、0.292、0.259,分别比BP模型降低了2%、11.8%、2.4%,比经验模型降低了27%、10.6%、4.7%。结果表明RF模型的预测精度均高于BP模型和经验模型,能更好的解释植被指数与LAI之间的非线性关系。

图 4表示了两种机器学习模型预测值与实测值散点图拟合情况,其线性回归线越接近于1:1关系线,表明模型的学习能力与预测能力越好。由图 4可以看出,不同样本组中,训练集与验证集线性回归线基本分布在1:1关系线两侧,表明RF模型与BP模型拟合效果较好,其中RF模型训练集与验证集回归线更接近1:1关系线,预测精度较高。

总体而言,3组样本数据中,RF模型预测效果均优于BP模型和经验模型,模型稳定性较好,可用来估算玉米LAI值。本文选择估算精度高的RF模型,基于GF1-WFV影像,对研究区玉米LAI进行估算,结果如图 5所示。

图 5 研究区LAI估算结果
Fig. 5 LAI estimation results in the study area

图 5可以看出,估算LAI值主要集中在3~4之间,大于4的地方较少,与实测LAI值较为接近,局部区域存在异常点。LAI值为1~2的部分基本分布在官厅水库和城镇附近,LAI值在2~3的区域主要为田间小道、草地、稀疏果园等。研究区玉米主要分布在东北部和北部区域,基本符合灌浆期玉米生长状况。

3 结论

建模算法的选择对农作物生理参量遥感反演的精度影响较大,定量评价不同算法的反演精度对农业环境遥感监测具有重要意义。本文将机器学习算法应用于玉米LAI遥感估算并与传统经验模型进行比较,为了保证模型的稳定性,采用保留交叉验证的方式将样本随机分为3组,构建了以8种植被指数为自变量的RF模型、BP神经网络模型及传统经验模型,结果表明:

1) 所选取的8种典型植被指数(NDVI、OSAVI、SAVI、ARVI、EVI、SARVI、MSR、TGDVI)能较好的反映玉米生长状况,可作为模型输入因子;

2) 3组不同样本数据中,RF模型整体估算效果优于BP模型和传统经验模型;

3) RF模型估算的研究区玉米LAI分布图较真实的反映了当地玉米生长状况,说明利用机器学习算法准确估算农作物LAI是可行的,而且估算精度要远高于传统经验模型,其中RF模型估算精度最高,这与韩兆迎等人[15]利用RF模型估算盛果期苹果树LAI、王丽爱等人[19]基于环境星和RF模型估算冬小麦LAI研究结果一致,由此也可以看出,不同区域、不同植被类型等影响因子对RF算法干扰较小,而经验模型估算精度最低,这与其在每一样本组数据中均基于单个植被指数进行LAI估算有关,单一植被指数只能包含特定波段信息,植被指数易饱和,相反,RF和BP模型可以同时输入多种植被指数,融合更多的波段信息,可以更好地提高LAI估算精度。

此外,本研究中RF模型表现出优于BP模型估算结果,一方面由于RF算法是一种集成机器学习方法,它对大量回归树预测结果进行汇总,提高了模型的预测能力,且模型构建过程中引入2个随机性具有更强的抗噪能力,不容易产生过度拟合,而BP神经网络算法主要通过误差反向传播,直到输出误差符合要求,学习次数过多,降低了模型泛化能力。另一方面,RF算法中只需确定3个参数,模型使用更加方便,而BP神经网络算法则需要确定的模型参数较多,易产生过拟合或欠拟合,随着某些参数的设置,网络易陷入局部极值中,训练时间增加[30]

RF和BP均属于机器学习算法,在当今植被理化参数遥感估算中得到了广泛应用。梁顺林等人[40]研究表明定量遥感新的发展趋势是大量使用机器学习方法。机器学习回归算法较之经验回归方法,在一定程度上提高了理化参数的估算精度,但关于机器学习方法的建模机理还有待进一步研究,且模型输出精度与样本数据量有关,因此,后续研究应适当增加样本数量,开展多区域玉米LAI遥感估算,提高模型的适用性。

参考文献

  • [1] Chen J M, Black T A. Defining leaf area index for non-flat leaves[J]. Plant, Cell & Environment, 1992, 15(4): 421–429. [DOI:10.1111/j.1365-3040.1992.tb00992.x]
  • [2] Liu Y, Liu R G, Chen J M, et al. Current status and perspectives of leaf area index retrieval from optical remote sensing data[J]. Journal of Geo-information Science, 2013, 15(5): 734–743. [刘洋, 刘荣高, 陈镜明, 等. 叶面积指数遥感反演研究进展与展望[J]. 地球信息科学学报, 2013, 15(5): 734–743. ] [DOI:10.3724/SP.J.1047.2013.00734]
  • [3] Neinavaz E, Skidmore A K, Darvishzadeh R, et al. Retrieval of leaf area index in different plant species using thermal hyperspectral data[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 119: 390–401. [DOI:10.1016/j.isprsjprs.2016.07.001]
  • [4] Haboudane D, Miller J R, Pattey E, et al. Hyperspectral vegetation indices and novel algorithms for predicting green LAI of crop canopies:modeling and validation in the context of precision agriculture[J]. Remote Sensing of Environment, 2004, 90(3): 337–352. [DOI:10.1016/j.rse.2003.12.013]
  • [5] Pinty B, Lavergne T, Widlowski J L, et al. On the need to observe vegetation canopies in the near-infrared to estimate visible light absorption[J]. Remote Sensing of Environment, 2009, 113(1): 10–23. [DOI:10.1016/j.rse.2008.08.017]
  • [6] Chen Y H, Zhang W C, Yong B, et al. Retrieving leaf area index using a neural network based on classification knowledge[J]. Acta Ecologica Sinica, 2007, 27(7): 2785–2793. [陈艳华, 张万昌, 雍斌, 等. 基于分类知识利用神经网络反演叶面积指数[J]. 生态学报, 2007, 27(7): 2785–2793. ] [DOI:10.3321/j.issn:1000-0933.2007.07.015]
  • [7] Zhao J, Huang W J, Zhang Y H, et al. Inversion of leaf area Index during different growth stages in winter wheat[J]. Spectroscopy and Spectral Analysis, 2013, 33(9): 2546–2552. [赵娟, 黄文江, 张耀鸿, 等. 冬小麦不同生育时期叶面积指数反演方法[J]. 光谱学与光谱分析, 2013, 33(9): 2546–2552. ] [DOI:10.3964/j.issn.1000-0593(2013)09-2546-07]
  • [8] Li F X, Zhang B, Song K S, et al. Research and analysis of the correlation between hyperspectral vegetation index and leaf area index[J]. Remote Sensing Technology and Application, 2007, 22(5): 586–592. [李凤秀, 张柏, 宋开山, 等. 玉米叶面积指数与高光谱植被指数关系研究[J]. 遥感技术与应用, 2007, 22(5): 586–592. ] [DOI:10.3969/j.issn.1004-0323.2007.05.002]
  • [9] Yang F, Sun J L, Fang H L, et al. Comparison of different methods for corn LAI estimation over northeastern China[J]. International Journal of Applied Earth Observation and Geoinformation, 2012, 18: 462–471. [DOI:10.1016/j.jag.2011.09.004]
  • [10] Liu J, Pang X, Li Y R, et al. Inversion study on leaf area index of summer maize using remote sensing[J]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(9): 309–317. [刘珺, 庞鑫, 李彦荣, 等. 夏玉米叶面积指数遥感反演研究[J]. 农业机械学报, 2016, 47(9): 309–317. ] [DOI:10.6041/j.issn.1000-1298.2016.09.042]
  • [11] Wang L H, Du J, Huang J L, et al. Retrieving leaf area index of maize based on GF-1 multispectral remote sensing data[J]. Journal of Central China Normal University:Natural Sciences, 2016, 50(1): 120–127. [王立辉, 杜军, 黄进良, 等. 基于GF-1号卫星WFV数据反演玉米叶面积指数[J]. 华中师范大学学报:自然科学版, 2016, 50(1): 120–127. ] [DOI:10.3969/j.issn.1000-1190.2016.01.023]
  • [12] Meng Q Y, Wang C M, Gu X F, et al. Hot dark spot index method based on multi-angular remote sensing for leaf area index retrieval[J]. Environmental Earth Sciences, 2016, 75(9): #732. [DOI:10.1007/s12665-016-5549-x]
  • [13] Qiao H L, Li W, Niu Z. Estimating leaf area index of maize based on multi-angular CHRIS/PROBA data[J]. Journal of Geo-information Science, 2015, 17(10): 1243–1248. [乔海浪, 李旺, 牛铮. 玉米叶面积指数的CHRIS/PROBA数据反演分析[J]. 地球信息科学学报, 2015, 17(10): 1243–1248. ] [DOI:10.3724/SP.J.1047.2015.01243]
  • [14] Li X C, Xu X G, Bao Y S, et al. Retrieving LAI of winter wheat based on sensitive vegetation index by the segmentation method[J]. Scientia Agricultura Sinica, 2012, 45(17): 3486–3496. [李鑫川, 徐新刚, 鲍艳松, 等. 基于分段方式选择敏感植被指数的冬小麦叶面积指数遥感反演[J]. 中国农业科学, 2012, 45(17): 3486–3496. ] [DOI:10.3864/j.issn.0578-1752.2012.17.004]
  • [15] Han Z Y, Zhu X C, Fang X Y, et al. Hyperspectral estimation of apple tree canopy LAI based on SVM and RF regression[J]. Spectroscopy and Spectral Analysis, 2016, 36(3): 800–805. [韩兆迎, 朱西存, 房贤一, 等. 基于SVM与RF的苹果树冠LAI高光谱估测[J]. 光谱学与光谱分析, 2016, 36(3): 800–805. ] [DOI:10.3964/j.issn.1000-0593(2016)03-0800-06]
  • [16] Verrelst J, Mu?oz J, Alonso L, et al. Machine learning regression algorithms for biophysical parameter retrieval:opportunities for Sentinel-2 and -3[J]. Remote Sensing of Environment, 2012, 118: 127–139. [DOI:10.1016/j.rse.2011.11.002]
  • [17] Xia T, Wu W B, Zhou Q B, et al. Comparison of two inversion methods for winter wheat leaf area index based on hyperspectral remote sensing[J]. Transactions of the Chinese Society of Agricultural Engineering, 2013, 29(3): 139–147. [夏天, 吴文斌, 周清波, 等. 冬小麦叶面积指数高光谱遥感反演方法对比[J]. 农业工程学报, 2013, 29(3): 139–147. ] [DOI:10.3969/j.issn.1002-6819.2013.03.019]
  • [18] Liang D, Guan Q S, Huang W J, et al. Remote sensing inversion of leaf area index based on support vector machine regression in winter wheat[J]. Transactions of the Chinese Society of Agricultural Engineering, 2013, 29(7): 117–123. [梁栋, 管青松, 黄文江, 等. 基于支持向量机回归的冬小麦叶面积指数遥感反演[J]. 农业工程学报, 2013, 29(7): 117–123. ] [DOI:10.3969/j.issn.1002-6819.2013.07.015]
  • [19] Wang L A, Zhou X D, Zhu X K, et al. Inverting wheat leaf area index based on HJ-CCD remote sensing data and random forest algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering, 2016, 32(3): 149–154. [王丽爱, 周旭东, 朱新开, 等. 基于HJ-CCD数据和随机森林算法的小麦叶面积指数反演[J]. 农业工程学报, 2016, 32(3): 149–154. ] [DOI:10.11975/j.issn.1002-6819.2016.03.021]
  • [20] Dahms T, Seissiger S, Conrad C, et al. Modelling biophysical parameters of maize using Landsat 8 Time Series[C]//Proceedings of the International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, Volume XLI-B2. Prague, Czech Republic: ISPRS, 2016: 171-175. [DOI:10.5194/isprsarchives-XLI-B2-171-2016]
  • [21] Zhao Y S. Principles and Methods of Remote Sensing Application Analysis[M]. Beijing: Science Press, 2003. [ 赵英时. 遥感应用分析原理与方法[M]. 北京: 科学出版社, 2003.]
  • [22] Yan S. Introduction to Remote Sensing Digital Image Processing[M]. Beijing: Machinery Industry Press, 2007. [ 延森. 遥感数字影像处理导论[M]. 北京: 机械工业出版社, 2007.]
  • [23] Broge N H, Leblanc E. Comparing prediction power and stability of broadband and hyperspectral vegetation indices for estimation of green leaf area index and canopy chlorophyll density[J]. Remote Sensing of Environment, 2001, 76(2): 156–172. [DOI:10.1016/S0034-4257(00)00197-8]
  • [24] Rouse J W Jr, Haas R H, Schell J A, et al. Monitoring vegetation systems in the great plains with ERTS[C]//The 3rd ERTS Symposium. Washington, DC: NASA, 1973, 351: 309-317.
  • [25] Rondeaux G, Steven M, Baret F. Optimization of soil-adjusted vegetation indices[J]. Remote Sensing of Environment, 1996, 55(2): 95–107. [DOI:10.1016/0034-4257(95)00186-7]
  • [26] Huete A R. A soil-adjusted vegetation index (SAVI)[J]. Remote Sensing of Environment, 1988, 25(3): 295–309. [DOI:10.1016/0034-4257(88)90106-X]
  • [27] Kaufman Y J, Tanre D. Atmospherically resistant vegetation index (ARVI) for EOS-MODIS[J]. IEEE Transactions on Geoscience and Remote Sensing, 1992, 30(2): 261–270. [DOI:10.1109/36.134076]
  • [28] Liu H Q, Huete A R. A feedback based modification of the NDVI to minimize canopy background and atmospheric noise[J]. IEEE Transactions on Geoscience and Remote Sensing, 1995, 33(2): 457–465. [DOI:10.1109/36.377946]
  • [29] Huete A R, Liu H Q, Batchily K, et al. A comparison of vegetation indices over a global set of TM images for EOS-MODIS[J]. Remote Sensing of Environment, 1997, 59(3): 440–451. [DOI:10.1016/S0034-4257(96)00112-5]
  • [30] Chen J M. Evaluation of vegetation indices and a modified simple ratio for boreal applications[J]. Canadian Journal of Remote Sensing, 1996, 22(3): 229–242. [DOI:10.1080/07038992.1996.10855178]
  • [31] Tang S H, Zhu Q J, Wang J D, et al. Principle and application of three-band gradient difference vegetation index[J]. Science in China Series D:Earth Sciences, 2003, 33(11): 1094–1102. [唐世浩, 朱启疆, 王锦地, 等. 三波段梯度差植被指数的理论基础及其应用[J]. 中国科学(D辑), 2003, 33(11): 1094–1102. ] [DOI:10.3321/j.issn:1006-9267.2003.11.008]
  • [32] Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5–32. [DOI:10.1023/A:1010933404324]
  • [33] Archer K J, Kimes R V. Empirical characterization of random forest variable importance measures[J]. Computational Statistics & Data Analysis, 2008, 52(4): 2249–2260. [DOI:10.1016/j.csda.2007.08.015]
  • [34] Zhu Y F, Zhu L, Li J G, et al. The study of inversion of chlorophyll a in Taihu based on GF-1 WFV image and BP neural network[J]. Acta Scientiae Circumstantiae, 2017, 37(1): 130–137. [朱云芳, 朱利, 李家国, 等. 基于GF-1 WFV影像和BP神经网络的太湖叶绿素a反演[J]. 环境科学学报, 2017, 37(1): 130–137. ] [DOI:10.13671/j.hjkxxb.2016.0275]
  • [35] Gao S, Niu Z, Wu M Q. The neural network algorithm for estimating plantation forest leaf area index based on ENVISAT/ASAR[J]. Remote Sensing Technology and Application, 2013, 28(2): 205–211. [高帅, 牛铮, 邬明权. 基于ENVISAT/ASAR的神经网络反演人工林叶面积指数研究[J]. 遥感技术与应用, 2013, 28(2): 205–211. ] [DOI:10.11873/j.issn.1004-0323.2013.2.205]
  • [36] Yang Y J, Huang D. Research and applications of artificial neural networks[J]. Journal of East China University of Science and Technology, 2002, 28(5): 551–554. [杨源杰, 黄道. 人工神经网络算法研究及应用[J]. 华东理工大学学报, 2002, 28(5): 551–554. ] [DOI:10.3969/j.issn.1006-3080.2002.05.022]
  • [37] Yao X, Yu K Y, Yang Y J, et al. Estimation of forest leaf area index based on random forest model and remote sensing data[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(5): 159–166. [姚雄, 余坤勇, 杨玉洁, 等. 基于随机森林模型的林地叶面积指数遥感估算[J]. 农业机械学报, 2017, 48(5): 159–166. ] [DOI:10.6041/j.issn.1000-1298.2017.05.019]
  • [38] Ma Y C, Yan G J, Ding W, et al. Leaf area index retrieval of winter wheat using artificial neural network[J]. Transactions of the CSAE, 2009, 25(12): 187–192. [马茵驰, 阎广建, 丁文, 等. 基于人工神经网络方法的冬小麦叶面积指数反演[J]. 农业工程学报, 2009, 25(12): 187–192. ] [DOI:10.3969/j.issn.1002-6819.2009.12.033]
  • [39] Song K S, Zhang B, Wang Z M, et al. Soybean LAI estimation with $ in-situ$ collected hyperspectral data based on BP-Neural networks[J]. Scientia Agricultura Sinica, 2006, 39(6): 1138–1145. [宋开山, 张柏, 王宗明, 等. 基于人工神经网络的大豆叶面积高光谱反演研究[J]. 中国农业科学, 2006, 39(6): 1138–1145. ] [DOI:10.3321/j.issn:0578-1752.2006.06.007]
  • [40] Liang S L, Cheng J, Jia K, et al. Recent progress in land surface quantitative remote sensing[J]. Journal of Remote Sensing, 2016, 20(5): 875–898. [梁顺林, 程洁, 贾坤, 等. 陆表定量遥感反演方法的发展新动态[J]. 遥感学报, 2016, 20(5): 875–898. ] [DOI:10.11834/jrs.20166258]