Print

发布时间: 2019-10-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180694
2019 | Volume 24 | Number 10




    遥感图像处理    




  <<上一篇 




  下一篇>> 





自然光照条件下植被几何光学四分量的提取算法
expand article info 高泽宾1,2, 屈永华1,2
1. 遥感科学国家重点实验室, 北京 100875;
2. 北京市陆表遥感数据产品工程技术研究中心, 北京师范大学地理科学学部遥感科学与工程研究院, 北京 100875

摘要

目的 几何光学四分量是指在太阳光照条件下传感器所能观测的4个光学分量,即光照植被、光照土壤、阴影植被和阴影土壤。四分量是构成遥感几何光学模型的重要内容。在近地表遥感应用中,相机俯视拍照是提取四分量的一个途径。准确快速地从图像数据中提取四分量对植被冠层结构参数反演和植被长势监测具有重要意义。方法 植被与土壤二分量的识别是四分量提取的基础。目前大多数二分类算法在自然光照条件复杂时分类误差较大。本文基于卷积神经网络(CNN)和阈值法实现了多种二分类和四分量提取算法。阈值法中,使用SHAR-LABFVC(shadow-resistant algorithm:LABFVC)实现植被与土壤的二分类,并在此基础上应用二次阈值分割获取四分量,称为二次阈值法;基于CNN的方法中,采用U-Net架构,并使用RGB和RGBV数据进行训练得到U-Net和U-Net-V模型,前者完成二分类和四分量任务,后者只完成四分量提取实验。最后,对一种结合U-Net与阈值法的混合算法进行四分量提取实验。结果 本文在18幅图像(1 800个子图)数据上进行了实验,结果表明,与目视解译得到的四分量真值相比较,U-Net-V和混合法精度最高,具有相近的均方根误差(RMSE)(0.06和0.07)和相关系数(0.95和0.94);二次阈值法与U-Net模型精度略低于上述两种算法,RMSE分别是0.08和0.09,相关系数均为0.88。在二分类实验中,U-Net的分类正确率是91%,SHAR-LABFVC为85%。结论 通过对比实验表明,在二分类问题中,U-Net可以更好地应对复杂自然光照条件下的数字图像。在四分量提取实验中,混合法和U-Net-V的结果优于U-Net与二次阈值法,可以用于提取四分量。

关键词

几何光学四分量; 卷积神经网络; 阈值法; 冠层图像处理; 图像语义分割

Algorithm for classifying four geometric-optical components from images in natural illumination conditions
expand article info Gao Zebin1,2, Qu Yonghua1,2
1. State Key Laboratory of Remote Sensing Science, Beijing 100875, China;
2. Beijing Engineering Research Center for Global Land Remote Sensing Products, Institute of Remote Sensing Science and Engineering, Faculty of Geographical Science, Beijing Normal University, Beijing 100875, China
Supported by: National Natural Science Foundation of China (41671333); National Key Research and Development Program of China (2016YFC0500103)

Abstract

Objective The four components of a geometric-optical model, i.e., lit vegetation, lit soil, shaded vegetation, and shaded soil, could be observed by optical sensors in nature light condition. The four components are the important parameters of the geometric-optical model. Images obtained from a downward-looking canopy digital camera serve as an important source to derive the four components. A rapid and accurate method for extracting the four components for canopy parameter inversion, including the leaf area index and average leaf inclination angle, is proposed. However, most of the algorithms only distinguish the vegetation and soil (i.e., two-class task) pixels, and the classification error is large under the condition of complex natural light. The main error is produced by specular reflection pixels, which are nearly white in the image, and shadow-canopy pixels, which are nearly black in the image. With the rapid development of deep learning, the accuracy of image semantic segmentation, that is, the classification of pixels is improved significantly. Therefore, the error introduced by specular reflection pixels and shadow canopy pixels may be reduced. Method Several two-class and four-component extraction algorithms are implemented on the basis of the convolutional neural network and threshold method. In the proposed methods, SHAR-LABFVC is a threshold method, and it is used to fulfill two-class classification. When an image is captured in a direct light condition, the V channel data from the HSV color model present a double-peak feature in histogram. Thus, on the basis of the result of SHAR-LABFVC, the Otsu method is applied to the V channel data to classify the four components. Thus, the two-stepwise procedure is referred to as the double-threshold algorithm. Another algorithm is the U-Net, which is a neural network-based method and is used to extract the two-class and four-component algorithms. We obtain two models based on U-Net. One is trained using RGB image data, which is referred as U-Net, and another is trained using RGB-V image data, which is referred to as U-Net-V. RGB-V data are images, which combine RGB and V channel data of HSV. Finally, to fully use the advantages of the supervised and unsupervised algorithms, a hybrid method, which combines U-Net and the threshold method, is proposed and used to classify the four components, similar to that done in the double-threshold algorithm. We use U-Net to obtain vegetation and soil pixels. Then, the Otsu algorithm is used to acquire four components. Result The validation experiment is conducted using 18 images (1 800 subgraphs), and the performance is evaluated using two metrics, i.e., root mean square error (RMSE) and Pearson's r (r). Results show that U-Net-V and hybrid are optimal and that they have close RMSE values (0.06 and 0.07) and r (0.95 and 0.94); U-Net and the double-threshold method have close RMSE values (0.09 and 0.08) and the same r (0.88). In the two-class experiment, the classification accuracy of U-Net is 91%, and that of SHAR-LABFVC is 85%. For the two-class experiment, we use F1 score to evaluate the result of U-Net and SHAR-LABFVC. The vegetation's F1 score of U-Net is 0.87, which is 0.07 higher than that of SHAR-LABFVC. The soil's F1 score of U-Net is 0.92, which is 0.03 higher than that of SHAR-LABFVC. Conclusion The comparative experiments indicate that U-Net is superior to other methods in terms of dealing with digital images under complex natural light conditions in a two-class task. Compared with the SHAR-LABFVC method, U-Net can classify specular reflection pixels effectively and produce more stable and accurate classification results. The effective performance of U-Net in the two-class task is attributed to the convolution structure, which can utilize information from local image data and construct complex features by simple features. On the contrary, threshold methods only use one threshold to classify all pixels. The error will be high when some pixels disturb the distribution of the histogram. In the four-component extraction task, the hybrid algorithm has better result than U-Net and double-threshold method given the excellent performance of U-Net in the two-class task, whereas U-Net-V can produce the best results. U-Net can achieve an excellent performance by adding V channel data to raw RGB images. We summarize the RGB values of pixels and find that shadow leaf maybe close to sun lit leaf in a 3D space. Combined with the result of the confusion matrix, the shadow features are difficult to learn in our data set. Thus, we use RGB-V data to reduce the difficulty of learning shadow features and obtain the U-Net-V model. We suggest that the double-threshold method is the best candidate method to extract the four components under the condition that training samples are unavailable. For the case in which sufficient training samples are available, using the U-Net-V method to extract the four components is recommended.

Key words

four component of geometric-optical model; convolutional neural network (CNN); threshold method; canopy image processing; semantic segmentation

0 引言

在有太阳直射光的情况下,由数字相机在冠层上方进行俯视拍照获取的图像像元可分为4类:光照植被、光照土壤、阴影植被与阴影土壤[1],即四分量。植被四分量是几何光学模型的基础,广泛应用于各种遥感反演模型之中[2-3]。在植被结构参数估计应用中,四分量常被用来分析垂直间隙率,推算植被覆盖度(FVC)、叶面积指数(LAI)等[4-6]。但目前基于地面数字图像直接提取几何四分量的算法很少,大部分算法实现了对植被和土壤的分类,即二分类算法[7-10]。而且受限于野外实验中自然光照条件复杂多变,像元分类精度受以下问题困扰:1)图像中存在镜面反射像元; 2)阴影植被像元与阴影土壤像元易混淆。

从数字照片中进行植被/土壤像元识别是四分量提取的基础。四分量提取是在二分类的结果上对像元类别的又一次划分;同时四分量提取与二分类面临着相似的问题,即镜面反射像元和阴影像元识别的问题。对二分类算法的总结与改进有利于四分量提取算法的开发。

二分类算法主要分为非监督分类算法和监督分类算法。在非监督分类算法中,Liu等人[7]通过计算绿度指数(Greenness = 2G-B-R,其中,RGB分别为彩色图像中的红、绿、蓝像元值)对植被的RGB图像像元进行二分类,得到下视图像的植被覆盖度,再根据覆盖度反演叶面积指数,这类算法也称为指数法。

自动阈值法是非监督分类算法中应用较为广泛、分类效果较好的一种方法。其原理是基于植被与土壤的光谱可分性来实现的。具体来说,植被与土壤的反射率会在某些波段具有较大的差异,例如近红外波段。在普通的RGB图像中也会有类似的情况,例如将RGB图像变换为LAB色彩空间以后,A通道代表红绿度信息,绿色植被和黄色土壤在该通道下的像元值会有较大差异,阈值法利用该特点对图像进行像元分类。在阈值法中,首先对色彩空间中单个通道下所有像元值进行直方图统计,然后通过直方图的双峰特征自动寻找全局阈值,再根据此阈值完成图像分类。Liu等人[8]使用自动阈值法完成了二分类任务,Song等人[9]针对阴影冠层像素不易识别的问题,提出在HSV (hue-saturation-value)空间使用直方图调整方法改进自动阈值算法,进一步提高了阈值法处理阴影冠层像元的精度。前述算法只利用了植被与土壤的分类信息,没有用到完整的四分量信息,Mu等人[10]在此基础上,发展出从几何光学四分量中同时反演叶面积指数和平均叶倾角的算法。

阈值法处理速度较快,无需准备训练数据,对多种植被都有较好的应用效果。但阈值法只使用了某一个通道下的数据,从而丢失了较多信息,用单一的阈值对所有像元进行分类,在成像条件复杂时易出现错误分类。错误分类的主要原因是图像像元值会有同值异类的现象,例如阴影冠层的像元值和阴影土壤的像元值接近。此外,当图像中存在镜面反射像元时,也会对阈值的计算带来干扰。镜面反射是指物体表面在相机视场中产生强反射光,从而使局部RGB图像接近白色。这些像元值会使直方图分布受到影响,导致错误分类。

监督分类方法主要包括决策树、随机森林等。Guo等人[11]通过利用多时刻图像和选取镜面反射像元作为训练样本的方法提高分类器性能。但传统的监督分类一般只考虑将单个像元在不同色彩空间下的像元值作为特征,没有充分利用空间上的信息,同样会面临同值异物和镜面反射像元的问题。

人类较容易解决上述问题,人脉可以轻松地识别出植被和土壤,而传统的阈值法和机器学习方法较难解决这些问题。近些年,受人类神经系统启发的深度学习方法发展迅速,广泛应用于图像分类和图像语义分割等任务并取得了很好的应用结果。深度学习中的CNN使用权重共享的卷积核计算特征图,自动提取特征并完成分类,利用卷积核的权重共享特性和深度神经网络的多层特征可以有效利用图像的空间信息,帮助我们解决以上问题[12-15]

因此,本文尝试基于深度学习和阈值法改善传统二分类的结果,并拓展应用到四分量提取,主要工作内容包括:1)基于深度学习中的卷积神经网络,完成二分类和四分量提取任务;2)使用SHAR-LABFVC (shadow-resistant algorithm: LABFVC)完成二分类任务用于对比神经网络算法,并基于SHAR-LABFVC设计一种二次阈值法,实现四分量提取;3)结合卷积神经网络(CNN)和阈值法完成四分量提取任务。

最后,本文对不同方法的结果进行了对比分析,对各个方法的应用潜力进行评估,用于改善复杂自然光照条件下图像的二分类结果、准确提取四分量、快速从数字图像中反演植被冠层结构参数。

1 实验数据与真值数据获取

本文使用的数据来源于两部分。如图 1(a) (b)所示,实验区分别位于遥感科学国家重点实验室在河北省怀来县建设的遥感实验场(40°21′N, 115°47′E)和中国科学院寒区旱区环境与工程研究所在甘肃张掖建设的黑河遥感实验站(38°49′N, 100°28′E)。怀来实验站的数据由无线网络传感器成像系统获得。如图 1(c)所示,该系统由3部分组成:成像系统(CCD system)、图像采集与网络传输系统(collector and GPRS system: C&G)和图像接收系统(reciever system)。成像系统包含一个分辨率为640×480像素的光学成像传感器,包含RGB 3个通道;通过C&G系统可以控制成像子系统完成定时拍摄,实现数据自动采集,并将数据传输至服务器;图像接收系统负责接收C&G系统传回的图像并及时存储。黑河遥感实验站的数据由佳能EOS600D相机拍摄,图像分辨率为1 296×1 728像素,包含RGB 3个通道。

图 1 Google Earth上的实验区遥感图像以及仪器部署图
Fig. 1 Google Earth images for the research areas and observation instrument ((a) Huailai area; (b) Heihe area; (c)the observation instrument)

在实验过程中,传感器保持垂直向下采集数据,保证距离植物顶部1.5 m左右。怀来实验站数据收集日期为2016年7月1日~30日,黑河实验站数据收集日期为2018年7月29日~8月18日。为了突出光照条件对分类结果的影响,需要从所有图像数据中选取拍摄时直射光光照条件良好、四分量变化明显的图像作为研究对象,最终选出18幅图像,其中怀来数据17幅,黑河数据1幅。

CNN的学习过程以及算法验证都需要真值数据的支持,通过人工目视解译的方法获取真值数据。具体来说,首先使用PhotoShop软件对图像中的四分量对象手工勾画边界,然后用不同的色彩进行填充,从而获取分类真值样本。图 2展示了1幅原图像及其对应的人工解译结果。

图 2 原始图像与人工目视解译四分量分类结果
Fig. 2 Original image data and four components classification images ((a)original image data; (b)four components classification images)

2 方法

2.1 U-Net

CNN是一种端到端的表征学习方法。因采用了共享权重的卷积核,CNN对图像的平移旋转和缩放等形变具有高度不变性,在计算机视觉和图像分类等领域取得广泛应用。CNN在图像分类、识别等任务中表现突出,但由于存在下采样降低了特征图的尺寸,无法准确地对每一个像元进行分类,所以不适合直接用于图像语义分割任务。Long等人[16]提出了FCN (fully convolutional networks),提升了特征图的分辨率,使CNN在图像语义分割任务中的表现得到了提升。U-Net是由Ronneberger等人[17]提出的一种基于FCN的神经网络结构,U-Net在FCN的基础上添加了融合操作,融合操作指将浅层特征图进行复制并与上采样得到的特征图连接在一起,保留了不同尺度的特征信息。该算法已经成功用于医学影像的图像语义分割。原始的U-Net用于处理单通道医学影像,本文中对U-Net结构进行调整,使其适用于彩色图像中的二分类和四分量提取。

本文采用的U-Net结构如图 3所示。它包含了18个卷积层,卷积核为3×3;4个下采样层,步长为2,每一次下采样操作后特征通道数量翻倍;4个上采样层,步长为2,每一次上采样后,特征通道数量减半[18];4个融合层,融合操作将特征通道数量相同的两个层拼接在一起。最后使用1×1的卷积核进行卷积,后接softmax函数预测像元类别。

图 3 U-Net网络结构
Fig. 3 The architecture of U-Net

在U-Net方法中,通过不同的策略训练得到两套模型:第1套模型使用RGB数据进行训练,该组数据中的每个图像样本由R、G、B 3个通道构成,由此得到的模型称为U-Net,第2套模型使用RGB-V数据训练,该组数据中每个图像样本由R、G、B和HSV色彩模型中的V通道数据构成,得到的模型称为U-Net-V。在训练前需要对每组数据进行预处理,处理时每幅图像采用随机裁取的方式生成100个子图。子图的裁取原则是保证长与宽不低于原图的38%,不高于原图的99%,这样可以保证子图包含足够的信息并产生不同尺度的数据。在训练过程中需要进行数据增强,增强的方法包括随机明亮度、随机饱和度、添加高斯噪声等,最后将子图的尺寸重采样到572 × 572像素。

为了充分利用数据样本,采用了留一交叉验证的方法对U-Net算法进行验证[18]。因为每幅原图像提供100个样本,所以在交叉验证的每轮迭代中,由100个来自同一幅原图的样本作为测试集,其他数据作为训练集。最后汇总每次迭代中测试集的预测结果并计算相应的评价指标。GPU设备可以有效加速深度学习过程,本文使用的GPU设备为NVIDIA-GTX1060,显存容量为6 GB,CPU处理器为I7-6700。训练过程的一些参数设置如下:学习率为1×10-5,Batch_size为4,权重初始化采用Xavier方法,该方法可以使各层的激活值和状态梯度的方差与传播过程中的方差保持一致[19]。最优化算法采用Adam算法,对权重使用L2正则化。除此之外未使用更多的训练技巧进行调优,因此实验结果代表U-Net方法的BaseLine性能。

2.2 阈值法

与深度学习方法比较,阈值算法无需额外的训练数据,也不需要GPU加速计算过程。本文中选用SHAR-LABFVC阈值法与深度学习算法进行分类精度对比分析。Song等人[9]提出的SHAR-LABFVC算法是为了区分植被与土壤而设计的。算法中首先将图像色彩空间变换到HSV空间,使用图像增强算法进行图像增强,之后变换到LAB色彩空间下。在LAB空间中,A通道代表图像的红绿度信息,对于一个像元是否属于植被较为敏感,选择A通道进行直方图统计并拟合曲线,然后确定阈值进行逐像素分类,其算法流程如图 4 (a)所示。由于SHAR-LABFVC是二分类算法,本文对其进行改造,设计了基于SHAR-LABFVC的二次阈值算法流程提取几何四分量。二次阈值算法的流程图如图 4(b)所示。首先使用SHAR-LABFVC获取植被与土壤的二值图,然后将原图像色彩空间变换为HSV,在H、S、V三通道中V通道代表明亮度信息。接下来使用分类二值图提供的植被与土壤信息,对植被部分与土壤部分的像元分别统计V通道像元值直方图,使用Otsu算法得到阈值并计算四分量。Otsu算法可以非常迅速地找到双模直方图的最大类间方差并得到阈值。在该方法中逐步使用阈值法进行两次二分类,因此称其为二次阈值法。其核心特征是,通过判断V通道像元值双峰特征自动计算分类阈值,然后基于该阈值计算阴影与非阴影的比例。

图 4 SHAR-LABFVC与二次阈值法算法模型
Fig. 4 The algorithm models of SHAR-LABFVC and double-threshold ((a) SHAR-LABFVC algorithm; (b) double-threshold algorithm)

2.3 混合法

植被与土壤二分类的结果对二次阈值法提取四分量的结果有很大影响,本文将U-Net与Otsu算法结合提取四分量,即将图 4(b)中的SHAR-LABFVC换为U-Net,利用U-Net获取二分类结果,然后再次使用Otsu算法计算阈值并获取四分量。该方法即为混合法。

2.4 实验结果评价指标

对于二分类与四分量提取本文采用不同的评价指标评估实验结果。对于二分类,使用以下指标进行评价:分类正确率(correct rate)、精确率(precision ration)、召回率(recall ratio)和F-measure[18-20]。分类正确率指分类正确像元占总像元的比例;精确率指每一类正确分类的像元占预测为该类所有像元的比例,它反映了算法分类的精确性;召回率指每一类正确分类的像元占该类所有像元的比例,它反映了算法的全面性。精确率与召回率从两个角度衡量算法,还需要F-measure值综合衡量查准与查全。F-measure定义为

$ F=\frac{\left(1+\beta^{2}\right) \times P \times R}{\beta^{2} \times P+R} $ (1)

式中,$ P$是精确率,$ R$是召回率,$ \beta$是常数权重,用于强调最后得分更注重查全还是更注重查准。这里令其为1,即需要查全与查准两者均达到较高水平。这时的F-measure称为F1-score。

对于四分量提取本文主要使用均方根误差(RMSE)和相关系数$r $进行评价。RMSE和相关系数$r $定义为

$ {f_{{\rm{RMSE}}}} = \sqrt {\frac{{\sum\limits_{i = 1}^n {{{\left( {{x_i} - {y_i}} \right)}^2}} }}{n}} $ (2)

$ r = \frac{{\sum\limits_{i = 1}^n {\left( {{x_i} - \bar x} \right)} \left( {{y_i} - \bar y} \right)}}{{\sqrt {\sum\limits_{i = 1}^n {{{\left( {{x_i} - \bar x} \right)}^2}} } \sqrt {\sum\limits_{i = 1}^n {{{\left( {{y_i} - \bar y} \right)}^2}} } }} $ (3)

3 结果

3.1 二分类结果

根据前文的评价指标,可以对不同算法二分类结果做出定量评价。表 1显示了不同方法的二分类正确率。对每一类检测结果的P、R和F1-score绘制柱状图,结果如图 5所示。U-Net算法的各项指标比较均衡,4项指标间的标准偏差为0.05,而SHAR-LABFVC在各项指标间的标准偏差为0.11。SHAR-LABFVC在植被查全上与其他3项的差距较大,该项得分比U-Net低20%。图 5(b)表明,U-Net在植被类别中的F1-score比阈值法高0.07,在土壤类别的F1-score比阈值法高0.03。因此U-Net在二分类中取得了较好的结果。

表 1 二分类算法正确率对比
Table 1 The comparison of correct rate between two-classes classification algorithms

下载CSV
/%
方法 平均分类正确率
U-Net 91
SHAR-LABFVC 85
图 5 二分类算法结果对比
Fig. 5 Comparison between the results of two-classes classification algorithms ((a) precision ratio and recall ratio histogram; (b) F1-score histogram)

3.2 四分量提取结果

根据前文提到的评价标准,可以定量评价不同算法提取四分量的结果。对于二次阈值法,可以直接计算18幅图像的四分量并与真值绘制散点图,计算RMSE与$r $。对于U-Net、U-Net-V和混合法的方法,分别进行18次交叉验证,每次对验证集的图像进行预测,获得18幅图像的预测值。最后的结果如图 6所示。图 6(a)是U-Net直接对图像像元进行分类获取的结果,RMSE是0.08,$r $是0.88;图 6(b)是U-Net-V对图像像元进行分类获取的结果,RMSE是0.06,$r $是0.95;图 6(c)是二次阈值法的结果,RMSE是0.09,$r $是0.88;图 6(d)是混合法,即U-Net与阈值法结合的结果,RMSE是0.07,$r $是0.94。四种结果的RMSE比较接近,U-Net与二次阈值法的相关系数一样,U-Net-V的结果具有最高的相关系数$r $与最低的RMSE,混合法也取得了较好的结果,$r $仅比U-Net-V低0.01。

图 6 四分量提取算法结果对比
Fig. 6 The comparison between the results of four-components extraction algorithms ((a) result of U-Net; (b) result of U-Net-V; (c) double threshold; (d) hybrid method)

4 讨论

4.1 二分类结果

图 5表明,在二分类问题中,U-Net具有更高的F1-score。尽管阈值法在植被查准、土壤查全方面超过了U-Net,但平均分类正确率比U-Net低了6%。原因在于阈值法的植被查全指标过低。如图 7红框所示,阈值法会将镜面反射部分的像元错分为土壤,即未能将更多的植被像元正确分类,所以对于植被的查全评分较低,同时也造成了阈值法在土壤查准一项评价较低,在土壤查全一项上高于U-Net。而U-Net在4项评价中较为均衡,因此整体的平均分类正确率更高,F1-score也更高。

图 7 二分类结果对比
Fig. 7 Classification results for vegetation and soil ((a) original image; (b) U-Net; (c) SHAR-LABFVC)

深度学习强大的表征能力使U-Net能够识别镜面反射像元或曝光的像元。深度学习由多层隐藏层组成,在提取特征的过程中,浅层隐藏层可以识别边缘信息,随着隐藏层的加深,可以将边缘信息组合成轮廓和角,最后可以将以上信息组合成识别对象。深度学习可以将简单的概念组合成复杂的概念,将目标表示为嵌套的层次概念体系[20-22]。因此,U-Net在识别镜面反射像元时综合利用了临近像元的信息和特征,就像人眼的识别模式一样依靠轮廓和纹理等信息做出分类。所以U-Net可以有效改善复杂自然光照条件下的二分类结果。

4.2 四分量提取结果

在四分量提取的任务中,U-Net与二次阈值法取得了相近的结果,U-Net-V得到了最优结果,混合法得到了次优结果。U-Net可以有效提升复杂自然光照条件下的二分类结果,但在四分量提取任务中未能对每一个像元实现精准分类。图 8是根据U-Net的分类结果计算的混淆矩阵,从混淆矩阵中可以看出,对阴影植被的错误分类是误差的主要来源,阴影植被错分为光照植被的部分占49%,被错分为阴影土壤的部分占15%。

图 8 U-Net进行四分类时的混淆矩阵
Fig. 8 Confusion matrix of U-Net for four-components classification

从一张分类效果较差的图像中裁取了3个子图:一个光照叶片子图以及两个阴影叶片子图。以R、G、B为坐标轴绘制散点图如图 9所示。可以发现,阴影叶片1与阴影叶片2距离较远而与光照叶片距离较近。通过K-means聚类得到聚类中心,阴影叶片1与光照叶片簇中心距离为17.72,阴影叶片1与阴影叶片2簇中心距离为56.58。这说明在某些区域中阴影叶片的类内差异要大于类间差异,从而导致阴影植被与非阴影植被之间的差异性特征较难提取。

图 9 3张子图在空间中的位置
Fig. 9 R, G, B bands scatter of the selected example sub-images

混淆矩阵的结果说明U-Net未能很好地提取到阴影与非阴影植被的差异性特征,造成大量错误的像元分类。造成该问题的原因可能包含两点:1)某些阴影植被与光照植被的特征十分接近,现有隐含层深度的U-Net在RGB数据集上较难提取到阴影与非阴影特征之间的差异,这一点可以通过3维散点图得到证明;2)虽然经过一些数据增强手段增加了样本数量,但由于子样本由18幅图像处理得到,总体样本相对缺乏多样性,对于部分类别网络难以提取到有效特征[23]。因此,可以从以下角度去解决问题:

提供更多的阴影植被样本数据。由混淆矩阵可以知道,误差的主要来源是将阴影植被错分为光照植被,而其他类别之间错分数量较少,说明数据中的阴影植被不够丰富,通过针对性添加更多不同情况下的阴影植被图像数据可以提升分类器识别阴影植被的性能。但由于真实分类数据获取较为耗时,因此未采用此方法。

加深网络深度。VGG、GoogleNet、ResNet等网络结构均说明了在相同参数数量情况下,深层次网络可以更有效地提取特征[24-26],但由于硬件设备性能限制,暂未进行这种方法的尝试。

减弱提取阴影特征的难度。为此本文采用了两种方法:第1种方法是将RGB数据变为RGB-V数据,V通道包含着丰富的阴影与光照的信息,通过显式地提供V通道的数据,可以降低提取阴影特征的难度[11, 15]。U-Net-V的结果很好地证明了这一点。第2种方法中,通过结合U-Net与Otsu,充分利用U-Net良好的二分类结果作为基础,并结合图像在V通道下像元值统计直方图良好的双峰特征,进行二次阈值分割得到四分量。实验结果证明混合法同样可以取得更好的结果。

5 结论

为了实现从数字图像中提取植被几何四分量的目标,本文基于卷积神经网络和阈值法实现了多种算法:U-Net、U-Net-V、SHAR-LABFVC、二次阈值法、混合法。U-Net和U-Net-V是采用卷积神经网络的算法,其输入为RGB数据或者RGBV数据,通过融合浅层特征和深层特征的方法提升图象语义分割精度;SHAR-LABFVC和二次阈值法属于直方图阈值方法。SHAR-LABFVC用于提取植被和土壤两种分量,在此基础上使用Otsu对V通道图像数据再次进行阈值分割得到四分量,即二次阈值法。最后,本文使用U-Net结合Otsu实现一种混合算法,该方法中使用U-Net获取植被与土壤的分类结果,再用Otsu获取四分量。

实验结果表明,U-Net算法二分类正确率是91%,比传统阈值法高6%,植被类别F1 Score比SHAR-LABFVC高0.07,土壤类别F1 Score比SHAR-LABFVC高0.03。同时,我们发现U-Net可以有效改善对镜面反射像元的分类效果,提升二分类精度。因此U-Net与传统阈值法相比具有更好的鲁棒性。在四分量提取算法中,U-Net-V和混合法具有最好的相关系数和RMSE,可以有效地从下视图像中提取几何光学四分量。所以,在实际应用中,为了获取更高的精度,推荐采用U-Net-V或混合法获取四分量。

虽然使用CNN结构的算法取得了最好的实验结果,但与传统阈值法相比,深度学习算法需要一定数量的训练数据,这是一个比较耗时的工作。此外,本文实验数据中的植被类型为玉米,当面临其他植被类型的数据时,可能需要扩充训练数据集或尝试迁移学习。因此,为了提升模型的泛化性能,迁移学习也是今后的研究方向之一。

参考文献

  • [1] Wang J G, Zhao F, Li H, et al. Sunlit coponents' fractions and gap fraction of canopies based on POV-ray[J]. Journal of Remote Sensing, 2010, 14(2): 232–251. [王剑庚, 赵峰, 李虎, 等. POV-ray应用于冠层可视光照和阴影组分比例变化分析[J]. 遥感学报, 2010, 14(2): 232–251. ] [DOI:10.11834/jrs.20100203]
  • [2] Li X W, Strahler A H. Geometric-optical modeling of a conifer forest canopy[J]. IEEE Transactions on Geoscience and Remote Sensing, 1985, GE-23(5): 705–721. [DOI:10.1109/TGRS.1985.289389]
  • [3] Yang H, Li X W, Gao F. An algorithm for the retrieval of albedo from space using new GO kernel-driven BRDF model[J]. Journal of Remote Sensing, 2002, 6(4): 246–251. [杨华, 李小文, 高峰. 新几何光学核驱动BRDF模型反演地表反照率的算法[J]. 遥感学报, 2002, 6(4): 246–251. ] [DOI:10.11834/jrs.20020402]
  • [4] Jia K, Liang S L, Gu X F, et al. Fractional vegetation cover estimation algorithm for Chinese GF-1 wide field view data[J]. Remote Sensing of Environment, 2016, 177: 184–191. [DOI:10.1016/j.rse.2016.02.019]
  • [5] Li L, Zhang Q, Huang D F. A review of imaging techniques for plant phenotyping[J]. Sensors, 2014, 14(11): 20078–20111. [DOI:10.3390/s141120078]
  • [6] Yu Z H, Cao Z G, Wu X, et al. Automatic image-based detection technology for two critical growth stages of maize:emergence and three-leaf stage[J]. Agricultural and Forest Meteorology, 2013, 174-175: 65–84. [DOI:10.1016/j.agrformet.2013.02.011]
  • [7] Liu J G, Pattey E. Retrieval of leaf area index from top-of-canopy digital photography over agricultural crops[J]. Agricultural and Forest Meteorology, 2010, 150(11): 1485–1490. [DOI:10.1016/j.agrformet.2010.08.002]
  • [8] Liu Y K, Mu X H, Wang H X, et al. A novel method for extracting green fractional vegetation cover from digital images[J]. Journal of Vegetation Science, 2012, 23(3): 406–418. [DOI:10.1111/j.1654-1103.2011.01373]
  • [9] Song W J, Mu X H, Yan G J, et al. Extracting the green fractional vegetation cover from digital images using a shadow-resistant algorithm (SHAR-LABFVC)[J]. Remote Sensing, 2015, 7(8): 10425–10443. [DOI:10.3390/rs70810425]
  • [10] Mu X H, Hu R H, Zeng Y L, et al. Estimating structural parameters of agricultural crops from ground-based multi-angular digital images with a fractional model of sun and shade components[J]. Agricultural and Forest Meteorology, 2017, 246: 162–177. [DOI:10.1016/j.agrformet.2017.06.009]
  • [11] Guo W, Rage U K, Ninomiya S. Illumination invariant segmentation of vegetation for time series wheat images based on decision tree model[J]. Computers and Electronics in Agriculture, 2013, 96: 58–66. [DOI:10.1016/j.compag.2013.04.010]
  • [12] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84–90. [DOI:10.1145/3065386]
  • [13] Schmidhuber J. Deep learning in neural networks:an overview[J]. Neural Networks, 2015, 61: 85–117. [DOI:10.1016/j.neunet.2014.09.003]
  • [14] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770-778.[DOI: 10.1109/Cvpr.2016.90]
  • [15] Khan S H, Bennamoun M, Sohel F, et al. Automatic feature learning for robust shadow detection[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 1939-1946.[DOI: 10.1109/CVPR.2014.249] http://www.researchgate.net/publication/262380239_Automatic_feature_learning_for_robust_shadow_detection
  • [16] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640–651. [DOI:10.1109/TPAMI.2016.2572683]
  • [17] Ronneberger O, Fischer P, Brox T. U-net: convolutional networks for biomedical image segmentation[C]//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer, 2015.[DOI: 10.1007/978-3-319-24574-4_28]
  • [18] Li H. Statistical Learning Method[M]. Beijing: Tsinghua University Press, 2012. [ 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012.]
  • [19] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//Proceedings of the 13th International Conference on Artificial Intelligence and Statistics, Sardinia, Italy: PMLR. 2010: 249-256.
  • [20] Goodfellow I, Bengio Y, Courville A. Deep Learning[M]. Zhao S J, trans. Beijing: The People's Posts and Telecommunications Press, 2017. [伊恩·古德费洛, 约书亚·本吉奥, 亚伦·库维尔.深度学习[M].赵申剑, 译.北京: 人民邮电出版社, 2017.]
  • [21] Chen L C, Papandreou G, Kokkinos I, et al. DeepLab:semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834–848. [DOI:10.1109/TPAMI.2017.2699184]
  • [22] Li Y Y, Xu Y L, Ma S P, et al. Saliency detection based on deep convolutional neural network[J]. Journal of Image and Graphics, 2016, 21(1): 53–59. [李岳云, 许悦雷, 马时平, 等. 深度卷积神经网络的显著性检测[J]. 中国图象图形学报, 2016, 21(1): 53–59. ] [DOI:10.11834/jig.20160107]
  • [23] Salamon J, Bello J P. Deep convolutional neural networks and data augmentation for environmental sound classification[J]. IEEE Signal Processing Letters, 2017, 24(3): 279–283. [DOI:10.1109/LSP.2017.2657381]
  • [24] Szegedy C, Liu W, Jia Y Q, et al. Rabinovich. Going deeper with convolutions[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015.[DOI: 10.1109/CVPR.2015.7298594]
  • [25] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL].2019-01-07]. https://arxiv.org/pdf/1409.1556.pdf.
  • [26] He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016.[DOI: 10.1109/Cvpr.2016.90] http://www.computer.org/csdl/proceedings/cvpr/2016/8851/00/8851a770-abs.html