发布时间: 2020-05-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190379
2020 | Volume 25 | Number 5

遥感图像处理

融合累积变异比和集成超限学习机的高光谱图像分类

尹玉萍¹, 魏林², 刘万军³

1. 辽宁工程技术大学电气与控制工程学院, 葫芦岛 125105;

2. 辽宁工程技术大学基础教学部, 葫芦岛 125105;

3. 辽宁工程技术大学软件学院, 葫芦岛 125105

收稿日期: 2019-08-13; 修回日期: 2019-10-12; 预印本日期: 2019-10-19

基金项目: 国家自然科学基金项目（61172144）；辽宁省教育厅科学技术研究项目（LJ2017QL021）；辽宁工程技术大学博士启动基金项目（19-1026）

第一作者简介: 尹玉萍, 1981年生, 女, 讲师, 主要研究方向为模式识别与人工智能、图像处理。E-mail:315227336@qq.com;
刘万军, 男, 教授, 主要研究方向为模式识别与人工智能、图像处理。E-mail:weilin-1031@163.com.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2020)05-1053-16

摘要

目的高光谱图像具有高维度的光谱结构，而且邻近波段之间往往存在大量冗余信息，导致在随机样本选择策略和图像分类过程中出现选择波段算法复杂度较高和不适合小样本的现象。针对该问题，在集成学习算法的基础上，考虑不同波段在高光谱图像分类过程中的作用不同，提出一种融合累积变异比和超限学习机的高光谱图像分类算法。方法定义波段的累积变异比函数来确定各波段在分类算法的贡献程度。基于累积变异比函数剔除低效波段，并结合空谱特征进行平均分组加权随机选择策略进行数据降维。为了进一步提高算法的泛化能力，对降维后提取的空谱特征进行多次样本重采样，训练得到多个超限学习机弱分类器，再将多个弱分类器的结果通过投票表决法得到最后的分类结果。结果实验使用Indian Pines、Pavia University scene和Salinas这3种典型的高光谱图像作为实验标准数据集，采用支持向量机（support vector machine，SVM），超限学习机（extreme learning machine，ELM），基于二进制多层Gabor超限学习机（ELM with Gabor，GELM），核函数超限学习机（ELM with kernel，KELM），GELM-CK（GELM with composite kernel），KELM-CK（KELM with composite kernel）和SS-EELM（spatial-spectral and ensemble ELM）为标准检测算法验证本文算法的有效性，在样本比例较小的实验中，本文算法的总体分类精度在3种数据集中分别为98.0%、98.9%和97.9%，比其他算法平均分别高出9.6%和4.7%和4.1%。本文算法耗时在3种数据集中分别为15.2 s、60.4 s和169.4 s。在同类目标空谱特性差异较大的情况下，相比于分类精度较高的KELM-CK和SS-EELM算法减少了算法耗时，提高了总体分类精度；在同类目标空谱特性相近的情况下，相比于其他算法，样本数量的增加对本文算法的耗时影响较小。结论本文算法通过波段的累积变异比函数优化了平均分组波段选择策略，针对各类地物目标分布较广泛并且同类目标空谱特性差异较大的高光谱数据集，能够有效提取特征光谱维度的差异性，确定参数较少，总体分类效果较好。

关键词

高光谱图像; 超限学习机; 累积变异比; 投票表决; 分类

Ensemble extreme learning machine with cumulative variation quotient for hyperspectral image classification

Yin Yuping¹, Wei Lin², Liu Wanjun³

1. School of Electrical and Control Engineering, Liaoning Technical University, Huludao 125105, China;

2. Department of Basic Education, Liaoning Technical University, Huludao 125105, China;

3. School of Software, Liaoning Technical University, Huludao 125105, China

Supported by: National Natural Science Foundation of China (61172144)

Abstract

Objective Hyperspectral remote sensing has become a promising research field and is applied to various aspects. Hyperspectral image classification has become a key part of hyperspectral image processing. However, high-dimensional data structures bring new challenges for hyperspectral image classification. In particular, problems may occur in the feature extraction and classification process of a hyperspectral image dataset, e.g., the Hughes phenomenon, because of the unbalance between the high-dimensionality of the data and the limited number of training samples. To improve the accuracy of hyperspectral image classification, we propose a hyperspectral image classification algorithm based on ensemble extreme learning machine (ELM) with cumulative variation quotient, referred to as EELM with cumulative variation quotient (CVQ-EELM). Method In this study, the coefficient of variation is usually used as the index to show the data dispersion. Compared with the standard deviation, its main advantage is that it is not affected by the measurement scale. In particular, the coefficient of variation takes into account the influence of the average value of the data. The coefficient of variation is improved and applied to the dimensionality reduction of the HIS dataset. First, the cumulative variation functions of the intraclass and the interclass and the cumulative variation quotient are proposed. In actual operation, some pixels may contain multiple ground objects, while the gray values of the intraclass are quite different. Therefore, the cumulative variation function of the interclass and the cumulative variation function of the intraclass should be comprehensively considered to define the cumulative variation quotient function of bands. On the premise of the same band, the quotient of the norm of the interclass' cumulative variation function and the sum of the norm of the intraclass' cumulative variation function is called the cumulative variation quotient of the band. If the cumulative variation quotient of the band is far from 1, it means that the classification effect is better by using this band. If the cumulative variation quotient of band is close to 1, it means that the classification effect is poor by using this band. The inefficient bands are eliminated on the basis of the cumulative variation quotient function. Second, to provide the input information of hyperspectral bands for ELM and considering the strong correlation relationship between neighboring bands, average grouping is performed for the remaining effective bands after eliminating the inefficient bands. A certain number of bands are then selected by the weighted-random-selecting-based approach to reduce the dimension of the hyperspectral image dataset. Specifically, the hyperspectral bands are grouped on average and then the weights of each group are calculated based on the cumulative variation quotient. The bands of each group are selected randomly according to their weights. Finally, the spatial spectral features extracted after dimensionality reduction are sampled repeatedly to train several weak ELM classifiers. The results of several weak classifiers are majority voted to build a strong classifier. Result Three well-known HIS datasets (Indian Pines, Pavia University scene, and Salinas) are used to verify the effectiveness of the proposed method. SVM (support vector machine), ELM, GELM (ELM with Gabor), KELM (ELM with kernel), GELM-CK (GELM with composite kernel), KELM-CK (KELM with composite kernel), and SS-EELM (spatial-spectral and ensemble ELM) serve as the benchmark algorithms to measure the performance of the proposed CVQ-EELM. SVM, ELM, GELM, and KELM methods use only spectral features. Although SVM and KELM introduce the kernel function and increase the computational cost, SVM and KELM have better classification performance than ELM and GELM. GELM-CK, KELM-CK, SS-EELM, and CVQ-EELM methods incorporate the spatial information into the spectral information. The four spatial-spectral-feature-based methods show better classification performance than the four spectral-feature-based methods. Further analysis shows that the classification capacities of KELM-CK, SS-EELM, and CVQ-EELM are better than that of GELM-CK. However, KELM-CK, SS-EELM, and CVQ-EELM are amenable to more time cost than GELM-CK. For example, in three typical HIS datasets, KELM-CK method consumes classification times up to 15.8 s, 143 s, and 54.6 s, respectively. Although SS-EELM avoids referencing kernel functions, SS-EELM based on the ensemble extreme learning machines also has a large operation time, equal to 32.4 s, 85.5 s, and 171 s. The proposed CVQ-EELM only needs 15.2 s, 60.4 s, and 169.4 s to do so. The time-consuming characteristic of the SS-EELM and CVQ-EELM algorithms is related to the number of weak classifiers. Specifically, the greater the number of weak classifiers, the more time-consuming the algorithm will take. Compared with KELM-CK, the time-consuming growth rates of SS-EELM and CVQ-EELM are smaller with an increasing number of samples. When the spatial-spectral features of the same category are quite different, the proposed CVQ-EELM outperforms KELM-CK and SS-EELM. For example, in two typical HIS datasets (Indian Pines and Pavia University scene), overall accuracy (OA) of the proposed CVQ-EELM is 98.0% and 98.9%, respectively; OA of KELM-CK is 97.8% and 98.8%, respectively; and OA of SS-EELM is 97.2% and 98.6%, respectively. The computational cost of CVQ-EELM is also still lower than that of SS-EELM in two typical HIS datasets. According to the above experimental comparison, the computational cost of CVQ-EELM is similar to that of KELM-CK in the Indian Pines dataset. However, the classification accuracy of CVQ-EELM is higher than that of KELM-CK. Especially in the Pavia University dataset, the computational cost of CVQ-EELM is still low, approximately 2.5 times faster than KELM-CK. Moreover, the classification accuracy of CVQ-EELM is higher than KELM-CK. Therefore, the proposed CVQ-EELM has the best classification performance among all the classification algorithms. Conclusion The conclusion shows that the proposed algorithm optimizes the band selection strategy of average grouping through the cumulative variation quotient function. For hyperspectral data sets with a wide distribution of various objects and a large difference in spatial-spectral features of similar objects, the characteristics of spectral differences can be extracted effectively. The proposed CVQ-EELM has the advantages of few adjustable parameters and fast training speed. It also outperforms various state-of-the-art hyperspectral image classification counterparts in terms of classification accuracy.

Key words

hyperspectral image; extreme learning machine (ELM); cumulative variation ratio; voting; classification

0 引言

遥感技术在20世纪后半叶取得了迅猛发展，在理论、技术及应用方面发生了重大变化，高光谱图像遥感技术是其中十分重要的一个方面(张号逵等，2018)。高光谱数据具有更丰富的连续谱段信息，增强了空间信息、光谱信息和辐射信息识别目标区域的能力(Zhao和Du，2016)，广泛应用于环境监测(姚阔等，2016)、岩矿物质识别(张康等，2018)、精准农业(Gevaert等，2014)及军事目标监测(唐意东等，2017)等领域。研究高光谱图像分类可以更好地挖掘图像的深层信息。但是高维度的光谱结构也为高光谱图像处理带来了新的挑战，由于邻近波段之间往往存在大量冗余信息，高维度的数据结构往往会导致Hughes现象，即小样本数目与高光谱维数之间的矛盾，并且会增加存储空间与算法计算复杂度上的负担，因此如何在训练样本数量有限的情况下达到理想的分类精度仍然是一项具有挑战性的任务。针对这一问题，研究者提出了一些较为有效的方法，如主成分分析(张筱晗等，2017)、分段自动编码器(Zabalza等，2016)、奇异谱分析(Qiao等，2017)、深度学习(Windrim等，2018)等进行降维，并特征提取有效波段进行后续分类，对高光谱有良好的分类效果，较好地避免了Hughes现象。另外一些典型算法中，支持向量机(support vector machine，SVM)在高光谱图像空谱综合分类模型中，对几何特征空间下的超像元分割与光谱特征空间下的子空间投影，采用分割后进行特征融合的处理方式，将像元级别转换为面向对象的超像元级别，实现高光谱图像空谱综合分类，得到较高的高光谱图像分类精度(冉琼等，2018)。另外基于核的算法(Fauvel等，2012)、基于超限学习机的算法(Li等，2017)，都在高光谱图像分类方面有很好的应用效果。

在这些算法中，超限学习机(extreme learning machine, ELM)最为引人关注，它是一种单隐层前馈神经网络，由于网络输入权重和隐层节点参数随机选取，因此得到输出权重矩阵, 并通过求解隐含层输出权重的伪逆即可建立网络(刘阳阳等，2017)。同传统BP(back propagation)神经网络和支持向量机等分类器相比，ELM计算速度较快，可调参数少，具有更好的识别效率和泛化能力。由于ELM具有这些显著优势，研究者对ELM进行了广泛研究。Cervellera和Macciò(2017)利用基于超限学习机的方法来解决密度估计问题；Huang等人(2012)将超限学习机应用于多种分类领域。然而，原始超限学习机算法只利用了光谱信息，对高光谱图像分类精度不高。为了克服这一缺点，研究者对ELM进行了改进。Li等人(2015)利用差分进化方法优化超限学习机的参数，提高了高光谱图像的分类精度。刘艳霞等人(2015)提出了空谱特征和超限学习机相结合的高光谱图像分类方法，提高了高光谱图像的分类精度。Zhou等人(2015)提出了两种基于空谱特征复合核的ELM改进算法用于高光谱图像分类，获得更好的性能。其中，每个像素同时包含空间特征和光谱特征，空间特征定义为提取的相邻像素的均值，核函数由激活函数和高斯函数构成。但是，这种改进的ELM算法不能捕捉准确的空间信息，分类精度还有待提高。Cao等人(2017)提出的方法用于学习光谱分类器，并基于循环信念传播对空间信息进行建模，从而提高分类精度，该方法具有突出的分类性能，但计算复杂度较高。Samat等人(2014)建立了集成超限学习机算法，但由于对训练集采用重采样的方式训练弱分类器，对训练集较少情况下的分类问题效果不理想。谷雨等人(2018)提出了联合空谱特征，并采用平均分组随机抽样方法进行高光谱数据降维，该方法计算复杂度较低且容易实现，但并没有考虑每一组波段对高光谱数据分类的贡献程度，导致将每一组样本等同看待，没有对样本进行优化选择处理，从而影响了算法的计算效率。

为使分类算法避免较高复杂度，能有效选择用于分类的波段，更适合于小样本情况，本文提出融合累积变异比和集成超限学习机的高光谱图像分类算法(ensemble extreme learning machine with cumulative variation quotient，CVQ-EELM)。算法首先定义波段的累积变异比函数，根据高光谱的原始谱特征数据计算各波段的累积变异比函数值，该函数能够显著反映该波段对分类的贡献程度大小，剔除贡献程度较低的波段；然后对余下的有效波段进行平均分组，并基于波段的累计变异比函数计算每组波段的权值，并以此优化样本的选择进行数据降维；最后提取降维后的空谱特征数据，采用超限学习机得到若干个弱分类器，将这些弱分类器的分类结果通过投票表决得到最终的分类结果。为了验证算法的有效性，采用了3个典型的高光谱数据集进行算法的性能测试。

1 超限学习机基本原理

超限学习机是一种单隐层前馈神经网络，只要激励函数能够在任何实数范围内无限可微，就不需要调整随机初始化的${\omega _i}$和${b_{i}}$，也无需输出层的偏置，只要通过正则化原理求出权值${\beta _i}$，就可以逼近任意连续系统，几乎不需要学习(梅颖和卢诚波，2019)。与传统的BP神经网络比较，ELM网络没有输出层偏置，输入权值${\omega _i}$及隐层偏置${b_{i}}$也就不需要调整，ELM网络只需要确定权值${\beta _i}$即可。

假设有$α$组随机样本对(${\mathit{\boldsymbol{P}}_{i}}$, ${\mathit{\boldsymbol{Y}}_{i}}$), $i$=1, 2, …, $a$。式中，${\mathit{\boldsymbol{P}}_i} = {\left[ {{x_{i1}}, {x_{i2}}, \cdots, {x_{im}}} \right]^{\rm{T}}}$，输出目标向量记为${\mathit{\boldsymbol{Y}}_i} = {\left[ {{t_{i1}}, {t_{i2}}, \cdots, {t_{in}}} \right]^{\rm{T}}}$，$m$, $n$表示ELM网络输入节点及输出节点的个数，则ELM的输出模型为

$ \begin{array}{*{20}{c}} {{\mathit{\boldsymbol{O}}_i} = \sum\limits_{j = 1}^n {{\beta _j}} g\left({{\omega _{ij}} \cdot {P_i} + {b_j}} \right)}\\ {i = 1, 2, \cdots, m, j = 1, 2, \cdots, n} \end{array} $

(1)

式中，${\beta _j}$为第$j$个隐层节点连接输出层的权值，${\mathit{\boldsymbol{O}}_{i}}$为第$i$组样本输出向量，${\mathit{\boldsymbol{Y}}_{i}}$为第$i$组样本标签，${\omega _{ij}}$为输入层节点连接隐含层节点的权值，$g$(·)是激励函数，本文选择Sigmoid函数。若记$\mathit{\boldsymbol{b}} = {\left({{b_1}, {b_2}, \cdots, {b_n}} \right)^{\rm{T}}}$为隐层节点连接输出层的权值矩阵，$\mathit{\boldsymbol{Y}} = \left({{\mathit{\boldsymbol{Y}}_1}, {\mathit{\boldsymbol{Y}}_2}, \cdots, {\mathit{\boldsymbol{Y}}_m}} \right)$为样本标签矩阵，则ELM优化的目标函数为

$ \mathop {\min }\limits_\beta \left\| {\mathit{\boldsymbol{H\beta }} - \mathit{\boldsymbol{Y}}} \right\| $

式中，$\mathit{\boldsymbol{H}}$表示ELM网络的隐层输出矩阵，且

$ \mathit{\boldsymbol{H}} = {\left[ {\begin{array}{*{20}{c}} {g\left({{\omega _1} \cdot {\mathit{\boldsymbol{P}}_1} + {b_1}} \right)}&{g\left({{\omega _2} \cdot {\mathit{\boldsymbol{P}}_1} + {b_2}} \right)}& \cdots &{g\left({{\omega _n} \cdot {\mathit{\boldsymbol{P}}_1} + {b_n}} \right)}\\ {g\left({{\omega _1} \cdot {\mathit{\boldsymbol{P}}_2} + {b_1}} \right)}&{g\left({{\omega _2} \cdot {\mathit{\boldsymbol{P}}_2} + {b_2}} \right)}& \cdots &{g\left({{\omega _n} \cdot {\mathit{\boldsymbol{P}}_2} + {b_n}} \right)}\\ \vdots &{}&{}&{}\\ {g\left({{\omega _1} \cdot {\mathit{\boldsymbol{P}}_m} + {b_1}} \right)}&{g\left({{\omega _2} \cdot {\mathit{\boldsymbol{P}}_m} + {b_2}} \right)}& \cdots &{g\left({{\omega _n} \cdot {\mathit{\boldsymbol{P}}_m} + {b_n}} \right)} \end{array}} \right]_{m \times n}} $

为了确定目标函数的最优参数，采用林宇鹏等人(2018)提出的算法确定参数(${\omega _{ij}}$, ${b_j}$)，然后采用最小二乘法确定${\mathit{\boldsymbol{\hat \beta }}}$，使得$\left\| {\mathit{\boldsymbol{H\hat \beta }} - \mathit{\boldsymbol{Y}}} \right\| = \min \left\| {\mathit{\boldsymbol{H\beta }} - \mathit{\boldsymbol{Y}}} \right\|$成立。${\mathit{\boldsymbol{\hat \beta }}}$的计算式为

$ \mathit{\boldsymbol{\hat \beta }} = {\mathit{\boldsymbol{H}}^ + } \cdot Y $

(2)

式中，${\mathit{\boldsymbol{H}}^ + }$是隐层输出矩阵$\mathit{\boldsymbol{H}}$对应的广义逆矩阵。当参数确定完成后，采用式(1)可以计算出对应输出。

2 CVQ-EELM模型

2.1 标准化数据集

直接采集的高光谱数据集包含噪声、杂光和背景信息等, 对数据集进行标准化的目的是尽可能降低采集信息的高信噪比，具体方法为

$ Nor\left({x_{pq}^i} \right) = 255 \times \frac{{x_{pq}^i - \min \left({{\mathit{\boldsymbol{x}}^i}} \right)}}{{\max \left({{\mathit{\boldsymbol{x}}^i}} \right) - \min \left({{\mathit{\boldsymbol{x}}^i}} \right)}} $

(3)

式中，${x_{pq}^i}$代表图像第$i$个波段中$p$行$q$列的元素灰度值；${{\mathit{\boldsymbol{x}}^i}}$代表图像第$i$个波段像素灰度值矩阵, $Nor$代表对${x_{pq}^i}$标准化处理。

2.2 波段的累积变异函数

变异系数一般是用来表现数据离散程度的一项指标，优点是没有量纲，并且不受测量尺度的影响，在反映数据离散程度的同时兼顾了数据平均值的影响，较直接利用标准差更具有优势。本文对变异系数进行改进并综合应用于高光谱数据的降维处理，提出波段类内累积变异函数和波段整体累积变异函数的概念以及计算公式。

波段类内累积变异函数计算为

$ \begin{array}{*{20}{c}} {C{N_{ik}}(t) = \frac{{\sum\limits_{j = 1}^{t - 1} {\left| {{C_{ik}}(j + 1) - {C_{ik}}(j)} \right|} }}{{{{\bar C}_{ik}}(t)}}}\\ {2 \le t \le {T_{ik}}, 1 \le k \le {C_{LN}}} \end{array} $

(4)

$ {{\bar C}_{ik}}(t) = \frac{1}{t}\sum\limits_{j = 1}^t {{C_{ik}}} (j) $

(5)

式中，${C{N_{ik}}(t)}$为第$i$个波段第$k$个类别的累积变异函数值；${{{\bar C}_{ik}}(t)}$为第$i$个波段第$k$个类别的1~$t$样本均值；${{C_{ik}}(j)}$为第$i$个波段第$k$个类别第$j$个样本值；${{T_{ik}}}$为第$i$个波段第$k$个类别的样本容量；${{C_{LN}}}$为类别数目。

如果波段类内累积变异函数趋近于0，说明在同一个波段内表征该类别的灰度值变化较小，利用该波段进行该类别的分类研究效果较理想；如果波段类内累积变异函数远离0点，说明在同一个波段内表征该类别的灰度值变化较大，利用该波段进行该类别的分类研究效果不理想。

波段整体累积变异函数计算为

$ C{Z_i}(t) = \frac{{\sum\limits_{j = 1}^{t - 1} {\left| {{C_i}(j + 1) - {C_i}(j)} \right|} }}{{{{\bar C}_i}(t)}}, 2 \le t \le {T_i} $

(6)

$ {{\bar C}_i}(t) = \frac{1}{t}\sum\limits_{j = 1}^t {{C_i}} (j) $

(7)

式中，$C{Z_i}(t)$为第$i$个波段的累积变异函数值；${{{\bar C}_i}(t)}$为第$i$个波段的1~$t$样本均值；${{C_i}(j)}$为第$i$个波段第$j$个样本值；${T_i}$为第$i$个波段样本容量。值得注意的是波段类内累积变异函数和波段整体累积变异函数中应有${T_i} = \sum\limits_{k = 1}^{{C_{LN}}} {{T_{ik}}} $。

波段整体累积变异函数可以敏感地反映出在同一个波段内所有类别采集的像素灰度值的整体变化幅度。如果波段整体累积变异函数趋近于0，说明在同一个波段内表征不同类别之间的灰度值变化较小，利用该波段进行不同类别的分类研究效果不理想；如果波段整体累积变异函数远离0点，说明在同一个波段内表征不同类别的灰度值变化较大，利用该波段进行不同类别的分类研究效果较理想。

2.3 基于累积变异比的数据降维

由于在实际操作中，有些像素可能含有多个地物目标，类内本身灰度值变化可能相对较大，所以要综合考虑波段类内累积变异函数和波段整体累积变异函数两者的对比情况，为此引入波段累积变异比。

定义在同一个波段内，波段整体累积变异函数的范数与所有波段类内累积变异函数的范数之和的比值称为波段的累积变异比。

本文采用函数的二范数计算波段累积变异比，波段累积变异比为

$ F(i) = \frac{{{{\left\| {C{Z_i}(t)} \right\|}_2}}}{{\sum\limits_{k = 1}^{{C_{LN}}} {{{\left\| {C{N_{ik}}(t)} \right\|}_2}} }}, 1 \le i \le {B_N} $

(8)

式中，$F(i)$为第$i$个波段累积变异比的值；${B_N}$为波段数目。

波段整体累积变异函数的范数为

$ {\left\| {C{Z_i}(t)} \right\|_2} = {\left({\int_1^{{T_i}} {{{\left({C{Z_i}(t)} \right)}^2}} {\rm{d}}t} \right)^{1/2}} $

(9)

波段类内累积变异函数的范数为

$ {\left\| {C{N_{ik}}(t)} \right\|_2} = {\left({\int_1^{{T_{ik}}} {{{\left({C{N_{ik}}(t)} \right)}^2}} {\rm{d}}t} \right)^{1/2}} $

(10)

如果波段累积变异比的数值越大于1，则表明采用该波段进行高光谱遥感图像的分类研究效果越理想；如果波段累积变异比的数值越接近于1，则表明采用该波段进行高光谱遥感图像的分类研究效果越不理想。在实际编程计算时，由于波段类内累积变异函数${C{N_{ik}}(t)}$和波段整体累积变异函数${C{Z_i}(t)}$是离散取值的，计算两个函数的二范数涉及到积分运算，可以采用离散数据复合求积公式的数值计算方法求出二范数的值。

为了给超限学习机融合模型提供高光谱波段的输入信息，并考虑高光谱的相邻波段具有较强的相似性，剔除掉低效波段后，对余下的有效波段，本文采用计算复杂度较低的加权随机选择法进行波段选择。具体做法是将高光谱波段进行平均分组，在每一组中利用波段的累积变异比进行该组波段的权值计算，每组选择波段的方式按照该权值进行随机选择，进一步达到降维的目的。

每组波段累积变异权值为

$ {\rho _L} = \frac{{\sum\limits_{i \in \mathit{\boldsymbol{B}}{\mathit{\boldsymbol{D}}_L}} {{F_L}} (i)}}{{\sum\limits_{i = 1}^{{B_N}} F (i)}}, 1 \le L \le {G_N} $

(11)

式中，${\rho _L}$为第$L$组波段的累积变异权值；$\sum {{F_L}\left(i \right)} $为第$L$组的波段累积变异比之和；$\sum {F\left(i \right)} $为所有的波段累积变异比之和；${G_N}$为分组个数，${\mathit{\boldsymbol{B}}{\mathit{\boldsymbol{D}}_L}}$为第$L$组波段集合。

该权值越大说明该组波段越有利于分类，从该组中选择的波段数应该越多，故在每组中随机选择的波段数目为${\rho _L}$乘以被选择的波段数目，在实际操作上要保持选择波段数目不能超过该组波段总数，并且所有被选择的信息至少要保留50%以上的有效原始信息为宜。

2.4 空谱联合特征

由于邻近的空间像素光谱特征具有一定的相似性或者属于同一类别(陈允杰等，2019)，所以为了进一步提高高光谱图像的分类精度，高光谱图像数据集通过累积变异比降维之后应当采用谱特征和空域特征的联合特征进行图像分类。将空间某个点的谱特征记为$x_{pq}^{{\rm{spe}}}$, 空间特征记为$x_{pq}^{{\rm{spa}}}$，则

$ x_{pq}^{{\rm{spa}}} = \frac{1}{{QN}}\sum\limits_{_{(p, q) \in \mathit{\boldsymbol{Q}}(p, q)}} {x_{pq}^{{\rm{spe}}}} $

式中，$QN$是空间邻域$\mathit{\boldsymbol{Q}}$($p$, $q$)含有样本的数目；$\mathit{\boldsymbol{Q}}$($p$, $q$)是${p}$行${q}$列的元素邻域。

通过谱特征${x_{pq}^{{\rm{spe}}}}$和空间特征${x_{pq}^{{\rm{spa}}}}$可以确定空谱联合特征，空谱联合特征记为${x_{pq}}$，具体为

$ {x_{pq}} = \gamma x_{pq}^{{\rm{spe}}} + (1 - \gamma)x_{pq}^{{\rm{spa}}}, \gamma \in [0, 1] $

(13)

${G}$($p$, $q$)的范围可以通过实际案例的具体情况确定，并且可以通过实验确定$\gamma $的取值。

2.5 投票法的集成超限学习机组合分类

通过波段累积变异比权值和空谱联合特征能够确定多组重采样训练样本集，利用各自重采样的训练样本集能够训练ELM分类器。将测试样本输入多个ELM分类器，这样就能得到多个ELM弱分类器的分类结果，通过投票决策规则将弱分类器集成到一起，即少数服从多数原则，计算各类别出现的概率，概率最高的类别即为测试样本的集成分类结果，这样能够有效提升高光谱图像的分类精度。

2.6 算法的操作过程

融合累积变异比和集成超限学习机的高光谱图像分类算法的具体步骤如下：

1) 标准化高光谱数据集，确定类别标签矩阵。

2) 计算波段的累积变异比函数并剔除低效波段，具体过程如下：

(1) 计算所有波段各自的类内累积变异函数并求出其二范数；

(2) 计算所有波段各自的整体累积变异函数并求出其二范数；

(3) 通过计算所有波段各自整体累积变异函数的二范数与类内累积变异函数二范数之和的比值计算所有波段的累积变异比值，确定波段的累积变异比函数；

(4) 剔除低效波段需要综合考虑3个方面：波段的累积变异比值接近1；平均分组需要的波段总数；尽量减少信息损失。剔除低效波段后，余下的波段为有效波段。

3) 加权随机选择法进行数据降维过程如下：

(1) 将得到的有效波段进行平均分组；

(2) 将每组包含的波段累积变异比函数值求和；

(3) 将所有有效波段的累积变异比函数值求和；

(4) 通过计算每组波段的累积变异比函数值之和与所有有效波段的累积变异比函数值之和的比值确定每组波段累积变异权值；

(5) 利用每组波段累积变异权值乘以随机选择波段总数得到该组被选择波段的数目，并按该数目在每组中随机抽取波段并记录其标签，将所有被选择的波段标签存入标签矢量中。

4) 联合空谱特征的集成超限学习机高光谱图像分类，过程如下：

(1) 根据得到的波段标签矢量，并利用式(12)和(13)计算所有空间点的空谱联合特征矢量形成样本空间，并确定弱分类器的数目；

(2) 在样本空间中随机选择出部分训练样本进行超限学习机学习，形成一个弱分类器；

(3) 返回步骤3)的第(5)步，重新随机选择另一组波段标签矢量，完成步骤4)的第(2)步，循环产生多个弱分类器；

(4) 将测试样本输入到多个弱分类器中得到测试结果，通过投票表决法确定最后的分类结果。

3 实验分析

实验在典型的高光谱图像数据集Indian Pines、Pavia University和Salinas上进行，采用SVM(Schölkopf和Smola，2002)，ELM(吕飞和韩敏，2018)，基于二进制多层Gabor超限学习机(ELM with Gabor，GELM)(Huang等，2012)，核函数超限学习机(ELM with kernel，KELM)，GELM-CK(GELM with composite kernel)，KELM-CK(KELM with composite kernel)(Zhou等，2015)，SS-EELM(spatial-spectral and ensemble ELM)(谷雨等，2018)为标准检测算法，与本文提出的CVQ-EELM算法进行性能对比，其中SVM、KELM和KELM-CK算法采用高斯径向基核函数，即

$ K\left({{x_i}, {x_j}} \right) = \exp \left({ - \frac{{{{\left\| {{x_i} - {x_j}} \right\|}^2}}}{{2{\sigma ^2}}}} \right) $

式中，$\sigma = {2^q}$, $q$∈{-4, -3, …, 4}，并结合网格搜索算法选择最优惩罚参数$C$和$\sigma $(Zhou等，2015)。这些算法在进行对比实验时均剔除低效波段，利用余下相同的有效波段进行对比实验。选择各类别分类精度(class accuracy，CA)、总体分类精度(overall accuracy，OA)、平均分类精度(average accuracy，AA)、kappa系数和算法耗时等5项指标进行性能测试分析。

1) Indian Pines数据集

Indian Pines数据集是使用机载传感器AVIRIS在美国印第安纳西北部获取的高光谱图像，这块种有印第安松树的实验区域包含16类地物，空间分辨率为25 m，原始图像大小为145 × 145像素，每个像元对应220个波段，光谱波长变化范围为0.4~2.5 μm。由于有些类别的样本数目较少，实验随机选择每个类别10%的样本数目进行训练，其余样本进行测试。各对比算法及本文算法在Indian Pines数据集上的分类精度及其他指标如表 1所示。

表 1 各算法在Indian Pines数据集上的分类精度标准差及其他指标
Table 1 Classification accuracy and other indicators of different algorithms on Indian Pines dataset

下载CSV

/%
图像类别	样本数量		算法
图像类别	训练	测试	SVM	ELM	GELM	KELM	GELM_CK	KELM_CK	SS-EELM	本文
Alfalfa	5	41	72.6±8.69	45.2±12.7	26.6±17.9	71.5±10.9	95.9±4.37	95.2±12.0	95.3±3.50	97.0±3.50
Corn-notill	143	1 285	84.6±1.47	74.5±3.57	80.5±1.15	83.8±1.80	96.9±1.36	96.8±0.66	96.7±0.65	97.8±0.64
Corn-mintill	83	747	76.8±4.98	58.8±2.37	57.9±3.25	71.4±4.16	97.2±1.59	98.5±0.60	97.8±1.44	98.7±1.12
Corn	24	213	76.8±6.69	41.0±5.78	38.6±7.44	66.9±6.13	96.4±2.58	95.5±2.90	95.9±0.86	98.0±0.66
Grass-pasture	48	435	92.8±1.25	85.1±4.28	88.5±1.96	91.9±1.98	97.0±1.41	97.4±1.54	96.9±1.63	96.4±1.45
Grass-trees	73	657	96.1±1.28	93.9±1.37	96.4±0.99	96.3±1.43	99.2±0.37	99.0±0.27	98.7±0.36	98.6±0.36
Grass-pasture-mowed	3	25	79.6±9.68	10.9±3.44	5.79±8.01	64.6±16.2	86.6±9.58	94.2±11.6	92.7±8.96	94.1±8.78
Hay-windrowed	48	430	97.8±0.87	98.2±0.26	99.3±0.18	98.6±0.45	99.3±0.17	99.4±0.27	98.8±0.12	99.2±0.13
Oats	2	18	72.9±20.3	9.8±6.97	3.51±5.34	56.8±20.2	56.8±26.3	49.2±20.8	54.2±16.3	76.9±16.1
Soybean-notill	97	875	78.5±4.96	65.3±4.58	65.1±2.58	87.8±3.08	96.0±1.49	96.1±0.79	96.0±1.42	97.3±1.02
Soybean-mintill	246	2 209	85.9±1.67	76.6±1.50	80.1±2.28	85.9±2.45	98.4±0.41	98.4±0.48	98.2±0.37	98.9±0.38
Soybean-clean	59	534	83.2±2.59	64.4±3.62	75.3±4.62	81.4±3.09	97.1±1.12	96.9±1.42	96.9±0.68	98.7±0.68
Wheat	21	184	98.3±0.91	97.9±0.88	99.2±0.26	98.8±0.52	99.5±0.11	99.5±0.13	98.8±0.56	98.2±0.38
Woods	127	1 138	95.7±1.69	91.5±1.91	95.4±1.34	96.0±1.15	99.0±0.47	99.4±0.27	98.9±0.09	99.3±0.09
Buildings-Grass-Trees-Drives	39	347	58.0±4.04	59.1±6.10	62.6±3.61	63.7±4.74	95.4±2.61	98.4±2.56	96.1±1.26	99.1±0.24
Stone-Steel-Towers	9	84	89.8±4.85	39.5±11.2	68.5±9.98	80.2±4.81	93.0±3.62	94.5±10.3	93.1±4.06	92.9±5.07
总体分类精度(OA)/%			86.0±0.58	75.9±0.79	79.1±0.65	85.2±0.33	97.6±0.15	97.8±0.27	97.2±0.25	98.0±0.24
平均分类精度(AA)/%			83.7±1.64	63.2±1.14	65.1±1.82	80.5±2.01	94.0±1.36	94.3±1.22	94.1±1.21	96.3±1.34
kappa系数($\kappa $)			84.2±0.81	72.3±0.87	76.2±0.79	83.1±0.36	97.2±0.19	97.5±0.33	96.9±0.27	94.7±0.28
算法耗时/s			46.6±1.49	0.22±0.01	0.89±0.06	4.93±0.07	2.45±0.05	15.8±0.13	32.4±0.03	15.2±0.03
注：加粗字体表示每行最优值。

图 1是Indian Pines数据集第173波段生成的伪彩色图和真实地物分布情况及对应16个类别的颜色对照图。为了详细描述累积变异比的作用，选择173和220波段进行对比分析。图 2是173波段的累积变异函数曲线，波段整体累积变异函数相比于波段类内累积变异函数的波动幅度明显偏大，波段累积变异比为3.455 9，说明该波段16个类别区别比较显著，易于分类。图 3是220波段的累积变异函数曲线，波段整体累积变异函数的波动幅度相比于波段类内累积变异函数的波动幅度比较接近，波段累积变异比为1.159 2，结果接近1，说明该波段不同类别区别不太显著，不易分类应当剔除。计算所有220个波段累积变异比，从中剔除波段累积变异比最接近1的24个波段，如图 4所示。

图 1 Indian Pines数据集第173波段生成的伪彩色图、真实地物图和对应颜色

Fig. 1 False color image, ground-truth map and corresponding colors based on band 173 of Indian Pines dataset

((a) false color image; (b) ground-truth map; (c) corresponding colors)

图 2 第173波段的累积变异函数曲线

Fig. 2 Cumulative variation curve of band 173

图 3 第220波段的累积变异函数曲线

Fig. 3 Cumulative variation curve of band 220

图 4 Indian Pines数据集上的波段累积变异比曲线

Fig. 4 Cumulative variation quotient curve of band on Indian Pines dataset

剔除波段的波段累积变异比如表 2所示。从剔除结果来看，剔除的波段(第1、88、104—109、150—163、219—220波段)正好包括由于水汽噪声影响的20个波段(第104—108、150—163、220波段)，结果验证了波段累积变异比用于剔除波段是有效的。在余下的196个有效波段中，为了避免有些有效波段在降维过程中漏选，将有效波段平均分成14组, 每组14个波段如图 5所示。图 5显示有效波段的累积变异比分布和分组情况，实验设定ELM分类器个数等于分组个数。每组按照波段累积变异比值进行加权随机选择波段，选择信息率至少要达到原信息的50%以上，共选出至少98个波段进行超限学习机学习，利用基于累积变异比的加权随机选择法选择每组波段的权值和样本个数如表 3所示。

表 2 剔除波段和对应波段累积变异比
Table 2 Cumulative variation quotient of eliminated bands and corresponding bands

下载CSV

波段	累积变异比
160	0.979 4
158	0.990 7
159	1.007 2
157	1.007 4
156	1.018 5
104	1.018 7
108	1.020 0
155	1.025 2
151	1.026 7
162	1.031 4
154	1.031 6
152	1.035 3
161	1.040 1
161	1.040 1
161	1.040 1
161	1.040 1
161	1.040 1
161	1.040 1
161	1.040 1
161	1.040 1
161	1.040 1
161	1.040 1
161	1.040 1
161	1.040 1

图 5 Indian Pines数据集上的平均分组情况

Fig. 5 Average grouping on Indian Pines dataset

表 3 Indian Pines数据集加权随机选择波段情况
Table 3 Selection of bands weighted random on Indian Pines dataset

下载CSV

序号	权值	个数
1	0.067 7	7
2	0.074 0	7
3	0.057 0	6
4	0.057 2	6
5	0.051 8	5
6	0.043 8	4
7	0.040 6	4
8	0.077 1	8
9	0.083 6	8
10	0.084 1	8
11	0.085 7	8
12	0.098 3	10
13	0.095 3	9
14	0.083 7	8

从表 2和图 5可以看出，波段累积变异比权值越大，该组波段越有利于高光谱分类，该组随机选择的波段个数就越多；反之，波段累积变异比权值越小，该组随机选择的波段个数就越少。这样做的好处是在尽量减少信息损失的同时，让有利于高光谱分类的波段发挥更多作用，提高光谱图像的分类精度。

按照表 1选取的样本数目和表 3加权随机选择的波段情况，本文提取空谱特征的邻域范围设定为9×9。为了确定超限学习机隐层节点的最佳数目，将谱特征和空域特征的组合系数$\gamma $先取定为0.1，然后研究不同的隐层节点数目对本文算法的总体分类精度的影响，如图 6所示。

图 6 在Indian Pines数据集上OA值与隐层节点数的关系

Fig. 6 Relation between the OA and the number of hidden nodes on Indian Pines dataset

从图 6可以看出，对于Indian Pines高光谱数据集，当隐层节点达到450后，CVQ-EELM算法的总体分类精度达到较高程度，因此CVQ-EELM算法的隐层节点设定为450。实际上当超限学习机隐层节点个数超过降维后空谱特征维数时，就能将低维空间映射为高维空间，为了更有利于后续实际应用和对比实验，超限学习机的隐层节点数目均设定为450。SS-EELM算法的其他参数参照谷雨等人(2018)提出的参数，GELM-CK和KELM-CK算法的其他参数参照Zhou等人(2015)提出的参数。

确定各算法隐层节点后，进一步确定谱特征和空域特征的组合系数$\gamma $对各算法的总体分类精度的影响，如图 7所示。

图 7 在Indian Pines数据集上OA与组合系数$\gamma $的关系

Fig. 7 Relations between the OA and the combination coefficient $\gamma $ on Indian Pines dataset

通过图 7可见，谱特征和空域特征的结合对分类精度影响较大，随着空域特征权值的不断增加，当1-$\gamma $=0.9时，各算法总体分类精度均较高，为了对比方便均选取1-$\gamma $=0.9，$\gamma $=0.1。本文算法利用训练好的若干弱分类器进行投票表决得到最后的分类结果。对比算法及本文算法对应的分类效果如图 8所示。

图 8 在Indian Pines数据集上不同方法分类图

Fig. 8 Classification maps of different methods on Indian Pines dataset

((a) SVM; (b) ELM; (c) GELM; (d) KELM; (e) GELM-CK; (f) KELM-CK; (g) SS-EELM; (h) CVQ-EELM(ours))

2) Pavia University数据集

Pavia University数据集是使用机载传感器ROSIS在意大利帕维亚上空获取的高光谱图像，包含9类地物，原始图像大小为610 × 340像素，波长范围0.43~0.86 μm，空间分辨率1.3 m，图像中每个像元都对应103个波段。实验所用训练与测试样本及各算法在Pavia University数据集的分类精度和其他指标如表 4所示。

表 4 各算法在Pavia University数据集上的分类精度及其他指标
Table 4 Classification class accuracy and other indicators of different algorithms on Pavia University dataset

下载CSV

/%
图像类别	样本数量		算法
图像类别	训练	测试	SVM	ELM	GELM	KELM	GELM_CK	KELM_CK	SS-EELM	本文
Asphalt	265	6 366	89.6±1.02	83.4±0.75	83.3±0.65	86.8±0.73	97.5±0.41	97.7±0.47	97.3±0.17	98.8±0.15
Meadows	746	17 903	94.2±0.83	92.8±0.55	91.4±0.74	94.5±0.42	99.2±0.14	99.0±0.17	98.9±0.15	99.2±0.14
Gravel	84	2 015	82.8±1.03	75.1±1.56	75.2±1.57	84.2±1.57	95.8±1.08	97.8±0.68	97.0±0.67	99.0±0.30
Trees	123	2 941	95.3±0.50	95.6±0.47	95.7±0.38	96.5±0.34	98.5±0.15	98.6±0.25	98.2±0.25	98.7±0.21
Sheets	54	1 291	97.8±0.24	97.3±1.62	97.8±1.62	98.3±0.25	98.7±0.12	99.1±0.24	98.7±0.41	99.1±0.27
Bare Soil	201	4 828	93.3±0.68	92.1±0.67	93.2±0.29	93.8±0.58	98.9±0.06	99.1±0.01	98.8±0.01	99.1±0.02
Bitumen	53	1 277	92.1±0.97	91.7±0.66	91.7±0.66	92.5±0.83	98.9±0.12	98.8±0.18	98.7±0.32	99.2±0.15
Self-Blocking Bricks	147	3 535	89.4±0.68	89.3±0.97	89.8±0.82	89.1±0.67	98.3±0.24	97.8±0.25	97.7±0.29	98.4±0.21
Shadows	38	909	97.2±0.01	97.9±0.21	98.1±0.15	98.3±0.18	98.8±0.16	98.7±0.38	98.9±0.44	98.9±0.23
总体分类精度(OA)/%			91.3±0.45	90.0±0.28	89.8±0.25	92.4±0.20	98.6±0.16	98.8±0.42	98.6±0.28	98.9±0.22
平均分类精度(AA)/%			92.4±0.16	90.6±0.21	90.7±0.17	92.7±0.23	98.3±0.15	98.6±0.44	98.2±0.45	98.9±0.33
kappa系数($\kappa $)			89.4±0.68	86.8±0.41	86.7±0.29	90.1±0.26	96.2±0.17	98.8±0.43	96.9±0.34	98.7±0.35
算法耗时/s			88.3±1.81	1.46±0.21	9.80±0.62	22.7±0.49	14.2±0.41	143.0±0.88	85.5±1.03	60.4±1.01
注：加粗字体表示每行最优值。

图 9是Pavia University数据集第11波段生成的伪彩色图和真实地物分布情况及对应9个类别的颜色对照图。由于Pavia University数据集各类别样本数目较多，在达到一定分类精度前提下，为了降低运算时间，实验随机选择每个类别4%的样本数目进行训练，其余样本进行测试。采用与在Indian Pines数据集上相同的方法处理Pavia University数据集。

图 9 Pavia University数据集第11波段生成的伪彩色图、真实地物图和对应颜色

Fig. 9 False color image, ground-truth map and corresponding colors based on band 11 of Pavia University dataset

((a) false color image; (b) ground-truth map; (c) corresponding colors)

图 10是剔除的最接近1的3个波段(第68—70波段)的累积变异比值。剔除上述3个波段后，余下的100个波段平均分成10组，每组10个波段，如图 11所示。实验设定ELM分类器个数等于分组个数，且每组按照波段累积变异比值进行加权随机选择波段，选择信息率至少要达到原信息的50%以上，共选出至少50个波段进行超限学习机学习，利用加权随机选择法选择每组波段的权值和个数见表 5所示。

图 10 Pavia University数据集上的波段累积变异比曲线

Fig. 10 Cumulative variation quotient curve of band on Pavia University dataset

图 11 Pavia University数据集上的平均分组情况

Fig. 11 Average grouping on Pavia University dataset

表 5 Pavia University数据集加权随机选择波段情况
Table 5 Selection of bands weighted random on Pavia University dataset

下载CSV

序号	权值	个数
1	0.105 7	5
2	0.120 5	6
3	0.110 3	6
4	0.093 7	5
5	0.080 3	4
6	0.074 8	4
7	0.074 6	4
8	0.101 5	5
9	0.116 0	6
10	0.122 5	6

按照表 4选取的样本数目和表 5加权随机选择的波段情况，提取空谱特征的邻域范围设定为9×9。对比算法的参数设定与Indian Pines数据集上的实验相同。图 12分析了谱特征和空域特征的组合系数$\gamma $对各算法总体分类精度的影响，谱特征和空域特征的结合同样对Pavia University数据集分类精度影响较大，随着空域特征权值不断增加，当1-$\gamma $=0.9时，各算法的总体分类精度均达到较高程度，因此各算法均选取$\gamma $=0.1。本文模型利用训练好的若干弱分类器进行投票表决得到最后的分类结果。各算法在Pavia University数据集上的分类效果如图 13所示。

图 12 在Pavia University数据集上OA与组合系数$\gamma $的关系

Fig. 12 Relations between the OA and the combination coefficient $\gamma $ on Pavia University dataset

图 13 在Pavia University数据集上不同方法分类图

Fig. 13 Classification maps of different methods on Pavia University dataset((a)SVM; (b) ELM; (c) GELM; (d) KELM; (e) GELM-CK; (f) KELM-CK; (g) SS-EELM; (h) CVQ-EELM(ours))

3) Salinas数据集

Salinas数据集是使用AVIRIS成像光谱仪在美国加利福尼亚州的Salinas山谷拍摄的图像，该图像空间分辨率为3.7 m，包含512 × 217个像素，其中背景像素56 975个，可用于分类的像素54 129个，包含16类地物。每个像元剔除不能被水反射的波段后，剩下204个波段可以利用。由于Salinas数据集各类别的样本数目较多，在达到一定分类精度的前提下，为了降低运算时间，实验随机选择每个类别2%的样本数目进行训练，其余样本集进行测试，训练与测试的样本及各算法在Salinas数据集的分类精度和其他指标如表 6所示。

表 6 各算法在Salinas数据集上的分类精度及其他指标
Table 6 Classification class accuracy and other indicators of different algorithms on Salinas dataset

下载CSV

/%
图像类别	样本数量		算法
图像类别	训练	测试	SVM	ELM	GELM	KELM	GELM_CK	KELM_CK	SS-EELM	本文
Brocoli_green_weeds_1	40	1 969	98.4±1.13	97.4±1.58	99.2±0.09	99.0±0.02	99.6±0.13	99.3±0.22	96.9±0.21	98.3±0.02
Brocoli_green_weeds_2	75	3 651	99.1±0.05	98.7±0.38	99.5±0.01	99.4±0.13	99.6±0.54	99.3±0.07	96.9±0.17	98.2±0.08
Fallow	40	1 936	98.6±1.18	97.0±3.50	93.3±1.34	98.8±0.36	99.6±0.81	99.9±0.01	97.5±0.01	98.3±0.01
Fallow_roughplow	28	1 366	99.2±0.23	94.0±4.41	98.3±0.85	98.9±0.95	99.2±0.06	98.0±0.66	95.6±0.68	97.2±0.13
Fallow_smooth	54	2 624	96.6±1.08	97.5±2.23	98.9±0.18	97.1±1.08	98.8±0.13	98.9±0.11	96.5±0.12	97.9±0.23
Stubble	79	3 880	99.0±0.02	97.7±1.23	99.4±0.04	99.4±0.25	99.6±0.18	99.6±0.02	97.2±0.02	98.3±0.01
Celery	72	3 507	99.1±0.05	99.1±0.96	99.4±0.26	99.2±0.64	99.6±0.11	98.9±0.26	96.5±0.29	98.2±0.06
Grapes_untrained	225	11 046	87.5±1.88	81.8±3.01	86.3±2.87	86.1±2.20	95.1±1.03	96.7±0.88	94.1±0.88	96.3±0.43
Soil_vinyard_develop	124	6 079	99.3±0.04	99.3±0.19	99.6±0.31	99.5±0.13	100.0±0.0	100.0±0.0	100.0±0.0	100.0±0.0
Corn_senesced_green_weeds	66	3 212	93.0±1.03	95.0±1.01	95.1±1.23	93.6±2.09	98.1±0.68	98.4±0.92	95.0±0.92	97.7±0.19
Lettuce_romaine_4wk	21	1 047	93.6±1.12	94.8±4.21	94.2±1.98	94.4±1.08	99.0±0.51	98.8±0.36	95.2±0.38	98.0±0.03
Lettuce_romaine_5wk	39	1 888	98.9±0.25	99.6±0.01	100.0±0.0	100.0±0.0	100.0±0.0	100.0±0.0	100.0±0.0	100.0±0.0
Lettuce_romaine_6wk	18	898	96.8±1.13	98.9±0.57	98.1±1.04	97.3±1.01	99.3±0.36	99.4±0.01	96.0±0.01	97.0±0.14
Lettuce_romaine_7wk	21	1 049	91.9±0.22	92.6±2.98	91.4±2.66	92.1±1.86	97.1±1.09	98.6±0.11	95.0±0.15	97.3±0.55
Vinyard_untraind	145	7 123	67.3±2.39	66.2±3.21	63.1±10.2	69.0±8.08	92.5±2.27	98.9±0.05	96.3±0.05	97.1±0.58
Vinyard_vertical_trellis	36	1 771	97.6±0.17	96.3±1.37	97.6±0.36	96.1±0.55	98.7±0.71	97.5±1.03	95.1±1.07	96.9±0.55
总体分类精度(OA)/%			91.6±0.27	90.1±0.54	91.0±2.13	91.6±6.23	97.5±0.13	98.6±0.13	96.3±0.13	97.9±0.12
平均分类精度(AA)/%			94.8±0.26	94.1±0.68	94.6±0.66	95.0±2.34	98.5±0.04	98.9±0.16	98.5±0.26	98.9±0.13
kappa系数($\kappa $			90.6±0.65	89.0±1.05	90.0±1.32	90.7±1.31	97.3±0.07	98.5±0.13	98.1±0.14	98.8±0.18
算法耗时/s			48.5±2.13	0.92±0.02	3.13±0.57	5.2±0.51	7.85±0.21	54.6±0.67	171.0±0.67	169.4±0.51
注；加粗字体表示每行最优值。

图 14是Salinas数据集第44波段生产的伪彩色图和真实地物分布情况及对应16个类别的颜色对照图。与在Indian Pines和Pavia University数据集上的实验操作相同，图 15是剔除的波段累积变异比值最接近1的4个波段(第1—3、204波段)，剔除上述波段后，余下的200个波段平均分成20组，每组10个波段，如图 16所示。实验设定ELM分类器个数等于分组个数，利用加权随机选择法选择每组波段的权值和个数如表 7所示。按照表 6选取的样本数目和表 7加权随机选择的波段情况，提取空谱特征的邻域范围同上述实验。

图 14 Salinas数据集第44波段生成的伪彩色图、真实地物图和对应颜色

Fig. 14 False color image based, ground-truth map and corresponding colors on band 44 of Salinas dataset

((a) false color image; (b) ground-truth map; (c) corresponding colors)

图 15 Salinas数据集上波段累积变异比曲线

Fig. 15 Cumulative variation quotient curve of band on Salinas dataset

图 16 Salina数据集上的平均分组情况

Fig. 16 Average grouping on Salinas dataset

表 7 Salinas数据集加权随机选择波段情况
Table 7 Selection of bands weighted random on Salinas dataset

下载CSV

序号	权值	个数
1	0.033 4	3
2	0.038 5	4
3	0.042 4	4
4	0.063 1	6
5	0.088 7	9
6	0.082 5	8
7	0.075 3	8
8	0.073 9	7
9	0.054 9	6
10	0.052 1	5
11	0.040 1	4
12	0.045 5	5
13	0.040 1	4
14	0.037 5	4
15	0.037	4
16	0.041	4
17	0.041 2	4
18	0.040 8	4
19	0.039 5	4
20	0.032 4	3

图 17分析了谱特征和空域特征的组合系数$\gamma $对各算法总体分类精度的影响，谱特征和空域特征的结合同样对Salinas高光谱数据集分类精度影响较大，随着空域特征权值的不断增加，当1-$\gamma $=0.9时，各算法总体分类精度均达到较高程度。为了对比方便各算法均选取$\gamma $=0.1。

图 17 在Salinas数据集上OA与组合系数$\gamma $的关系

Fig. 17 Relations between the OA and the combination coefficient $\gamma $ on Salinas dataset

本文模型利用训练好的若干弱分类器进行投票表决得到最后的分类结果。各算法在Salinas数据集上分类效果如图 18所示。

图 18 在Salinas数据集上不同方法分类图

Fig. 18 Classification maps of different methods on Salinas dataset

((a)SVM; (b) ELM; (c) GELM; (d) KELM; (e) GELM-CK; (f) KELM-CK; (g) SS-EELM; (h) CVQ-EELM(ours))

4) 实验结论分析

通过上述实验结果进行对比分析，对于仅采用谱特征的SVM、ELM、GELM和KELM等4种算法，由于SVM和KELM算法引入了核函数，增加了运行时间，但较ELM和GELM算法的总体分类精度有了很大提高。

当采用空域特征和谱特征联合时，GELM-CK、KELM-CK、SS-EELM和本文提出的CVQ-EELM算法的分类精度较仅采用谱特征的算法的分类精度有较大提高，KELM-CK、SS-EELM和本文算法的分类精度的各项指标总体上比GELM-CK算法要好，但KELM-CK、SS-EELM和本文算法的时间消耗较大，在Indian Pines、Pavia University和Salinas高光谱数据集分类中，KELM-CK算法耗时分别为15.8 s、143 s和54.6 s；SS-EELM算法避免引用核函数，采用集成超限学习机进行分类，耗时也较大，分别为32.4 s、85.5 s和171 s；本文算法的耗时分别为15.2 s、60.4 s和169.4 s。通过实验对比分析发现，SS-EELM和本文算法耗时与弱分类器个数正相关，弱分类器数目越多耗时越大；同时，随着训练样本数目的增加，SS-EELM和本文算法耗时较算法KELM-CK耗时的增速受到样本数目的影响要小。在Salinas高光谱数据集分类中，由于同一类别的地物目标分布相对集中，空谱特性相近，采用KELM-CK算法的分类效果略好于本文算法；但在Indian Pines和Pavia University高光谱数据集分类中，由于每一类地物目标分布较广泛，同一类别目标空谱特性差异较大，因此本文算法有效提取了特征光谱维度的差异性，优化了特征降维，相比于其他算法得到了较好的分类效果。

本文算法较SS-EELM算法提高了分类精度且减少了运行时间，总体分类精度在Indian Pines、Pavia University和Salinas高光谱数据集分类中分别为98.0%、98.9%和97.9%，较SS-EELM算法的97.2%、98.6%和96.3%要高，结合运行时间和分类精度两个方面，本文算法的运行效率高于SS-EELM算法；KELM-CK算法的总体分类精度在Indian Pines和Pavia University高光谱数据集分类中分别为97.8%和98.8%，虽然在Indian Pines高光谱数据集分类中KELM-CK与本文算法的耗时差不多，但本文算法较KELM-CK算法提高了分类精度，而在Pavia University高光谱数据集分类中，本文算法的耗时明显低于KELM-CK算法，所以在同类别目标空谱特性差异较大时，与KELM-CK算法相比，本文算法提高了运行效率。

4 结论

针对高光谱图像具有高维度的光谱结构，邻近波段之间往往存在大量冗余信息，在随机样本选择策略和图像分类过程中会出现选择波段算法复杂度较高和不适合小样本的现象，本文提出一种融合累积变异比和集成超限学习机的高光谱图像分类算法(CVQ-EELM)，按照波段累积变异比进行高光谱波段选择，在一定程度上优化了高光谱波段。在基于波段累积变异比的基础上，提出加权随机选择法确定平均分组的每组波段权值和选择波段样本个数，进一步优化波段样本的选择，并结合空谱特征提出ELM弱分类器的多数投票决策模型。与SVM、ELM、GELM、KELM、GELM-CK、KELM-CK和SS-EELM算法在Indian Pines、Pavia University和Salinas高光谱图像数据集上的实验对比验证了本文算法的有效性。与GELM-CK和KELM-CK算法不同，本文算法仅采用传统ELM模型。相比于SS-EELM算法，本文算法优化了波段和波段样本的选择，降低了模型的复杂度，提高了运行效率。

下一步研究工作将在分析不同尺度的空谱联合特征对本文算法分类精度和运行时间的影响方面展开，进一步优化特征选择，提出运行效率更高的高光谱图像分类模型。

参考文献

Cao F X, Yang Z J, Ren J C, Jiang M Y, Ling W K. 2017. Linear vs. nonlinear extreme learning machine for spectral-spatial classification of hyperspectral image. Sensors, 17(11): #2603 [DOI:10.3390/s17112603]

Cervellera C, Macciò D. 2017. An extreme learning machine approach to density estimation problems. IEEE Transactions on Cybernetics, 47(10): 3254-3265 [DOI:10.1109/TCYB.2017.2648261]

Chen Y J, Ma C Y, Sun L, Zhan T M. 2019. Edge-modified superpixel based spectral-patial kernel method for hyperspectral image classification. Acta Electronica Sinica, 47(1): 73-81 (陈允杰, 马辰阳, 孙乐, 詹天明. 2019. 基于边缘修正的高光谱图像超像素空谱核分类方法. 电子学报, 47(1): 73-81) [DOI:10.3969/j.issn.0372-2112.2019.01.010]

Fauvel M, Chanussot J, Benediktsson J A. 2012. A spatial-spectral kernel-based approach for the classification of remote-sensing images. Pattern Recognition, 45(1): 381-392 [DOI:10.1016/j.patcog.2011.03.035]

Gevaert C M, Tang J and García-Haro F J. 2014. Combining hyperspectral UAV and multispectral Formosat-2 imagery for precision agriculture applications//Proceedings of the 6th Workshop on Hyperspectral Image and Signal Processing: Evolution in Remote Sensing. Lausanne: IEEE: 1-4[DOI: 10.1109/WHISPERS.2014.8077607]

Gu Y, Xu Y, Guo B F. 2018. Hyperspectral image classification by combination of spatial-spectral features and ensemble extreme learning machines. Acta Geodaetica et Cartographica Sinica, 47(9): 1238-1249 (谷雨, 徐英, 郭宝峰. 2018. 融合空谱特征和集成超限学习机的高光谱图像分类. 测绘学报, 47(9): 1238-1249) [DOI:10.11947/j.AGCS.2018.20170476]

Huang G B, Zhou H M, Ding X J, Zhang R. 2012. Extreme learning machine for regression and multiclass classification. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 42(2): 513-529 [DOI:10.1109/TSMCB.2011.2168604]

Li J J, Du Q, Li W, Li Y S. 2015. Optimizing extreme learning machine for hyperspectral image classification. Journal of Applied Remote Sensing, 9(1): 097296 [DOI:10.1117/1.JRS.9.097296]

Li W, Wu G D, Zhang F, Du Q. 2017. Hyperspectral image classification using deep pixel-pair features. IEEE Transactions on Geoscience and Remote Sensing, 55(2): 844-853 [DOI:10.1109/TGRS.2016.2616355]

Lin Y P, Xie Z G, Xu K, Chen F, Liu L G. 2018. Fast cancer diagnosis based on extreme learning machine. Journal of University of Science and Technology of China, 48(2): 154-160 (林宇鹏, 谢智歌, 徐凯, 陈飞, 刘利刚. 2018. 基于超限学习机的快速癌症检测方法. 中国科学技术大学学报, 48(2): 154-160) [DOI:10.3969/j.issn.0253-2778.2018.02.010]

Liu Y X, Fang J J, Zhang X J, Sun J. 2015. Application of extreme learning machine in the nonlinear error compensation of magnetic compass. Chinese Journal of Scientific Instrument, 36(9): 1921-1927 (刘艳霞, 方建军, 张晓娟, 孙建. 2015. 超限学习机在磁罗盘非线性误差补偿中的应用. 仪器仪表学报, 36(9): 1921-1927) [DOI:10.3969/j.issn.0254-3087.2015.09.001]

Liu Y Y, Zhang J, Gao X J, Zhang X D, Gao J. 2017. 3D object recognition via convolutional-recursive neural network and kernel extreme learning machine. Pattern Recognition and Artificial Intelligence, 30(12): 1091-1099 (刘阳阳, 张骏, 高欣健, 张旭东, 高隽. 2017. 基于卷积递归神经网络和核超限学习机的3D目标识别. 模式识别与人工智能, 30(12): 1091-1099) [DOI:10.16451/j.cnki.issn1003-6059.201712004]

Lyu F, Han M. 2018. Hyperspectral remote sensing image classification based on deep extreme learning machine. Journal of Dalian University of Technology, 58(2): 166-173 (吕飞, 韩敏. 2018. 基于深度超限学习机的高光谱遥感影像分类研究. 大连理工大学学报, 58(2): 166-173) [DOI:10.7511/dllgxb201802009]

Mei Y, Lu C B. 2019. Adaptive weighted online extreme learning machine for imbalance data steam. Pattern Recognition and Artificial Intelligence, 32(2): 144-150 (梅颖, 卢诚波. 2019. 面向不平衡数据流的自适应加权在线超限学习机算法. 模式识别与人工智能, 32(2): 144-150) [DOI:10.16451/j.cnki.issn1003-6059.201902006]

Qiao T, Ren J C, Wang Z, Zabalza J. 2017. Effective denoising and classification of hyperspectral images using curvelet transform and singular spectrum analysis. IEEE Transactions on Geoscience and Remote Sensing, 55(1): 119-133 [DOI:10.1109/TGRS.2016.2598065]

Ran Q, Yu H Y, Gao L R, Li W, Zhang B. 2018. Superpixel and subspace projection-based support vector machines for hyperspectral image classification. Journal of Image and Graphics, 23(1): 95-105 (冉琼, 于浩洋, 高连如, 李伟, 张兵. 2018. 结合超像元和子空间投影支持向量机的高光谱图像分类. 中国图象图形学报, 23(1): 95-105) [DOI:10.11834/jig.170201]

Samat A, Du P J, Liu S C, Li J, Cheng L. 2014. E²LMs:ensemble extreme learning machines for hyperspectral image classification. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 7(4): 1060-1069 [DOI:10.1109/JSTARS.2014.2301775]

Schölkopf B, Smola A J. 2002. Learning with Kernels:Support Vector Machines, Regularization, Optimization, and Beyond. Cambridge: MIT Press

Tang Y D, Huang S C, Xue A J. 2017. Sparse representation based band selection for hyperspectral imagery target detection. Acta Electronica Sinica, 45(10): 2368-2374 (唐意东, 黄树彩, 薛爱军. 2017. 面向目标检测基于稀疏表示的波段选择方法. 电子学报, 45(10): 2368-2374) [DOI:10.3969/j.issn.0372-2112.2017.10.009]

Windrim L, Ramakrishnan R, Melkumyan A, Murphy R J. 2018. A physics-based deep learning approach to shadow invariant representations of hyperspectral images. IEEE Transactions on Image Processing, 27(2): 665-677 [DOI:10.1109/TIP.2017.2761542]

Yao K, Guo X D, Nan Y, Li K, Jiang S F, Sun T T. 2016. Research progress of hyperspectral remote sensing monitoring of vegetation biomass assessment. Science of Surveying and Mapping, 41(8): 48-53 (姚阔, 郭旭东, 南颖, 李坤, 江淑芳, 孙婷婷. 2016. 植被生物量高光谱遥感监测研究进展. 测绘科学, 41(8): 48-53) [DOI:10.16251/j.cnki.1009-2307.2016.08.010]

Zabalza J, Ren J C, Zheng J B, Zhao H M, Qing C M, Yang Z J, Du P J, Marshall S. 2016. Novel segmented stacked autoencoder for effective dimensionality reduction and feature extraction in hyperspectral imaging. Neurocomputing, 185: 1-10 [DOI:10.1016/j.neucom.2015.11.044]

Zhang H K, Li Y, Jiang Y N. 2018. Deep learning for hyperspectral imagery classification:the state of the art and prospects. Acta Automatica Sinica, 44(6): 961-977 (张号逵, 李映, 姜晔楠. 2018. 深度学习在高光谱图像分类领域的研究现状与展望. 自动化学报, 44(6): 961-977) [DOI:10.16383/j.aas.2018.c170190]

Zhang K, Hei B Q, Zhou Z, Li S Y. 2018. CNN with coefficient of variation-based dimensionality reduction for hyperspectral remote sensing images classification. Journal of Remote Sensing, 22(1): 87-96 (张康, 黑保琴, 周壮, 李盛阳. 2018. 变异系数降维的CNN高光谱遥感图像分类. 遥感学报, 22(1): 87-96) [DOI:10.11834/jrs.20187075]

Zhang X H, Yang G, Huang J H, Yang Y B. 2017. Hyperspectral images based on segmented column-and-line 2D-PCA. Computer Engineering, 43(9): 256-262 (张筱晗, 杨桄, 黄俊华, 杨永波. 2017. 基于分段行列2D-PCA的高光谱图像数据降维方法. 计算机工程, 43(9): 256-262) [DOI:10.3969/j.issn.1000-3428.2017.09.045]

Zhao W Z, Du S H. 2016. Spectral-spatial feature extraction for hyperspectral image classification:a dimension reduction and deep learning approach. IEEE Transactions on Geoscience and Remote Sensing, 54(8): 4544-4554 [DOI:10.1109/TGRS.2016.2543748]

Zhou Y C, Peng J T, Chen C L P. 2015. Extreme learning machine with composite kernels for hyperspectral image classification. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 8(6): 2351-2360 [DOI:10.1109/JSTARS.2014.2359965]