Print

发布时间: 2021-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200835
2021 | Volume 26 | Number 8




    数据集论文    




  <<上一篇 




  下一篇>> 





HSRS-SC: 面向遥感场景分类的高光谱图像数据集
expand article info 徐科杰1, 邓培芳1, 黄鸿1,2
1. 重庆大学光电技术及系统教育部重点实验室, 重庆 400044;
2. 重庆大学煤矿灾害动力学与控制国家重点实验室, 重庆 400044

摘要

目的 场景分类是遥感领域一项重要的研究课题,但大都面向高分辨率遥感影像。高分辨率影像光谱信息少,故场景鉴别能力受限。而高光谱影像包含更丰富的光谱信息,具有强大的地物鉴别能力,但目前仍缺少针对场景级图像分类的高光谱数据集。为了给高光谱场景理解提供数据支撑,本文构建了面向场景分类的高光谱遥感图像数据集(hyperspectral remote sensing dataset for scene classification,HSRS-SC)。方法 HSRS-SC来自黑河生态水文遥感试验航空数据,是目前已知最大的高光谱场景分类数据集,经由定标系数校正、大气校正等处理形成。HSRS-SC分为5个类别,共1 385幅图像,且空间分辨率较高(1 m),波长范围广(380~1 050 nm),同时蕴含地物丰富的空间和光谱信息。结果 为提供基准结果,使用AlexNet、VGGNet-16、GoogLeNet在3种方案下组织实验。方案1仅利用可见光波段提取场景特征。方案2和方案3分别以加和、级联的形式融合可见光与近红外波段信息。结果表明有效利用高光谱影像不同波段信息有利于提高分类性能,最高分类精度达到93.20%。为进一步探索高光谱场景的优势,开展了图像全谱段场景分类实验。在两种训练样本下,高光谱场景相比RGB图像均取得较高的精度优势。结论 HSRS-SC可以反映详实的地物信息,能够为场景语义理解提供良好的数据支持。本文仅利用可见光和近红外部分波段信息,高光谱场景丰富的光谱信息尚未得到充分挖掘。后续可在HSRS-SC开展高光谱场景特征学习及分类研究。

关键词

遥感; 场景分类; 高光谱图像; 基准数据集; 深度学习

HSRS-SC: a hyperspectral image dataset for remote sensing scene classification
expand article info Xu Kejie1, Deng Peifang1, Huang Hong1,2
1. Key Laboratory of Optoelectronic Technology and Systems of the Education Ministry of China, Chongqing University, Chongqing 400044, China;
2. State Key Laboratory of Coal Mine Disaster Dynamics and Control, Chongqing University, Chongqing 400044, China
Supported by: National Natural Science Foundation of China (42071302); Fundamental Research Funds for the Central Universities (2020CDCGTM002)

Abstract

Objective Remote sensing scene classification is an important research topic in remote sensing community, and it has provided important data or decision support for land resource planning, coverage mapping, ecological environment monitoring, and other real-world applications. In scene classification, extracting scene-level discriminative features is a key factor to bridge the "semantic gap" between low-level visual attributes and high-level understanding of images. Deep learning models are currently showing excellent performance in remote sensing image analysis, and many convolutional neural network (CNN)-based methods have been widely proposed in feature extraction and classification of remote sensing scene images. Although the aforementioned methods have achieved good results, they are all designed for scene images of high spatial resolution, such as University of California(UC) Merced Land-Use, WHU-RS19, scene image dataset designed by RS_IDEA Group in Wuhan University(SIRI-WHU), RSSCN7, aerial image dataset(AID), a publicly available benchmark for remote sensing image scene classification created by Northwestern Polytechnical University(NWPU-RESISC45), and optical imagery analysis and learning(OPTIMAL-31) datasets. Remote sensing data of high spatial resolution can present spatial details of ground objects. However, they contain less spectral information. As a result, their discriminative ability is relatively limited in scene classification. Hyperspectral images have abundant spectral information, and they have strong discriminative ability for ground objects. However, the existing datasets of hyperspectral images (e.g., Indian Pines, Pavia University, Washington DC Mall, Salinas, and Xiongan New Area) are mostly oriented toward pixel-level classification and are difficult to directly apply on research of scene-level image classification. Tiangong-1 hyperspectral remote sensing scene classification dataset (TG1HRSSC) is produced for scene-level image interpretation. However, the TG1HRSSC dataset is small (204 scene images) and has inconsistent image bands. A hyperspectral remote sensing dataset is constructed for scene classification (HSRS-SC) in this study to overcome the aforementioned disadvantages. The dataset can provide a good benchmark platform for evaluating intelligent algorithms of hyperspectral scene classification. Method The HSRS-SC is derived from the aerial data of the Heihe Watershed Allied Telemetry Experimental Research (HiWATER), and raw data can be downloaded from the National Tibetan Plateau/Third Pole Environment Data Center. A large-scale dataset is finally formed after calibration coefficient correction, atmospheric correction, image cropping, and manual visual annotation. To the best of our knowledge, the HSRS-SC is currently the largest hyperspectral scene dataset, and it contains 1 385 hyperspectral scene images which have been resized to 256×256 pixels. The dataset is divided into 5 categories, and the number of samples in each category ranges from 154 to 485. In the HSRS-SC dataset, each hyperspectral scene image has a high spatial resolution (1 m) and a wide wavelength range (from visible light to near-infrared, 380~1 050 nm, 48 bands), which can reflect the detailed spatial and spectral information of ground objects, including cars, roadway, buildings, and vegetation. Specifically, the blue band (450~520 nm) has a certain penetration ability to water bodies; the green band (520~600 nm) is more sensitive to the reflection of vegetation; the red band (630~690 nm) is the main absorption band of chlorophyll; the near-infrared band (760900 nm) reflects the strong reflection of vegetation, and it is also the absorption band of water bodies. The dataset will be publicly available in the near future, and it can be used for non-commercial academic research. Result This study uses three classic deep models (i.e., AlexNet, VGGNet-16, and GoogLeNet) to organize experiments under three different schemes for providing benchmark results of HSRS-SC dataset. In the first scheme, false color images are synthesized from the 19th, 13th, and 7th bands of visible light range, and then, they are fed into deep models to extract global scene features. In the second and third schemes, information of the visible light (19th, 13th, and 7th) and near-infrared (46th, 47th, and 48th) bands are comprehensively utilized by fusion approaches of addition and concatenation, respectively. In the experiments, 10 samples per class are randomly selected to finetune pre-trained CNN models, and the rest are used for test set. The experimental results on the HSRS-SC dataset show that the effective utilization of information from different bands of hyperspectral images improves the classification performance, and concatenation fusion achieves better results than addition fusion. Comparing the three CNN models shows that the VGGNet-16 model is more suitable for the HSRS-SC dataset, and the highest overall classification accuracy reaches 93.20%. Furthermore, this study shows confusion matrices of different methods. Effective use of spectral information can reduce the confusion of semantic categories given that vegetation, buildings, roads, water bodies, and rocks have great differences in absorption and reflection at different bands. This study also organizes hyperspectral scene classification experiments to further explore the advantages of hyperspectral scenes. Hyperspectral scenes have a higher accuracy advantage than RGB images under the two training samples. Conclusion The abovementioned experimental results show that the HSRS-SC dataset can reflect detailed information of ground objects, and it can provide effective data support for semantic understanding of remote sensing scenes. Although experiments in this study adopt three different schemes to utilize the information of the visible light (19th, 13th, and 7th bands) and near-infrared (46th, 47th, and 48th bands) of the hyperspectral scenes, the rich spectral information has not been fully explored. For the future work, suitable models will be designed for feature extraction and classification of hyperspectral remote sensing scenes. We will also further expand the HSRS-SC dataset to ensure its practicality by supplementing more semantic categories and the total number of samples and increasing the diversity of data.

Key words

remote sensing; scene classification; hyperspectral image; benchmark dataset; deep learning

0 引言

遥感技术的迅猛发展降低了对地观测数据的获取难度,可以为农业、军事、矿业及环境保护等各个领域应用提供重要的信息服务(童庆禧等,2016赵忠明等,2019孙伟伟等,2020)。针对日益增长的海量观测数据,设计智能化信息提取和知识挖掘的方法已然成为遥感大数据应用的必然需求(李德仁,2019袁静文等,2020肖亮等,2020)。

在遥感影像智能解译任务中,遥感场景分类是一项重要的研究课题,它可以为土地调查、城乡规划和覆盖制图等提供数据支撑(Xu等,2020a)。在场景分类任务中,根据地物特征及其空间模式,每幅场景影像被分配一个唯一的高层语义类别。因此,提取场景级鉴别特征是跨越图像低阶视觉属性与高层理解间"语义鸿沟"的关键因素。近年来,场景分类研究得到广泛开展,所提算法主要包括:基于手工特征的方法、基于非监督特征学习方法及深度学习方法(Cheng等,2018)。基于手工特征的方法依靠领域专业知识设计不同的手工特征,如结构特征、纹理特征和颜色特征等,或构建多特征融合模型(Zhu等,2016)。尽管手工特征对于简单遥感场景已经取得了不错的分类结果,但对于复杂的场景描述能力有限,难以有效提取高层语义信息,制约了分类性能的提升。基于非监督特征学习的方法可以从原始像素中自动地学习映射函数,因此可以揭示更切合遥感数据的鉴别信息(Zhang等,2015黄鸿等,2020)。由于非监督特征学习方法未利用标签信息,因此特征提取能力受到限制,不利于进一步提高分类性能。

相比于前两类方法,由数据驱动的深度学习模型可以挖掘遥感影像的高层语义信息,因此在特征提取及分类任务中展现出令人满意的性能(谭琨等,2019Huang和Xu,2019)。Chaib等人(2017)引入判别相关分析(discriminant correlation analysis,DCA) 改善并融合预训练卷积神经网络(convolutional neural network, CNN)的多层全连接(fully connected, FC)特征。He等人(2020)提出一种跳跃连接协方差网络(skip-connected covariance network, SCCov)以探索高分图像的二阶属性,并充分融合多分辨率特征图的信息。Fang等人(2019)设计一种空间域和频域联合表示模型(space- and frequency-domain joint representation,SFDJR) 用于遥感场景特征提取,该方法综合利用空间域的鉴别特征和频率域的位置鲁棒特性。

尽管上述算法取得了不错的特征提取及分类性能(Xu等,2020b),但是它们均面向高空间分辨率场景数据设计,如UC Merced Land-Use数据集(Yang和Newsam,2010)、WHU-RS19数据集(Sheng等,2012)、SIRI-WHU(scene image dataset designed by RS_IDEA Group in Wuhan University)数据集(Zhao等,2016)、RSSCN7数据集(Zou等,2015)、Brazilian Coffee Scene数据集(Penatti等,2015)、AID(aerial image dataset)数据集(Xia等,2017)、NWPU-RESISC45(a publicly available benchmark for remote sensing image scene classification created by Northwestern Polytechnical University)数据集(Cheng等,2018)和OPTIMAL-31(optical imagery analysis and learning)数据集(Wang等,2019)等。如表 1所示,这些高空间分辨率影像虽然能够呈现丰富的地物信息及空间模式,但均由RGB三通道图像构成。普通RGB彩色图像包含极为有限的光谱信息,对于纹理、形状和颜色等视觉感知类似的场景易产生错分和混淆,因此场景鉴别能力受限(刘康等,2020)。图 1展示了UC Merced Land-Use数据集中Dense Residential与Mobile Home Park两类场景的示例。由图 1可知,仅对场景中地物目标类型及空间结构进行建模难以准确地划分高层语义类别。因此,若能在保证场景较高空间分辨率的同时,引入地物光谱信息,那么将进一步提高上述场景的鉴别能力。

表 1 现有的遥感场景分类数据集
Table 1 Existing datasets for remote sensing scene classification

下载CSV
数据集 每类样本数量/幅 类别数 总数/幅 空间分辨率/m 图像大小/像素 年份 图像类型
UC Merced Land-Use(Yang和Newsam,2010) 100 21 2 100 0.3 256×256 2010 RGB
WHU-RS19(Sheng等,2012) 约50 19 1 005 0.5 600×600 2012 RGB
SIRI-WHU(Zhao等,2016) 200 12 2 400 2 200×200 2016 RGB
RSSCN7(Zou等,2015) 400 7 2 800 - 400×400 2015 RGB
Brazilian Coffee Scene(Penatti等,2015) 1 438 2 2 876 - 64×64 2015 RGB
AID(Xia等,2017) 220~420 30 10 000 8~0.5 600×600 2017 RGB
NWPU-RESISC45(Cheng等,2018) 700 45 31 500 30~0.2 256×256 2017 RGB
OPTIMAL-31(Wang等,2019) 60 31 1 860 - 256×256 2019 RGB
TG1HRSSC(刘康等,2020) 9~50 9 204 5/10/20 128×128
256×256
512×512
2020 高光谱
注:"-"表示缺少该指标数值。
图 1 UC Merced Land-Use数据集中的场景示例图
Fig. 1 Sample images of UC Merced Land-Use dataset
((a) scene of Dense Residential; (b) scene of Mobile Home Park)

高光谱数据包含详实的光谱信息,具有图谱合一、特征表达丰富等优势,可通过挖掘地物细微的光谱差异实现地物精细分类,但目前高光谱图像分类主要面向像素级地物精细建模开展(Wang等,2021罗甫林,2017Zhang等,2018)。同时,高光谱图像存在波段间相关性强、同物异谱、异物同谱和维数灾难等挑战,因此亟需对高光谱数据进行维数约简(何明一等,2013)。学者相继提出了一系列维数约简方法,主要包括: 基于统计理论的特征提取方法、基于流形学习的特征提取方法以及基于稀疏表示的特征提取等(Luo等,2020Yu等,2020)。此外,高光谱遥感影像地物呈块状分布,具有空间一致性的特性,因此联合空间信息和光谱特征可有效挖掘地物内蕴变量(Huang等,2020)。然而,上述方法仅能学习高光谱图像的浅层特征,难以提取高阶抽象特征进而挖掘地物的本征属性。

深度学习可通过层级结构逐层学习高光谱遥感影像的深层非线性抽象特征,相关模型包括堆栈自编码机、深度置信网络、循环神经网络、胶囊网络、生成对抗网络、卷积神经网络(包括1-D CNN,2-D CNN和3-D CNN)和图神经网络等(Chen等,2019Liu等,2020Rasti等,2020)。上述深度学习方法可去除无关冗余信息,挖掘不同地物的细微光谱差异,但它们面向像素级解译,缺乏对地物空间模式的提取能力。因此,仅用光谱特征难以解译场景的高层语义信息,而引入地物空间分布等信息有助于判读高层语义信息。由此可知,协同空间信息和光谱信息对场景进行建模,可以综合利用影像的光谱优势以及空间优势,从而更好地揭示不同场景的本征属性。

现有的高光谱数据集,如Indian Pines、Pavia University、Washington DC Mall、Salinas和雄安新区航空高光谱数据集(岑奕等,2020)等,影像覆盖范围较小,主要面向像素级地物精细分类, 高光谱数据难以直接应用于场景级遥感影像智能解译的相关研究。刘康等人(2020)构建了天宫一号高光谱遥感场景分类数据集(TianGong-1 hyperspectral remote sensing scene classification dataset,TG1HRSSC),但该数据集规模较小(共计204个样本),其中机场、港口、养殖塘、湖泊等5个类别样本数不足15个图像。此外,该数据集包含可见近红外、短波红外和全色3类不同谱段的影像,存在数据集波段未统一的问题。

鉴于此,本文基于轻便机载光谱成像仪(compact airborne spectrographic imager, CASI)航拍的高光谱影像,经由定标系数校正、大气校正、裁剪等预处理,构建一个较大规模的高光谱遥感场景分类数据集(hyperspectral remote sensing dataset for scene classification, HSRS-SC)。区别于高光谱图像像元精细分类,HSRS-SC数据集针对场景分类任务设计,旨在利用高光谱的光谱优势解决传统RGB图像在视觉感知类似的场景上容易错分的问题,形成空间—光谱协同表达以更好地揭示场景高层语义,进一步提升场景分类的精度。相比于现有的遥感数据集,本文构建的HSRS-SC具有如下特点:1) 波段数达到48个,波长范围为380~1 050 nm,可以提供丰富详实的光谱信息,从而提高地块的场景级鉴别能力;2) 空间分辨率达到1 m,可以展示清晰的地物细节与丰富的空间模式;3) 数据集观测范围广且规模较大,每类样本数从154~485幅不等,共计1 385幅高光谱图像;4) 选取黑河流域最具代表性的5类场景进行人工标注,能够反映黑河流域的典型地表覆盖状况。HSRS-SC数据集的构建可以为高光谱影像场景级特征提取与分类模型设计等相关研究提供重要的性能评估基准,该数据集已公开于https://pan.baidu.com/s/1PHohzpRQwf64fTRbS0l_1A

1 HSRS-SC数据集介绍

1.1 数据采集与预处理

本文构建的HSRS-SC来源于国家青藏高原科学数据中心提供的黑河生态水文遥感试验航空数据(肖青和闻建光,2017)。如图 2所示,该数据由运12飞机搭载CASI传感器以2 000 m相对高度航摄,观测区域位于甘肃省黑河中游(海拔约3 500 m)。在获取航空遥感原始数据后,经由定标系数校正、大气校正等预处理(Li等,2017),最终得到HSRS-SC数据集,流程如图 3所示。

图 2 HSRS-SC数据观测区域
Fig. 2 Observation area of the HSRS-SC dataset
图 3 航空遥感原始数据处理及标注
Fig. 3 Processing and annotation of aerial remote sensing data

1.1.1 定标系数校正

首先采用便携式地物光谱仪和全自动太阳光度计(CE318)分别测量航摄当日的地表光谱数据与辐射亮度。通过MODTRAN(moderate resolution atmospheric transmission)平台对采集的实测数据进行精确模拟,并与定标后的CASI遥感影像进行对比,最终推算出定标校正系数。定标过后辐亮度单位为:103·μw/(cm2·nm·sr)。

1.1.2 大气校正

为降低辐射误差,根据全自动太阳光度计测量的光学厚度数据模拟大气能见度,并应用ENVI(environment for visualizing images)处理平台完成数据的大气校正。校正后遥感数据为反射率×10 000。

1.1.3 数据裁剪及目视标注

构建一个较大规模的高光谱数据集便于场景特征提取及分类相关研究,本文在上述经由预处理的数据中进行图像裁剪并人工目视标注,从而形成最终的HSRS-SC数据集。黑河流域典型地形地貌主要包括山脉、河流、农田、村庄以及城市等,因此本文选择其中最具代表性的5类场景(农田、建筑、城市建筑、未利用区域和水体)作为语义类别。在裁剪过程中,图像块覆盖所有航摄区域,且尽可能选取地物目标丰富、代表性强的地块作为样本。

1.2 HSRS-SC数据集介绍

本文HSRS-SC数据集总共包含1 385幅高光谱场景图像,其尺寸均为256×256像素,划分为5个语义类别。该数据集每个类别的样本数从154~485幅不等,表 2图 4分别提供了每个语义类别的样本数与示例图像。HSRS-SC数据集中的每幅高光谱场景图像具有较高的空间分辨率(1 m)与较广的波长范围(可见光到近红外,380~1 050 nm),因此能够反映详实的地物空间信息与丰富的光谱信息。表 3为HSRS-SC高光谱影像48个波段的具体情况。

表 2 HSRS-SC数据集每类场景的图像数量
Table 2 The number of scene images per class on HSRS-SC dataset

下载CSV
类别 英文名称 图像数量/幅
农田 agriculture 485
建筑 building 234
城市建筑 city building 154
未利用区域 idle region 300
水体 water 212
总计 - 1 385
图 4 HSRS-SC数据集各类别示例图像(假彩色图通过选取第19、13、7波段合成)
(false color images are synthesized by band 19, band 13 and band 7)
Fig. 4 Examples of the constructed HSRS-SC dataset

表 3 HSRS-SC高光谱影像波段信息
Table 3 Band information of the HSRS-SC hyperspectral images

下载CSV
波段 中心波长/nm 半峰全宽/nm 波段 中心波长/nm 半峰全宽/nm 波段 中心波长/nm 半峰全宽/nm 波段 中心波长/nm 半峰全宽/nm
1 382.5 7.2 13 554.7 7.2 25 726.3 7.1 37 897.8 7.2
2 396.9 7.2 14 569.0 7.2 26 740.6 7.1 38 912.1 7.2
3 411.3 7.2 15 583.3 7.2 27 754.9 7.1 39 926.4 7.2
4 425.7 7.2 16 597.6 7.2 28 769.1 7.1 40 940.7 7.2
5 440.0 7.2 17 611.9 7.1 29 783.4 7.1 41 955.1 7.2
6 454.4 7.2 18 626.2 7.1 30 797.7 7.1 42 969.4 7.2
7 468.7 7.2 19 640.5 7.1 31 812.0 7.1 43 983.7 7.2
8 483.1 7.2 20 654.8 7.1 32 826.3 7.1 44 998.1 7.2
9 497.4 7.2 21 669.1 7.1 33 840.6 7.1 45 1 012.4 7.2
10 511.8 7.2 22 683.4 7.1 34 854.9 7.1 46 1 026.8 7.2
11 526.1 7.2 23 697.7 7.1 35 869.2 7.2 47 1 041.1 7.2
12 540.4 7.2 24 712.0 7.1 36 883.5 7.2 48 1 055.5 7.2

1.3 HSRS-SC数据特点与优势

现有的场景分类数据集大都为RGB三通道高分影像,尽管能够呈现清晰的地物细节,但包含较少的光谱信息,故鉴别能力受限。本文构建的HSRS-SC数据集相比于现有遥感场景数据集,具有如下特点与优势:

1) 数据规模大。HSRS-SC是目前已知规模最大的高光谱遥感场景分类数据集,可以为相关算法的研究提供数据支持和基准结果。

2) 类内多样性/类间相似性高。HSRS-SC中同一语义类别的场景视觉表达丰富。例如,农田类别中,不同长势、品种的植被往往具有差异较大的形态;建筑类别中,包含稀疏建筑物、稠密建筑物等不同分布;水体类别中,人工湖泊、河流(黑河)及蓄水池等在颜色、浑浊程度、水域范围和形状等方面均具有较大区别。此外,HSRS-SC还具备较高的类间相似性,在建筑与城市建筑,未利用区域与水体上具有类似的地物类型或纹理表达。

3) 信息丰富。HSRS-SC中的所有样本同时具备较高的空间分辨率和光谱分辨率。如图 5所示,在1 m的空间分辨率下,场景图像能够清晰地呈现车辆、道路、建筑和植被等地物细节信息。此外,较广的波长范围(380~1 050 nm)可以为地物类型的鉴别提供丰富的信息。如:蓝色波段(450~520 nm)对水体具有一定穿透能力;绿色波段(520~600 nm)对植被的反射较为敏感;红色波段(630~690 nm)是叶绿素的主要吸收带;近红外波段(760~900 nm) 集中反映植被的强反射,也是水体的吸收带。图 5右侧分别展示了屋顶与植被的光谱曲线,不难发现它们的趋势具有较大差异,因此可以为场景理解及鉴别提供更为详尽的特征。

图 5 场景均具有较高的空间分辨率和光谱分辨率
Fig. 5 The scenes have high spatial and spectral resolutions

4) 本文构建的HSRS-SC原始数据来源于国家青藏高原科学数据中心(http://data.tpdc.ac.cn)提供的高光谱航空影像。此外,HSRS-SC数据集已经公布,可用于非商业目的的学术研究。

2 HSRS-SC数据集验证与评估

2.1 实验方法

深度学习方法(尤其是卷积神经网络)具有强大的特征学习及分类能力。因此,本文采用3个经典的模型(AlexNet、VGGNet-16和GoogLeNet)在HSRS-SC数据集组织实验,从而为后续研究提供基准结果。

1) AlexNet(Krizhevsky等,2017)。AlexNet由Alex Krizhevsky等人在LeNet的基础上改进,并于2012年赢得ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛冠军。该模型包含5个卷积层及3个全连接层,其中第1层和第2层卷积层之后引入了局部响应归一化(local response norm,LRN)。AlexNet模型的提出与应用对计算机视觉领域的发展具有重要意义。

2) VGGNet-16 (Simonyan和Zisserman,2015)。VGGNet由牛津大学视觉几何组(Visual Geometry Group, VGG)构建,并获得了ILSVRC-2014竞赛的亚军。VGGNet包含11到19层不同深度的网络结构,其中VGGNet-16应用最为广泛。因此,本文选用VGGNet-16作为特征提取及分类模型。

3) GoogLeNet(Szegedy等,2015)。GoogLeNet是谷歌提出的一种全新的CNN架构,并于ILSVRC-2014竞赛一举夺魁。GoogLeNet采用多尺度卷积核增加网络的宽度,同时保留更详实的空间信息。相比于AlexNet和VGGNet,该网络具有更少的参数量以缓解过拟合现象。

基于上述3种CNN模型,采用3种不同方案进行实验,具体框架如图 6所示。方案1从每幅高光谱场景中选取第19 (640.5 nm) / 13 (554.7 nm) / 7 (468.7 nm)3个波段合成假彩色图,经由线性拉伸、归一化等处理后输入预训练的CNN。由于上述方法并未有效利用高光谱图像丰富的光谱信息,本文引入方案2及方案3以融合不同波段的特征。在方案2及方案3中,除了选取可见光范围(19/13/7)的3个波段,3个近红外波段(46/47/48)也被提取并合成假彩色图。两组假彩色图分别输入同一预训练CNN后,经由特征融合即可实现场景的特征提取及分类。其中,方案2采用特征加和的融合方式,而方案3采用特征级联的方式。此外,为了平衡两组假彩色图像的重要程度,本文引入一个权重$\alpha $来加权不同特征,根据实验选取0.3作为参数值。

图 6 3种不同实验方案的结构框图
Fig. 6 Structures of three different experimental schemes

2.2 实验设置

本文场景分类模型由PyTorch框架实现,实验均在一台搭载英特尔i5-8500CPU、32 GB内存及英伟达RTX 2070显卡的个人电脑中完成。3个预训练CNN模型的参数均下载于torchvision。

模型训练前,所有图像均被缩放至224×224像素。模型采用随机梯度下降法优化直到收敛,详细训练参数如表 4所示。需要说明的是,实验均未采用数据增广。

表 4 CNN模型优化参数
Table 4 Parameters employed for CNN model optimization

下载CSV
CNN 批大小 学习率(最后一层) 权重衰减 动量
AlexNet 50 0.001 (0.01) 0.000 5 0.9
VGGNet-16 25 0.001 (0.01) 0.000 5 0.9
GoogLeNet 50 0.001 (0.01) 0.000 5 0.9

在后文实验中,每类随机选取10个样本用于训练CNN模型,余下的1 335幅场景作为测试集,所有实验均重复5次以获取可靠结果。此外,本文采用总体分类精度及混淆矩阵这两种通用的度量方法来评估实验结果。

2.3 实验结果分析

基于3种预训练CNN的实验结果如表 5所示。根据表 5可知,3种CNN模型均取得了不错的分类结果,其中VGGNet-16在3种方案均取得了最好的分类结果,最高精度分别为91.67 %、92.24 %和93.20 %。比较3种不同方案可知,仅利用可见光波段信息的方案结果稍差,通过融合近红外波段(46/47/48)特征可以有效提升分类性能。此外,级联融合方式优于加和融合,这是由于级联方式对于特征的利用更为有效。

表 5 HSRS-SC数据集中不同模型的总体分类精度
Table 5 The overall classification accuracy of different models on HSRS-SC dataset

下载CSV
CNN 总体分类精度/%±方差
未融合 融合(加和) 融合(级联)
AlexNet 90.44±0.97 90.86±1.04 90.95±1.68
VGGNet-16 91.67±1.15 92.24±1.35 93.20±1.33
GoogLeNet 85.51±1.88 86.64±2.85 87.10±2.01

为了评估上述9种验证算法在HSRS-SC数据集不同语义类别的混淆情况,本文组织实验并提供了可视化混淆矩阵,具体如图 7所示。

图 7 不同方法的混淆矩阵
Fig. 7 Confusion matrices of different methods ((a) without fusion; (b) addition fusion; (c) concatenation fusion)

图 7可知,HSRS-SC数据集不同语义类别间容易产生混淆,如未利用区域—水体,建筑—城市建筑等。相比于仅利用可见光波段信息的方法,融合高光谱场景的其他波段信息可以缓解混淆情况。这是因为场景中的植被、建筑、道路、水体及岩石等地物在不同波段的吸收与反射存在较大差异,同时利用这些地物的光谱特征及空间几何属性可以有效提升分类性能。

3 高光谱全谱段分类性能评估

第2节实验中方案1对应光谱信息少的情景,方案2和方案3对应光谱信息多的情景,通过比较实验结果可知,引入更多波段的信息可以提升场景分类性能。为了进一步分析高光谱场景的鉴别能力,组织进行高光谱场景级分类实验。

高光谱图像难以匹配相应的预训练网络,故实验采用随机初始化的VGGNet-16作为模型以保证实验对比的公平性。需要说明的是,所构建的HSRS-SC数据集中高光谱场景的波段数为48,因此在进行高光谱场景分类实验中,将第1卷积层中卷积核的数量设置为48,网络其余部分无任何改动。图 8展示了传统RGB影像和高光谱场景在两种训练样本数时的对比结果。

图 8 RGB影像和高光谱场景在两种训练样本数时的对比结果
Fig. 8 Comparison results of RGB and hyperspectral scenes under two training ratios

图 8可知,在两种不同的训练样本下,采用高光谱图像优化卷积神经网络均取得最高的分类结果。这是因为相比于RGB图像,高光谱图像包含更为丰富详实的光谱特征,协同地物空间结构信息可以提取更具鉴别力的特征。

为了进一步探索高光谱场景的优势,在同一组训练/测试样本的条件下,测试集中部分易混淆样本被人工选择并分析RGB及高光谱两种模式下预测情况。图 9展示了具体情况。

图 9 测试集中部分易混淆样本在RGB及高光谱两种模式下的预测情况分析
Fig. 9 Prediction analysis of some easily confused samples in the test set under RGB and hyperspectral modes
((a) example 1; (b) example 2; (c) example 3)

图 9可知,视觉感知相似的场景在光谱维上存在很大的差异,如范例1中的农田和建筑,在纹理、颜色等低阶特征上表现一致,但在光谱曲线上表现迥异。这是因为高光谱图像能够通过不同的光谱曲线区分视觉感知相似的地物。此外,实验结果表明在易混淆的场景图像上,仅仅利用RGB三通道无法提取有效的场景鉴别特征,导致预测错误。但是,高光谱图像能够准确地预测相应的标签,取得更好的分类精度。如对范例2中的场景(水体)进行预测,RGB三通道图像预测错误(未利用区域),而高光谱图像预测正确。这说明相较于RGB图像,高光谱图像在易错分的场景上具有独特的优势。这是由于高光谱图像在提取场景的空间特征的基础上能够提供有效的光谱特征的支持,进而获得更佳的分类性能。

4 数据集应用展望

为了评估HSRS-SC数据集的分类效果,本文设计了两组实验探索高光谱场景的优势。

1) 采用AlexNet、VGGNet-16及GoogLeNet 3种典型CNN以迁移学习的形式组织实验以提供该数据集的基准精度。在该组实验中,采用3种不同的方案以利用高光谱场景的可见光(19/13/7波段)及近红外(46/47/48波段)区间的信息。

2) 采用随机初始化的VGGNet-16作为主干网络,开展高光谱场景级分类。在两种训练样本条件下均体现场景级高光谱分类的优势。

上述两组实验说明光谱特征协同地物空间结构信息可以提取更具鉴别力的特征,因此后续可以着重如下研究:

1) 融合流形学习、稀疏表示和低秩学习等理论,设计场景级高光谱图像维数约简算法,从而获取低维鉴别嵌入;

2) 面向高光谱场景,开发端到端的特征提取及分类模型,并开发通道注意力及空间注意力算法,充分利用高空间分辨率、高光谱分辨率的优势;

3) 引入图神经网络(graph neural networks, GNN),进一步挖掘高光谱场景丰富的上下文特征;

4) 设计面向高光谱场景分类的生成式对抗网络(generative adversarial networks, GAN) 以缓解模型过拟合的现象,并在少量标记训练样本下获得良好的泛化效果。

综上所述,HSRS-SC数据集可以为精细分类等场景语义理解研究提供良好的数据支持。

5 结论

本文基于国家青藏高原科学数据中心提供的黑河生态水文遥感试验航空数据,经由定标系数校正、大气校正等预处理,构建高光谱遥感场景分类(HSRS-SC)数据集。该数据集共包含1 385幅256×256像素的高光谱场景图像,分为5个类别,每个类别的样本数为154~485。数据集具有空间分辨率高(1 m)、光谱范围广(380~1 050 nm, 48个波段)的特点。本文采用3个典型CNN模型对HSRS-SC数据集进行实验,结果表明HSRS-SC可以为高光谱场景语义理解研究提供良好的数据基础。目前,高光谱场景分类研究仍处于探索阶段,相应的数据集仅有本文所提的HSRS-SC数据集和天宫一号高光谱遥感场景分类数据集,类别多样性需进一步丰富。目前,课题组已经获取基于珠海一号卫星的重庆地区高光谱遥感数据,其范围达上百平方公里。后续,将对数据集进一步扩展,增加更多的语义类别及样本总数,提高数据多源化使其更具实用价值。

致谢 本文构建的HSRS-SC数据集原始数据来源于国家青藏高原科学数据中心(http://data.tpdc.ac.cn), 在此表示衷心感谢!

参考文献

  • Cen Y, Zhang L F, Zhang X, Wang Y M, Qi W C, Tang S L, Zhang P. 2020. Aerial hyperspectral remote sensing classification dataset of Xiongan New Area (Matiwan Village). Journal of Remote Sensing, 24(11): 1299-1306 (岑奕, 张立福, 张霞, 王跃明, 戚文超, 汤森林, 张鹏. 2020. 雄安新区马蹄湾村航空高光谱遥感影像分类数据集. 遥感学报, 24(11): 1299-1306) [DOI:10.11834/jrs.20209065]
  • Chaib S, Liu H, Gu Y F, Yao H X. 2017. Deep feature fusion for VHR remote sensing scene classification. IEEE Transactions on Geoscience and Remote Sensing, 55(8): 4775-4784 [DOI:10.1109/TGRS.2017.2700322]
  • Chen Y S, Huang L B, Zhu L, Yokoya N, Jia X P. 2019. Fine-grained classification of hyperspectral imagery based on deep learning. Remote Sensing, 11(22): #2690 [DOI:10.3390/rs11222690]
  • Cheng G, Yang C Y, Yao X W, Guo L, Han J W. 2018. When deep learning meets metric learning: remote sensing image scene classification via learning discriminative CNNs. IEEE Transactions on Geoscience and Remote Sensing, 56(5): 2811-2821 [DOI:10.1109/TGRS.2017.2783902]
  • Fang J, Yuan Y, Lu X Q, Feng Y C. 2019. Robust space-frequency joint representation for remote sensing image scene classification. IEEE Transactions on Geoscience and Remote Sensing, 57(10): 7492-7502 [DOI:10.1109/TGRS.2019.2913816]
  • He M Y, Chang W J, Mei S H. 2013. Advance in feature mining from hyperspectral remote sensing data. Spacecraft Recovery and Remote Sensing, 34(1): 1-12 (何明一, 畅文娟, 梅少辉. 2013. 高光谱遥感数据特征挖掘技术研究进展. 航天返回与遥感, 34(1): 1-12) [DOI:10.3969/j.issn.1009-8518.2013.01.001]
  • He N J, Fang L Y, Li S T, Plaza J, Plaza A. 2020. Skip-connected covariance network for remote sensing scene classification. IEEE Transactions on Neural Networks and Learning Systems, 31(5): 1461-1474 [DOI:10.1109/TNNLS.2019.2920374]
  • Huang H, Xu K J. 2019. Combing triple-part features of convolutional neural networks for scene classification in remote sensing. Remote Sensing, 11(14): #1687 [DOI:10.3390/rs11141687]
  • Huang H, Xu K J, Shi G Y. 2020. Scene classification of high-resolution remote sensing image by multi-scale and multi-feature fusion. Acta Electronica Sinica, 48(9): 1824-1833 (黄鸿, 徐科杰, 石光耀. 2020. 联合多尺度多特征的高分遥感图像场景分类. 电子学报, 48(9): 1824-1833) [DOI:10.3969/j.issn.0372-2112.2020.09.021]
  • Huang H, Shi G Y, He H B, Duan Y L, Luo F L. 2020. Dimensionality reduction of hyperspectral imagery based on spatial-spectral manifold learning. IEEE Transactions on Cybernetics, 50(6): 2604-2616 [DOI:10.1109/TCYB.2019.2905793]
  • Krizhevsky A, Sutskever I, Hinton G E. 2017. ImageNet classification with deep convolutional neural networks. Communications of the ACM, 60(6): 84-90 [DOI:10.1145/3065386]
  • Li D R. 2019. The intelligent processing and service of spatiotemporal big data. Journal of Geo-information Science, 21(12): 1825-1831 (李德仁. 2019. 论时空大数据的智能处理与服务. 地球信息科学学报, 21(12): 1825-1831) [DOI:10.12082/dqxxkx.2019.190694]
  • Li X, Liu S M, Xiao Q, Ma M G, Jin R, Che T, Wang W Z, Hu X L, Xu Z W, Wen J G, Wang L X. 2017. A multiscale dataset for understanding complex eco-hydrological processes in a heterogeneous oasis system. Scientific Data, 4: #170083 [DOI:10.1038/sdata.2017.83]
  • Liu K, Zhou Z, Li S Y, Liu Y F, Wan X, Liu Z W, Tan H, Zhang W F. 2020. Scene classification dataset using the Tiangong-1 hyperspectral remote sensing imagery and its applications. Journal of Remote Sensing, 24(9): 1077-1087 (刘康, 周壮, 李盛阳, 刘云飞, 万雪, 刘志文, 谭洪, 张万峰. 2020. 天宫一号高光谱遥感场景分类数据集及应用. 遥感学报, 24(9): 1077-1087) [DOI:10.11834/jrs.20209323]
  • Liu Q C, Xiao L, Yang J X, Chan J C W. 2020. Content-guided convolutional neural network for hyperspectral image classification. IEEE Transactions on Geoscience and Remote Sensing, 58(9): 6124-6137 [DOI:10.1109/TGRS.2020.2974134]
  • Luo F L. 2017. Sparse manifold learning for hyperspectral imagery. Acta Geodaetica et Cartographica Sinica, 46(3): #400 (罗甫林. 2017. 高光谱图像稀疏流形学习方法研究. 测绘学报, 46(3): #400) [DOI:10.11947/j.AGCS.2017.20160621]
  • Luo F L, Zhang L P, Du B, Zhang L F. 2020. Dimensionality reduction with enhanced hybrid-graph discriminant learning for hyperspectral image classification. IEEE Transactions on Geoscience and Remote Sensing, 58(8): 5336-5353 [DOI:10.1109/TGRS.2020.2963848]
  • Penatti O A B, Nogueira K and dos Santos J A. 2015. Do deep features generalize from everyday objects to remote sensing and aerial scenes domains?//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops. Boston, USA: IEEE: 44-51[DOI:10.1109/CVPRW.2015.7301382]
  • Rasti B, Hong D F, Hang R L, Ghamisi P, Kang X D, Chanussot J, Benediktsson J A. 2020. Feature extraction for hyperspectral imagery: the evolution from shallow to deep: overview and toolbox. IEEE Geoscience and Remote Sensing Magazine, 8(4): 60-88 [DOI:10.1109/MGRS.2020.2979764]
  • Sheng G F, Yang W, Xu T, Sun H. 2012. High-resolution satellite scene classification using a sparse coding based multiple feature combination. International Journal of Remote Sensing, 33(8): 2395-2412 [DOI:10.1080/01431161.2011.608740]
  • Simonyan K and Zisserman A. 2015. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-12-01]. https://arxiv.org/pdf/1409.1556v4.pdf
  • Sun W W, Yang G, Chen C, Chang M H, Huang K, Meng X Z, Liu L Y. 2020. Development status and literature analysis of China's earth observation remote sensing satellites. Journal of Remote Sensing, 24(5): 479-510 (孙伟伟, 杨刚, 陈超, 常明会, 黄可, 孟祥珍, 刘良云. 2020. 中国地球观测遥感卫星发展现状及文献分析. 遥感学报, 24(5): 479-510) [DOI:10.11834/jrs.20209464]
  • Szegedy C, Liu W, Jia Y Q, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V and Rabinovich A. 2015. Going deeper with convolutions//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE: 1-9[DOI:10.1109/CVPR.2015.7298594]
  • Tan K, Wang X, Du P J. 2019. Research progress of the remote sensing classification combining deep learning and semi-supervised learning. Journal of Image and Graphics, 24(11): 1823-1841 (谭琨, 王雪, 杜培军. 2019. 结合深度学习和半监督学习的遥感影像分类进展. 中国图象图形学报, 24(11): 1823-1841) [DOI:10.11834/jig.190348]
  • Tong Q X, Zhang B, Zhang L F. 2016. Current progress of hyperspectral remote sensing in China. Journal of Remote Sensing, 20(5): 689-707 (童庆禧, 张兵, 张立福. 2016. 中国高光谱遥感的前沿进展. 遥感学报, 20(5): 689-707) [DOI:10.11834/jrs.20166264]
  • Wang Q, Liu S T, Chanussot J, Li X L. 2019. Scene classification with recurrent attention of VHR remote sensing images. IEEE Transactions on Geoscience and Remote Sensing, 57(2): 1155-1167 [DOI:10.1109/TGRS.2018.2864987]
  • Wang Q, Sun L, Wang Y, Zhou M, Hu M H, Chen J G, Wen Y, Li Q L. 2021. Identification of melanoma from hyperspectral pathology image using 3D convolutional networks. IEEE Transactions on Medical Imaging, 40(1): 218-227 [DOI:10.1109/TMI.2020.3024923]
  • Xia G S, Hu J W, Hu F, Shi B G, Bai X, Zhong Y F, Zhang L P, Lu X Q. 2017. AID: a benchmark data set for performance evaluation of aerial scene classification. IEEE Transactions on Geoscience and Remote Sensing, 55(7): 3965-3981 [DOI:10.1109/TGRS.2017.2685945]
  • Xiao L, Liu P F, Li H. 2020. Progress and challenges in the fusion of multisource spatial-spectral remote sensing images. Journal of Image and Graphics, 25(5): 851-863 (肖亮, 刘鹏飞, 李恒. 2020. 多源空-谱遥感图像融合方法进展与挑战. 中国图象图形学报, 25(5): 851-863) [DOI:10.11834/jig.190620]
  • Xiao Q and Wen J G. 2017. HiWATER: visible and near-infrared hyperspectral radiometer (Jun. 29, 2012)[EB/OL]. National Tibetan Plateau Data Center. [2020-12-01] (肖青, 闻建光. 2017. 黑河生态水文遥感试验: 可见光近红外高光谱航空遥感(2012年6月29日)[EB/OL]. 国家青藏高原科学数据中心. [2020-12-01]. http://www.tpdc.ac.cn/zh-hans/data/1e7e8a06-1e10-4fd3-a94e-d83e463a835e/)[DOI:10.3972/hiwater.012.2013.db)
  • Xu K J, Huang H, Deng P F, Shi G Y. 2020a. Two-stream feature aggregation deep neural network for scene classification of remote sensing images. Information Sciences, 539: 250-268 [DOI:10.1016/j.ins.2020.06.011]
  • Xu K J, Huang H, Li Y, Shi G Y. 2020b. Multilayer feature fusion network for scene classification in remote sensing. IEEE Geoscience and Remote Sensing Letters, 17(11): 1894-1898 [DOI:10.1109/LGRS.2019.2960026]
  • Yang Y and Newsam S. 2010. Bag-of-visual-words and spatial extensions for land-use classification//Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems. San Jose, USA: ACM: 270-279[DOI:10.1145/1869790.1869829]
  • Yu H Y, Gao L R, Liao W Z, Zhang B, Zhuang L N, Song M P, Chanussot J. 2020. Global spatial and local spectral similarity-based manifold learning group sparse representation for hyperspectral imagery classification. IEEE Transactions on Geoscience and Remote Sensing, 58(5): 3043-3056 [DOI:10.1109/TGRS.2019.2947032]
  • Yuan J W, Wu C, Du B, Zhang L P, Wang S G. 2020. Analysis of landscape pattern on urban land use based on GF-5 hyperspectral data. Journal of Remote Sensing, 24(4): 465-478 (袁静文, 武辰, 杜博, 张良培, 王树根. 2020. 高分五号高光谱遥感影像的城市土地利用景观格局分析. 遥感学报, 24(4): 465-478) [DOI:10.11834/jrs.20209252]
  • Zhang F, Du B, Zhang L P. 2015. Saliency-guided unsupervised feature learning for scene classification. IEEE Transactions on Geoscience and Remote Sensing, 53(4): 2175-2184 [DOI:10.1109/TGRS.2014.2357078]
  • Zhang M M, Li W, Du Q. 2018. Diverse region-based CNN for hyperspectral image classification. IEEE Transactions on Image Processing, 27(6): 2623-2634 [DOI:10.1109/TIP.2018.2809606]
  • Zhao B, Zhong Y F, Xia G S, Zhang L P. 2016. Dirichlet-derived multiple topic scene classification model for high spatial resolution remote sensing imagery. IEEE Transactions on Geoscience and Remote Sensing, 54(4): 2108-2123 [DOI:10.1109/TGRS.2015.2496185]
  • Zhao Z M, Gao L R, Chen D, Yue A Z, Chen J B, Liu D S, Yang J, Meng Y. 2019. Development of satellite remote sensing and image processing platform. Journal of Image and Graphics, 24(12): 2098-2110 (赵忠明, 高连如, 陈东, 岳安志, 陈静波, 刘东升, 杨健, 孟瑜. 2019. 卫星遥感及图像处理平台发展. 中国图象图形学报, 24(12): 2098-2110) [DOI:10.11834/jig.190450]
  • Zhu Q Q, Zhong Y F, Zhao B, Xia G S, Zhang L P. 2016. Bag-of-visual-words scene classifier with local and global features for high spatial resolution remote sensing imagery. IEEE Geoscience and Remote Sensing Letters, 13(6): 747-751 [DOI:10.1109/LGRS.2015.2513443]
  • Zou Q, Ni L H, Zhang T, Wang Q. 2015. Deep learning based feature selection for remote sensing scene classification. IEEE Geoscience and Remote Sensing Letters, 12(11): 2321-2325 [DOI:10.1109/LGRS.2015.2475299]