网刊加载中。。。

0引言图像分类是遥感图像处理的重要环节(Khatami等，2016；Liu等，2018)。传统遥感图像分类算法主要利用少量人工标记样本构建分类器模型，故其应用效果除与模型约束条件密切相关外，很大程度上还受人工特征选择影响(Belgiu和Drǎguţ，2016；Ravì等，2016)。受当前模式认知和知识表达水平的限制，人工特征选择的充分性、必要性以及准确性都难以保证，使得传统分类模型适用范围有限，尤其是大尺度地表覆盖分类产品的获取，因广泛采用分区建模方式而普遍存在区域模型精度不一致等问题(Chen等，2015)。随着航空和卫星传感器的发展，遥感图像呈现出海量、多源和多尺度特征，地物信息获取更加丰富完整，在为地物分类的可靠性提升及其产品应用范围拓展奠定良好数据基础的同时，也对分类算法设计及其特征表达、演化和运用模式等各方面提出了新的要求，亟待建立新的遥感图像分类框架。深度学习的飞速发展为图像分类、识别等问题研究提供了新的思路。卷积神经网络(convolutional neural network, CNN)首先利用卷积核构建邻域模型提取目标上下文信息，再利用大量标记样本训练网络模型参数，极大程度增强了对图像目标不同类型特征的适应能力，在海量、多源和多尺度遥感图像分类应用方面较传统分类算法优势显著。然而，受限于CNN自身特征表达的可解释性，CNN遥感图像分类仍然存在以下问题：1) CNN利用卷积层叠加来模拟输入数据到输出标签的转换关系，再通过端到端的训练方法获取卷积核最优参数，虽然能实现图像特征的自主学习，但现有网络模型构建方式和训练方法严重阻碍了遥感图像先验知识的引入，导致模型精度主要取决于训练样本数量和质量。2) CNN通过训练得到的最优卷积核参数提取图像特征，但通过训练得到的卷积核参数往往没有明确的物理意义，提取的抽象图像特征难以直观理解，致使网络模型特征学习过程及提取到的图像特征均不具备可解释性。3) 现有CNN模型具有较强的特征提取和抽象能力，但不同应用目标所需的遥感图像特征具有鲜明的差异性，经典的网络模型框架难以有效关联图像蕴含的特征及不同应用对特征表达的需求，无法实现精细化的特征学习。4) 现有CNN模型用来描述网络输出结果与标签样本相似性的通用损失函数，不具备凸显图像某一方面特征的能力，当训练样本并非完美时，网络模型会牺牲劣势样本部分特征以尽可能保证全局最优性，严重影响了网络模型对图像可解释性特征的学习能力及其泛化迁移能力。本文从深度学习建模方式角度出发，简要回顾CNN遥感图像分类应用现状及面临的困境，进而以遥感图像特征表达及其可解释性为切入点，分析阐述了黎曼流形特征空间(Riemannian manifold feature space, RMFS)构建对CNN可解释性和特征演化规律等方面的促进作用，最后指出构建RMFS-CNN分类框架的可行性及该框架对遥感图像分类、深度学习理论发展方面的理论贡献与应用价值。1CNN遥感图像分类CNN通过卷积和激活函数的组合构建复杂的非线性函数，再利用大量样本训练网络模型获取最优参数(Shi等，2017；Gordo等，2017；Wang等，2019)。按应用的卷积模型结构，CNN遥感图像可分为3类：像素CNN模型、图像块CNN模型和全卷积CNN模型。像素CNN模型以单像素为学习对象，利用1维卷积抽象像素特征并输出对应像素的标签。Zhong等人(2019)对比了像素CNN、LSTM (long short-term memory)、GBoost、随机森林和支持向量机等5种模型的分类精度，指出像素CNN模型明显高于其他算法，但该模型只能学习像素自身光谱特征，无法充分利用邻域像素相关性，导致像素CNN模型对噪声和异常值敏感。图像块CNN模型以图像块作为网络输入，利用2D卷积学习图像块中心像素特征，输出图像块标签并将其视为中心像素标签。相比于像素CNN模型，图像块CNN模型能兼顾邻域像素对中心像素的影响，其鲁棒性因图像局部信息学习而得以大幅增强。Kussul等人(2017)分别构建像素CNN模型、图像块CNN模型并应用于Landsat图像，分类结果验证了后者的有效性；与Kussul等人(2017)的工作类似，Yoo等人(2019)和Shang等人(2020)通过加深网络层数方式构建基于图像块的多层CNN模型，进一步提高了遥感图像分类精度。然而，图像块CNN模型建立在图像块内所有像素具有相同标号的假设上，网络模型只能输出图像块中心像素标号，易导致分类结果出现“马赛克”现象。全卷积CNN模型用卷积层代替全连接层，一方面解决了全连接网络模型需固定输入图像尺寸的问题，另一方面由于能逐像素地输出图像对应标签，成功解决了图像块CNN模型分类结果中的“马赛克”问题，且由于不再需要同质区域标号一致性等模型假设，有效提高了图像分类精度。Poliyapram等人(2019)采用简化U-Net模型训练遥感图像，甚至取得了较原始U-Net模型更高精度的分类结果。尽管全卷积CNN模型在遥感图像分类中取得了阶段性的研究成果(Chai等，2019)，但网络模型的构建和应用没有明确的理论支撑，不符合计算机视觉领域中“在一定层数范围内，网络模型越深，分类精度越高”的一般规律(He等，2016)。究其原因，一方面，CNN的不可解释性导致难以从理论上分析产生该现象的原因，只能通过实验试错的方式经验性地提高模型精度；另一方面，不同研究者用于训练网络的数据源不同，面向实际应用的遥感图像分类普遍存在训练样本数量不足和精度不高等问题(刘颖等，2020)。Zhao等人(2019a)验证了样本质量对CNN模型特征学习能力的影响，结果表明样本质量对最终分类精度的影响高于网络模型对最终分类精度的影响，这就意味着，基于经验改进网络模型结构虽然在部分数据集上表现优异，但在不同数据集上的应用效果不可预测。端到端的网络模型结构在方便数据处理的同时，严重阻碍了遥感图像先验知识与CNN的融合，且其特征学习的不可解释性使得图像特征和应用需求难以有机结合，进一步导致网络特征学习及训练过程的不可控性(Zhao等，2019b)。理论上，当训练样本满足独立同分布条件时，基于统计学习的网络模型将具有良好的训练效果与较高的训练精度，但完美训练样本的获取十分困难。Reichstein等人(2019)和张兵(2018)认为目前遥感图像分类发展趋势之一是将遥感图像先验知识与深度学习框架融合，但鲜见有较强理论基础的成果公开发表。本文认为，关于目标(或任务)的先验知识一定程度上体现了其观测(样本)数据的某种统计分布特性，而将作为遥感图像先验知识有效表达范式的图像特征，尤其是具有可解释性及内在演化能力的遥感图像特征与CNN深度学习框架相结合，无疑将极大程度地提高CNN对遥感图像数据的利用效率，进而能简化网络模型结构并降低模型计算资源要求，最终实现提高遥感图像分类速度与精度的目的。2RMFS图像特征空间如何充分挖掘图像蕴含的内在信息，将图像隐含信息显式地表达为易于理解和应用的形式(特征)，是融合CNN与遥感图像先验知识，提高CNN对遥感图像特征利用效率的关键。传统遥感图像分类主要以不同波段为坐标轴，基于笛卡儿坐标系构建光谱特征空间(丁建丽等，2014)。该空间中，辐射度相似(近)的像素自然聚集(刘英等，2013)，但不同类型目标间的像素重叠现象明显，尤其是对遥感图像中“同物异谱”、“同谱异物”现象，导致像素可分性较差。将遥感图像映射到高维空间是提高像素可分性的一种有效方式，其代表是利用核函数实现低维图像到高维特征空间隐式映射的支持向量机(Maulik和Chakraborty，2013)。不足之处在于，高维特征空间无法实现图像特征的显式表达，且基于像素的核函数映射也无法构建邻域像素相关性(周建伟和吴一全，2020)。可以认为，传统图像特征空间的核心是像素的物理意义，主要通过将图像像素映射到光谱特征空间的方式实现图像特征的显式表达，多基于欧氏空间构建。流形是一个带有坐标系统的集合(Seung和Lee，2000)，集合中元素大多通过概率分布、线性子空间等定义，所有元素构成一个光滑曲面。黎曼流形是能够用黎曼测度度量、具有对偶仿射变换等性质的流形，是3维空间的2维曲面(Simons，1968)。黎曼流形曲面表达具有与欧氏空间截然不同的几何特性，能够从不同角度表达数据特征，为传统图像特征表达提供了新的思路(Amari和Nagaoka，2000)。Bąk等人(2012)基于黎曼流形的几何特性定义一种新的度量，用于衡量面向某一个体的、不同设备(时间)采集图像间的相似性；Goh和Vidal (2008)将欧氏空间的局部非线性降维算法拓展到黎曼流形，显著提高了该算法对数据特征的表达能力；Lin和Zha(2008)将传统降维问题转化成黎曼流形上的分类问题，进而利用流形上的几何信息提高数据的降维效果。总体上，通过研究黎曼流形的几何结构，能够探索欧氏空间无法直观表达的图像特征，从而有利于解决传统欧氏空间无法解决的图像处理问题(Pelletier，2005；王瑞霞和彭国华，2017)，主要表现在：1)欧氏空间的算法可以拓展应用到黎曼流形，以提高其对图像特征的学习、表达能力；2)通过数据映射可将欧氏空间原始问题转换为黎曼流形上的其他问题以降低其难度。Zhao等人(2020)结合遥感图像光谱统计特性先验知识与黎曼流形技术进行像素邻域系统特征建模，将基于高斯分布的图像特征映射到黎曼流形，并以黎曼流形测地线代替欧氏空间度量，显著提高了对遥感图像不同类型地物目标的区分能力。这是一种值得借鉴的研究思路。流形学习是基于流形结构及其几何特征探索图像本质信息的重要方式(Sammon，1969)，主要包括Isomap(isometric mapping)(Tenenbaum等，2000)，LLE(local linear embedding)(Roweis和Saul，2000)和LE(Laplacian eigenmaps)(Belkin和Niyogi，2003)等方法，其目标是探索高维数据的低维嵌入表达，主要通过构建图模型描述流形上数据点的相关性，以便进一步挖掘数据内在的分布规律。将流形学习算法与遥感图像处理应用相结合已成为研究热点。但低维流形嵌入是隐含式的，并不具备显式表达图像可解释性特征的能力，且对流形几何特征的利用效率偏低(van der Maaten等，2009)。Dong和Kuang(2015)利用协方差描述图像特征并将其映射到黎曼流形空间，充分利用黎曼流形空间中的数据可分性，实现图像分类目的。Wu等人(2015)在图像特征协方差的黎曼流形表达基础上，进一步构建流形核函数进行Hilbert空间映射，并利用该空间高维数据可分性强的性质提高图像分类精度，但此类直接处理图像特征协方差的流形学习方式同样不具有可解释性。赵雪梅等人(2017)在满足全局和局部一致性假设的前提下，构建黎曼流形特征空间(RMFS)，实现图像特征在RMFS中的显式表达，其数据点与图像域像素点一一对应。在此基础上，Zhao等人(2019c)研究发现遥感图像同一类型目标像素在RMFS中大体呈过原点的线性分布，这表明RMFS能够将传统欧氏空间的非线性图像分割问题转化为线性运算问题，有效降低数据处理难度，并提高遥感图像分类精度。初步研究表明，RMFS具有极其优异的图像特征表达能力，其特征表达的可解释性及数据分布规律能够有效凸显图像的某一方面或某几方面特征。本文认为，可利用RMFS中的图像特征可解释性及内在演化能力(线性可分性)来提升CNN遥感图像分类性能。1)研究采用CNN代替现有明确的数学变换，将原始遥感图像映射到RMFS，既提高RMFS特征表达能力，又弥补传统数学建模受限于图像域邻域尺度及建模方法之不足；2)利用RMFS特征表达优势，结合数据特点和应用需求凸显图像某一方面特征，实现数据—应用导向的特征定制，并以该定制特征的可解释性及其演化规律为基础，设计面向规则的数据感知方法，进一步提高RMFS特征转化效率；3)基于面向规则的数据感知方法，定义新的CNN模型，以提高网络模型特征学习能力并保障特征学习的稳定性，同时结合RMFS定制特征，设计关联图像特征和应用需求的损失函数，实现CNN训练的可控性。总体而言，可利用RMFS搭建图像先验知识与CNN的桥梁和纽带，构建适用于多尺度、多源和海量遥感数据的RMFS-CNN图像分类新框架，其优势主要体现在：1) RMFS固有的图像特征表达能力及其数据点与图像域像素一一对应的优良特性，使得RMFS数据点具备明确的可解释性。故以RMFS图像特征表达为基础，可搭建CNN与图像先验知识的桥梁，并利用CNN学习图像中的可解释性特征，一方面能提高网络模型对图像特征的利用效率，另一方面能保障CNN所学特征的稳定性，从而削弱其对训练样本数量和质量的依赖性。2) RMFS不但能表达图像域像素自身的光谱特征，还蕴含其空间邻域特征，且蕴含的空谱信息的数据点在RMFS上大体呈线性分布。在RMFS-CNN分类框架下，RMFS提供了一个遥感图像可解释性特征表达的平台，在已知RMFS数据物理意义及对应结构特征的前提下，可将传统基于卷积的数据特征学习模式转化为面向规则的数据感知方法，进一步提高遥感图像特征的学习能力及其学习过程和所学特征的可解释性，为构建更加精确的网络模型及训练方法提供理论基础。3) RMFS表征目标主体的数据点构成其线性分布主体，而表征目标边缘的数据点离散分布于远离线性分布主体的区域，使得RMFS数据不同类型特征具备较强的可分离性。在RMFS特征表达规律及其可解释性的基础上，以数据—应用为导向构建面向特征定制的网络模型，能够有效关联图像特征和应用需求，进而可结合面向规则的数据感知理论发展精细化的网络模型构建方法。4) 基于RMFS-CNN分类框架具有的特征定制能力及RMFS的特征可解释性，可设计有效凸显图像特征并同时关联应用需求的损失函数，以利于增强训练过程中网络模型对某一个或某几个特征的学习偏好，迫使模型学习有利于目标应用的图像特征，一方面能够提高网络模型训练精度，另一方面还能够保证特征学习结果的可解释性，从而提高网络模型的泛化迁移能力。3结语CNN应用于遥感图像分类无需人工选取图像特征，但缺少先验知识约束导致其严重依赖训练样本；基于图像先验知识的分类器无法完备地描述图像特征，致使相关经验模型普适性较差，二者具有明显的互补性。以遥感图像特征表达及其可解释性为切入点，本文提出的RMFS-CNN分类框架实质上是以RMFS搭建遥感先验知识与CNN的桥梁，利用RMFS对先验知识(特征)表达的优异性能，提高CNN遥感图像分类特征的利用效率，控制CNN的特征学习偏好，以期突破现有CNN遥感图像分类技术瓶颈，改善遥感图像分类速度和精度。RMFS构建不要求输入数据规则排列，且能同时对数据空间和光谱特征进行建模，故RMFS-CNN分类框架不仅能应用于多光谱、高光谱等规则排列的遥感图像，还可处理Lidar点云等不规则排列数据，对于多尺度、多源遥感数据分类、分析方法研究及其应用领域拓展具有重要意义。目前，采用传统数学方法构建RMFS图像特征空间无需训练数据，但RMFS-CNN分类框架仍需要训练数据才能学习图像特征，关于该框架下的图像特征表达、学习机制、机理及网络模型构建、训练方式及方法尚处于初步探索阶段，存在以下问题有待深入研究：1) 邻域系统特征建模。准确描述目标局部信息及上、下文信息是图像特征表达的基础。目前RMFS主要利用高斯分布描述图像邻域光谱特征，但这种图像邻域表达方式并非唯一；此外，不同图像邻域系统下，遥感图像数据映射到黎曼流形中目标地物的空间统计分布特性也有待系统、深入地归纳总结与比较分析。2) CNN特征学习。现有CNN主要通过全连接、卷积操作等方式学习图像特征，但全连接应用于图像数据缺乏实际物理意义且参数量大，卷积操作只能应用于规则图像数据且无法改变图模型结构和尺寸。而新兴的GCN(graph convolutional network)虽然能用于不规则数据，但受限于其图结构变化能力，难以应用于大尺度数据。借助于RMFS-CNN框架开展面向规则的CNN特征学习模式不仅有助于理解CNN特征演化规律，提高学习效率，也可建立更为灵活的输入数据到输出数据转换关系，是改善CNN模型学习性能值得关注的研究方向。3) RMFS-CNN框架下的模型构建与训练。以数据—应用为导向，可基于RMFS数据特征表达规律及其可解释性构建面向特征定制的CNN模型，研究能够强化网络特征学习偏好的损失函数，从而发展形成可控的、精细化的网络模型构建和训练方法。深入挖掘基于RMFS的特征定制及应用需求关联关系是提高CNN网络模型构建精度、训练过程可控性及推进精细化网络发展的关键。