Print

发布时间: 2017-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20170415
2017 | Volume 22 | Number 4




    地理信息技术    




  <<上一篇 




  下一篇>> 





利用多级弦长拱高复函数进行面实体综合相似性度量研究
expand article info 马京振, 孙群, 肖强, 赵国成, 周炤
信息工程大学, 郑州 450001

摘要

目的 全球最高30 m分辨率的地表覆盖数据GlobeLand30具有高分辨率、高精度等特性,为全球制图提供了重要的数据来源。如何快速准确地识别GlobeLand30与矢量数据中的同名实体,对于空间数据的更新、集成与融合具有重要的意义,针对当前该数据与矢量数据匹配识别方法存在的不足,本文提出一种新的综合相似性度量方法。 方法 利用面实体轮廓线的多级弦长、拱高和中心距离等特性,构造多级弦长拱高复函数对其整体和细节特征进行描述;然后对面实体轮廓线进行等间隔重采样,通过快速傅里叶变换得到傅里叶描述子对面实体间的形状相似性进行度量;最后将面实体的位置、大小、方向和形状进行加权综合,得到一种综合相似性度量模型。 结果 将本文综合相似性度量模型应用到GlobeLand30与矢量数据面状水体的匹配中,实验结果为查准率P为100%,查全率Q 为97.1%,匹配速度和准确率优于其他文献所提出的方法,当拱高级数为4时,匹配效果达到最优;最后,将该相似性度量模型应用到GlobeLand30数据化简和光滑前后的相似性度量上,也取得了很好的应用效果。 结论 本文方法适用于GlobeLand30与矢量数据的相似性度量,对于GlobeLand30与矢量数据的集成与融合,对利用GlobeLand30进行矢量数据的生产与更新具有重要的意义。

关键词

GlobeLand30; 多级拱高复函数; 傅里叶描述; 相似性度量; 面匹配

Measurement of the comprehensive similarity of area entities using a multilevel arc-height complex function
expand article info Ma Jingzhen, Sun Qun, Xiao Qiang, Zhao Guocheng, Zhou Zhao
Information Engineering University, Zhengzhou 450001, China
Supported by: Supported by: National Natural Science Foundation of China (41571399)

Abstract

Objective Global land cover and its change are indispensable basic information for environmental change research, detection of national geographical conditions, and sustainable development. In 2014, the National Geomatics Center of China produced GlobeLand30, a remote sensing mapping product with the highest resolution (30 m) in the world. This data set exhibits high resolution and high accuracy, and thus, it can satisfy the cartographic requirement of 1:250 000 and other smaller measuring scales as well as provide global data production and updating with significant data resources. When the difference between GlobeLand30 and vector data is considered, accurately and rapidly recognizing identical entities from these two types of data is highly important to update information as well as integrate and fuse multisource and multiscale spatial data. To overcome the shortcomings of the method for recognizing and matching GlobeLand30 and vector data, this study proposes a complex function based on a multilevel arc-height. Fourier shape descriptors can be obtained to measure shape similarity among area entities, and a comprehensive similarity measurement model can be established by integrating the location, size, direction, and shape of area entities. This study uses the proposed model to recognize and match GlobeLand30 and vector data as well as to measure the similarity of Globeland30 before and after simplification and smoothing. Method This method constructs a complex function based on multilevel chord length to describe the entire and detailed features of area entities by using the characteristics of their border, such as arc-height and central distance. After resampling the border of area entities, a shape descriptor with an independent and compact initial point on the border can be established through fast Fourier transform, which exhibits invariant properties in terms of translation, rotation, and scaling to measure shape similarity and diversity among area entities. Lastly, a comprehensive similarity measuring model is established by integrating the location, size, direction, and shape of area entities. GlobeLand30 and vector data are processed, and the similarity of the entities of these two types of data is calculated through the comprehensive similarity measuring model. Then, the specific entity is determined according to the set comprehensive spatial similarity threshold value. The rule for maintaining similarity by applying the proposed comprehensive similarity measuring model is discussed to measure the shape similarity and comprehensive similarity of Globeland30 data before and after applying different simplification and smoothing algorithms. Result This study selects the water data of Globeland30 (2010) as example and uses the proposed model to match them with another vector data after vectorization. Experimental results obtained a precision ratio of 100% and a recall ratio of 97.01%. The experiment, which is conducted to compare the method proposed in this study with others, shows that the method for describing tortuosity can only describe the entire, but not the detailed features. The description of similarity via central distance instead of Fourier shape descriptors increases the difference in similarity, which will result in omitting matching or other mistakes. The discussion regarding the effect of different arc-height levels proves that both matching precision ratio and recall ratio reach their maximum values when t is set to 4 or 8. Computation complexity is positively related to the value of t, and thus, matching speed will be lower if t is set higher. Moreover, setting t to 4 is better to achieve satisfying efficiency and accuracy. The point_remove or bend_simplify algorithms are applied to simplify different threshold values, whereas the peak or Bezier algorithm was selected for smoothing. The similarity measuring method is then applied to Globeland30 data before and after simplification and smoothing. From the results, we discuss the relation among similarity levels and threshold values. The findings of the experiment show that the two simplification algorithms can maintain approximately the same similarity when threshold values vary within a small range. However, variations outside the specific range will result in an evident difference that is reflected in the sharp corner phenomenon simplified by the point_remove algorithm. For the two smoothing algorithms, Bezier provides only one result, whereas the processing results of peak vary with different threshold values. Conclusion 1) This method constructs the multilevel chord length complex function to describe the entire and detailed features of area entities by using the characteristics of their border, such as multilevel chord length, arc-height, and central distance. This complex function satisfies the demand for multilevel shape description by changing arc-height level, including describing the entire and detailed features of area entities. The Fourier transform of the multilevel chord length complex function solves the inconsistencies in border and initial numbers of points, thereby meeting the demand for invariance in terms of translation, rotation, and scaling. 2) A comprehensive similarity measuring model is established based on the multilevel arc-height Fourier shape description method by integrating the location, size, direction, and shape of area entities. Experiments prove that this model works efficiently when matching two types of data. This study discusses the rule of maintaining similarity through different simplification and smoothing algorithms and by applying the similarity measuring method to evaluate the similarity of Globeland30 data before and after simplification and smoothing. The study achieves good results. It uses the water data as example and focuses on matching the entities of Globeland30 with another vector data by applying the comprehensive similarity measuring model. Further studies will focus more on the problem of matching Globeland30 data with other vector data and applying the results to produce and update vector data, particularly of overseas regions worldwide.

Key words

Globeland30; complex function of multilevel arc-height; fourier description; similarity measuring; area matching

0 引言

地表覆盖及其变化是环境变化研究、地理国情监测以及可持续发展等不可或缺的重要基础信息。中国于2010年正式启动863重点项目“全球地表覆盖遥感制图与关键技术研究”,完成了2000年和2010年两个基准年的30 m全球地表覆盖数据产品GlobeLand30的研制,为全球遥感制图提供了技术支持和数据保障[1]。GlobeLand30具有较高空间分辨率、精度较好等特点,能够满足1:25万及更小比例尺的制图需求,为全球地区数据的生产和更新提供了重要的数据来源。

矢量空间数据是指与地理和空间分布有关的、反映现实世界各种现象及其变化的一类带有空间坐标的数据,它不仅能够表示地理实体本身的几何位置及形态信息,而且还能表示地理实体属性和空间关系的信息。而GlobeLand30数据采用栅格数据格式进行存储,栅格影像的像元值代表某类地表覆盖类型,因此GlobeLand30与矢量数据存在着较大差异。如何快速而准确地识别两类数据中的同名实体,对于空间数据的更新以及多源、多尺度空间数据的集成和融合具有重要的意义[2]

近年来,对同名实体识别的研究较多,如文献[3-6],利用地理实体的位置、形状等特征进行识别和匹配,但大都集中在相同或相近比例尺的矢量数据之间,而且当前的研究并没有涉及GlobeLand30数据与矢量数据的匹配。鉴于拓扑匹配和语义匹配方法的局限性,通常采用几何相似性度量的方法对同名实体进行匹配。目前常采用的相似性度量方法有矩描述法、小波描述法、单一傅里叶描述法、中心距离法和基于曲率的形状描述法等,这些方法取得了一定的效果。但是,小波描述法依赖于起始点;单一的傅里叶描述法对噪声比较敏感;中心距离法只能反映全局特征;基于曲率的形状描述法只能反映局部特征[7-10]。而且这些方法不能同时对实体的整体特征和局部特征进行很好地描述,对于GlobeLand30与矢量数据的匹配并不适用。

面实体的边界线在某点的拱高可以很好地反映边界线在该点的弯曲度和凹凸性[8],多级弦长的引入可以通过调节相关参数构造多级拱高函数,进而刻画实体的局部特征和全局特征。对此,本文以GlobeLand30-2010中的水体为例,将栅格数据提取出来转化为面状的矢量数据,在此基础上,提出一种基于多级弦长拱高复函数的傅里叶形状描述子对形状进行相似性度量,并选择面实体的形状、位置、大小等特征,构造面实体综合相似性度量模型,进行GlobeLand30与矢量数据的识别与匹配,并将该模型应用到GlobeLand30数据化简和光滑前后的相似性度量中。

1 全球地表覆盖数据GlobeLand30及其水体概述

GlobeLand30是由中国国家基础地理信息中心牵头研制的全球地表覆盖遥感制图产品,该数据覆盖南北纬80°的陆地范围,包括水体、耕地、林地等10种地表覆盖类型,将同类全球产品的空间分辨率提高了10倍以上。该数据以Landsat、ETM+、HJ-1影像为主要数据源,采用基于像素分类—对象提取—知识检核 (POK) 的方法研制而成,其采用WGS84坐标系统和UTM投影,全球共853幅分幅产品,如图 1所示[1, 11-12]

图 1 全球地表覆盖GlobeLand30分布图
Fig. 1 The global land cover GlobeLand30 map

目前对该数据的而研究多停留在数据的精度评估方面,文献[11]采用空间数据二级抽样检测模型,在全球合理布设样本,研究表明GlobeLand30-2010的总体精度为83.5%,水体的精度达到了92.1%;文献[13]在全球范围内抽取了139个图幅进行了产品精度自评估,采用分层随机抽样的方法获取检验样本的空间分布,结果表明全球水体的总体精度达到了96%以上;文献[14]选取意大利为研究区域,采用混淆矩阵和统计分析的方法,结果表明数据的总体精度高于80%,水体的精度达到了92%;文献[15]对希腊塞萨利地区的水体精度进行了评估,结果表明该地区的水体精度能达到90%以上。以上研究表明Globeland30数据的精度较好,尤其水体的精度能达到90%以上,再结合其高分辨率 (30 m) 的特性,将其应用到中小比例尺数据的生产与更新中是可行的。

GlobeLand30对水体的定义为“陆地范围液态水覆盖的区域,包括江河、湖泊、水库、坑塘等”,由于GlobeLand30数据是栅格数据,需先将其转化为矢量数据 (目前,栅格数据矢量化技术比较成熟,本文不作重点研究)。图 2是GlobeLand30与矢量数据的样本对比图,栅格区域为Globeland30数据,矢量线条为DAE (digital atlas of the Earth) 矢量数据 (由Delorme公司生产的全球矢量数据),图 2(a)(c) 是由GlobeLand30直接矢量化的数据,多边形的边界呈“阶梯形”,与矢量数据相比,整体相似但细节上有较大差异;而图 2(b)(d) 是经过简化、光滑处理的多边形,与矢量数据相比,整体和细节上都比较相似。因此,本文提出一种新的形状描述子,以期能从整体和细节上对这两种不同数据源的面状水体进行描述,进而实现两者之间的识别和匹配。

图 2 Globeland30与矢量数据样本对比图
Fig. 2 The samples of GlobeLand30 and vector data ((a) sample 1-1;(b) sample 1-2;(c) sample 2-1;(d) sample 2-2)

2 基于多级弦长拱高复函数的傅里叶形状描述

2.1 多级弦长描述

采用文献[16]提出的多级弦长的概念,面实体的轮廓可以表示为一组有序的点集合:$ \boldsymbol{A} = \{ {P_i} = \left( {{x_i}, {y_i}} \right)\left| {i = 0, 1, \cdot \cdot \cdot, m} \right.\} $,如图 3所示,从${P_i} $出发,沿逆时针方向将轮廓$R $按弧长等分为$K $个弧段,$K $为偶数,${D_t}(t = 1, 2, \cdot \cdot \cdot, K-1) $是对应的等分点,连接${P_i} $${D_t} $可以得到$ K-1$条弦$ \{ {P_i}{D_1}, {P_i}{D_2}, \cdot \cdot \cdot, {P_i}{D_{K-1}}\} $,用${L_t}({P_i}) $表示${P_i} $对应的第$t $条弦${P_i}{D_t} $的弦长,所以${L_t}({P_i}) $可以表示为以$ {P_i}$为自变量的函数。设$ {P_0}$为起始点,沿逆时针方向得到的弧$ \overset\frown{{{P}_{0}}{{P}_{i}}}$的长度${s_i} $可以表示为以$ {P_i}$为自变量的函数,则$ {s_i}$$ {P_i}$是一一对应的关系,所以可以将$ {s_i}$作为自变量,得到对应的$ K-1$个弦长函数${L_1}({s_i}), {L_2}({s_i}), \cdot \cdot \cdot, {L_{K-1}}({s_i}) $,其中${s_i} \in [0, S], S $为轮廓线周长。

图 3 多级弦长示意图
Fig. 3 Multilevel chord length

因此,多边形轮廓可以由自变量$ {s_i}$和因变量${L_t}({s_i}) $来描述,将有序集合$\mathit{\boldsymbol{B}} = \{ {L_1}\left( {{s_i}} \right), {L_2}\left( {{s_i}} \right), \cdot \cdot \cdot, {L_{K-1}}({s_i})\} $称之为${s_i} $的多级弦长函数,函数${L_1}\left( {{s_i}} \right) $为多级弦长函数$B $中的第$ t$级弦长。多级弦长函数满足平移和旋转不变性,利用周长$ S$${s_i} $归一化,用弦长的最大值${\rm{max}}({L_t}({s_i})) $对函数值进行归一化,可使其满足缩放不变性。

2.2 多级弦长拱高复函数

面实体的边界线为$\mathit{\boldsymbol{A}} = \{ {P_i} = \left( {{x_i}, {y_i}} \right)|i = 0, 1, \cdot \cdot \cdot, m\} $,令$O $为其几何中心,则坐标为

$ \left( {{x_o}, {y_o}} \right) = \left( {\frac{1}{m}\sum\limits_{i = 1}^m {{x_i}}, \frac{1}{m}\sum\limits_{i = 1}^m {{y_i}} } \right) $ (1)

式中,$ {{x_i}}$$ {{y_i}}$为边界上点的横、纵坐标。将边界上任意一点${P_i} $到几何中心$O $的距离定义为该点的中心距离,记为${r_i} $,则有

$ {r_i} = \sqrt {{{\left( {{x_i}-{x_o}} \right)}^2} + {{\left( {{y_i}-{y_o}} \right)}^2}} $ (2)

将轮廓线上一点${P_i} $分别沿顺时针和逆时针方向扫描弧长$ s$($ s \in [0, S], S$为轮廓线周长),得到两点${P_{i1}} $${P_{i2}} $,将点${P_i} $到线段$ \overline {{P_{i1}}{P_{i2}}} $的投影距离定义为轮廓线在该点的拱高,记为${h_i} $,如图 4所示。${h_i} $正负号的定义如下:当${P_i} $在线段$\overline {{P_{i1}}{P_{i2}}} $右侧时,$ {h_i}$取正值;当${P_i} $在线段$\overline {{P_{i1}}{P_{i2}}} $左侧时,$ {h_i}$取负值。由定义可以看出,轮廓线在某一点的拱高反映了在该点的弯曲程度和凹凸性,拱高为正值,表明该点是外凸的,反之则是内凹的。

图 4 面实体轮廓线的拱高
Fig. 4 The arc-height of area outline

弧长$s $取值的不同会引起点${{P_{i1}}} $$ {{P_{i2}}}$的变化,进而影响拱高${h_i} $的大小,利用2.1节的多级弦长的概念,$\overline {{P_i}{P_{i1}}} $$ \overline {{P_i}{P_{i2}}} $分别对应点$ {P_i}$的第$t $级和第$\left( {K-t} \right) $级弦长,令点${P_i} $$\overline {{P_{i1}}{P_{i2}}} $的距离为该点的第$t $级拱高$ {h_t}\left( {{P_i}} \right)$$ K$为偶数,取弦长${L_{\frac{K}{2}}}({P_i}) $为点${{P_i}} $的第$K/2 $级拱高,则可以得到任意一点$ {P_i}$$K/2 $个拱高函数$ {h_1}({P_i}), {h_2}({P_i}), \cdot \cdot \cdot, {h_{\frac{K}{2}}}({P_i})$图 3中面轮廓线的多级拱高如图 5所示。由于$ {P_i}$${s_i} $是一一对应的关系,${h_t}({P_i}) $($ t$为1,2,…,${K/2} $) 可以表示成${s_i} $的函数$ {h_t}({s_i})$,将有序集合$\mathit{\boldsymbol{C}} = \{ {h_1}\left( {{s_i}} \right), {h_2}\left( {{s_i}} \right), \cdot \cdot \cdot, {h_{K/2}}({s_i})\} $称之为点${P_i} $对应的多级弦长拱高函数。

图 5 多级拱高示意图
Fig. 5 Multilevel arc-height

已知复数的几何形式为$ z = a + b{\rm{i}}$,轮廓线在点${P_i} $的中心距离为${r_i}$,第$t $级拱高为${h_t} $,由此可得复数${z_i} = {r_i} + {h_t}{\rm{i}} $。显然,当$\left( {{s_i}} \right) $变化时,点$ {P_i}$的位置会发生变化,$ {r_i}$${h_t} $会相应变化,从而${z_i} $也会随之改变,因此,设以$ {s_i}$为自变量,${z_i}$为因变量的函数${Z_t}\left( {{s_i}} \right) $($t $为1,2,…,$ {K/2}$) 为多级弦长拱高复函数。

2.3 多级拱高的傅里叶变换与形状相似性度量

在实际应用中,面实体轮廓线的起始点位置和点数不一定一致,为了使形状的相似性度量不受这两个因素的影响,需要对其进行起始点独立性和形状紧致性处理。首先,对面实体轮廓线上的点以等弧长间隔重采样为$ m'$个点$D{\prime _0}, D{\prime _1}, \cdot \cdot \cdot, D{\prime _{m\prime-1}} $近似表达原始轮廓线,其中$m\prime = {2^a} $$a $是满足${2^a} > m $的最小整数,然后计算得到$ {Z_t}({s_i})$;其次,对每一个$ {Z_t}({s_i})$进行快速傅里叶变换,即

$ \begin{array}{l} {f_t}\left( n \right) = \frac{1}{{m\prime }}\sum\limits_{i = 0}^{m\prime-1} {{Z_t}} \left( {{s_i}} \right){\rm{exp}}\left( {\frac{{-j2{\rm{\pi }}ni}}{{m\prime }}} \right)\\ n = 0, 1, \cdot \cdot \cdot, m\prime-1 \end{array} $ (3)

$ {f_t}\left( n \right)$描述第$ t$级拱高函数,$ \left| {{f_t}\left( 0 \right)} \right| = 1$,为了使每一级函数的个数一致方便比较,取$ m\prime $个系数的前$n $个,构造向量$ {\mathit{\boldsymbol{v}}_t} = [\left| {{f_t}\left( 1 \right)} \right|, \left| {{f_t}\left( 2 \right)} \right|, \cdot \cdot \cdot, \left| {{f_t}(n)} \right|]$,即为第$ t$级拱高复函数的傅里叶形状描述子,得到有序集$[{v_1}, {v_2}, \cdot \cdot \cdot, {v_{K/2}}] $,可证$v $满足轮廓线起始点的独立性。

至此,得到了满足平移、旋转、缩放不变性,满足轮廓线起始点独立性和紧致性的形状描述子$v $,可利用$v $来度量两个形状的相似性和差异度。设两个面实体分别为$A $$ B$,对应的形状描述子分别为${\mathit{\boldsymbol{v}}^A} = \left[{v_{_1}^A, v_2^{^A}, \cdot \cdot \cdot, v_{_{K/2}}^A} \right], {\mathit{\boldsymbol{v}}^B} = [v_{_1}^B, v_{_2}^B, \cdot \cdot \cdot, v_{K/2}^{^B}] $$ A$$ B$的形状差异度定义为两个特征向量之间的欧氏距离,即

$ Di{s_{{\rm{shape}}}}\left( {A, B} \right){\rm{ }} = {\rm{ }}\sqrt {\sum\limits_{i = 1}^{K/2} {\left| {v_i^A-v_i^B} \right|} {{\rm{ }}^2}} $ (4)

$ A$$B $之间的形状相似度可以表示为

$ Si{m_{{\rm{shape}}}}\left( {A, B} \right) = 1-Di{s_{{\rm{shape}}}}\left( {A, B} \right) $ (5)

式中,$ Di{s_{{\rm{shape}}}}\left( {A, B} \right) \in [0, 1], Si{m_{{\rm{shape}}}}\left( {A, B} \right) \in [0, 1]$

2.4 多级拱高的特点及描述能力分析

由多级弦长拱高复函数的定义可知,其满足平移和旋转不变性,利用轮廓线周长$ S$,中心距离的最大值$ {r_{\max }}$,拱高绝对值的最大值$\left| {{h_{\max }}} \right| $分别对弧长$ {s_i}$、中心距离${r_i} $和多级拱高${h_t} $进行归一化处理,得到的函数满足缩放不变性。

下面通过实验对多级弦长拱高函数的描述能力进行分析。图 6是整体相似但是局部差异较大的两个形状,计算当$K $为8时1~4级的拱高值,并绘制曲线进行对比,如图 7所示。两条曲线越接近,说明两个形状越相似,反之则否。实验结果表明,经第1级拱高函数描述的两个形状最不相似,说明对细节特征能够较好地描述,第2、3级拱高函数曲线的相似度逐渐增加,到第4级拱高函数时,两曲线已非常接近,说明对形状的整体特征能够较好地刻画。因此,多级拱高函数随着级数的不同,可以对面实体形状的整体和细节特征进行很好地刻画。

图 6 整体相似但局部差异较大的两个形状
Fig. 6 Two shapes with whole similarity and local difference ((a) shape one; (b) shape two)
图 7 多级拱高复函数描述能力测试图
Fig. 7 The descriptive power test of multilevel arc-height complex function ((a) the 1st arc-height function; (b) the 2nd arc-height function; (c) the 3rd & rc-height function; (d) the 4th arc-height function)

3 面实体综合相似性度量模型及应用

3.1 面实体的综合相似性度量模型

面实体的空间相似性主要表现在其空间位置、大小、方向和形状上,根据面实体的这些空间特性,本文构建一种综合空间相似性度量模型。设面实体$A $$B $,综合相似度向量为${[{a_1}\;\;{a_2}\;\;{a_3}\;\;{a_4}]^{\rm{T}}} $${[{b_1}\;\;{b_2}\;\;{b_3}\;\;{b_4}]^{\rm{T}}} $,其中各分量分别代表位置、大小、方向和形状分量,$ Dis\left( {A, B} \right)$表示$A $$B $的差异度,$Sim\left( {A, B} \right) $表示$A $$ B$的相似度。$Dis\left( {A, B} \right) $采用加权的Minkowski距离来度量,则

$ Dis\left( {A, B} \right) = {\left( {\sum\limits_{i = 1}^4 {{w_j}} {{\left| {{a_j}-{b_j}} \right|}^p}} \right)^{\frac{1}{p}}}$ (6)

式中,$p $值取2,${{w_j}} $为权值系数,且$ \sum\limits_{i = 1}^4 {{w_j}} = 1$${\left| {{a_j}-{b_j}} \right|} $是经过归一化处理后的值,表示$ A$$ B$$ j$个分量的差异度,所以$ \left| {{a_j}- {b_j}} \right| \in [0, 1], Dis\left( {A, B} \right) \in [0, 1]$。根据文献[17],采用标准差倒数的加权方法是最优的,故在$ \left| {{a_j}-{b_j}} \right|$的基础上,求得每个分量的标准差,取倒数并作归一化处理,得到每个${{w_j}} $的值。$ A$$B $的综合相似度可以表示为

$ Sim\left( {A, B} \right) = 1-Dis\left( {A, B} \right) $ (7)

1) 空间位置差异度依据面实体几何中心的距离进行计算,即

$ Di{s_{{\rm{location}}}}\left( {A, B} \right) = \left| {{a_1}-{b_1}} \right| = \frac{{\sqrt {{{\left( {{x_A}-{x_B}} \right)}^2} + {{\left( {{y_A}-{y_B}} \right)}^2}} }}{{{d_{{\rm{max}}}}\left( {A, B} \right)}} $ (8)

式中,$ {\left( {{x_A},{y_A}} \right)}$$ {\left( {{y_A},{y_B}} \right)}$分别为面实体$A $$B $的几何中心坐标,计算同式 (1),$ {{d_{{\rm{max}}}}\left( {A, B} \right)}$为面实体$ A$$ B$任意边界点间距离的最大值。

2) 大小 (面积) 差异度的计算公式为

$ Di{s_{{\rm{area}}}}\left( {A, B} \right) = \left| {{a_2}-{b_2}} \right| = \frac{{\left| {{S_A}-{S_B}} \right|}}{{{\rm{max}}\left( {{S_A}, {S_B}} \right)}} $ (9)

式中,${{S_A}} $${{S_B}}$分别为面实体$A $$B $的面积。

3) 面实体的方向以最小面积外接矩形 (MABR) 长边的方向$\theta $表示,所以方向差异度的计算公式为

$ Di{s_{{\rm{angle}}}}\left( {A, B} \right) = \left| {{a_3}-{b_3}} \right| = \frac{{\left| {{\theta _A}-{\theta _B}} \right|}}{{\rm{\pi }}} $ (10)

式中,$ {{\theta _A}}$$ {{\theta _B}}$分别为面实体$A$$ B$的方向。

4) 形状差异度采用式 (4) 计算,即$ Di{s_{{\rm{area}}}}\left( {A, B} \right) = \left| {{a_4}-{b_4}} \right|$

将上述4个分量带入式 (7) 即可得到面实体$A $$B $的综合几何相似度。

3.2 基于综合相似性的匹配步骤

设矢量数据为数据集$\mathit{\boldsymbol{A}} = \{ {a_0}, {a_1}, \cdot \cdot \cdot, {a_m}\} $,GlobeLand30水体数据为数据集$ \mathit{\boldsymbol{B}} = \{ {b_0}, {b_1}, \ldots, {b_n}\} $$\mathit{\boldsymbol{A}} $为源实体集,$\mathit{\boldsymbol{B}} $为目标实体集。对于匹配中存在的非一对一匹配的情况,可以采用文献[3]中提出的双向匹配的方法来解决,具体的匹配步骤如下:

1) 统一GlobeLand30数据与矢量数据的坐标系和地图投影,然后根据属性特征值提取GlobeLand30的水体层数据 (Globeland30中水体层代码为60),并将其转化为面状矢量数据;

2) 根据1:25万图式规范的要求,将GlobeLand30水体数据中小于一定面积的“碎小”的面状水体剔除掉,然后可根据影像作相应判别处理;

3) 通过待匹配实体$ {a_i}$的最小外接矩形确定$ \mathit{B}$中的候选匹配集,获取待匹配实体和候选匹配实体的空间位置、大小和方向值,并计算相应的差异度和相似度;

4) 根据2.2节和2.3节所述,构建待匹配实体和候选匹配实体的多级弦长拱高复函数,并进行快速傅里叶变换,得到对应的傅里叶形状描述子,并计算两个实体的形状差异度和相似度;

5) 选取相应的正例样本,计算权值系数$ {w_j}$的值。根据步骤 (3)(4) 所获得的4个差异度值,计算得到待匹配实体与候选匹配实体的综合空间相似度,依据设定的综合空间相似度阈值,确定具体的匹配实体。

在匹配的过程中,由于傅里叶级数越高越不稳定,容易受到噪声干扰[10],因此取傅里叶描述子的级数为10,弦长级数为8,即拱高级数为4,下文会对拱高级数的取值进行讨论。

3.3 数据处理前后变形程度的度量思路

利用综合性度量模型度量GlobeLand30化简和光滑前后变形程度的基本思路是:设$\mathit{A} $为原始目标,利用不同的化简和光滑阈值对其进行处理得到新的目标$ {B_0}, {B_1}, \cdot \cdot \cdot, {B_n}$,然后利用3.1节中提出的综合相似性度量模型,计算处理前后的形状相似度和综合相似度,探究不同的化简和光滑算法对图形相似性保持程度的规律。由于化简和光滑处理对形状的细节特征更要顾及,取拱高级数为8,傅里叶级数仍为10,${w_j} $为0.25。

4 实验与分析

4.1 GlobeLand30与矢量数据的匹配

本文实验数据为某一地区的1:25万DAE矢量数据和GlobeLand30数据,对GlobeLand30的水体进行矢量化处理,统一两种数据的坐标系和地图投影,并对两种数据中的面实体要素进行匹配。实验对已匹配实体进行多次取样,选取12对正例样本,部分正例样本如图 8所示,计算得到各对实体特征分量的差异度,如表 1所示。

图 8 部分正例样本图
Fig. 8 Some matching samples ((a) sample three; (b) sample six; (c) sample nine; (d) sample twelve)

表 1 样本的特征分量差异度及总相似度
Table 1 The characteristic components difference and general similarity of the samples

下载CSV
特征量 样本1 样本2 样本3 样本4 样本5 样本6 样本7 样本8 样本9 样本10 样本11 样本12
$ \left| {{a_1}-{b_1}} \right|$ 0.027 0 0.062 5 0.022 7 0.038 9 0.008 8 0.013 6 0.058 5 0.035 2 0.007 0 0.029 7 0.042 5 0.033 7
$ \left| {{a_2}-{b_2}} \right|$ 0.118 1 0.170 8 0.006 7 0.066 3 0.045 2 0.016 7 0.220 9 0.069 3 0.230 6 0.105 2 0.129 4 0.147 2
$ \left| {{a_3}-{b_3}} \right|$ 0.055 0 0.007 7 0.011 5 0.011 7 0.046 3 0.028 0 0.028 9 0.024 6 0.107 3 0.018 9 0.035 4 0.030 1
$ \left| {{a_4}-{b_4}} \right|$ 0.101 4 0.043 0 0.060 8 0.054 3 0.037 2 0.072 3 0.074 6 0.140 8 0.083 4 0.055 0 0.088 3 0.115 3
$ sim$ 0.939 4 0.946 0 0.973 0 0.962 0 0.971 2 0.968 6 0.929 8 0.939 7 0.927 0 0.959 9 0.940 3 0.937 2

得到$\left| {{a_j}-{b_j}} \right|(j = 1, 2, 3, 4) $的标准差值分别为0.017 6、0.073 2、0.027 1、0.037 7,则权值系数${w_j} $上述数值代入式 (6),并依此进行匹配实验。图 9为部分选取实例,蓝色部分表示GlobeLand30-2010的面状水体,黑色实线所包围的区域为DAE数据中的面状水体。

图 9 面状水体匹配实例
Fig. 9 Matching samples of water area ((a) sample one; (b) sample two; (c) sample three; (d) sample four)

图 9(a)中,通过正向匹配可确定${\mathit{A}_1} $${\mathit{B}_1} $是一对一匹配的关系;在图 9(b)中,${\mathit{A}_2} $$ {\mathit{A}_3}$的候选匹配实体均为${\mathit{B}_2} $${\mathit{B}_3} $,通过正向匹配计算总体相似度,${\mathit{A}_2} $${\mathit{B}_2} $的相似度要明显高于与${\mathit{B}_3} $的相似度,所以${\mathit{A}_2} $${\mathit{B}_2} $相匹配,同样可确定A3B3相匹配,具体的匹配结果如表 2所示。

表 2 图 9(a)(b) 中匹配结果
Table 2 The matching results of Fig. 9(a)(b)

下载CSV
匹配实例 实体对 $\left| {{a_1}-{b_1}} \right| $ $\left| {{a_2}-{b_2}} \right| $ $\left| {{a_3}-{b_3}} \right| $ $\left| {{a_4}-{b_4}} \right| $ $sim $ 是否匹配
图 9(a) ${A_1}:{B_1} $ 0.008 7 0.169 2 0.013 1 0.071 8 0.959 8
图 9(b) ${A_2}:{B_2} $ 0.051 9 0.118 3 0.039 2 0.058 2 0.937 3
${A_2}:{B_3} $ 0.438 3 0.672 3 0.228 2 0.146 8 0.662 4
${A_3}:{B_3} $ 0.045 4 0.262 3 0.030 9 0.097 7 0.925 1
${A_3}:{B_2} $ 0.412 9 0.786 8 0.236 5 0.176 2 0.652 5

图 9(c)中,$ {\mathit{A}_4}$$ {\mathit{A}_5}$对应的候选匹配实体均为$ {\mathit{B}_4}$,通过综合相似度计算,$ {\mathit{A}_4}$$ {\mathit{B}_4}$的相似度高于阈值,而$ {\mathit{A}_5}$$ {\mathit{B}_4}$的相似度明显低于阈值,因此可确定$ {\mathit{A}_4}$$ {\mathit{B}_4}$的匹配关系。在图 9(d)中,通过正向匹配,$ {\mathit{A}_6}$$ {\mathit{B}_5}$$ {\mathit{A}_6}$$ {\mathit{B}_6}$的相似度均高于阈值,而$ {\mathit{A}_6}$$ {\mathit{B}_5}$的相似度更高,可确定$ {\mathit{A}_6}$$ {\mathit{B}_5}$的匹配关系;在反向匹配时,由于$ {\mathit{B}_6}$的唯一候选匹配实体为$ {\mathit{A}_6}$,而且两者的相似度高于阈值,因此可确定$ {\mathit{A}_6}$$ {\mathit{B}_6}$的匹配关系,最终可确定$ {\mathit{A}_6}$$ {\mathit{B}_5}$$ {\mathit{B}_6}$的一对二匹配关系,匹配结果如表 3所示。

表 3 图 9(c)(d) 中匹配结果
Table 3 The matching results of Fig. 9(c)(d)

下载CSV
匹配实例 实体对 $\left| {{a_1}-{b_1}} \right| $ $\left| {{a_2}-{b_2}} \right| $ $\left| {{a_3}-{b_3}} \right| $ $\left| {{a_4}-{b_4}} \right| $ $sim $ 是否匹配
图 9(c) ${A_4}:{B_4} $ 0.021 3 0.105 1 0.017 7 0.046 6 0.965 6
${A_5}:{B_4} $ 0.248 6 0.974 8 0.313 9 0.241 7 0.665 2
图 9(d) ${A_6}:{B_5} $ 0.239 9 0.602 1 0.053 0 0.080 2 0.811 5
${A_6}:{B_6} $ 0.240 5 0.541 8 0.159 2 0.173 6 0.767 3
${B_5}:{A_6} $ 0.239 9 0.602 1 0.053 0 0.080 2 0.811 5

4.2 实验结果分析与比较

${n_1} $为匹配结果集中所有实体对的数目,${n_2} $为两种数据源中所有同名实体对的数目,$r $${n_1} $中匹配正确的实体对的数目,定义查准率$P = r/{n_1} $,查全率$ Q = r/{n_2}$。经统计,1:25万DAE数据中共有面状水体69个,GlobeLand30中共有面状水体82个,图 10是该区域两种数据叠加在一起的显示图,黑色实线为GlobeLand30数据,红色实线为DAE矢量数据。实验中,面状水体漏匹配为4个,故${n_1} = 69-4 = 65 $,没有误匹配,故$ r = 65$。查看小于相似度阈值的实体集,发现漏匹配的4个面实体中,有2个是因为形状差异太大,另外2个是因为在GlobeLand30中没有对应的实体。因此,$ {n_2} = 67$$p = 100\% $$ Q = 97.01\% $

比较本文方法与文献[4]、文献[5]中提出的相似性度量方法在查准率、查全率和匹配速度等方面的差异,所采用的数据与前文一致,具体结果如表 4所示。通过分析,与本文相比,文献[4]和文献[5]的查准率和查全率均有所降低,原因是文献[4]提出的弯曲度形状描述方法只能对形状的整体进行描述,文献[5]仅采用中心距离而未采用傅里叶形状描述子进行描述,当度量GlobeLand30与矢量数据时,相似度差别较大,容易出现误匹配和漏匹配。

图 10 实验区两种数据的叠加显示图
Fig. 10 The superposition map of two kinds of data in the test area

表 4 算法比较
Table 4 The comparison of matching algorithms

下载CSV
匹配方法 ${n_1} $ ${n_2} $ $r $ $ P/\% $ $ Q/\% $ 耗时/s 匹配速
度/(个/s)
本文 65 67 65 100 97.01 2.9 22.41
文献[4] 64 67 63 98.44 94.03 2.9 22.07
文献[5] 63 67 62 98.41 92.54 2.7 23.33

仍以上述数据作为实验数据,比较拱高级数$n $分别取1, 2, 4, 8和16时查准率$P $和查全率$Q $的对比情况,如图 11所示。由图分析可得,当$t $取4或8时,面状水体匹配的查准率和查全率最高,由于$t $取值越高,运算越复杂,会影响匹配速度,因此当拱高级数为4时,匹配的效率和准确率最高。

图 11 拱高级数对匹配性能的影响
Fig. 11 The matching results for different arc-height degree

4.3 GlobeLand30化简及光滑前后的相似性度量

由于GlobeLand30数据是栅格数据,矢量化之后,需要进行相应的化简和光滑处理才能使用,ArcGIS中的化简方法有Point_Remove (即道格拉斯普克算法) 和Bend_Simplify,光滑方法有Peak和Bezier。利用这些算法以不同的阈值对GlobeLand30数据进行化简和光滑处理,并采用本文方法度量处理前后的相似度,探索相似度随阈值变化的情况。图 12为GlobeLand30化简和光滑前后的对比图。

图 12 GlobeLand30数据化简和光滑前后对比图
Fig. 12 The compared maps before and after simplification and smooth of GlobeLand30((a) compared simplification map; (b) compared smoothing map)

图 13(a)表示采用Point_Remove化简算法的相似值随最大偏移量而变化的图,表明随阈值的增加,实体的形状相似度和总相似度均缓慢下降,总体相似度仍然较高,但当偏移量较大时,利用该算法化简后的线容易出现尖锐的角;图 13(b)表示采用Bend_Simplify化简算法的相似值随参考弯曲基线的长度而变化的图,表明在阈值为45和135处,实体的形状相似度和总相似度会迅速减小,但总体相似度仍然较高,相比较Point_Remove算法,当阈值较大时,该算法不会出现“尖角”现象,曲线比较光滑。

图 13 相似度随阈值变化图
Fig. 13 The relationships between similarity and threshold ((a) Point_Remove simplification algorithm; (b) Bend_Simplify simplification algorithm; (c) Peak smooth algorithm)

图 13(c)表示采用Peak光滑算法的相似值随纳入计算节点数而变化的图,表明随着阈值的增加,实体的形状相似度和总相似度均缓慢下降;由于Bezier算法不需要光滑阈值,不再作图讨论,用该算法计算得到的形状相似度为0.966 6,总相似度为0.975 7,相比较来说,采用Peak算法,可以通过设置不同的阈值,得到相应的制图效果。

5 结论

本文的主要工作总结如下:

1) 结合多级弦长、拱高以及中心距离要素,构建了多级弦长拱高复函数对面实体的形状进行描述,通过调节拱高级数$t $的值,可以从整体和局部对形状进行描述,满足了对形状的多级描述需求;对多级拱高复函数进行离散傅里叶变换,不仅解决了轮廓点数和起始点不一致的问题,同时也满足了平移、旋转和缩放不变性。

2) 基于多级拱高的傅里叶形状描述方法,建立了顾及位置、大小、方向和形状的综合相似性度量模型;将其应用于GlobeLand30与1:25万矢量数据的匹配,经过实验验证,该方法能够有效实现两种数据之间的匹配;将该相似性度量模型应用到GlobeLand30数据化简和光滑前后的相似性度量上,探索了不同化简和光滑算法对形状的保持规律,也取得了很好的应用效果。

全球地表覆盖数据GlobeLand30具有高分辨率、高精度的特性,可以为全球制图提供重要的数据来源和技术保障。本文以面状水体为例,利用提出的综合相似性度量模型,对GlobeLand30与矢量数据的匹配进行了重点研究,取得了较好的结果。如何利用GlobeLand30与矢量数据进行进一步地融合,并将其应用到全球尤其是境外地区矢量数据的生产与更新中是接下来研究的重点问题。

参考文献

  • [1] Chen J, Chen J, Liao A P, et al. Concepts and key techniques for 30m global land cover mapping[J]. Acta Geodaetica et Cartographica Sinica, 2014, 43(6): 551–557. [陈军, 陈晋, 廖安平, 等. 全球30m地表覆盖遥感制图的总体技术[J]. 测绘学报, 2014, 43(6): 551–557. ] [DOI:10.13485/j.cnki.11-2089.2014.0089]
  • [2] Chen Z L, Qin M J, Wu L, et al. Establishment of the comprehensive shape similarity model for complex polygon entity by using bending mutilevel chord complex function[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(2): 224–232. [陈占龙, 覃梦娇, 吴亮, 等. 利用多级弦长弯曲度复函数构建复杂面实体综合形状相似度量模型[J]. 测绘学报, 2016, 45(2): 224–232. ] [DOI:10.11947/j.AGCS.2016.20140633]
  • [3] Tong X H, Deng S S, Shi W Z. A probabilistic theory-based matching method[J]. Acta Geodaetica et Cartographica Sinica, 2007, 36(2): 210–217. [童小华, 邓愫愫, 史文中. 基于概率的地图实体匹配方法[J]. 测绘学报, 2007, 36(2): 210–217. ] [DOI:10.3321/j.issn:1001-1595.2007.02.017]
  • [4] Fu Z L, Lu Y F. Establishment of the comprehensive model for similarity of polygon entity by using the bending radius complex function[J]. Acta Geodaetica et Cartographica Sinica, 2013, 42(1): 145–151. [付仲良, 逯跃锋. 利用弯曲度半径复函数构建综合面实体相似度模型[J]. 测绘学报, 2013, 42(1): 145–151. ]
  • [5] Hao Y L, Tang W J, Zhao Y X, et al. Areal feature matching algorithm based on spatial similarity[J]. Acta Geodaetica et Cartographica Sinica, 2008, 37(4): 501–506. [郝燕玲, 唐文静, 赵玉新, 等. 基于空间相似性的面实体匹配算法研究[J]. 测绘学报, 2008, 37(4): 501–506. ] [DOI:10.3321/j.issn:1001-1595.2008.04.017]
  • [6] Yang C C, He L S, Xie P, et al. Clustering analysis of geographical area entities considering distance and shape similarity[J]. Geomatics and Information Science of Wuhan University, 2009, 34(3): 335–338. [杨春成, 何列松, 谢鹏, 等. 顾及距离与形状相似性的面状地理实体聚类[J]. 武汉大学学报:信息科学版, 2009, 34(3): 335–338. ] [DOI:10.13203/j.whugis2009.03.026]
  • [7] An X Y, Sun Q, Xiao Q, et al. A shape multilevel description method and application in measuring geometry similarity of multi-scale spatial data[J]. Acta Geodaetica et Cartographica Sinica, 2011, 40(4): 495–501. [安晓亚, 孙群, 肖强, 等. 一种形状多级描述方法及在多尺度空间数据几何相似性度量中的应用[J]. 测绘学报, 2011, 40(4): 495–501. ]
  • [8] Fu Z L, Lu Y F. Polygon entity matching algorithm based on arc-height radius complex function[J]. Application Research of Computers, 2012, 29(9): 3303–3306. [付仲良, 逯跃锋. 一种基于拱高半径复变函数的面实体匹配算法[J]. 计算机应用研究, 2012, 29(9): 3303–3306. ] [DOI:10.3969/j.issn.1001-3695.2012.09.027]
  • [9] Zhai R J. Research on automated matching methods for multi-scale vector spatial data based on global consistency evaluation[D]. Zhengzhou:The PLA Information Engineering University, 2011. [翟仁健. 基于全局一致性评价的多尺度矢量空间数据匹配方法研究[D]. 郑州: 解放军信息工程大学, 2011. ]]
  • [10] Zhang D S, Lu G J. Study and evaluation of different Fourier methods for image retrieval[J]. Image and Vision Computing, 2005, 23(1): 33–49. [DOI:10.1016/j.imavis.2004.09.001]
  • [11] Chen J, Chen J, Liao A P, et al. Global land cover mapping at 30m resolution:a POK-based operational approach[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 103: 7–27. [DOI:10.1016/j.isprsjprs.2014.09.002]
  • [12] Liao A P, Peng S, Wu H, et al. The production system of 30m global land cover mapping and its application[J]. Bulletin of Surveying and Mapping, 2015(10): 4–8. [廖安平, 彭舒, 武昊, 等. 30m全球地表覆盖遥感制图生产体系与实践[J]. 测绘通报, 2015(10): 4–8. ] [DOI:10.13474/j.cnki.11-2246.2015.0301]
  • [13] Liao A P, Chen L J, Chen J, et al. High-resolution remote sensing mapping of global land water[J]. Science China:Earth Sciences, 2014, 44(8): 1634–1645. [廖安平, 陈利军, 陈军, 等. 全球陆表水体高分辨率遥感制图[J]. 中国科学:地球科学, 2014, 44(8): 1634–1645. ] [DOI:10.1007/s11430-014-4918-0]
  • [14] Brovelli M A, Molinari M E, Hussein E, et al. The first comprehensive accuracy assessment of globeland30 at a national level:methodology and results[J]. Remote Sensing, 2015, 7(4): 4191–4212. [DOI:10.3390/rs70404191]
  • [15] Manakos I, Chatzopoulos-Vouzoglanis K, Petrou Z I, et al. Globalland30 mapping capacity of land surface water in Thessaly, Greece[J]. Land, 2015, 4(1): 1–18. [DOI:10.3390/land4010001]
  • [16] Wang B. A Fourier shape descriptor based on multi-level chord length function[J]. Chinese Journal of Computers, 2010, 33(12): 2387–2396. [王斌. 一种基于多级弦长函数的傅立叶形状描述子[J]. 计算机学报, 2010, 33(12): 2387–2396. ] [DOI:10.3724/SP.J.1016.2010.02387]
  • [17] Rui Y, Huang T S, Ortega M, et al. Relevance feedback:a power tool for interactive content-based image retrieval[J]. IEEE Transactions on Circuits and Systems for Video Technology, 1998, 8(5): 644–655. [DOI:10.1109/76.718510]