发布时间: 2017-08-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.160588
2017 | Volume 22 | Number 8

遥感图像处理

利用格式塔的高分辨率遥感影像建筑物提取

李青, 李玉, 王玉, 赵泉华

辽宁工程技术大学测绘与地理科学学院遥感科学与应用研究所, 阜新 123000

收稿日期: 2016-11-28; 修回日期: 2017-03-27

基金项目: 国家自然科学基金青年科学基金项目（41301479）；国家自然科学基金面上项目（41271435）

第一作者简介: 李青(1991—), 男, 现为辽宁工程技术大学摄影测量与遥感专业硕士研究生, 主要研究方向为格式塔在影像处理中的应用。E-mail:1562122838@qq.com

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2017)08-1162-13

摘要

目的格式塔心理学的理论基础为通过对事物的部分感知，实现对事物整体的认识。本文将该思想应用到建筑物提取中，提出一种兼顾目标细节及整体几何特征的高分辨率遥感影像建筑物提取方法。方法首先，利用SIFT算法提取特征点作为候选边缘点；然后定义格式塔序列连续性原则判别边缘点，从而得到边缘点点集；并由边缘点点集拟合边缘，实现遥感影像建筑物提取。结果利用提出算法，对WorldView-2遥感影像进行建筑物提取实验。通过与基于多尺度分割和区域合并的建筑物提取算法对比可以看出，提出算法能够更加准确、完整地提取出建筑物。采用分支因子、遗漏因子、检测率和完整性4个定量化指标对实验结果的定量评价，本文算法的检测率和完整性均大于对比算法，且本文算法的检测率均在95%以上，验证了提出基于格式塔理论的高分辨率遥感影像建筑物提取算法的有效性和准确性。结论基于格式塔的高分辨率遥感影像建筑物提取算法能够准确刻画建筑物细节特征，同时兼顾建筑物整体几何轮廓，准确提取高分辨率遥感影像中的建筑物。本文算法针对高分辨率遥感影像，适用于提取边缘具有直线特征的建筑物。使用本文算法进行遥感影像建筑物提取时，提取精度会随分辨率降低而降低，建议实验影像分辨率在5 m以上。

关键词

格式塔; 建筑物提取; SIFT算法; 序列连续性; 边缘提取

Building extraction from high resolution remote sensing image by using Gestalt

Li Qing, Li Yu, Wang Yu, Zhao Quanhua

Institute for Remote Sensing Science and Application, School of Geomatics, Liaoning Technical University, Fuxin 123000, China

Supported by: Young Scientists Fund of National Natural Science Foundation of China(41301479);National Natural Science Foundation of China(41271435)

Abstract

Objective Gestalt is a psychology term that means unified whole. This term refers to the theory which describes how people tend to group visual elements when certain principles are fulfilled. Gestalt concludes principles, such as similarity, row continuation, proximity, and closure, which are based on the overall cognition of an object which can be obtained through perceiving its parts. However, quantizing these principles in mathematics is difficult in practice because they are abstract psychology concepts. Actually, only few principles, such as similarity and proximity, are used in the literature, and these principles are interpreted in a simple way. Building extraction based on Gestalt laws is challenging and demanding. In this paper, the idea of Gestalt is applied to designing a building extraction algorithm from remote sensing image by testing the candidate edge points, defining the relationship of edge points according to Gestalt principles, finding the edge points, and fitting edges of buildings. This paper proposes a new method for extracting buildings from high resolution remote sensing image based on Gestalt rules. Method First, the scale invariant feature transform algorithm is used to extract the key points as candidate edge points in a given remote sensing image, wherein each key point is respectively attributed with features, such as position, orientation, scale, and assessment. Gestalt space, which is a 4-D domain containing the preceding features mentioned, is established, and the subsequent operations are completed in the space. The Gestalt principle known as row continuation determines whether or not all candidate edge points are on the edges of buildings. Each candidate edge point involved in the operation is regarded as an integral Gestalt, and a new integral Gestalt is obtained after the operation according to the principle of row continuation. If the assessment of the new integral Gestalt is larger than the given threshold, then the integral Gestalts, namely the candidate edge points involved in operation, fulfill the rule of row continuation and are all on the edges of buildings. Consequently, the set of edge points can be obtained. Finally, the edges of buildings are fitted with different sets of edge points, and silhouettes of buildings are formed by combining their extracted edges. Result Experiments are carried on with the WorldView-2 images compared with other building extraction algorithms, such as mean shift algorithm, multi-scale segmentation, and region merge-based building extraction algorithm to quantitatively and qualitatively test the proposed method. The proposed method can better correctly and completely extract the buildings from the image. We use the evaluation measures extensively accepted for building extraction to quantify the accuracy of the building extraction results. The extracted buildings and manually delineated buildings are compared pixel-by-pixel. All pixel in the image are categorized into four types: true positive($TP$), manual and automated methods label the pixel belonging to the buildings; true negative($TN$), manual and automated methods label the pixel belonging to the background; false positive($FP$), the automated method incorrectly labels the pixel as belonging to a building; false negative($FN$), the automated method incorrectly labels a pixel truly belonging to a building. The number of pixels that fall into each of the four categories mentioned are determined. In addition, the branching factor($BF$), miss factor($MF$), detection percentage($DP$), and quality percentage($QP$) are computed. The $BF$ is a measure of the commission error in which the system incorrectly labels background pixels as buildings. The $MF$ measures the omission error in which the system incorrectly labels building pixels as background. The $DP$ denotes the percentage of building pixels correctly labeled by the automated process. The $QP$ measures the absolute quality of the extraction and is the most stringent measure. The $DP$ and $QP$ of the proposed method are greater than the comparison method, and all $DP$ of the proposed method is greater than 95%. The proposed method is more accurate than other building extraction methods. Moreover, all experiments demonstrate the feasibility and effectiveness of the proposed method. Conclusion Experimental results show that the proposed method can well extract the buildings from high resolution remote sensing image. Thus, the proposed method is demonstrated to be a feasible and effective method for building extraction. For remote sensing images, the proposed method is suitable for edge extraction with linear features of the building on an image. The accuracy will be decreased with low resolution when the proposed method is used for building extraction. Therefore, the suggested resolution of the experimental image is above five meters.

Key words

gestalt; building extraction; scale invariant feature transform(SIFT) algorithm; row continuation; edge extraction

0 引言

建筑物提取作为城市遥感影像处理的重要研究内容之一，可以为城市规划、土地利用分析、地图更新、3维建模、数字化城市等提供重要依据。王俊和秦其明等人^[1]在高分辨率光学遥感影像建筑物提取研究现状的基础上，将建筑物提取方法分为自底向上数据驱动方法(data-driven)和自顶向下模型驱动方法(model-driven)两大类。其中，自顶向下的模型驱动方法把建筑物目标抽象成一个整体模型，从全局特征出发基于模型将其从图像背景中提取出来，但该方法在建立目标模型时对先验知识依赖程度大，需要人工介入的主观性强，很难找到一个普适的模型来描述，因此该方法目前只在限定环境下解决部分提取问题。自底向上的数据驱动方法把目标看做众多低层特征结构的组合，通过某种规则将这些结构合并成目标整体，其原理简单易于理解，因此应用较为广泛。高分辨率影像中包含丰富的内在特征信息，所以可以考虑从边界直线、直角、阴影等主要区别性特征入手进行建筑物提取。从特征入手的自底向上的建筑物提取方法主要包括基于区域分割的方法、基于辅助特征或辅助信息的方法以及基于几何边界的方法^[1]。

基于区域分割的方法是指在进行建筑物提取时，首先对影像进行分割，再根据建筑物自身的几何形状、空间位置、走向等特征提取出特定的建筑物目标。于博等人^[2]提出一种结合中性集和均值漂移的算法，采用均值漂移算法分割转换到中性集空间的影像，生成以影像中主要地物类型为核心的光谱类别图像，并在此基础上实现建筑物提取。但是基于区域分割的建筑物提取方法主要利用建筑物的光谱特征，而忽略了建筑物的几何特征，且提取结果依赖于区域分割结果的准确性，因此往往需要其他特征辅助。基于辅助特征或信息的方法主要通过引入辅助信息来实现建筑物提取或提升建筑物提取精度。周亚男等人^[3]提出一种阴影辅助的建筑物提取方法，首先在影像中提取出建筑物阴影，然后利用建筑物与阴影的空间关系特征，分离出互相连接的建筑物，并利用阴影确认漏提取的建筑物，从而实现建筑物提取。Jin等人^[4]综合影像中的结构信息、上下文信息和光谱信息等建模建筑物特征，并结合数学形态学方法有效提取建筑物。李晓冬等人^[5]在考虑建筑物光谱特征的基础上，建立了平行与垂直于目标建筑物主方向的各向异性邻域，并采用基于各向异性马尔科夫随机场的亚像元定位模型进行了亚像元尺度的建筑物提取。然而，基于辅助特征或信息的方法只能利用影像上建筑物的辅助特征，且不同影像的建筑物辅助特征有所区别，导致该方法不具有广义性。建筑物区别于其他城市目标的最大特征为其轮廓的几何性质。基于几何边界的方法是指在直线提取算法基础上，对直线特征进行感知编组，设定面向建筑物多边形的规则，生成精确的建筑物轮廓，进而实现建筑物提取。Cui等人^[6]首先提取建筑物的几何特征和灰度特征，而后根据其灰度空间分布特点和Hough变换特性筛选轮廓线段，并将其提取结果作为判定建筑物目标的依据，最终准确地提取出建筑物。Jung和Schramm^[7]通过窗口Hough变换提取出矩形屋顶的角点，然后根据几何形状限制确定矩形中心点和方向，最后实现矩形类屋顶的提取。然而，目前基于几何特征的建筑物提取方法无法同时兼顾建筑物边界特征及其整体特征，因此无法获得较为理想的建筑物提取结果。

人类对现实世界的感知是通过对事物的整体认知实现的，而对整体的认知可由对事物部分的认识而得到，将人类感知事物的这种方式称为格式塔(Gestalt)。因此，利用格式塔理论^[8]处理问题时，只要掌握问题的各组成部分及其相互关系，就可以据此解决该问题，这就是所谓的由部分推演整体的认知方式。虽然格式塔是一种心理学理论^[9]，但已有研究者将其应用到影像处理^[10-15]领域。Desolneux^[13]在直线提取的基础上，利用格式塔原则选取最似边缘直线，最后实现边缘提取。Zhu和Yung^[14-15]提出一种基于控制标记符的分割方法。首先，利用分水岭方法获得过分割子块(部分)，然后通过格式塔的邻近性、相似性原则(关系)合并相关子块，从而实现影像分割(整体)。本文从建筑物的边缘直线特征入手，利用建筑物整体几何信息，提出一种基于格式塔理论的建筑物提取方法。即，先获取影像中完备(足以拟合出边缘)的候选边缘点，然后由预定义的判断原则筛选出边缘点，再由边缘点拟合出边缘，进而实现建筑物的提取。为了提取完备的候选边缘点，本文采用SIFT(scale invariant feature transform)算法^[16-18]提取候选边缘点；利用格式塔单代数(SGA)^[19-20]中的序列连续性原则(row continuation)定义判断原则辨识边缘点，根据得到的边缘点拟合边缘线，进而实现遥感影像建筑物提取。

1 算法描述

1.1 特征点提取

为了提取完备的候选边缘点，采用SIFT算法在尽可能保留边缘效应的前提下提取影像特征点。具体过程为：1) 输入一幅已知影像$\boldsymbol{I} = \{ {I_s}({x_s}, {y_s}); ({x_s}, {y_s}) \in \boldsymbol{D}, s = 1, \cdots, S\} $，其中，$s$为像素索引，$[{I_s}]$为像素$s$的强度，$({x_s}, {y_s})$为像素点$s$的位置，$\boldsymbol{D}$为影像域，$S$为像素总数；依次构造高斯尺度空间、高斯影像金字塔、高斯差分(DOG)金字塔；2) 检测及定位极值点，又称为特征点(作为候选边缘点)；3) 计算每个特征点的方向。由此得到特征点点集$\boldsymbol{g}' = \{ \boldsymbol{or}, \boldsymbol{sc}\} = \{ \boldsymbol{g}{'_j}; j = 1, \cdots, N\} $，$N$为特征点总数(1 < $N$ < $S$)，其中，$\boldsymbol{or} = \{ or(\boldsymbol{g}{'_j}); j = 1, \cdots, N\}, or(\boldsymbol{g}{'_j})$是特征点$\boldsymbol{g}{'_j}$的方向属性；$\boldsymbol{sc} = \{ sc(\boldsymbol{g}{'_j}); j = 1, \cdots, N\}, sc(\boldsymbol{g}{'_j})$是特征点$\boldsymbol{g}{'_j}$的尺度属性，即$\boldsymbol{g}{'_j}$对应的尺度因子；$\boldsymbol{g}{'_j} = \{ or(\boldsymbol{g}{'_j}), sc(\boldsymbol{g}{'_j})\} $，表示特征点$\boldsymbol{g}{'_j}$具有方向和尺度属性。

利用SIFT算法提取出的特征点具有局部特征，独特性好，信息量丰富，即使少数的几个物体也可以产生大量的SIFT特征向量，保证了候选边缘点的完备性，为提取边缘及建筑物奠定基础。

1.2 格式塔空间

为了更加准确地描述特征点的属性信息，在特征点点集$\boldsymbol{g}'$基础上增加位置和灰度值属性，即可构造新的特征点点集(作为候选边缘点集)，表示为$\boldsymbol{g}'' = \{ \boldsymbol{po}, \boldsymbol{or}, \boldsymbol{sc}, \boldsymbol{as}\} = \{ \boldsymbol{g}'{'_j}; j = 1, \cdots, N\} $。其中位置$\boldsymbol{po} = \{ po(\boldsymbol{g}'{'_j}); j = 1, \cdots, N\}, \boldsymbol{po} \subset {\boldsymbol{R}^2}, po(\boldsymbol{g}'{'_j}) = ({x_j}, {y_j})$表示特征点$g'{'_j}$在2维影像上的坐标位置；为了便于计算，将方向特征$\boldsymbol{or} = \{ or(\boldsymbol{g}'{'_j}); j = 1, \cdots, N\} $归一化到[0, 1]之间，$or(\boldsymbol{g}'{'_j})$表示特征点$\boldsymbol{g}'{'_j}$的方向属性；尺度$\boldsymbol{sc} = \{ sc(\boldsymbol{g}'{'_j}); j = 1, \cdots, N\} $且$sc(\boldsymbol{g}'{'_j}) > 0$表示$\boldsymbol{g}'{'_j}$的尺度属性；灰度值$\boldsymbol{as} = \{ as(\boldsymbol{g}'{'_j}); j = 1, \cdots, N\} $，范围在[0, 1]之间，$as(\boldsymbol{g}'{'_j})$是$\boldsymbol{g}'{'_j}$的灰度值；$\boldsymbol{g}'{'_j} = \{ po(\boldsymbol{g}'{'_j}), or(\boldsymbol{g}'{'_j}), sc(\boldsymbol{g}'{'_j}), as(\boldsymbol{g}'{'_j})\} $表示特征点$\boldsymbol{g}'{'_j}$具有4个属性。因此，构建格式塔空间可表达为

$ \mathit{\boldsymbol{G = }}{\mathit{\boldsymbol{R}}^2} \times \left[ {0,1} \right] \times \left( {0,\infty } \right) \times \left[ {0,1} \right] $

(1)

式中，$\boldsymbol{g}'' \subset \boldsymbol{G}, {\boldsymbol{R}^2}$表示特征点位置所在空间；第1个[0, 1]为方向特征所在空间；(0, ∞)表示特征点尺度空间；最后一个[0, 1]为归一化后的灰度空间。

1.3 序列连续性原则

人类对现实世界的感知是通过对事物的整体认知实现的，而对整体的认知可由对事物部分的认识而得到。因此，利用格式塔理论处理问题时，只要掌握问题的各组成部分及其相互关系，就可以据此解决该问题，这就是所谓的由部分推演整体的认知方式。判断候选边缘点是否为边缘点的格式塔原则，称为序列连续性原则^[19-20]。格式塔理论认为，根据人的先验认知，通过观察事物的部分，仍可得到对其整体的认知。如图 1可知，小圆点之间存在着某种关系(点间距相同且所有点共线)，通过这种关系可以得到对小圆点点集的整体认知，即，一条直线；同样可得到对大圆点的整体认知，即，一条曲线。图中的小、大圆点便是部分，小圆点构成的直线和大圆点构成的曲线便是整体。

图 1 序列连续性

Fig. 1 Row continuation

在格式塔空间$\boldsymbol{G}$中，以格式塔理论为基础定义序列连续性原则，并利用该原则判断候选点是否为边缘点。随机选取点集$\boldsymbol{g}'' = \{ \boldsymbol{g}'{'_j}; j = 1, \cdots, N\} $中的一点$\boldsymbol{g}'{'_k}$作为初始点，根据邻近原则搜索到点$\boldsymbol{g}'{'_l}$，再根据序列连续性原则进行操作运算$\Lambda \boldsymbol{g} = \Lambda (\boldsymbol{g}'{'_k}, \boldsymbol{g}'{'_l})$，给定阈值参数$\varepsilon $，若$a{s_{\Lambda, g}} > \varepsilon $，说明$\boldsymbol{g}'{'_k}$、$\boldsymbol{g}'{'_l}$在同条边缘上，把$\boldsymbol{g}'{'_k}$和$\boldsymbol{g}'{'_l}$存储入集合$\boldsymbol{g}$；然后根据邻近原则搜索到$\boldsymbol{g}'{'_l}$的邻近边缘点$\boldsymbol{g}'{'_m}$，并由式(2) 计算$\Lambda (\boldsymbol{g}'{'_k}, \boldsymbol{g}'{'_l}, \boldsymbol{g}'{'_m})$，如果$a{s_{\Lambda, g}} > \varepsilon $，说明$\boldsymbol{g}'{'_k}$、$\boldsymbol{g}'{'_l}$、$\boldsymbol{g}'{'_m}$在同条边缘上，将$\boldsymbol{g}'{'_m}$存入集合$\boldsymbol{g}$；直到评价函数$a{s_{\Lambda, g}} < \varepsilon $，得到边缘点点集$\boldsymbol{g} = \{ {\boldsymbol{g}_j}; j = 1, \cdots, M\} $，$M$为在同条边缘线上的边缘点的数量$(k, l, m \in [1, N]; k \ne l \ne m; M < N)$。假设在判断过程中，参与运算的候选边缘点数目为$n(1 < n < N)$，则序列连续性原则可表示为

$ \begin{array}{*{20}{c}} {\Lambda \mathit{\boldsymbol{g = }}\Lambda \left( {{\mathit{\boldsymbol{g}}_1}, \cdots ,{\mathit{\boldsymbol{g}}_n}} \right)}\\ {\left( {\begin{array}{*{20}{c}} {\frac{1}{n}\sum\limits_{j = 1}^n {\left( {po\left( {{\mathit{\boldsymbol{g}}_j}} \right)} \right)} }\\ {ori\left( {po\left( {{\mathit{\boldsymbol{g}}_n}} \right) - po\left( {{\mathit{\boldsymbol{g}}_1}} \right)} \right)}\\ {s{c_{mid}} + \left| {po\left( {{\mathit{\boldsymbol{g}}_n}} \right) - pl\left( {{\mathit{\boldsymbol{g}}_1}} \right)} \right|}\\ {{{\left( {{a_{\Lambda ,p}} \times {a_{\Lambda ,o}} \times {a_{\Lambda ,s}} \times {a_{\Lambda ,a}}} \right)}^{\frac{1}{4}}}} \end{array}} \right)} \end{array} $

(2)

$\boldsymbol{g}$中的每一个边缘点均表示一个部分格式塔，参与运算的部分格式塔${\boldsymbol{g}_1}, {\boldsymbol{g}_2}, \cdots, {\boldsymbol{g}_n}$经过上述操作后形成新的格式塔$\Lambda \boldsymbol{g}$。$\Lambda \boldsymbol{g}$也由位置、方向、尺度和灰度值四个属性刻画，新的格式塔$\Lambda \boldsymbol{g}$可能不在候选边缘点点集$\boldsymbol{g}''$中，但仍在格式塔空间$\boldsymbol{G}$中。若$\Lambda \boldsymbol{g}$的灰度值$a{s_{\Lambda, g}}$大于给定的阈值$\varepsilon $，则说明参与运算的候选边缘点均为边缘点，即参与运算的候选边缘点满足序列连续性，反之，则说明参与运算的候选边缘点不全为边缘点，即参与运算的候选边缘点不满足序列连续性。其中，$\Lambda \boldsymbol{g}$的位置$po(\Lambda \boldsymbol{g})$是通过对参与运算的部分格式塔的位置之和求平均获得；$\Lambda \boldsymbol{g}$的方向是由参与运算的起始点位置经过计算获得，

$ \begin{array}{*{20}{c}} {ori\left( {po\left( {{\mathit{\boldsymbol{g}}_n}} \right) - po\left( {{\mathit{\boldsymbol{g}}_1}} \right)} \right) = ori\left( {\left( {{v_x},{v_y}} \right)} \right) = }\\ {\left\{ \begin{array}{l} \frac{1}{2}\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{v_x} = 0\\ \frac{1}{{\rm{ \mathsf{ π} }}}\arctan \left( {\frac{{{v_y}}}{{{v_x}}}} \right)\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\frac{{{v_y}}}{{{v_x}}} > 0\\ \frac{1}{{\rm{ \mathsf{ π} }}}\arctan \left( {\frac{{{v_y}}}{{{v_x}}}} \right) + 1\;\;\;\;\;\;\;\;\;\;\;aaa \end{array} \right.} \end{array} $

(3)

式中，${v_x}、{v_y}$分别为参与运算的候选边缘点终点与起点的在$x$和$y$方向上的差值。$\Lambda \boldsymbol{g}$的尺度为参与运算的起始点的欧几里德距离与所有部分格式塔的尺度值累计积的几何平均数$s{c_{mid}}$之和，即

$ s{c_{mid}} = {\left( {\prod\limits_{j = 1}^n {sc\left( {{\mathit{\boldsymbol{g}}_j}} \right)} } \right)^{\frac{1}{n}}} $

(4)

$\Lambda \boldsymbol{g}$的灰度值由4个部分乘积的几何平均数获得，即

$ a{s_{\Lambda ,g}} = {\left( {{a_{\Lambda ,p}} \times {a_{\Lambda ,o}} \times {a_{\Lambda ,s}} \times {a_{\Lambda ,a}}} \right)^{\frac{1}{4}}} $

(5)

式中，$a{s_{\Lambda, g}}$既表示各部分格式塔组织之后形成新的格式塔$\Lambda \boldsymbol{g}$的灰度值，也表示格式塔组织过程的效果评价，可作为评价函数。给定阈值$\varepsilon $，若$a{s_{\Lambda, g}}$>$\varepsilon $，则表示参与运算的$n$个特征点在同条边缘上。${a_{\Lambda, p}}、{a_{\Lambda, o}}、{a_{\Lambda, s}}、{a_{\Lambda, a}}$分别表示在格式塔组织过程中位置、方向、尺度、灰度值的评价，各个评价值直接影响$a{s_{\Lambda, g}}、{a_{\Lambda, p}}$为

$ \begin{array}{*{20}{c}} {{a_{\Lambda ,p}} = {{\rm{e}}^{2 - \frac{{\left( {n - 1} \right) \times s{c_{mid}}}}{{\left| {po\left( {{\mathit{\boldsymbol{g}}_n}} \right) - po\left( {{\mathit{\boldsymbol{g}}_1}} \right)} \right|}} - \frac{{\left| {po\left( {{\mathit{\boldsymbol{g}}_n}} \right) - po\left( {{\mathit{\boldsymbol{g}}_1}} \right)} \right|}}{{\left( {n - 1} \right) \times s{c_{mid}}}}}} \times }\\ {{{\left( {\prod\limits_{j = 1}^n {{{\rm{e}}^{ - \frac{{\left| {po\left( {{\mathit{\boldsymbol{g}}_j}} \right) - se{t_j}} \right|}}{{sc\left( {{\mathit{\boldsymbol{g}}_j}} \right)}}}}} } \right)}^{\frac{1}{n}}}} \end{array} $

(6)

$ \begin{array}{*{20}{c}} {se{t_j} = po\left( {\Lambda \mathit{\boldsymbol{g}}} \right) + \left( { - \frac{1}{2} + \frac{{j - 1}}{{n - 1}}} \right) \times }\\ {\left( {po\left( {{\mathit{\boldsymbol{g}}_n}} \right) - po\left( {{\mathit{\boldsymbol{g}}_1}} \right)} \right)} \end{array} $

(7)

$ {a_{\Lambda ,o}} = {\left( {\prod\limits_{j = 1}^n {\alpha \left( {2{\rm{ \mathsf{ π} }}\left( {or\left( {{\mathit{\boldsymbol{g}}_j}} \right) - avo\left( {{\mathit{\boldsymbol{g}}_1}, \cdots ,{\mathit{\boldsymbol{g}}_n}} \right)} \right)} \right)} } \right)^{\frac{1}{n}}} $

(8)

$ a\left( x \right) = 1/2 + 1/2\cos \left( x \right) $

(9)

$ avo\left( {{\mathit{\boldsymbol{g}}_1}, \cdots ,{\mathit{\boldsymbol{g}}_n}} \right) = \frac{1}{{2{\rm{ \mathsf{ π} }}}} \times \arg \left( {\sum\limits_{j = 1}^n {{{\rm{e}}^{2{\rm{ \mathsf{ π} }} \times or\left( {{\mathit{\boldsymbol{g}}_j}} \right) \times i}}} } \right) $

(10)

式(10) 是利用复数的幅角函数求方向的平均值，其中的函数$\arg (x)$返回复数$x$的幅角。

$ {a_{\Lambda ,s}} = {{\rm{e}}^{\frac{{\left( {2n - {t_1} - \cdots - {t_n} - 1/{t_1} - \cdots - 1/{t_n}} \right)}}{n}}} $

(11)

$ {t_j} = sc\left( {{\mathit{\boldsymbol{g}}_j}} \right)/s{c_{mid}} $

(12)

$ {a_{\Lambda ,a}} = {\left( {\prod\limits_{j = 1}^n {as\left( {{\mathit{\boldsymbol{g}}_j}} \right)} } \right)^{\frac{1}{n}}} $

(13)

1.4 算法流程

综上所述，提出算法的具体流程如下：

1) 输入影像$I$，利用SIFT算法提取出候选边缘点点集$\boldsymbol{g}'' = \{ \boldsymbol{g}'{'_j}; j = 1, \cdots, N\} $，每个候选边缘点由4个属性刻画。位置$\boldsymbol{po} = \{ po(\boldsymbol{g}'{'_j}); j = 1, \cdots, N\}, po \subset {R^2}$；方向$\boldsymbol{or} = \{ or(\boldsymbol{g}'{'_j}); j = 1, \cdots, N\} $且$or \in [0,1]$；尺度$\boldsymbol{sc} = \{ sc(\boldsymbol{g}'{'_j}); j = 1, \cdots, N\} $且$sc(\boldsymbol{g}'{'_j}) > 0$；灰度值$\boldsymbol{as} = \{ as(\boldsymbol{g}'{'_j}); j = 1, \cdots, N\} $，范围在[0, 1]之间。建立格式塔空间$\boldsymbol{G}$，后续操作都将在格式塔空间$\boldsymbol{G}$中进行；

2) 随机选取$\boldsymbol{g}'' = \{ \boldsymbol{g}'{'_j}; j = 1, \cdots, N\} $中的一个候选边缘点$\boldsymbol{g}'{'_k}$作为初始点，根据邻近原则搜索到点$\boldsymbol{g}'{'_l}$，再根据式(2) 进行操作运算$\Lambda \boldsymbol{g}$，给定阈值参数$\varepsilon $，如果根据式(5) 计算得到的$a{s_{\Lambda, g}} > \varepsilon $，说明$\boldsymbol{g}'{'_k}$、$\boldsymbol{g}'{'_l}$在同条边缘上，把$\boldsymbol{g}'{'_k}$和$\boldsymbol{g}'{'_l}$存储入集合$\boldsymbol{g}$；然后根据邻近原则搜索到$\boldsymbol{g}'{'_l}$的邻近边缘点$\boldsymbol{g}'{'_m}$，并由式(2) 计算$\Lambda (\boldsymbol{g}'{'_k}, \boldsymbol{g}'{'_l}, \boldsymbol{g}'{'_m})$，如果$a{s_{\Lambda, g}} > \varepsilon $，说明$\boldsymbol{g}'{'_k}$、$\boldsymbol{g}'{'_l}$、$\boldsymbol{g}'{'_m}$在同条边缘上，将$\boldsymbol{g}'{'_m}$存入集合$\boldsymbol{g}$；直到评价函数$a{s_{\Lambda, g}} < \varepsilon $，得到集合$\boldsymbol{g} = \{ \boldsymbol{g}'{'_j}; j = 1, \cdots, M\} $，$M$为在同条边缘线上的特征点的数量$(k, l, m \in [1, N])$；

3) 重复步骤2)，依次得出影像中目标的各边缘线上的边缘点集；

4) 对得到的点集中的边缘点进行拟合，并对得到的边缘进行后处理，得到目标地物的整体边缘，进而实现建筑物的提取。

2 实验结果及讨论

为了验证提出算法的可行性和有效性，利用提出算法，在MATLAB环境下，对WorldView-2遥感影像进行建筑物的提取实验。

图 2(a)为原始影像大小为253×233像素，分辨率为1.8 m。图 2(b)中蓝线为对图 2(a)中建筑物的整体几何认知。通过图 2(b)可以看出，目标建筑物是一个由6条直线边缘1 6顺次连接而成的闭合规则六边形，边缘1、3、5相互平行且边缘3与5长度和与边缘1长度相等，边缘2、4、6相互平行且边缘2与4长度和与边缘6长度相等，相邻两条边缘之间满足垂直关系。得到对目标建筑物的整体认知之后，从整体论角度考虑，目标建筑物整体边缘的部分为边缘1 6。若分别将边缘1 6视为整体，则其边缘线上的点可视为部分。因此，首先要得到边缘1 6上完备的候选边缘点，然后根据格式塔序列连续性原则判别出边缘上的边缘点点集，并拟合得到边缘1 6。由于建筑物结构规则，得到的边缘顺次相连即可得到完整闭合的边缘。经SIFT算法提取候选边缘点，并将其叠加到原始影像上，见图 2(c)。由图 2(c)可以看出，SIFT算法在边缘上提取出了完备的候选边缘点。候选边缘点具有位置、方向、尺度和灰度值属性。属于同一建筑物的所有边缘点应具备相近的灰度值属性。建筑物边缘点与非建筑物边缘点的本质区别在于灰度值属性不同，根据此性质并利用序列连续性原则判断出落在边缘上的边缘点点集，叠加在原始影像上，如图 2(d)。将这些边缘线上的点进行拟合得到边缘线，如图 2(e)。由于图 2(e)中建筑物轮廓线并不闭合，故需要对其进行后处理，将轮廓线缺口处闭合，对应结果如图 2(f)。从图 2(b)和图 2(f)可以看出，提取边缘与对原始影像的整体认知基本一致，目视观察提出算法可以得到较高的提取精度。图 2(g)为建筑物的提取结果，图 2(h)为建筑物提取结果的二值化图像，图 2(i)为人工目视解译提取结果的二值化图像。

图 2 建筑物提取过程示例

Fig. 2 Process of building extraction((a)original image; (b)overall cognition; (c)candidate edge points; (d)edge points; (e)edges; (f)result of edge extraction; (g)result of building extraction; (h)result of extraction; (i)reference image)

图 2(e)中各边缘在格式塔组织过程中位置、方向、尺度、灰度值以及整个组织过程的评价${a_{\Lambda, p}}、{a_{\Lambda, o}}、{a_{\Lambda, s}}、{a_{\Lambda, a}}、{as_{\Lambda, g}}$，见表 1。表 1中对应图 2(e)中边缘1和边缘5的$a{s_{\Lambda, s}}$值小于1，说明拟合得出边缘1和边缘5的各候选边缘点尺度并不全相同。同样在其他影像的提取过程中也会遇到某条边缘线上的各点的尺度或方向并不全部相等的情况。本文算法的关键参数为$\varepsilon (\varepsilon \in [0,1])$。$\varepsilon $取值偏大时，不能得到建筑物的整体边缘，导致建筑物提取结果不完整；$\varepsilon $取值偏小时，会得到一些不属于建筑物的直线线段，易导致建筑物提取结果存在冗余的部分。不同的实验影像所需$\varepsilon $的最优取值不同，根据多次实验经验可以给出，$\varepsilon $的取值为0.4左右时，可以得到较好的提取结果。

表 1 提取过程中各边缘评价
Table 1 Evaluation of each edge in the process of extraction

下载CSV

对应图 2(e)	点数	${a_{\Lambda, p}}$	${a_{\Lambda, o}}$	${a_{\Lambda, s}}$	${a_{\Lambda, a}}$	${as_{\Lambda, g}}$
1	14	0.021 2	1	0.996 5	0.818 5	0.362 8
2	7	0.046 3	1	1	0.775	0.435 2
3	8	0.026	1	1	0.820 6	0.382 3
4	12	0.213 4	1	1	0.781 7	0.639 1
5	8	0.080 1	1	0.994 2	0.840 8	0.508 7
6	13	0.043 2	1	1	0.801 4	0.431 4

为了定量评价提出算法的性能，将本文算法提取建筑物的结果(图 2(h))和人工提取结果(图 2(i))进行基于像素的比较。设$TP$为提出算法提取结果中被正确分类为建筑物的像素数，$FP$为提取结果中被误分为建筑物的像素数，FN为未被正确分为建筑物的像素数。根据文献[6, 21]，设定建筑物提取的定量评价指标，分支因子($BF$)、遗漏因子($MF$)、检测率($DP$)、完整性($QP$)等为

$ \begin{array}{*{20}{c}} {BF = FP/TP}\\ {MF = FN/TP}\\ {DP = 100 \cdot TP/\left( {TP + FN} \right)}\\ {QP = 100 \cdot TP/\left( {TP + FN + FP} \right)} \end{array} $

(13)

式中，分支因子和遗漏因子主要与建筑物提取的边界描述性能相关。分支因子随误分类为建筑物的像素数量的增加而增加，遗漏因子随正确分类为建筑物的像素数量的减少而增加。检测率表示正确分类为建筑物的像素所占百分比，完整性体现提取结果的质量，完整性越高说明提取结果越好。总的来说，分支因子和遗漏因子越小，检测率和完整性越大，则提取结果越好。从表 2可以看出，分支因子和遗漏因子都很小，说明误分和漏分的像素数很少，检测率和完整性都很高，说明提取结果在很大程度上与人工提取结果相近，说明本文算法具有很高的精度，从而验证了本文算法的可行性和有效性。

表 2 算法的性能评价
Table 2 The performance evaluation of proposed method

下载CSV

$BF$	$MF$	$DP$/%	$QP$/%
0.009 7	0.034 4	96.67	95.77

图 3为5组实验的原始影像，5幅影像均是分辨率为1.8 m的WorldView-2遥感影像。图 3(a)—(c)大小均为150×150像素，图 3(d)大小为368×313像素，图 3(e)大小为244×180像素。通过图 3可以看出，原始影像中的提取目标主要是建筑物，对影像中建筑物的整体认知均为规则几何多边形，且几何多边形的部分认知均是直线线段，可以采用先提取出部分特征点再推演出直线边缘最后提取出建筑物的过程进行建筑物的提取。

图 3 原始影像

Fig. 3 Original images

利用SIFT算法提取原始影像中的全部特征点，并将其叠加在原始影像上，见图 4。通过图 4可以看出，候选边缘点完备且大多集中在边缘上，可利用序列连续性原则对其进行判别进而得到边缘点点集，并拟合出边缘线。由于整体认知中目标建筑物均为规则几何多边形，所以得到部分边缘线之后，也就得到了目标建筑物的所有边缘。可能得到的边缘不连贯，可根据格式塔的邻近性原则连接进而得出整体边缘。利用提出算法提取影像中建筑物的整体边缘，结果如图 5所示。在建筑物边缘提取基础上，进一步实现建筑物提取，将结果二值化，如图 6所示。

图 4 候选边缘点

Fig. 4 Candidate edge points

图 5 边缘提取结果

Fig. 5 Results of edge extraction

图 6 建筑物提取结果

Fig. 6 Results of building extraction

为了验证提出算法的优越性，使用基于多尺度分割和区域合并的建筑物提取方法(借助eCognition软件实现)和均值漂移(Mean Shift)算法作为对比算法。在使用eCognition软件执行多尺度分割算法时，需设置相关参数，本文选择尺度(scale)参数和颜色(color)权重参数，参数的设置没有严格的规定，经多次尝试，图 3(a)—(e)的最优尺度和颜色权重参数分别为(60, 0.3)、(30, 0.5)、(50, 0.5)、(185, 0.45)、(160, 0.3)。图 7(a)—(e)为eCognition软件对图 3(a)—(e)中建筑物提取结果的二值化图像，图 8(a)—(e)为使用均值漂移算法所得提取结果二值化图像，图 9(a)—(e)为图 3(a)—(e)人工提取结果的二值化图像，并以其作为精度评价的标准。基于多尺度分割的建筑物提取方法在多尺度分割结果的基础上根据建筑物信息定义其规则集，最终通过决策树原理实现建筑物提取。因此，该方法建筑物提取精度依赖于多尺度分割结果及相关规则集的定义。由图 7(b)—(e)可以看出，建筑物边缘提取结果不理想，提取结果的边界不规则，且误将小面积的、与建筑物具有相近光谱测度的非建筑物当作建筑物提取出来。而本文算法充分利用建筑物轮廓的几何特性，结合格式塔原理能够较好地拟合边界信息，进而较为准确地提取建筑物(如图 6(a)—(e))。由图 8(a)—(e)可看出，均值漂移算法所得结果存在冗余的目标，误将与建筑物具有相近光谱测度的非建筑物当作建筑物提取出来，本文算法所得结果则不存在这种情况。表 3为对本文算法、eCognition软件和均值漂移算法所得提取结果的定量评价，包括分支因子、遗漏因子、检测率和完整性。对比表 3中的各评价指标可看出，本文算法的分支因子均远小于eCognition软件和均值漂移算法，说明在建筑物误分方面，本文算法明显优于eCognition软件和均值漂移算法，如图 7(b)中，eCognition软件将小面积的非建筑物提取出来，而本文算法则没有；本文算法的遗漏因子大都小于eCognition软件和均值漂移算法，也存在大于eCognition软件和均值漂移算法的情况，这是由于本文算法在兼顾建筑物几何特性时，遗漏了一些边界上的像素，但是基本可以忽略不计；本文算法的检测率大都大于eCognition软件和均值漂移算法，且都在95 %以上；本文算法的完整性均大于eCognition软件和均值漂移算法，说明本文算法的提取结果质量优于eCognition软件和均值漂移算法。综上，本文算法优于基于多尺度分割和区域合并的建筑物提取方法和均值漂移算法，且具有很高的精度。

图 7 eCognition所得结果

Fig. 7 Results of eCognition

图 8 Mean shift算法结果

Fig. 8 Results of Mean shift

图 9 建筑物参考图像

Fig. 9 Building reference images

表 3 不同算法精度比较
Table 3 Accuracies comparison of different algorithms

下载CSV

图像	提取方法	精度指标
图像	提取方法	$BF$	$MF$	$DP$/%	$QP$/%
	本文	0.000 02	0.011 2	98.89	98.87
图 3(a)	eCognition	0.117 3	0.004 6	99.54	89.13
	Mean Shift	0.163	0.015 2	98.5	84.87
	本文	0.000 04	0.016	98.42	98.38
图 3(b)	eCognition	0.073	0.040 3	96.12	89.82
	Mean Shift	0.106 7	0.042 2	95.95	87.04
	本文	0	0.043 7	95.82	95.82
图 3(c)	eCognition	0.053 7	0.047 6	95.46	90.8
	Mean Shift	0.826 4	0.004 6	99.54	54.61
	本文	0.005 8	0.059 6	95.37	93.86
图 3(d)	eCognition	0.100 9	0.010 8	98.93	89.95
	Mean Shift	0.235 8	0.080 3	92.56	75.98
	本文	0	0.028 2	97.26	97.26
图 3(e)	eCognition	0.184 8	0.024 6	97.6	82.69
	Mean Shift	0.057 7	0.254 1	79.74	76.23

3 结论

本文基于格式塔理论从部分到整体的感知方式，结合建筑物的直线边缘和整体几何信息，充分利用建筑物边缘为直线的细节信息，能够更加准确地拟合建筑物边缘，同时兼顾建筑物整体几何形状，进而获得局部、全局最优的建筑物提取结果，拓展了格式塔理论在影像处理中的应用，为遥感影像建筑物提取提供了一种新的思路。本文算法虽然能够获得较为理想的建筑物提取结果，但只考虑高分辨率遥感影像中建筑物的整体几何认知是由直线线段构成的结构简单的规则几何多边形，对其他整体几何认知复杂或者不规则形状的目标建筑物未予以考虑，在未来工作中，将着重要处理这些问题。

参考文献

[1] Wang J, Qin Q M, Ye X, et al. A survey of building extraction methods from optical high resolution remote sensing imagery[J]. Remote Sensing Technology and Application, 2016, 31(4): 653–662. [王俊, 秦其明, 叶昕, 等. 高分辨率光学遥感图像建筑物提取研究进展[J]. 遥感技术与应用, 2016, 31(4): 653–662. ] [DOI:10.11873/j.issn.1004-0323.2016.4.0653]

[2] Yu B, Niu Z, Wang L, et al. An unsupervised method of extracting constructions from color remote sensed image based on mean shift and neutrosophic set[J]. Spectroscopy and Spectral Analysis, 2013, 33(4): 1071–1075. [于博, 牛铮, 王力, 等. 一种基于中性集和均值漂移的彩色遥感图像非监督建筑物提取方法[J]. 光谱学与光谱分析, 2013, 33(4): 1071–1075. ] [DOI:10.3964/j.issn.1000-0593(2013)04-1071-05]

[3] Zhou Y N, Shen Z F, Luo J C, et al. Shadow-assisted object-oriented extraction of urban buildings[J]. Geography and Geo-Information Science, 2010, 26(3): 37–40. [周亚男, 沈占锋, 骆剑承, 等. 阴影辅助下的面向对象城市建筑物提取[J]. 地理与地理信息科学, 2010, 26(3): 37–40. ]

[4] Jin X Y, Davis C H. Automated building extraction from high-resolution satellite imagery in urban areas using structural, contextual, and spectral information[J]. EURASIP Journal on Advances in Signal Processing, 2005, 2005(14): 2196–2206. [DOI:10.1155/ASP.2005.2196]

[5] Li X D, Ling F, Du Y. Building extraction at the sub-pixel scale from remotely sensed images based on anisotropic Markov random field[J]. Journal of Image and Graphics, 2012, 17(8): 1042–1048. [李晓冬, 凌峰, 杜耘. 基于各向异性Markov随机场的遥感影像亚像元尺度建筑物提取[J]. 中国图象图形学报, 2012, 17(8): 1042–1048. ] [DOI:10.11834/jig.20120820]

[6] Cui S Y, Yan Q, Reinartz P. Complex building description and extraction based on Hough transformation and cycle detection[J]. Remote Sensing Letters, 2012, 3(2): 151–159. [DOI:10.1080/01431161.2010.548410]

[7] Jung C R, Schramm R. Rectangle detection based on a windowed Hough transform[C]//The 17th Brazilian Symposium on Computer Graphics and Image Processing. Curitiba: IEEE, 2004: 113-120. [DOI: 10.1109/SIBGRA.2004.1352951]

[8] Wang P, Pan G H, Gao F Q. Gestalt Psychology[M]. Ji'nan: Shandong Education Press, 2009. [ 王鹏, 潘光花, 高峰强. 经验的完形:格式塔心理学[M]. 济南: 山东教育出版社, 2009.]

[9] Rock I, Palmer S. The legacy of Gestalt psychology[J]. Scientific American, 2011, 263(6): 84–90. [DOI:10.1038/scientificamerican1290-84]

[10] Desolneux A, Moisan L, Morel J M. From Gestalt Theory to Image Analysis[M]. New York: Springer, 2008.

[11] Zhou C X, Cao F W, Cui M, et al. A geometric active contour model based on the laws of Gestalt psychology[J]. Journal of Image and Graphics, 2008, 13(5): 924–929. [周昌雄, 曹丰文, 崔鸣, 等. 基于格式塔心理学原理的几何活动轮廓模型[J]. 中国图象图形学报, 2008, 13(5): 924–929. ] [DOI:10.11834/jig.20080514]

[12] Zeng J X, Wang Y. Natural image segmentation method based on Gestalt rules[J]. Journal of Image and Graphics, 2015, 20(8): 1026–1034. [曾接贤, 王玉. 结合格式塔完形规则的自然图像分割[J]. 中国图象图形学报, 2015, 20(8): 1026–1034. ] [DOI:10.11834/jig.20150805]

[13] Desolneux A, Moisan L, Morel J M. Maximal meaningful events and applications to image analysis[J]. The Annals of Statistics, 2003, 31(6): 1822–1851. [DOI:10.1214/aos/1074290328]

[14] Zhu S S, Yung N H C. Sub-scene segmentation using constraints based on Gestalt principles[J]. Journal of Visual Communication and Image Representation, 2014, 25(5): 994–1005. [DOI:10.1016/j.jvcir.2014.02.017]

[15] Zhu S S, Yung N H C. Improve scene categorization via sub-scene recognition[J]. Machine Vision and Applications, 2014, 25(6): 1561–1572. [DOI:10.1007/s00138-014-0622-5]

[16] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91–110. [DOI:10.1023/B:VISI.0000029664.99615.94]

[17] Chen M T, Yan D M, Wang G. Algorithm of high-resolution remote sensing image matching based on Harris corner and SIFT descriptor[J]. Journal of Image and Graphics, 2012, 17(11): 1453–1459. [陈梦婷, 闫冬梅, 王刚. 基于Harris角点和SIFT描述符的高分辨率遥感影像匹配算法[J]. 中国图象图形学报, 2012, 17(11): 1453–1459. ] [DOI:10.11834/jig.20121116]

[18] Du Z L, Yang F, Li X L, et al. Fogery image blind detection by asymemetric search based on SIFT[J]. Journal of Image and Graphics, 2013, 18(4): 442–449. [杜振龙, 杨凡, 李晓丽, 等. 利用SIFT特征的非对称匹配图像拼接盲检测[J]. 中国图象图形学报, 2013, 18(4): 442–449. ] [DOI:10.11834/jig.20130412]

[19] Michaelsen E, Yashina V V. Simple gestalt algebra[J]. Pattern Recognition and Image Analysis, 2014, 24(4): 542–551. [DOI:10.1134/S1054661814040154]

[20] Michaelsen E. Gestalt algebra-a proposal for the formalization of Gestalt perception and rendering[J]. Symmetry, 2014, 6(3): 566–577. [DOI:10.3390/sym6030566]

[21] Tao C, Tan Y H, Cai H J, et al. Object-oriented method of hierarchical urban building extraction from high-resolution remote-sensing imagery[J]. Acta Geodaetica et Cartographica Sinica, 2010, 39(1): 39–45. [陶超, 谭毅华, 蔡华杰, 等. 面向对象的高分辨率遥感影像城区建筑物分级提取方法[J]. 测绘学报, 2010, 39(1): 39–45. ]