Print

发布时间: 2019-06-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180518
2019 | Volume 24 | Number 6




    Chinagraph 2018    




  <<上一篇 




  下一篇>> 





平行坐标轴动态排列的地理空间多维数据可视分析
expand article info 周志光1,2, 余佳珺1, 郭智勇1, 刘玉华1
1. 浙江财经大学信息管理与工程学院, 杭州 310018;
2. 浙江大学CAD&CG国家重点实验室, 杭州 310058

摘要

目的 平行坐标是经典的多维数据可视化方法,但在用于地理空间多维数据分析时,往往存在空间位置信息缺失和空间关联分析不确定等问题。对此,本文设计了一种有效关联平行坐标和地图的地理空间多维数据可视分析方法。方法 根据多维属性信息对地理空间位置进行聚类分析,引入Voronoi图和颜色明暗映射对地理空间各类区域进行显著标识,利用平行坐标呈现地理空间多维属性信息,引入互信息度量地理空间聚类与属性类别的相关性,动态地确定平行坐标轴排列顺序,进一步计算属性轴与地图之间数据线的绑定位置,对数据线的布局进行优化处理,降低地图与平行坐标系间数据线分布的紊乱程度。结果 有效集成上述可视化设计及数据分析方法,设计与实现一种基于平行坐标轴动态排列的地理空间多维数据可视化分析系统,提供便捷的用户交互模式,通过2组具有明显地理空间多维属性特征的数据进行测试,验证了本文可视分析方法的有效性和实用性。结论 本文提出的可视分析方法和工具可以帮助用户快速分析地理空间多维属性存在的空间分布特征及其关联模式,为地理空间多维数据的探索提供了有效手段。

关键词

可视分析; 地理空间; 多维数据; 平行坐标; 互信息

Visual analysis of geospatial multi-dimensional data via a dynamic arrangement of parallel coordinates
expand article info Zhou Zhiguang1,2, Yu Jiajun1, Guo Zhiyong1, Liu Yuhua1
1. School of Information, Zhejiang University of Finance and Economics, Hangzhou 310018, China;
2. State Key Laboratory of CAD & CG, Zhejiang University, Hangzhou 310058, China
Supported by: Major Humanities and Social Sciences Research Projects in Colleges of Zhejiang Province (2018QN021, 2018QN058)

Abstract

Objective Geospatial multi-dimensional data are mainly composed of spatial location and attribute information, which can effectively record and describe events and phenomena, such as social and economic development, natural environment changes, and human social activities. As a commonly used method for multi-dimensional data visualization, parallel coordinates do not work well for the visual exploration of geospatial multi-dimensional data because of the lack of spatial information and uncertainty of spatial correlation. Therefore, analysis and understanding of geospatial multidimensional data are highly important in establishing an effective association between spatial locations and multiple attributes. Method In this study, we propose a novel geospatial multi-dimensional data visualization method that uses geographical maps to display spatial locations, visualizes multi-dimensional attributes via parallel coordinates, and associates map and parallel coordinates through data lines. We design a corresponding visual analysis system that allows users to explore and analyze the spatial distribution of geospatial multi-dimensional data and its associated feature patterns interactively on the basis of the initial geospatial multidimensional data, including different spatial locations and their corresponding multi-dimensional attribute information. Spatial areas are classified into different clusters according to multi-dimensional attributes and spatial distance, and Voronoi diagrams and color mappings are designed to represent different clusters visually. The attribute information of the geospatial multi-dimensional data is represented by parallel coordinates, and the data on different attribute axes are clustered and analyzed. Mutual information is used to calculate the correlation between the geospatial clustering and attribute categories dynamically, and the ordering of the parallel coordinate plot is adaptively determined. Then, the map is embedded into the parallel coordinates on the basis of the axis alignment results, and the map view and parallel coordinate systems are effectively correlated through data lines. Furthermore, the binding position of the data line between the attribute axis and the map is dynamically calculated according to the geospatial clustering, and the layout of the data line is optimized to reduce the disorder of the data line distribution between the map and parallel coordinate system. We design and implement a geospatial multi-dimensional data visualization analysis system that integrates the above visual designs and data analysis methods. To demonstrate the validity and practicability of the proposed visual analysis system, a convenient user interaction mode is provided, and two case studies are conducted based on the datasets with multi-dimensional geospatial attributes. GDP data containing 11 attributes and 32 spatial locations are visualized using our visual analysis system. Result Comparison of the geospatial clustering and actual urban development in the map view proves that the proposed geospatial clustering algorithm that comprehensively considers data attribute and spatial location information is useful. By observing the arrangement of parallel axes, we confirm that the dynamic arrangement of parallel axes based on mutual information exhibits a certain rationality. In the second case based on geospatial multi-dimensional data, we explore the spatial distribution of attribute information in a certain spatial cluster. When a user clicks on a geospatial clustering of interest, the system rearranges the parallel coordinate axes. Conclusion By comparing the distributions of attributes of the same geospatial clustering at different times, we find that the proposed method is highly sensitive to data. When the data change slightly, the order of the parallel axis changes, making the map embedded in parallel coordinates match the spatial distribution of multi-dimensional attribute information well. We invite experts from different fields, such as geography and economics, to use and evaluate the system. The validity and practicability of the geospatial multidimensional data visual analysis system are further verified through one-on-one interviews. A set of case studies and expert feedback shows that the visual analysis methods and tools proposed in this study can help users quickly analyze the spatial distribution characteristics and associated patterns of geospatial multi-dimensional attributes and provide domain experts with an effective means of exploring geospatial multi-dimensional data.

Key words

visual analysis; geographic space; multi-dimensional data; parallel coordinates; mutual information

0 引言

地理空间数据通常由地理位置和属性信息构成。地理位置用于描述对象的空间几何信息,一般由经纬度坐标表达;属性信息用于描述空间对象的状态特征,一般由多种专题属性数据表达[1]。可见,地理空间数据是具有明确空间位置标识的多维属性数据集合,能够有效记录社会经济发展、自然环境变化、人类社交活动等现象。宏观经济统计数据、空气质量监测指标数据、以智能手机为代表的移动终端数据等都是典型的地理空间数据。因此,通过有效探索和解析地理空间多维属性数据,从而对经济社会发展形式和人类生活模式进行全面而细致的分析论证,进而为相关部门提供决策支持,是当前数据分析以及可视化领域的研究热点,具有重要的理论价值和现实意义。

可视分析是近年来快速发展的交叉学科,有效融合了数据挖掘、模型分析等理论和方法,利用交互可视化界面对复杂的数据进行探索和分析,引导用户全面而细致地分析探索地理空间多维属性数据中潜在的关联特征模式[2]。平行坐标是一种经典的多维属性数据可视化技术,将多维属性抽象为平行的垂直或水平坐标线,将数据对象按照多维属性信息映射为跨越平行坐标轴的组合线段,进而直观地呈现多维属性空间中数据的分布及关联特征[3]。大量研究工作将平行坐标引入地理空间多维属性数据可视分析,主要可以分为将空间位置信息直接映射坐标轴以及多视图交互两类方法。然而,由于空间位置分布不均,且不具备顺序属性,将其直接布局于平行坐标轴会导致空间信息丢失,不利于空间关联特征的分析与挖掘。多视图交互的可视化效果借助用户意境创建地理空间概念视图。多维属性信息及地理空间位置的分离,不利于多维属性地理空间分布特征及关联模式的直观呈现和深入挖掘。

因此,本文提出一种有效融合地图和平行坐标的地理空间多维属性数据可视分析方法。首先,综合考虑空间位置信息,从专题属性角度出发,对地理空间对象进行聚类分析,并且在地图视图中利用Voronoi图和颜色明暗程度对地理空间对象进行划分和显著标识。进而,在地图空间嵌入平行坐标系,根据多维属性分布对数据对象进行聚类分析,利用互信息动态地计算获取地理空间聚类与属性类别之间的相关性,自适应地确定平行坐标轴排列顺序。为了降低大量数据线造成的分布紊乱情况,进一步计算各个地理空间聚类的数据线绑定位置,对数据线的布局进行优化处理。最后,提供便捷的用户交互模式,有效关联上述可视化设计及数据分析方法,设计与实现基于平行坐标轴动态排列的地理空间多维数据可视分析系统,为用户快速地分析和探索地理空间数据中多维属性空间分布特征及其关联模式提供交互识别手段和量化分析依据。

本文的主要贡献如下:

1) 提出一种有效融合地图和平行坐标的地理空间多维属性可视分析方法,克服传统平行坐标用于地理空间多维属性可视化过程中存在的问题,帮助用户快速分析和探索地理空间数据中多维属性空间分布特征及其关联模式。

2) 综合考虑地理空间对象专题属性和地理位置属性,设计地理空间多维属性聚类分析策略,有效识别地理空间聚类特征。Voronoi图和颜色明暗程度映射的设计和引入,进一步增强了地理空间类别特征表达。

3) 引入互信息有效地度量地理空间聚类与专题属性类别的相关性,动态地优化平行坐标轴排列顺序及数据线空间分布,支持用户交互式地聚焦与探索感兴趣的空间类别特征,增强多维属性空间分布及关联特征的视觉感知。

本文的组织结构如下:第1部分简要阐述相关工作;第2部分介绍本文的系统流程及算法要点;第3部分详细论述本文数据挖掘算法及可视化设计;第4部分结合案例分析和专家反馈验证本文所提可视分析系统的有效性和实用性,并对不足之处进行分析和讨论;第5部分对全文工作进行总结。

1 相关工作

本节从多维属性可视化、平行坐标和地理空间数据可视化3个角度出发,对相关工作进行论述。

1.1 多维属性可视化

散点图矩阵[3]、降维算法[4]、平行坐标[5]等大量经典而有效的可视化方法都是将多维属性数据映射至人眼易于感知的2维空间,帮助用户快速分析与探索其在原始多维空间中的分布特征和关联模式。散点图矩阵是将原始数据的多维属性排列式地布局到2维直角坐标系中,能够有效呈现任意两个属性间的相关关系。为了减少散点图矩阵中大量数据重叠引起的视觉混淆,Matejka等人[6]通过定义平均有效不透明度变量,自适应地优化散点图矩阵的渲染透明度,增强多维属性分布特征的理解与认知。Goodwin等人[7]通过设计具有特定含义的图标(glyph),有效表示散点图矩阵中的不同单元,有助于感知和识别多变量数据在不同尺度、不同地理空间区域的分布差异。然而,散点图矩阵布局无法展示3维及3维以上属性之间的相关关系,且受空间资源局限导致其可拓展性不强。降维算法可以将多维数据以线性或非线性的方式投影至低维空间中。经典的降维算法包括主成分分析(PCA)[8]、多维标度(MDS)[9]、自组织映射(SOM)[10]等。Turkay等人[11]有效融合PCA和MDS降维算法,实现了多维数据的结构感知及特征分析。Yuan等人[12]设计并提出有效融合PCA和MDS算法的维度投影矩阵/树,支持用户交互式地探索和优化多维属性数据可视化结果。Sacha等人[13]利用SOM算法对多维数据进行聚类分析和数据库概览,支持筛选具有代表性的属性,以达到降维可视化的目标。然而,降维投影的坐标不代表具体的数据含义,为多维属性数据的理解带来困扰。

1.2 平行坐标

平行坐标是将多维属性抽象为2维空间中平行排列的坐标轴,进而连接不同属性轴上的坐标,获得多维属性数据的直观分布[14]。随着数据规模的增加,大量重叠、交叉的折线容易造成数据分布混乱,导致平行坐标系中多维属性关联特征难以识别与发现。Wu等人[15]设计了面向手机基站数据的交互式可视分析系统TolCoVis,利用binning技术对平行坐标属性数据进行聚类。Nguyen等人[16]利用平行坐标的点线对称性,设计并提出了DSPCP(data scalable approach for identifying relationships in parallel coordinates)方法,增强平行坐标表达复杂多维数据关系的效率与精度。Wang等人[17]构建了嵌套式的平行坐标系,有效探索集合模拟数据多分辨率之间以及单个分辨率内部的数据分布特征。秦红星等人[18]对维度间不同类别的连接关系进行重新规划与排列,解决了平行坐标系中边捆绑方法存在的数据量表达不准确以及维度间视觉连续性丢失等问题。巫滨等人[19]提出一种基于力引导分段式骨骼布局的边绑定方法,增加了平行坐标系中数据分布特征表达的准确性。

平行坐标轴排列顺序对于多维属性数据的探索和感知具有重要意义。Wegman[20]将平行坐标轴排列的解空间看做一个图模型,利用欧拉路径和哈密顿分解确定最优的平行坐标轴排列顺序。Qu等人[21]利用加权完全图可视化呈现维度间的相关性,根据相关系数编码边的权重,帮助用户交互式地确定平行坐标轴排列顺序。Zhang等人[22]将平行坐标系中的每个属性轴抽象为网络图中的结点,引入相关系数度量边的权重,进而利用旅行商问题(TSP)求解算法查找最优平行坐标轴的排列顺序。Zhen等人[23]根据Spearman秩相关系数衡量多维属性之间的相关度,进而利用贪心算法优化平行坐标轴排列顺序。Zhou等人[24]提出一种基于聚类相关性的平行坐标轴排列算法,对各个专题属性维度进行层次聚类,利用信息熵度量多维属性相关性,结合图遍历最小代价路径的方式,对平行坐标轴排列进行优化。然而,由于空间位置不具备顺序属性,采用平行坐标展示地理空间多维属性信息会导致空间信息丢失,不利于空间关联特征的分析与挖掘。

1.3 地理空间数据可视化

地理空间对象通常具有多维属性信息描述,有效融合地理空间位置和多维属性信息,为用户提供全面而完整的可视化结果,具有重要意义和研究价值。陈为等人[25]设计Glyph编码地理空间对象的多维属性及概率分布等信息,并且按照其对应的空间位置映射在地图中,帮助用户快速浏览地理空间多维属性及其概率分布特征。Turkay等人[26]从交互可视的角度出发,面向英国人口普查数据,设计地图和散点图矩阵关联的可视分析系统,支持用户交互定义分析路径,利用Small multiples展示多维经济指标的相关性及变化规律。Wang等人[17]面向多分辨率气象集合模拟数据,设计内嵌式平行坐标,实现多维参数关联关系的协同可视,并且利用Small multiples描述模拟数值与真实观测数据之间的差异。Lu等人[27]针对出租车轨迹数据,设计OD-Wheel可视分析方法,将环形视图与线性树图结合,帮助用户分析和对比各个区域间流量的时序分布特征。陈谊等人[28]设计基于热力图和放射环的可视分析系统SunMap,在地图上叠加热力图呈现数据分布,利用基于节点排序的放射环对具有显著层次结构特征的数据进行探索与可视化。Yang等人[29]构建能够有效融合OD(origin-destination)矩阵和流图的可视分析工具Maptrix,利用二次规划算法查找视图的最佳连接位置,对地理空间信息和OD分布进行关联可视分析。可以看出,Glyph设计、Small multiples、交互展示、地图嵌入式等手段能够有效融合空间位置与属性信息,是地理空间数据可视化的有效途径。然而,上述地理空间数据可视化方法,容易造成多维属性信息及地理空间位置的感知分离,不利于地理空间多维属性数据的空间分布特征及关联模式的直观呈现和深入挖掘。

2 系统概述

本文基于平行坐标研究一种有效关联地图的地理空间多维数据可视分析方法,帮助用户交互式地探索和分析地理空间多维属性的空间分布及其关联特征模式。图 1是本文系统的总体流程。

图 1 系统流程图
Fig. 1 System overview

首先,导入初始的地理空间多维属性数据,包括不同地理空间对象及其对应的多维属性信息;进而对空间位置进行区域划分,借助地图可视化展示空间位置属性,并对属性信息进行聚类分析。采用颜色明暗程度的映射方案对不同的地理空间聚类进行标识,结合互信息度量地理空间聚类与属性类别的相关性,自适应确定轴排列顺序,进而通过数据线有效关联两视图;最后提供相关矩阵视图、径向坐标视图等可视化视图,以及便捷的用户交互模式,并有效关联上述可视化设计及数据分析方法,为用户快速分析地理空间多维属性数据存在的空间分布特征及其关联模式提供有效手段。

3 地图关联平行坐标多维属性可视化

本节从地理空间聚类分析、地图关联平行坐标以及数据线布局优化设计等角度出发,对本文系统涉及的数据计算算法及可视化设计进行详细地解析和阐述。

3.1 地理空间聚类分析

为有效提取地理空间多维属性数据的地理空间分布特征,李光强等人[30]提出一种兼顾空间位置和属性信息的地理空间聚类算法,能有效构建空间位置邻近且属性信息相似的地理空间聚类分析。在此基础上,本文设计一种地理空间聚类分析及可视化策略。首先,读入初始的地理空间多维属性数据集$\mathit{\boldsymbol{F}} = \left\{ {{f_1}, {f_2}, \cdots, {f_n}} \right\}(n \ge 2)$,其中${f_i}$是该地理空间数据集$\mathit{\boldsymbol{F}}$中第$i$个样本,包含空间位置$x$, $y$(即经纬度坐标)和属性信息${A_{ik}}$。样本${f_i}$${f_j}$之间的空间位置距离计算为

$ {D_{{\rm{geo}}}}\left( {{f_i},{f_j}} \right) = \sqrt {{{\left( {{x_i} - {x_j}} \right)}^2} + {{\left( {{y_i} - {\gamma _j}} \right)}^2}} $ (1)

结合闵可夫斯基距离计算样本${f_i}$${f_j}$之间的专题属性距离,计算为

$ {D_{{\rm{attr}}}}\left( {{f_i}, {f_j}} \right) = {\left( {\sum\limits_{k = 1}^n {\frac{{\left| {{A_{ik}} - {A_{jk}}} \right|}}{{{D_{k{\rm{max}} }}}}} } \right)^{1/n}} $ (2)

式中,${A_{ik}}$表示样本${f_i}$的第$k$维专题属性,${D_{k{\rm{max}} }}$为第$k$维专题属性上最大最小属性信息的差值,${D_{k{\rm{max}} }} = {A_{k{\rm{max}} }} - {A_{k{\rm{min}} }}$,并根据实际案例需求交互定义空间位置距离和专题属性距离的最小阈值${\varepsilon _{{\rm{dis}}}}$${\varepsilon _{{\rm{attr}}}}$,以此构建基于专题属性的地理空间聚类算法,过程如下:

1) 从当前未标记的样本中随机选取某一样本${f_i}$,迭代计算其余样本与样本${f_i}$之间的空间距离,并构建集合${\mathit{\boldsymbol{F}}_{{\rm{geo}}}} = \left\{ {{f_x}|{D_{{\rm{geo}}}}\left({{f_i}, {f_j}} \right) \le {\varepsilon _{{\rm{dis}}}}} \right\}(x \le n)$

2) 计算集合${\mathit{\boldsymbol{F}}_{{\rm{geo}}}}$中所有样本与${f_i}$之间的属性距离,构建集合${\mathit{\boldsymbol{F}}_D} = \left\{ {{f_y}|{D_{{\rm{attr}}}}\left({{f_i}, {f_j}} \right) \le {\varepsilon _{{\rm{attr}}}}} \right\}(y \le x)$

3) 对${\mathit{\boldsymbol{F}}_D}$中的每一样本进行循环递归搜索,寻找所有与${f_i}$相连的集合,构建集合${\mathit{\boldsymbol{F}}_L}$,并对${f_i}$${\mathit{\boldsymbol{F}}_D}$${\mathit{\boldsymbol{F}}_L}$进行相同颜色编码,视为同一类别。

4) 当全部样本均被颜色编码,则视为算法结束,否则返回步骤1)进行下一轮递归搜索。

为有效呈现地理空间聚类分析结果及其分布,本文利用Voronoi对地图进行多边形划分。在多边形划分的基础上,结合地理空间聚类分析结果,对属于同一聚类的多边形进行相同颜色映射,用户可以直观地发现属性相似且空间邻近的地理空间位置。图 2展示了不同参数下,对应空间位置聚类结果对比。在${\varepsilon _{{\rm{attr}}}}$=4.7,${\varepsilon _{{\rm{dis}}}}$=2.72时,地理空间位置聚为7类,如图 2(a)所示,大量位于华北、华东、华中的城市被聚为一类。当降低专题属性最小阈值,并调高空间位置距离最小阈值,在${\varepsilon _{{\rm{attr}}}}$=4.247,${\varepsilon _{{\rm{dis}}}}$=3.219时,地理空间位置被聚为8类,聚类结果如图 2(b)所示,华北、华东、华中所属城市在一定程度上被区分。

图 2 不同参数下对应的地理空间位置聚类可视化结果
Fig. 2 Spatial clusters based on different parameters
((a)$\varepsilon_{\mathrm{attr}}=4.7$, $\varepsilon_{\mathrm{dis}}=2.72$; (b)${\varepsilon _{{\rm{attr}}}} = 4.247$, ${\varepsilon _{{\rm{dis}}}} = 3.219$)

3.2 地图关联平行坐标

本文利用平行坐标展示地理空间数据的多维属性信息,其中数据线有效关联地图视图和平行坐标,能够帮助用户直观地探索和理解地理空间多维属性的空间分布及其关联特征。然而,具体的平行坐标与地图进行关联的过程存在如下挑战:1)地理空间对象不具有顺序特点,直接映射至坐标轴上容易导致空间信息丢失;2)不同属性信息在地理空间的分布情况不尽相同,若随机排列属性轴,通过数据线关联地图和平行坐标视图,容易导致数据线分布紊乱,妨碍地理空间多维属性的空间分布特征探索与感知。

为此,本文引入互信息度量属性信息的空间分布相关性,为有效关联地图视图以及平行坐标轴排列提供依据。首先,基于核密度估计对地理空间多维属性数据集中每个属性信息进行聚类分析。本文采用高斯核密度估计,计算公式为

$ {\hat f_h}(x) = \frac{1}{{\sqrt {2{\rm{ \mathit{ π} }}}nh }}\sum\limits_{i = 1}^n {\exp } \left( { - \frac{{{{\left( {x - {x_i}} \right)}^2}}}{{{h^2}}}} \right) $ (3)

式中,$h$表示不同距离样本点对密度的影响程度。迭代比较核密度曲线中不同样本点之间对应密度的大小,得到$l + 1$个波谷,每两个相邻波谷间对应属性信息数据视为一个类,以此构建$l$个聚类。属性信息的聚类结果与带宽的选取有关,如图 3所示。当$h$选择过大时,核密度曲线过于光滑,导致所有的数据被聚为一类;当$h$选择过小时,核密度曲线波谷较多, 所得聚类较多。因此本文设置参数接口,交互式地定义带宽,进而得到合适的属性聚类结果。

图 3 核密度曲线
Fig. 3 Kernel density curves((a) $h = 2$; (b) $h = 5$)

在获得每个属性信息聚类特征的基础上,根据式(5),结合互信息,计算属性信息与空间位置的相关性大小,具体为

$ VI\left( {C;{C_k}} \right) = 2H\left( {C, {C_k}} \right) - H(C) - H\left( {{C_k}} \right) $ (4)

式中,$H(C)$表示地理空间聚类的信息熵大小,$H\left({{C_k}} \right)$表示第$k$维属性聚类的信息熵大小,$H\left({C, {C_k}} \right)$表示第$k$维属性信息在地理空间聚类分析结果中的数据分布紊乱程度。基于互信息构建属性信息与地理空间位置之间的相关性度量标准,计算结果越小,表明该聚类下属性信息的空间分布特征越明显。

为减少数据线的分布紊乱程度以增强用户对属性信息空间分布特征的感知,以相关性计算结果为依据自适应地确定平行坐标轴排列,将具有明显空间分布特征的属性信息抽象为平行坐标轴与地图相邻放置,通过数据线有效关联平行坐标系与地图视图。以图 4中的空间聚类及属性分布为例,通过数据线构建地理空间聚类${\mathit{\boldsymbol{c}}_1}$${\mathit{\boldsymbol{c}}_2}$${\mathit{\boldsymbol{c}}_3}$与属性轴之间的关联关系,发现属性轴$A$上的属性信息与空间聚类的相关性相较于属性轴$B$上的属性信息更强,具有明显的空间分布特征,将属性轴$A$与地图相邻放置可以有效减少数据线的交叉重叠,帮助用户更好地观察和分析地理空间分布及多维属性的关联特征;反之则容易产生数据线分布紊乱,干扰视觉认知。

图 4 平行坐标轴关联地图示意图
Fig. 4 Diagram with parallel coordinates and geographical map

本文利用相关矩阵图,通过颜色深浅程度直观地展示地理空间多维数据各属性间的相关性大小。相关矩阵图中颜色越深,代表相关性越大;颜色越浅,代表相关性越小。同时,对相关矩阵图的对角线矩阵块进行颜色映射,表示属性聚类结果以及地理空间聚类结果,类别越多,颜色越深,可视化结果如图 5(a)所示。并设计径向坐标图,通过连接地理空间多维数据中各属性信息的4分位数构建闭合多边形,直观地展示属性信息的数据分布情况,如图 5(b)所示。用3条闭合多边形曲线分别代表第1个4分位数、第2个4分位数和第3个4分位数,当多边形间隔紧密时,表明该属性信息数据分布较为集中,相反则说明该地理空间对象的属性信息分布较分散。

图 5 属性可视化
Fig. 5 Multiple attribute visualization
((a) correlation matrix view; (b) radial chart)

3.3 数据线布局优化设计

为避免大量数据线交叉重叠造成维度间信息视觉不连续,对数据线设置透明度,增强重要内容的显示跟踪属性信息在每个轴之间的趋势走向。构建连续分段的Bézier曲线代替原始的直线,以减少大量数据线交叉重叠带来的视觉紊乱。进一步对平行坐标系上的数据线进行堆叠处理,直观地展示属性信息聚类结果,如图 6所示。然而堆叠效果在某些特定情况下容易造成信息位移,无法判断各数据间属性信息的相对大小。因此,用户可以根据不同的需求交互选择是否展示堆叠效果。

图 6 平行坐标堆叠可视化
Fig. 6 Stacked visualization of parallel coordinates

在地理空间多维属性数据中,不同属性信息的地理空间分布特征不尽相同,如果通过数据线直接关联地图视图和平行坐标系,会造成大量交叉重叠现象,对属性信息空间分布的理解和类别的探索都带来困扰。为降低数据线交叉造成的视觉紊乱,本文基于地理空间聚类结果,动态计算属性轴与地图视图之间数据线汇聚点位置,对数据线的布局进行优化处理。1)确定某一地理空间聚类中相距最远的两个地理空间对象,记作$\mathit{\boldsymbol{a}}$$\mathit{\boldsymbol{b}}$。连接$\mathit{\boldsymbol{a}}$$\mathit{\boldsymbol{b}}$构建长度为$d$的线段,并作线段垂直平分线。为确保数据线的汇聚位置与所有地理空间对象都不产生重合现象,在距离垂直平分线$d$处构建第1个汇聚点${e_1}$,如图 7(a)所示。2)以地理空间聚类为依据,计算地图两侧属性轴上对应属性信息的平均值,作为汇聚点的纵坐标。该地理空间聚类对应属性信息的最大差值记为$w$,距离属性轴$w/\lambda $处记作该汇聚点的横坐标,以此构建第2个数据线汇聚点${e_2}$,如图 7(b)所示。3)根据对应属性信息的分布密集程度,交互定义$\lambda $值,使汇聚点远离属性轴减少数据交叉,并编码连接线的多边形宽度来直观展示每条曲线包含的数据量大小。

图 7 数据线汇聚点确定示意图
Fig. 7 Different bundling results
((a) bundling point ${e_1}$; (b) bundling point ${e_2}$)

4 实验结果分析与讨论

本节主要介绍本文可视分析系统界面的交互设计,通过实际的案例分析验证系统的可行性,根据专家反馈信息进一步验证系统的有效性,并对本文系统的不足之处进行讨论。

4.1 界面交互设计

图 8是本文可视分析系统主界面,主要由控制窗口、径向坐标视图、相关矩阵视图以及嵌入平行坐标的地图视图构成。在控制窗口,用户可以交互选择所需研究的地理空间多维属性数据,以及空间位置属性区域划分和属性信息聚类阈值的调整,交互点击平行坐标显示键,显示地理空间多维属性信息的平行坐标。地图随控制窗口所选数据的地理空间尺度相应地放大缩小,使所需研究的地理空间铺满整个地图视图,并通过颜色映射帮助用户直观地区分地理空间聚类结果。系统还提供了相关矩阵视图和径向坐标视图,用户在嵌入平行坐标的地图视图中交互选择感兴趣的地理空间区域、相关矩阵图和径向坐标图相应的变化,多视图展示多维属性间的互信息大小以及各属性信息的数据分布密度,帮助用户更好地分析和探索地理空间多维属性数据存在的空间分布特征及关联模式。当用户根据实际案例需求交互调整空间位置距离阈值与属性信息距离阈值时,平行坐标轴排列顺序以及地图嵌入位置根据聚类结果自适应地发生变化以达到最佳可视化效果。

图 8 可视分析系统主界面
Fig. 8 The visual interface of our visualization system

4.2 案例分析

本文引入2组具有明显地理空间多维特征的数据进行案例分析,分别为国内生产总值统计数据和浙江省空气质量检测数据,通过实际案例验证系统的有效性和实用性。

4.2.1 国内生产总值数据

国内生产总值数据集包含11个专题属性以及32个地理空间对象,属性包含第一产业、第二产业、第三产业、工业、建筑业、交通运输仓储邮政业、批发零售业、住宿餐饮业、金融业、房地产业以及其他服务业,是典型的具有明显地理空间的多维属性数据集。图 5通过相关矩阵视图和径向坐标视图直观地展示了多维属性间的相关性大小。图 9通过地图平行坐标关联视图界面展示了嵌入平行坐标的地图视图轴排列结果。

图 9 嵌入平行坐标的地图视图轴排列结果
Fig. 9 Dimension rearrangement result of map embedded in the parallel coordinates view

众所周知,辽宁省、吉林省和黑龙江省因相似的地理环境以及资源储备量形成了相似的产业结构,因而被称为东三省。由图 9所示,基于专题属性的地理空间聚类算法对32个省份进行聚类分析,不同明暗程度的颜色代表不同的地理空间区域,其中辽宁省、吉林省和黑龙江省被划分为同一地理空间区域,印证了基于专题属性的地理空间聚类算法的有效性。

相关矩阵图如图 5(a)所示,任意两个属性间的相关性越大,对应矩阵块的颜色就越深。例如第一产业和住宿餐饮业对应的矩阵块颜色最深,表示对应属性间具有很强的相关性。相反,第二产业和第三产业对应的矩阵块颜色最浅,具有较弱的相关性。根据相关性计算结果,以地图为中心对平行坐标进行轴排列。

图 5(a)可以看出,相比于其余属性,交通运输仓储邮政业和住宿餐饮业与地理空间具有较强的相关性,因此对应的属性信息抽象为属性轴与地图相邻放置,再以交通运输仓储邮政业和住宿餐饮业为起始点循环比较与其具有最强相关性的属性信息, 以此构建有效关联平行坐标系的地图视图。

图 9所示,交通运输仓储邮政业与地图相邻放置存在明显的空间分布特征。交通运输仓储邮政业与区域经济相互作用相互影响,良好的区域经济能带动交通运输行业的发展,而一个区域交通运输行业发展相对滞后,就会阻碍该区域的经济发展。改革开放后,中国东部地区的经济发展水平领先于西部地区,沿海地区相较于内陆地区吸引了更多的生产投资和人力资源,进一步促进了交通运输仓储邮政业的发展,因此该轴排列算法存在一定的合理性。

生产食材以及其他一些生物材料的产业被称为第一产业。我国不同区域的主要农作物不同,南方以水稻为主,北方的主要农作物则为小麦,不同地形适合不同的植被生长,因此第一产业的区域分布特征不明显,对应属性轴离地图视图较远。

4.2.2 浙江省空气质量监测数据

浙江省空气质量数据是典型的多维时空数据,记录了浙江省53个空气质量监测站点实时监控的AQI(air quality index)、SO2、NO2、CO、PM2.5、PM10、O3等7个属性信息。如图 10所示,在嵌入平行坐标的地图视图交互点击某一感兴趣地理空间区域,该区域对应的属性信息高亮显示,系统重新计算该高亮区域与各属性信息之间的相关性对平行坐标轴进行重排列。如图 10(a)所示,高亮显示的区域位于浙江省西南部,属于丽水市和金华市境内。属性信息越靠近地图,数据分布越集中。观察图 10(a)可知,该区域空气中PM2.5和O3含量都较高,对应的AQI指数也较高,表明该区域的城市空气污染程度较强。且越靠近地图,属性信息的空间分布越集中,如PM10。PM10主要在各工业过程中排放,因此该区域的工业发展可能较为相似,使得PM10的排放具有较为明显的空间区域分布特征。对应的径向坐标图如图 10(c)所示,通过绘制该区域中各属性的四分位数展示属性信息的数据分布情况。为观察在不同时间段内同一区域的属性信息差异,高亮显示相同区域在2014年6月5日的空气质量检测数据,如图 10(b)所示。相较于2014年6月4日,此区域包含的大量属性大幅度下降,推测可能与6月5日当天是世界环境保护日有关。2014年6月5日对应的径向坐标图如图 10(d)所示,图中3条四分位数多边形闭合曲线基本重合,表明对应区域各属性信息的数据分布较为集中。

图 10 浙江省空气质量检测数据可视化结果
Fig. 10 Visualization results of air quality data of Zhejiang province((a) map view of June 4th, 2014; (b) map view of June 5th, 2014; (c)radial chart of June 4th, 2014; (d) radial chart of June 5th, 2014)

4.3 专家反馈

为了进一步验证面向地理空间多维数据可视分析系统的有效性和实用性,本文邀请一位地理学专家和一位经济统计学专家对系统进行使用和评估,并进行一对一访谈,专家反馈意见如下:

1) 交互式可视化设计:两位专家都认为该系统将经典的多维属性数据可视化方法平行坐标与地图进行了良好的结合,并针对两种视图的不同特点进行了大量的可视化设计,方便用户观察分析。地理学专家认为本文提出的地理空间多维数据可视分析方法是一种全新的可视化设计,将平行坐标与地图视图相结合,提供了一个全面的可视分析系统,可用于探索与地理空间位置相关的多维属性数据,并分析数据间存在的区域相关性。通过多视图协同可视化展示,可以解决一些具有挑战性的问题。经济统计学专家认为该可视化系统结合经济统计模型构建交互式可视化系统,容易被不同背景的用户所理解。且通过多种可视化方式展示不同空间位置聚类情况下与多种属性间的互信息大小,相比于传统的统计分析软件具有更强的可扩展性,提供的系统交互功能可以帮助用户交互定义参数。

2) 适用性和改进:两位专家都认为该系统可以处理和分析具有地理空间分布特征的其他领域数据。地理学专家认为本文设计的可视分析方法适用于商业智能,可以根据地理空间聚类区分不同地区在不同时间段对不同服务的需求,可以帮助相关部门进行相应调度。经济统计学专家建议将该系统应用于涵盖更长时间的数据集,以便有足够的信息来获取人们的日常行为。通过整合其他信息,可以针对各种应用进行更高级的分析。

4.4 不足之处

相比于传统地理空间多维数据可视分析方法,本文基于平行坐标轴动态排列,提出了有效关联地图视图的地理空间多维数据可视分析方法,具有丰富的交互功能,可以直观地展示数据,并有效辅助用户探索地理空间多维属性数据的空间分布特征及分析区域关联模式,具有一定的实用性。但仍然存在以下不足:1)本文借助地图和平行坐标分别展示了地理空间数据的地理空间对象和多维属性信息,通过数据线构建属性数据间的关联关系,当采用平行坐标展示高维属性数据时,因面板限制等原因可能会造成视觉紊乱,出现地理空间分布特征难以识别等问题。因此,可以借助Glyph设计展示多维属性,综合描述地理空间多维属性的地理分布特征及关联关系;2)对于时序可变的地理空间多维属性数据的融合度不高,可以进一步构建时间序列分析模型,用于交互探索地理空间多维时序数据。因此,未来工作中,将重点研究面向地理空间时序多维数据的可视分析方法,进一步实现地理多维属性数据的时序分布特征模式的分析与挖掘。

5 总结

本文研究一种基于平行坐标轴动态排列的地理空间多维数据可视分析方法,帮助用户探索地理空间多维属性数据的空间分布特征及其关联关系。1)针对地理空间多维属性,提供基于专题属性的地理空间聚类分析方法,有效挖掘地理空间多维属性数据各要素之间的关联关系和分布模式;2)采用互信息度量地理空间聚类与属性聚类的相关性,有效确定地图嵌入位置及平行坐标轴排列顺序;3)自适应地计算视图连线的汇聚点位置,对数据线进行优化设计,减少大量交叉重叠造成的视觉紊乱;4)提供大量的用户交互模式,各个可视化模块协同展示,为用户分析地理空间多维属性数据提供有效手段。大量的可视化效果及专家反馈进一步验证了本文可视分析系统的有效性和实用性。

参考文献

  • [1] Wang M X, Zhang Z H, Yang W F. Space Geographic Data Visualization[M]. Beijing: Science Press, 2012: 55-67. [ 王明孝, 张志华, 杨维芳. 地理空间数据可视化[M]. 北京: 科学出版社, 2012: 55-67.]
  • [2] Zhou Z G, Shi C, Shi L S, et al. A survey on the visual analytics of geospatial data[J]. Journal of Computer-Aided Design & Computer Graphics, 2018, 30(5): 747–763. [周志光, 石晨, 史林松, 等. 地理空间数据可视分析综述[J]. 计算机辅助设计与图形学学报, 2018, 30(5): 747–763. ] [DOI:10.3724/SP.J.1089.2018.17127]
  • [3] Becker R A, Cleveland W S. Brushing scatterplots[J]. Technometrics, 1987, 29(2): 127–142. [DOI:10.2307/1269768]
  • [4] Tang J, Liu J Z, Zhang M, et al. Visualizing large-scale and high-dimensional data[C]//Proceedings of the 25th International Conference on World Wide Web. Montréal, Québec, Canada: International World Wide Web Conferences Steering Committee, 2016: 287-297.[DOI:10.1145/2872427.2883041]
  • [5] Heinrich J, Weiskopf D. State of the Art of Parallel Coordinates[R]. Girona, Spain: The Eurographics Association, 2013: 95-116.
  • [6] Matejka J, Anderson F, Fitzmaurice G. Dynamic opacity optimization for scatter plots[C]//Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems. Seoul, Republic of Korea: ACM, 2015: 2707-2710.[DOI:10.1145/2702123.2702585]
  • [7] Goodwin S, Dykes J, Slingsby A, et al. Visualizing multiple variables across scale and geography[J]. IEEE Transactions on Visualization and Computer Graphics, 2016, 22(1): 599–608. [DOI:10.1109/TVCG.2015.2467199]
  • [8] Jolliffe I T. Principal Component Analysis[M]. New York, NY: Springer, 2002: 513.
  • [9] Kruskal J B, Wish M, Uslaner E M. Multidimensional scaling[M]//MULTIDIMENSIONAL SCALING. BOOK ON DEMAND POD, 19788, 45(2): 875-878.
  • [10] Kohonen T. Self-organized formation of topologically correct feature maps[J]. Biological Cybernetics, 1982, 43(1): 59–69. [DOI:10.1007/BF00337288]
  • [11] Turkay C, Lundervold A, Lundervold A J, et al. Representative factor generation for the interactive visual analysis of high-dimensional data[J]. IEEE Transactions on Visualization and Computer Graphics, 2012, 18(12): 2621–2630. [DOI:10.1109/TVCG.2012.256]
  • [12] Yuan X R, Ren D H, Wang Z C, et al. Dimension projection matrix/tree:interactive subspace visual exploration and analysis of high dimensional data[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2625–2633. [DOI:10.1109/TVCG.2013.150]
  • [13] Sacha D, Kraus M, Bernard J, et al. SOMFlow:guided exploratory cluster analysis with self-organizing maps and analytic provenance[J]. IEEE Transactions on Visualization and Computer Graphics, 2018, 24(1): 120–130. [DOI:10.1109/TVCG.2017.2744805]
  • [14] Inselberg A. Parallel Coordinates:Visual Multidimensional Geometry and Its Applications[M]. New York: Springer, 2009: 98-101.
  • [15] Wu W C, Xu J Y, Zeng H P, et al. TelCoVis:visual exploration of co-occurrence in urban human mobility based on telco data[J]. IEEE Transactions on Visualization and Computer Graphics, 2016, 22(1): 935–944. [DOI:10.1109/TVCG.2015.2467194]
  • [16] Nguyen H, Rosen P. DSPCP:a data scalable approach for identifying relationships in parallel coordinates[J]. IEEE Transactions on Visualization and Computer Graphics, 2018, 24(3): 1301–1315. [DOI:10.1109/TVCG.2017.2661309]
  • [17] Wang J P, Liu X T, Shen H W, et al. Multi-resolution climate ensemble parameter analysis with nested parallel coordinates plots[J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 81–90. [DOI:10.1109/TVCG.2016.2598830]
  • [18] Qin H X, Wei X S. A study on edge bundling technology in parallel coordinates[J]. Journal of Computer-Aided Design & Computer Graphics, 2017, 29(7): 1235–1244. [秦红星, 卫学仕. 平行坐标中的边捆绑算法[J]. 计算机辅助设计与图形学学报, 2017, 29(7): 1235–1244. ] [DOI:10.3969/j.issn.1003-9775.2017.07.010]
  • [19] Wu B, Cao W Q. A force-directed skeleton-based bundling with clustering in parallel coordinates[J]. Journal of Computer-Aided Design & Computer Graphics, 2017, 29(10): 1807–1815. [巫滨, 曹卫群. 平行坐标系聚类数据的力导向分段骨骼绑定绘制[J]. 计算机辅助设计与图形学学报, 2017, 29(10): 1807–1815. ] [DOI:10.3969/j.issn.1003-9775.2017.10.006]
  • [20] Wegman E J. Hyperdimensional data analysis using parallel coordinates[J]. Journal of the American Statistical Association, 1990, 85(411): 664–675. [DOI:10.2307/2290001]
  • [21] Qu H M, Chan W Y, Xu A, et al. Visual analysis of the air pollution problem in Hong Kong[J]. IEEE Transactions on Visualization and Computer Graphics, 2007, 13(6): 1408–1415. [DOI:10.1109/TVCG.2007.70523]
  • [22] Zhang Z Y, McDonnell K T, Mueller K. A network-based interface for the exploration of high-dimensional data spaces[C]//IEEE Pacific Visualization Symposium. Songdo, South Korea: IEEE, 2012: 17-24.[DOI:10.1109/PacificVis.2012.6183569]
  • [23] Zhen L L, Li M Q, Cheng R, et al. Adjusting Parallel Coordinates for Investigating Multi-objective Search[M]//Shi Y H, Tan K C, Zhang M J, et al. Simulated Evolution and Learning. Cham: Springer, 2017: 224-235.[DOI:10.1007/978-3-319-68759-9_19]
  • [24] Zhou Z G, Ye Z F, Yu J J, et al. Cluster-aware arrangement of the parallel coordinate plots[J]. Journal of Visual Languages & Computing, 2018, 46: 43–52. [DOI:10.1016/j.jvlc.2017.10.003]
  • [25] Chen W, Zhu B, Zhang H X. BN-Mapping:visual analysis of geospatial data with bayesian network[J]. Chinese Journal of Computers, 2016, 39(7): 1281–1293. [陈为, 朱标, 张宏鑫. BN-Mapping:基于贝叶斯网络的地理空间数据可视分析[J]. 计算机学报, 2016, 39(7): 1281–1293. ] [DOI:10.11897/SP.J.1016.2016.01281]
  • [26] Turkay C, Slingsby A, Hauser H, et al. Attribute signatures:dynamic visual summaries for analyzing multivariate geographical data[J]. IEEE Transactions on Visualization and Computer Graphics, 2014, 20(12): 2033–2042. [DOI:10.1109/TVCG.2014.2346265]
  • [27] Lu M, Wang Z C, Liang J, et al. OD-wheel: visual design to explore OD patterns of a central region[C]//2015 IEEE Pacific Visualization Symposium. Hangzhou, China: IEEE, 2015: 87-91.[DOI:10.1109/PACIFICVIS.2015.7156361]
  • [28] Chen Y, Lin X L, Zhao Y F, et al. SunMap:an associated hierarchical data visualization method based on Heatmap and sunburst[J]. Journal of Computer-Aided Design & Computer Graphics, 2016, 28(7): 1075–1083. [陈谊, 林晓蕾, 赵云芳, 等. SunMap:一种基于热图和放射环的关联层次数据可视化方法[J]. 计算机辅助设计与图形学学报, 2016, 28(7): 1075–1083. ] [DOI:10.3969/j.issn.1003-9775.2016.07.006]
  • [29] Yang Y L, Dwyer T, Goodwin S, et al. Many-to-many geographically-embedded flow visualisation:an evaluation[J]. IEEE Transactions on Visualization and Computer Graphics, 2017, 23(1): 411–420. [DOI:10.1109/TVCG.2016.2598885]
  • [30] Li G Q, Deng M, Cheng T, et al. A dual distance based spatial clustering method[J]. Acta Geodaetica et Cartographica Sinica, 2008, 37(4): 482–488. [李光强, 邓敏, 程涛, 等. 一种基于双重距离的空间聚类方法[J]. 测绘学报, 2008, 37(4): 482–488. ] [DOI:10.3321/j.issn:1001-1595.2008.04.014]