Print

发布时间: 2019-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190284
2019 | Volume 24 | Number 12




    计算机图形学    




  <<上一篇 




  下一篇>> 





空间语义增强下的城市交通事故数据可视分析
expand article info 罗月童1, 刘璐1, 刘新月1, 尹成胜2, 陈金光2, 谢文军1
1. 合肥工业大学计算机与信息学院, 合肥 230601;
2. 合肥市公安局交通警察支队, 合肥 230009

摘要

目的 海量城市交通事故数据可能蕴含有交通事故的空间模式,挖掘出交通事故的空间模式有助于开展交通事故的防治工作。目前交通管理部门虽然记录了交通事故发生地的空间位置信息,但没有对事故发生地进行空间语义描述,从而影响对交通事故空间模式的深入分析。因此,提出一种交通事故数据空间语义增强方法,并设计了一套可视分析系统。方法 基于城市兴趣点来增强交通事故数据的空间语义。以事故发生点为中心获取周围城市兴趣点,使用特征向量刻画兴趣点的数量、类别及其与事故发生点的距离,并称此向量为空间语义特征向量。将空间语义特征向量和相应的交通事故关联,以达到增强其空间语义的目的。然后,基于空间语义特征向量,使用自组织映射聚类算法对交通事故进行聚类分析,根据其空间语义特征将交通事故分为若干类别。最后,通过使用地图视图展示事故点数据、聚类视图和平行坐标视图展示聚类分析的结果及其空间语义特征的可视化方法,对交通事故的空间模式进行分析。结果 针对空间语义增强的交通事故数据以及相关分析任务,有效地使用上述数据分析方法与可视化技术,设计并实现了一套多视图关联的可视分析系统,提供了便捷的交互方式辅助用户分析。通过研发人员和交通警察共同对安徽省合肥市2018年的交通事故数据进行分析,将交通事故发生地划分9类并指出每类地点的空间语义特点,进一步分析出了事故高发区域的空间语义特性。结论 本文提出的交通事故数据空间语义增强方法和可视分析方法可以帮助用户揭示交通事故的空间语义模式,有助于深入分析和认识交通事故的成因,能为交通事故防治相关的城市建设工作提供建议。

关键词

可视分析; 交通事故; 空间语义; 兴趣点; 自组织映射

Visual spatial analytic method for spatial semantic-enhanced urban traffic data
expand article info Luo Yuetong1, Liu Lu1, Liu Xinyue1, Yin Chengsheng2, Chen Jinguang2, Xie Wenjun1
1. School of Computer Science and Information Technology, Hefei University of Technology, Hefei 230601, China;
2. Traffic Police Division, Public Security Bureau of Hefei Municipality, Hefei 230009, China
Supported by: National Natural Science Foundation of China (61602146)

Abstract

Objective With the recent development of smart cities, urban big data are increasingly becoming available, including traffic accident data. Big traffic accident data may contain spatial patterns of traffic accidents and are valuable for traffic accident prevention and management by mining spatial patterns from traffic accident data. Although traffic accident position is currently available, its spatial-semantic information is missing, which is adverse for its spatial pattern analysis. This study presents a method to enhance the spatial semantics of traffic accident data and designs a visual analytic system to analyze spatial patterns from spatial semantic-enhanced traffic accident data. Method Point of interest (POI) is used to enhance the spatial semantics of traffic accidents. First, all POIs around a traffic accident are collected to form a POI collection, and a feature vector is defined according to the number of POIs, type of POIs, and distance between POIs and traffic accident. The feature vector is named the spatial-semantic feature vector because it encodes spatial semantic information. This vector is associated with traffic accident data to enhance the traffic accident data's spatial semantics. Second, self-organizing map (SOM) clustering algorithm is applied to analyze spatial semantic-enhanced traffic accident data according to the spatial-semantic feature vector, and several clusters are obtained for further analysis. Each resulting cluster implies some spatial semantic information because the spatial-semantic feature vector is used for clustering. Finally, a visual analytic system with linked views is designed and implemented to analyze the spatial semantic-enhanced traffic accident data and the resulting clusters. Map view using heat map and glyphs is applied to visualize the distribution of traffic accident data. Histogram view and parallel coordinate view are used to visualize clusters and spatial-semantic feature vectors, respectively. Several interaction methods are provided to help users filter data of interest for the traffic accidents' spatial pattern. Result Through cooperation with two traffic policemen from Hefei Traffic Police Division, the authors analyze the traffic accidents in Hefei City using the presented visual analytic system and obtain nine clusters via SOM clustering. The spatial-semantic features of the nine clusters are analyzed and interpreted, and several possible causes of traffic accidents are found and validated by the traffic police. For example, the largest cluster's "financial" feature is prominent, which means the traffic accidents contained in this cluster are related to banks or other financial institutions. The policemen interpret that many people park their car temporarily when visiting financial institutions, and such parking tends to cause collision accidents. Conclusion POI has spatial-semantic information, and this study utilizes POI to enhance the spatial semantics of traffic accident data. A spatial semantic-enhanced method is presented, and the corresponding visual analytic system is designed and implemented. Analysis of 2018 Hefei traffic accident data reveals several interesting results that are confirmed by traffic policemen. The presented method is useful for discovering the spatial pattern of traffic accidents and beneficial for traffic accident prevention and management. In the future, additional attributes, such as time and density, could be considered, and more sophisticated visual encoding and interaction methods should be studied and applied.

Key words

visual analytics; traffic accident; spatial semantic; point of interest (POI); self-organized map

0 引言

城市是人类社会活动的重要产物,同时也对人类社会活动产生重要影响。随着经济社会的高速发展,我国的城市化步伐也在不断加快,城市数量越来越多,城市规模越来越大。大量人群在城市空间聚集,激发了产业变革、科技创新和生活方式的改变,但交通拥堵、环境恶化、能耗增加等问题也接踵而至。交通拥堵已经成为影响城市竞争力和市民幸福感的重要问题,备受城市管理者的关注(Zheng等,2014)。在拥挤繁忙的市区,交通事故不仅会造成人员财产损失,更会导致交通拥挤,影响出行效率(汪光焘,2016)。所以减少交通事故已成为治理城市交通拥堵的重要方式。

近年来,随着感知技术和计算环境的成熟,各种城市大数据悄然而生,典型如交通事故数据,如安徽省合肥市交通管理部门在2015—2018年积累了249万条交通事故数据。随着交通大数据的出现和数据挖掘技术的发展,人们开始尝试挖掘交通事故数据所蕴含的规律,进而用以指导防治交通事故。发现交通事故的时空规律是其中的重要研究内容(饶永明等,2019),Erdogan等人(2008)Shafabakhsh等人(2017)基于GIS技术分别研究了土耳其城市Afyonkarahisar和伊朗城市Mashhad交通事故的空间和时间聚集性;Plug等人(2011)基于时空可视化技术分析碰撞交通事故;饶永明等人(2019)基于多连接视图从交通事故数据中交互挖掘交通事故的时空模式。

交通事故分析的典型任务之一是发现事故多发区域,饶永明等人(2019)Erdogan等人(2008)Shafabakhsh等人(2017)用不同方法解决这一问题。确定交通事故多发区域对交通事故防治具有较高价值,但如果能进一步分析事故多发区域的空间语义特点,例如确定该区域是商业区、教育区、或是办公区等,将有助于更深入地理解交通事故的内在规律,进行更合理的防治。但交通事故数据本身缺乏空间语义信息, 使得上述分析工作很难进行。因此,通过引入相关的外源数据集来丰富原始的交通事故数据的空间信息或许可以解决这一问题。

兴趣点(POI)泛指一切可以被抽象为点的地理实体, 城市中的兴趣点通常是医院、商场、饭店、学校等与市民生活、学习和工作密切相关的实体(赵卫锋等,2011)。大量兴趣点能刻画相关区域的空间语义,因此人们研究如何基于兴趣点定量识别城市的功能区(池娇等,2016施歌等,2017)。本文将交通事故数据和兴趣点相结合,通过使用兴趣点数据增强交通事故数据的空间语义信息,进而实现更深入地分析交通事故数据的目标:定量地给出交通事故易发区域及其特点等。本文首次提出将兴趣点数据应用于交通事故数据分析。

可视分析通过高带宽的视觉感知通道,有机地结合数据可视化、人机交互、统计分析和数据挖掘等方法与技术,将计算机强大的计算存储能力与人类优秀的认知能力、直觉、经验和知识相结合,允许用户直观地探索并分析复杂数据(Thomas等,2006)。可视分析已经成为分析城市大数据的重要方法(Zheng等,2016),同时也被广泛应用于交通事故数据分析。本文针对空间语义增强的交通事故数据分析任务,设计了一套包括多个关联视图的可视分析系统,并用安徽省合肥市2018年的交通事故数据验证系统有效性。

综上所述,本文采用可视分析技术,设计了一种联合兴趣点数据和交通事故数据,深入分析交通事故空间特性的方法,并用实际的交通事故数据和兴趣点数据进行验证,主要贡献如下:

1) 交通事故数据的空间语义增强:首次提出基于兴趣点对交通事故数据进行空间语义增强的概念和方法。

2) 空间语义增强的交通事故数据可视分析系统:针对“挖掘事故多发区域的特点、分析不同类型区域发生交通事故的规律”等任务,设计了一套由多个关联视图组成的可视分析系统。

3) 采用合肥市的兴趣点数据及合肥市2018年的交通事故数据进行分析,验证本文方法的有效性。

1 相关工作

1.1 交通事故数据可视分析

Pack等人(2009)设计了一组关联视图用于可视化交通事故的空间、时间及高维属性数据, 主要提供了交通事故数据的浏览功能;饶永明等人(2019)设计了一套可视分析系统以支持用户交互地从交通事故数据中发掘交通事故的时空模式;Fan等人(2017)提出一种基于上下文的城市范围的交通事故分析与可视化方法;Erdogan等人(2011)基于GIS技术分析土耳其城市Afyonkarahisar中交通事故的时空模式;与Erdogan等人(2011)的研究类似,Shafabakhsh等人(2017)基于GIS技术分析伊朗城市Mashhad中交通事故的时空模式;Plug等人(2011)应用时间和空间技术研究了西澳大利亚州发生的交通事故,使用雷达图识别时间模式,核密度估计分析空间模式,最终通过分析时空模式上不同碰撞原因的显著差异来帮助决策者制定有效的道路安全战略;Piringer等人(2012)用可视化的方法直观地展现所有时间的当前状态、历史状态和预测的未来状态,辅助用户做决策,以更好地处理交通事故;Anwar等人(2014)使用可视化方法分析交通事故对交通拥堵的影响;Fan等人(2017)结合基于事件的可视分析和基于位置的可视分析方法, 分析交通事故的发生情况和事故类型之间的关系, 以及天气和驾驶员特征的影响。

现有的关于交通事故可视分析的工作所涉及的内容非常广泛——从单纯的数据可视化、到事故成因分析及辅助决策等。但当前的工作都是基于交通事故数据,并没有结合兴趣点对交通事故进行分析,这是本文研究的主要动机。

1.2 兴趣点数据的可视分析

随着智慧城市的发展,尤其是基于位置服务(LBS)的发展,城市中的兴趣点越来越密集,所包含的信息量越来越丰富,关于兴趣点的分析和应用也更受关注。张铁映等人(2016)提出基于密度聚类算法(DBSCAN)的兴趣点可视化方法,从更宏观的角度描述兴趣点的分布特征,并应用于学区房的选择;池娇等人(2016)以武汉城市发展区为例, 通过对兴趣点数据重分类,定量识别了城市单一功能区和混合功能区并进行可视化, 用于帮助理解复杂城市的空间功能结构;施歌等人(2017)以上海市的兴趣点为例,使用核密度估计(KDE)模型定量研究兴趣点的空间分布规律,并对城市中心体系进行识别,根据识别结果对城市规划提出优化建议;张慧杰等人(2018)构建交互式可视分析系统(UFAVIS)可以交互分析轨迹数据和兴趣点,探寻区域的复合功能性和功能区随人类时空变化的规律。

综上所述,对兴趣点数据进行更深层次分析已受到广泛关注,但目前的工作仍主要集中在城市功能区识别和划分上,尚未发现在交通事故分析中的应用,所以本文工作将进一步扩展兴趣点数据的应用领域。

2 数据收集与处理

2.1 数据内容

本文基于兴趣点数据对交通事故数据进行空间语义增强。在相关实验中,使用了安徽省合肥市2018年的交通事故数据和从百度地图获取的兴趣点数据。下面对这两类数据进行详细介绍。

2.1.1 交通事故数据

广义上说,交通事故数据是指所有与交通事故相关信息的数据;狭义上说,是指交警管理部门所记录的一些数据。本文采用狭义的交通事故数据,具体为安徽省合肥市交通管理部门提供的脱敏数据:包括事故时间、事故地点、财产损失、人员伤亡、处理情况等相关信息,共计57个字段。因为本文主要进行空间特性分析, 所以仅选取与事故发生地点相关的字段, 具体使用字段如表 1

表 1 交通事故数据中被选用的字段列表
Table 1 List of selected fields in traffic accident data

下载CSV
字段名称 字段描述 数据格式 示例
行政区划 事故发生地点所属行政区 string 瑶海区
事故地点 事故发生地点的详细描述 string 长江东路与琅琊山路交口
经度 事故发生地点的经度位置 double 117.319 287
纬度 事故发生地点的纬度位置 double 31.873 191

本文仅关注交通事故的发生位置$\mathit{\boldsymbol{a}}=(X_\rm{lng}, \mathit{X}_\rm{lat})$,其中$X_\rm{lng}$$X_\rm{lat})$分别表示发生交通事故地点的经度和纬度。本文实验采用安徽省合肥市市内2018年的接警数据,经初步处理后可利用的交通事故数据记录共217 323条。

2.1.2 兴趣点数据

百度地图提供了丰富的兴趣点数据,本文利用百度地图API接口收集合肥市的兴趣点数据。百度地图平台将兴趣点按行业分为19类,根据与交通事故关联关系的强弱,本文选择休闲娱乐、医疗、房地产、教育培训、旅游景点、购物和金融7类兴趣点数据。因为兴趣点主要用于支持对交通事故数据的分析,所以仅收集交通事故点附近的兴趣点,收集到的兴趣点具体情况如表 2所示。在本文分析中,考虑兴趣点的位置和类别,所以用$\mathit{\boldsymbol{p}}=(Y_{\rm{lng}}=, Y_{\rm{lat}}=, Y_\rm{label}=)$表示一个兴趣点,其中$Y_\rm{lng}=$$Y_\rm{lat}=$分别表示兴趣点的经度和纬度,$Y_\rm{label}=$表示兴趣点的类别标签。

表 2 不同类型兴趣点的数量
Table 2 Number of different types of POIs

下载CSV
编号 类别 数量
1 休闲娱乐 99 129
2 医疗 145 388
3 房地产 188 114
4 教育培训 63 550
5 旅游景点 36 890
6 购物 200 987
7 金融 91 425
合计 825 483

2.2 交通事故数据的空间语义增强

因为交通事故点周围的兴趣点有助于了解事故点的空间特点,所以本文基于兴趣点数据对交通事故数据进行空间语义的增强,从而实现交通事故数据与兴趣点数据的关联,为后续分析奠定基础。具体方法如下:

1) 获取相关兴趣点:对给定的交通事故点$\mathit{\boldsymbol{a}}_i$,选出其周围一定范围内的所有兴趣点$\mathit{\boldsymbol{P}}=\left\{ {{\mathit{\boldsymbol{p}}_j||\mathit{\boldsymbol{a}}_i, \mathit{\boldsymbol{p}}_j| < r}} \right\}(i=1, 2, 3,…, m; j=1, 2, 3, …, n), $式中,$m$是交通事故点的数量,$n$是兴趣点的数量,$|\mathit{\boldsymbol{a}}_i, \mathit{\boldsymbol{p}}_j|$表示交通事故点$\mathit{\boldsymbol{a}}_i$和兴趣点$\mathit{\boldsymbol{p}}_j$之间的距离,$r$为用户设定的获取范围半径,本文所有实验中$r$=500 m;

2) 描述兴趣点集:基于$\boldsymbol{P}_{i}=\left\{\boldsymbol{p}_{j}|| \boldsymbol{a}_{i}, \boldsymbol{p}_{j} | < r\right\}$生成空间语义特征向量$\boldsymbol{f}_i=(f^i_1, f ^i_2, …, f ^i_n)$以描述兴趣点集,其中$f_k$表示交通事故点$\boldsymbol{a}_i$和第$k$类兴趣点的关联程度,因为本文考虑7类兴趣点,所以$n=7$$f_k$的具体计算方法为

$f_{k}^{i}=\sum\limits_{p_{j} \in \mathit{\boldsymbol{P}}_{i}} {lab}\left(\boldsymbol{p}_{j}, k\right) \times\left(1-\frac{\left|\boldsymbol{a}_{i}, \boldsymbol{p}_{j}\right|}{r}\right) $ (1)

式中,$lab(\boldsymbol{p}_j, k)$用来判别兴趣点$\boldsymbol{p}_j$是否为第$k$类;|$\boldsymbol{a}_i, \boldsymbol{p}_j$|表示事故发生点$\boldsymbol{a}_i$和兴趣点$\boldsymbol{p}_j$之间的距离,如果距离越远,兴趣点$\boldsymbol{p}_j$$f_k$的贡献就越小,这也符合人们的直观认识。

3) 交通事故数据的空间语义增强:将$\mathit{\boldsymbol{f}}_i$$\mathit{\boldsymbol{a}}_i$相关联,获得语义增强的交通事故点$\mathit{\boldsymbol{a}}′_i=(X_\rm{lng}, \mathit{X}_\rm{lat}, \mathit{\boldsymbol{f}}_\mathit{i})$。后续分析将基于增强的交通事故点$\mathit{\boldsymbol{a}}′_i$开展。

3 可视分析任务和可视化系统设计

3.1 分析任务

本文的最初需求来自于安徽省合肥市交通事故分析大队,希望更方便、更准确地了解事故发生地的特点。通过分析交通事故数据和兴趣点数据的特点,并与安徽省合肥市交通事故分析大队的警官进行深入讨论,整理出如下分析任务:

1) 交通事故发生地的功能特点:交通事故数据只记录事故的发生位置,交通警察需要根据经验了解发生地周围的环境特点。本文方法的目标是帮助交通警察更直观了解事故发生地的功能特点,进而帮助交通警察更好地分析交通事故成因。

2) 交通事故高发区的特点:交通事故高发区是交通警察重点关注的对象,分析交通事故高发区的兴趣点分布,推断导致交通事故高发的原因,进而更好地进行事故防治。

3.2 可视分析系统

针对3.1节所述分析任务,本文设计了一套空间语义增强的交通事故数据可视分析系统。系统界面如图 1所示,包含4个关联视图:

图 1 空间语义增强交通事故数据的可视分析系统
Fig. 1 The visual analysis system for spatial semantic-enhanced
((a)map view; (b)clustering view; (c) parallel coordinates plot view; (d)administrative region list view)

1) 地图视图:在地图上以热力图或符号的形式展示交通事故数据,并允许用户基于交通事故密度过滤数据;

2) 聚类结果视图:以直方图展现基于兴趣点属性的聚类分析结果;

3) 平行坐标视图:用平行坐标图展示聚类分析结果;

4) 行政区划列表视图:列出被分析城市的行政区域,方便用户选择整个市区或者某个行政区的数据进行分析。

3.2.1 地图视图

在与地理信息相关的数据分析中,地图是最常用、直观的一种视图。地图视图用于直观地展现交通事故的空间分布,便于用户进行交互分析。本文支持两种地图可视化方法:热力图可视化法和符号可视化法。

1) 热力图可视化法。本文用热力图表示某个位置发生交通事故的密度。$\mathit{\boldsymbol{A}}=\left\{ {\mathit{\boldsymbol{a}}_1, \mathit{\boldsymbol{a}}_2, …, \mathit{\boldsymbol{a}}_n} \right\}$表示所有交通事故点。基于高斯函数来估算地图上任一点$p$处的交通事故密度,其具体计算方法为

$I(p)=\sum\limits_{a_{i} \in \mathit{\boldsymbol{A}}} \mathrm{e}^{-\left(\frac{D_{\mathrm{dist}}\left(\mathit{\boldsymbol{a}}_{i}, p\right)}{2 \sigma^{2}}\right)} $ (2)

式中,$D_\rm{dist}(\mathit{\boldsymbol{a}}_i, \mathit{{p}})$表示事故点$\mathit{\boldsymbol{a}}_\mathit{i}$和位置$p$之间的欧氏距离;$\sigma$用以控制事故点$\mathit{\boldsymbol{a}}_i$影响的区域大小,本文所有实验中$\sigma$= 100 m。

用户可以根据事故密度阈值$\varepsilon$过滤交通事故:挑选事故密度大于阈值$\varepsilon$区域的交通事故。用户可通过滑动条调节具体阈值。通过设置高阈值$\varepsilon$,用户可选出事故高发区域,并对事故高发区域进行专门分析。图 2给出了瑶海区内不同阈值所对应的热力图及事故数目。

图 2 交通事故密度图
Fig. 2 Traffic accident density map((a)$\varepsilon=10$, $count=36\; 868$; (b)$\varepsilon=50$, $count=12\; 026$; (c)$\varepsilon=100$, $count=3\; 019$)

2) 符号可视化法。本文采用圆点和雷达图两种符号在地图上表示交通事故。默认情况下,符号的颜色表示交通事故所属的簇——聚类分析的结果,但也可以表示交通事故密度。采用雷达图时,如图 3所示,雷达图的每个轴对应一种兴趣点的类型。

图 3 交通事故的雷达图可视化方法
Fig. 3 Radar chart visualization method for traffic accidents

圆点符号比较简洁,所以通常用于显示大量交通事故,减少视觉遮拦;雷达图信息更为丰富,所以适合显示少量交通事故,便于用户进行深入分析,用户可以在两种符号间进行自由切换。图 4给出了基于两种不同符号的可视化效果。

图 4 两种符号可视化效果
Fig. 4 Two symbol visualization effects((a) dot-based visualization; (b) radar-based visualization)

3.2.2 聚类视图

聚类是最常用的无监督数据分析法。本文基于交通事故所关联的空间语义特征向量,对交通事故进行聚类分析,以探索交通事故与区域类型之间的关系。

1) 基于自组织特征映射的交通事故聚类。本文选择自组织特征映射聚类法(SOM)进行交通事故聚类分析。自组织特征映射是由Kohonen(1982)提出的无监督学习的聚类方法,它本质上是一个只有“输入层—隐藏层”的神经网络,隐藏层的每个节点表示一个簇(也可以为空),它能保证同一个簇中的对象有很大的相似性,而不同簇的对象间有很大的差异性。和最常用的K-means聚类法相比,SOM聚类法具有以下特点:

(1) 无需事先指定簇的个数。隐藏层的每个节点表示一个簇,但某些节点可以不对应任何输入数据,即为空,所以实际簇的个数是小于或等于隐藏节点的个数。因为本文事先很难确定交通事故的簇的数目,所以SOM的这个特点适合本文的需求。在本文实验中,将隐藏层设为3×3的2维网络;

(2) 拓扑关系有利于可视化。隐藏层的节点间存在拓扑关系,便于结合可视化设计(Kaski等, 2000Yin, 2002)。本文基于隐藏层的2维拓扑关系,使用Guo等人(2005)设计的基于LAB颜色空间的2维配色方案为聚类结果中的每个簇分配颜色,这样能保证相似的簇具有相似的颜色。

在聚类过程中,本文采用夹角余弦衡量空间语义特征向量间的相似性,具体计算方法为

$\cos (\theta)=\frac{\sum\limits_{k=1}^{n} f_{k}^{i} \times f_{k}^{j}}{\sqrt{\sum\limits_{k=1}^{n} f_{k}^{i} \times f_{k}^{i}} \sqrt{\sum\limits_{k=1}^{n} f_{k}^{j} \times f_{k}^{j}}} $ (3)

式中,$f ^i_k$$f ^j_k$分别表示第$i$个和第$j$个节点的特征向量中第$k$个值,$n$是特征向量的维数。

2) 聚类结果可视化。本文用柱状图可视化聚类结果:用一个矩形柱表示一个簇;矩形柱的长度与簇的大小(包含事故点数量)成正比;基于SOM隐藏层中节点的拓扑关系,采用Guo等人(2005)设计的配色方案为对应的矩形柱设置颜色。图 5展示了合肥市瑶海区内事故数据的聚类结果。

图 5 瑶海区事故数据的聚类结果视图
Fig. 5 Clustering view of accident data in Yaohai district

3.2.3 平行坐标视图

平行坐标是最常用的高维数据可视化方法之一,本文用平行坐标可视化聚类分析结果。平行坐标中每个轴对应空间语义特征向量的一个分量,如金融、学校等。一条线表示一个簇,线的颜色与聚类视图一致,线的粗细表示簇的大小。图 6(a)展示了合肥市瑶海区内事故数据的聚类结果。

图 6 平行坐标视图
Fig. 6 Parallel coordinates plot view((a) normal view; (b) highlighted view)

另外,允许用户选择某个簇进行特别观察,这时其他簇显示为浅灰色以突出所选中的簇,如图 6(b)所示。

3.2.4 系统交互

为满足分析任务和使分析过程更加便利,本文系统提供了多种交互手段:

1) 行政区域选择:本文按行政区域将交通事故数据进行组织,允许用户通过行政区域列表选择需要进行分析的区域。

2) 框选工具:通过地图视图中的框选工具,可以对观察后感兴趣的区域进行框选。当选定某区域后,其他视图中展示的数据将对应变为该区域中的数据。

3) 聚类结果选择:点击聚类视图中矩形选择相应的簇,当选定了某个或某些类后,其他视图中展示的数据也会变为对应类的数据。

4 案例分析

针对3.1节所列的两个分析任务,来自合肥市交通警察支队交通事故分析大队的两名警官和研发人员一起分析了安徽省合肥市2018年的交通事故数据和相关兴趣点数据,得出的结论得到了两名交通警察的认可,验证了本文方法的有效性。

4.1 交通事故发生地的特点分析

本文对合肥市区进行分析,合计有200 851起交通事故。首先对所有交通事故数据进行聚类分析,获得如图 7(a)所示的聚类结果,同时在地图视图(图 7(b))、平行坐标视图(图 7(c))中展示聚类分析结果。

图 7 合肥市区交通事故聚类分析结果
Fig. 7 Clustering results of traffic accidents in Hefei urban area((a)clustering view; (b)map view; (c) parallel coordinates plot view)

聚类视图中粉色矩形(类簇8)最长,意味着对应的交通事故最多,点击该矩形选中相应的簇,这时地图视图、平行坐标视图也刷新以突出选中簇,结果如图 8所示。观察平行坐标发现:这个簇的“金融”类别的兴趣点向量值比较突出,意味这个簇代表的事故点主要发生在银行、理财机构附近;用类似的方法对所有9个簇进行分析,分析结论如表 3所示(表中类簇按其所含事故数量的递减顺序排列)。

图 8 事故数量最大的类簇(编号8)的突出显示
Fig. 8 Highlight of the largest cluster(NO.8) ((a)the distribution of such points; (b) the parallel coordinates plot view showing the spatial semantic feature vector of such points)

表 3 合肥市交通事故发生地分析结果
Table 3 Analysis of the occurrence of traffic accidents in Hefei urban area

下载CSV
簇编号 分析说明 分析结果
8 粉色,事故数量39 045。向量中最突出的类别为“金融”,其值也高于其他簇该类的值。 该类事故点周围兴趣点构成中与银行、ATM和理财机构等金融相关的设施占比较其他簇中的事故点都要大很多(说明这些设施在事故点附近数量更多,或距离更近)。
7 紫色,事故数量33 058。向量中最突出的类别为“医疗”,“教育培训”和“旅游景点”,其中“医疗”的值最高。 该类事故点周围兴趣点构成中医院和学校比重最多。
2 蓝绿色,事故数量23 659。向量中最突出的类别为“购物”和“房地产”,其中“房地产”的值最高,其他类别几近最低值。 该类事故点周围兴趣点构成中写字楼、宿舍等建筑占比最多,并且其他类别的兴趣点占比几乎为零。
4 天蓝色,事故数量21 439。向量中除了“休闲娱乐”的值较低外,其他都处于中间值上下。 该类事故点周围兴趣点构成中各类别占比较均匀,没有特别模式。
9 红色,事故数量21 420。向量中最突出的类别为“休闲娱乐”,其次较突出的类别为“旅游景点”和“医疗”;其余类别的值都偏低。 该类事故点周围兴趣点构成中电影院、KTV、歌舞厅等休闲娱乐场所占比最多,其次是公园和医院等设施占比较多。
3 绿色,事故数量20 881。向量中最突出的类别是“购物”,高于其他簇中“购物”的值,其他类别几近最低值。 该类事故点周围兴趣点构成中购物中心、商场等建筑占比最多。
6 黄色,事故数量17 714。向量中各类别分布较均匀,除了“金融”和“房地产”的值偏低外,其他都处于中间值附近。 该类事故点周围兴趣点构成中各类别占比较均匀,除了银行、写字楼等建筑很少外没有特别的模式。
1 深蓝色,事故数量12 870。向量中最突出的类别为“房地产”,其他类别几近最低值。 该类事故点周围兴趣点构成中与写字楼、住宅楼相关的设施占比最多。
5 灰色,事故数量10 765。向量中各类别分布都很均匀,均处于中间值上下,没有较突出的类别。 该类事故点周围兴趣点构成中各类别占比较均匀,没有特别的模式。

分析发现:购物和旅游类别的向量值在每个簇的特征向量中都分别是最高和最低的类别,这是因为在兴趣点数据中这两个类别的数据量分别是最高和最低。故为了排除该影响,下面分析时未将其纳入说明中。

基于以上分析,得出安徽省合肥市市区交通事故发生地有以下特点:

1) 事故发生较多的地点大多在金融、医疗和教育类的设施附近(即银行,医院,学校等附近);

2) 有事故发生但数量并不严重的地点多为房地产和休闲娱乐类设施附近(即写字楼、住宅区和影院,游乐场等休闲场所附近);

3) 事故发生较少的地点附近兴趣点的分布都较为均匀,或部分距离金融类和房地产类的设施较远。

4.2 交通事故高发区的特点分析

交通事故高发区域向来是交通管理部门重点关注的区域。首先将地图视图切换到地图密度模式(如图 9(a)所示),然后使用滑动条调节交通事故密度阈值$\varepsilon$并观察地图视图变化,令$\varepsilon=100$,此时地图视图如图 9(b)所示,选出了13 027起交通事故。

图 9 交通事故密度图
Fig. 9 Traffic accident density map
((a)initial:$\varepsilon$=0; (b)finally:$\varepsilon$=100)

接着对这13 027起交通事故进行聚类分析,并在聚类视图和平行坐标视图中展示聚类分析结果(如图 10所示)。用与4.1节类似的方法对聚类结果进行观察分析,得出以下结论:

图 10 事故高发区域聚类分析结果
Fig. 10 Clustering results of high incidence areas
((a) clustering riew; (b) parallel coordinates plot view)

1) 事故高发地点大多在金融类、房地产类和医疗类设施附近,同时距离休闲娱乐类场地较远;

2) 部分事故高发地点在教育类和旅游景点类场地附近,但由于这两类兴趣点数据量很小,所以具有该特点的事故高发点也很少;

3) 只有较少的事故高发地点处于休闲娱乐类场地附近。

与4.1节的分析结论进行对比,可以发现,交通事故高发区域有以下特别之处:

1) 事故高发区域中有很大一部分是位于银行、ATM、理财等金融设施附近。可以推测,因为人们去办理金融业务都会将车辆暂时停放在附近,而车辆这样的短暂停留和频繁出入很容易发生碰撞事故,致使这类地点成为事故高发区域。

2) 事故高发地点也多处于在写字楼、住宅区和医院的附近。分析可知,这些地点是车辆活动和人的活动交叉频繁的地点,很容易发生交通事故。

3) 在学校和公园景点等附近的区域会有事故高发的情况产生,却并不严重。这是因为这两类地点的车辆和人的活动高峰期是有规律的,例如学校附近是上下学时间,景点附近是节假日期间。在这些时间,一般都会有相应的交通管理措施来遏制糟糕的交通情况出现,从而使这类区域虽然有事故高发情况出现但是从事故数量上看这种情况并不是很严重。

5 结论

通过交通事故数据分析交通事故的空间模式有助于交通事故防治。交通管理部门收集的数据集中虽然详细记录了交通事故信息,但缺少对事故地点的空间语义描述。所以,本文提出一种使用兴趣点数据对交通事故数据进行空间语义增强,并基于聚类方法对增强后的事故数据进行空间语义特征提取的交通事故空间模式分析方法。同时,设计和开发了一套的可视分析系统,支持用户感兴趣地挖掘分析交通事故空间模式。最后,本文系统对实际的交通事故数据集分析,通过交通支队的警察和研发人员的合作对分析结果进行案例研究,取得了一些有意义的结论,验证了本文方法的有效性。

本文基于与事故关联的兴趣点向量对交通事故进行分类,得到的结果有意义,但解读分析结果可得到的内容仍略显单薄。所以未来将考虑联合时间、位置、密度等属性进行更有效的分类,使得聚类结果更具有解释性。另外,本文使用的SOM方法特点之一是其聚类结果具有拓扑性,但目前本文中的分析方法并没有很有效地利用该特点,未来将会考虑如何利用这种拓扑性来进行可视化和交互,设计出更好的分析方法。

参考文献

  • Anwar A, Nagel T and Ratti C. 2014. Traffic origins: a simple visualization technique to support traffic incident analysis//Proceedings of 2014 IEEE Pacific Visualization Symposium. Yokohama, Japan: IEEE, 316-319[DOI:10.1109/PacificVis.2014.35]
  • Chi J, Jiao L M, Dong T, Gu Y Y, Ma Y L. 2016. Quantitative identification and visualization of urban functional area based on POI data. Journal of Geomatics, 41(2): 68-73 (池娇, 焦利民, 董婷, 谷岩岩, 马雅兰. 2016. 基于POI数据的城市功能区定量识别及其可视化. 测绘地理信息, 41(2): 68-73) [DOI:10.14188/j.2095-6045.2016.02.017]
  • Erdogan S, Yilmaz I, Baybura T, Gullu M. 2008. Geographical information systems aided traffic accident analysis system case study:city of Afyonkarahisar. Accident Analysis & Prevention, 40(1): 174-181 [DOI:10.1016/j.aap.2007.05.004]
  • Fan X L, He B Q and Brézillon P. 2017. Context-aware big data analytics and visualization for city-wide traffic accidents//Proceedings of the 10th International and Interdisciplinary Conference on Modeling and Using Context. Paris, France: Springer, 395-405[DOI:10.1007/978-3-319-57837-8_33]
  • Guo D S, Gahegan M, MacEachren A M, Zhou B L. 2005. Multivariate analysis and geovisualization with an integrated geographic knowledge discovery approach. Cartography and Geographic Information Science, 32(2): 113-132 [DOI:10.1559/1523040053722150]
  • Kaski S, Venna J, Kohonen T. 2000. Coloring that reveals cluster structures in multivariate data. Australian Journal of Intelligent Information Processing Systems, 6(2): 82-88
  • Kohonen T. 1982. Self-organized formation of topologically correct feature maps. Biological Cybernetics, 43(1): 59-69 [DOI:10.1007/BF00337288]
  • Pack M L, Wongsuphasawat K, VanDaniker M and Filippova D. 2009. ICE-visual analytics for transportation incident datasets//Proceedings of 2009 IEEE International Conference on Information Reuse & Integration. Las Vegas, NV, USA: IEEE, 200-205[DOI:10.1109/IRI.2009.5211551]
  • Plug C, Xia J C, Caulfield C. 2011. Spatial and temporal visualisation techniques for crash analysis. Accident Analysis & Prevention, 43(6): 1937-1946 [DOI:10.1016/j.aap.2011.05.007]
  • Piringer H, Buchetics M and Benedik R. 2012. AlVis: situation awareness in the surveillance of road tunnels//Proceedings of 2012 IEEE Conference on Visual Analytics Science and Technology. Seattle, WA, USA: IEEE, 153-162[DOI:10.1109/VAST.2012.6400556]
  • Rao Y M, Zhang Y K, Xie W J, Liu L, Liu X Y, Luo Y T. 2019. Visual analysis method of traffic accident spatial-temporal pattern. Computer Science, 46(4): 14-21 (饶永明, 张延孔, 谢文军, 刘璐, 刘新月, 罗月童. 2019. 交通事故时空模式可视分析方法. 计算机科学, 46(4): 14-21) [DOI:10.11896/j.issn.1002-137X.2019.04.003]
  • Shafabakhsh G A, Famili A, Bahadori M S. 2017. GIS-based spatial analysis of urban traffic accidents:case study in Mashhad, Iran. Journal of Traffic and Transportation Engineering (English Edition), 4(3): 290-299 [DOI:10.1016/j.jtte.2017.05.005]
  • Shi G, Jiang N, Yao L Q. 2017. Study on the identification of urban center system based on GIS and POI-a case study of Shanghai. Modern Surveying and Mapping, 40(6): 27-30 (施歌, 江南, 姚恋秋. 2017. 基于GIS和兴趣点(POI)数据的城市中心体系识别方法研究——以上海市为例. 现代测绘, 40(6): 27-30) [DOI:10.3969/j.issn.1672-4097.2017.06.007]
  • Thomas J J, Cook K A. 2006. A visual analytics agenda. IEEE Computer Graphics and Applications, 26(1): 10-13 [DOI:10.1109/MCG.2006.5]
  • Wang G T. 2016. Urban transportation in China:problems, policies and integrating theory with practice. Urban Transport of China, 14(6): 28-31 (汪光焘. 2016. 中国城市交通问题、对策与理论需求. 城市交通, 14(6): 28-31) [DOI:10.13813/j.cn11-5141/u.2016.0601]
  • Yin H J. 2002. ViSOM-a novel method for multivariate data projection and structure visualization. IEEE Transactions on Neural Networks, 13(1): 237-243 [DOI:10.1109/72.977314]
  • Zhang H J, Wang R, Chen B, Hou Y F, Qu D Z. 2018. Dynamic identification of urban functional areas and visual analysis of time-varying patterns based on trajectory data and POIs. Journal of Computer-Aided Design & Computer Graphics, 30(9): 1728-1740 (张慧杰, 王蓉, 陈斌, 侯亚芳, 曲德展. 2018. 基于轨迹和兴趣点数据的城市功能区动态识别与时变规律可视分析. 计算机辅助设计与图形学学报, 30(9): 1728-1740) [DOI:10.3724/SP.J.1089.2018.16357]
  • Zhang T Y, Li H W, Xu D H, Meng C Y, Zhu Y. 2016. POI data visualization based on DBSCAN algorithm. Science of Surveying and Mapping, 41(5): 157-162 (张铁映, 李宏伟, 许栋浩, 孟超越, 朱燕. 2016. 采用密度聚类算法的兴趣点数据可视化方法. 测绘科学, 41(5): 157-162) [DOI:10.16251/j.cnki.1009-2307.2016.05.033]
  • Zhao W F, Li Q Q, Li B J. 2011. Extracting hierarchical landmarks from urban POI data. Journal of Remote Sensing, 15(5): 973-988 (赵卫锋, 李清泉, 李必军. 2011. 利用城市POI数据提取分层地标. 遥感学报, 15(5): 973-988) [DOI:10.11834/jrs.20110173]
  • Zheng Y, Capra L, Wolfson O, Yang H. 2014. Urban computing:concepts, methodologies, and applications. ACM Transactions on Intelligent Systems and Technology, 5(3): 38 [DOI:10.1145/2629592]
  • Zheng Y X, Wu W C, Chen Y Z, Qu H M. 2016. Visual analytics in urban computing:an overview. IEEE Transactions on Big Data, 2(3): 276-296 [DOI:10.1109/TBDATA.2016.2586447]