Print

发布时间: 2019-05-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.180412
2019 | Volume 24 | Number 5




    图像分析和识别    




  <<上一篇 




  下一篇>> 





结合流形密度的聚集行为模式分割算法
expand article info 王垆阳1, 雷军1, 梁浩哲2, 张宇倩1, 李国辉1
1. 国防科技大学系统工程学院, 长沙 410073;
2. 北京系统工程研究所, 北京 100101

摘要

目的 在视频监控和人群模式行为理解的重要应用中,识别分割场景中的集体行为仍然是一个极具挑战性的问题。在这项研究中,提出一种基于流形密度的集体聚类算法,能够识别具有任意形状和不同密度条件下的集体行为的局部和全局模式。方法 受群体运动行为的流形拓扑结构启发,首先提出一种新的流形距离度量方式用于挖掘群体运动的深层行为模式。进一步定义了集体聚集密度的概念,并通过基于聚集密度的聚类算法识别具有局部一致性行为的群组,这种策略更适用于识别具有任意形状的聚类。同时考虑到子群组之间的复杂交互作用,引入层次聚集合并算法得到全局集体行为模式,可以有效地表征全局一致性关系。结果 针对不同情况下的复杂场景,本文算法在集体视频监控数据集下的实验结果表明了其有效性和鲁棒性,相比于传统的聚类方法和标准经典算法,以平均误差(AD)和方差(VAR)作为评价指标来评价算法性能,本文方法将识别分割聚集行为群组的误差率结果控制在了0.81和0.99以内,相比许多经典方法有较大提升。同时在具有复杂流形结构及任意密度条件下的人群场景中能够取得精确有效的识别结果,解决了经典方法在该特殊场景下存在的缺点。结论 本文针对已有方法在流形结构场景识别集体行为流向缺乏精确性和稳定性的描述和分析这一问题,提出了基于流形密度的群组聚集聚类识别算法,在多个复杂真实视频数据集中进行实验,证明了所提方法的有效性,并相比于已有方法具有更高的识别精度。

关键词

聚集行为; 密度峰值聚类; 聚集流形; 聚集性; 行为一致性

Collective motion pattern segmentation algorithm based on manifold density
expand article info Wang Luyang1, Lei Jun1, Liang Haozhe2, Zhang Yuqian1, Li Guohui1
1. Science and Technology on Information Systems Engineering Laboratory, National University of Defense Technology, Changsha 410073, China;
2. Beijing Institute of System Engineering, Beijing 100101, China
Supported by: National Natural Science Foundation of China(71673293)

Abstract

Objective Collective motion detection is fundamentally important for analyzing crowd behavior and has attracted considerable attention in artificial intelligence. The recognition and segmentation of collective behavior are important branches of computer vision and graphics, which are significant for public safety, intelligent traffic, and architectural design. The main task of recognizing collective behavior is to mine the coherent patterns consisting of highly coherent tracklets according to the extracted features from crowd motion in videos. However, existing works mostly have limitations due to the insufficient utilization of crowd properties and the arbitrary processing of individuals. Collective behavior involves local and global motion patterns, in which varying densities and arbitrary shapes are salient characteristics. The global coherent motion with complex interaction requires an accurate measurement of local coherency and analysis of global continuity. A further study demonstrates that the motion descriptor and similarity measurement remain limited to finding the latent relativity among tracklet points under the circumstances of perspective distortion and large spatial gap. In view of these shortcomings, we propose the density-based manifold collective clustering approach for detecting groups in crowd scenes. Method Our background modeling is based on the clustering strategy and aims to recognize arbitrarily shaped clusters in coherent motion. Motion features are detected with the generalized Kanade-Lucas-Tomasi feature point tracker, which jointly combines the detecting and tracking stages with efficient computation. The corresponding algorithms mainly include manifold collective density definition, density-based manifold collective clustering, and hierarchical collectiveness merging process. In the first process, a new manifold distance metric is presented to express the intrinsic characteristics of moving individuals. A collective density with novelty is defined based on this topological structure to describe the collectiveness between an individual and its neighbors. This collective density represents the local density efficiently, reflects the global consistency, and is highly adaptive to reveal the underlying patterns of varying densities in coherent motion. We propose a novel collective clustering to find a local topological relationship that can precisely recognize the collectiveness relationship between points and their surroundings. Similar to the core idea of fast search and density peak cluster method, the cluster peak centers of subgroups are assumed to be characterized by a higher collective density calculated by collectiveness than their neighbors. The density-based manifold collective clustering approach is proposed to detect local and global coherent motions with arbitrary shapes and varying densities. Three salient properties must not be ignored:1) the accurate identification of outliers and exploration of manifold structure, 2) the automatic decision of group number without involving any arbitrary threshold, and 3) the capability of dealing with crowd scenes with varying densities. Thus, in the proposed method, the center of collective subgroups is characterized by two criteria:one is a higher collective density than its neighbors, and the other is a relatively large distance and inconsistent orientation from points with a higher density. From this view, the clustering method can determine the cluster centers automatically. In the recognition of global consistency part, inspired by the main ideology of the BIRCH clustering method, a hierarchical collectiveness merging strategy is developed to combine local motions and recognize global consistency. In this process, the collectiveness is used to capture the intracorrelations of subgroups, and local clusters are successfully combined into global coherent groups by merging the highly consistent pairwise subgroups iteratively. Result Collective Motion Database is employed to evaluate the experimental performance, and four state-of-the-art group detection techniques are used for comparison, namely, coherent filtering, collective transition, measuring crowd collectiveness, and collective density clustering. Results show that in complex scenes under different conditions, the experimental results of the algorithm remain highly effective and robust. Compared with the traditional clustering methods and state-of-the-art algorithms, average difference (AD) and variance (VAR) are used as criteria to evaluate the algorithm performance. The AD rate of our proposed method is controlled within 0.81, and the VAR rate is under 0.99, which is approximately 6% lower than those of classical clustering methods. Compared with such classical methods, our method exhibits great improvement. Accurate and effective recognition results can be obtained in crowd scenes with complex manifold structures and arbitrary density conditions, which solve the shortcomings of the classical methods in this special scenario. Conclusion This study proposes a cluster aggregation clustering algorithm based on manifold density for multiple complex real-world videos based on the manifold description and analysis of existing methods for identifying the lack of accuracy and stability of collective behavioral flow in manifold structures. Experiments on various real-world videos and comparisons with previous works validate that our method yields substantial boosts over state-of-the-art competitors. Therefore, the proposed algorithm can have a preferable adaptive performance in complex scenes with varying densities and arbitrary shape situations.

Key words

coherent motion detection; manifold density clustering; collective manifold; collectiveness; motion consistency

0 引言

群体聚集行为是自然界最引人注目的现象之一,目前已经有许多跨学科领域的专家学者探索这一现象。正如图 1所展示的是自然场景中的集群聚集行为,一般来说在群体运动中,具有相似运动行为模式或动机的个体会聚集形成为一个整体,而同一场景中又因为不同个体运动趋势的多样性,往往会存在两类以上集体的群组行为。通常情况下群体中个体的信息传递仅仅只能反映出场景中的局部状况,但是当群体的聚集行为形成时,这些个体会被视为群体的重要组成部分并且彼此之间相互传递相近的性质,进而决定了全局的性质。这种聚集行为的研究目前在许多学科中是非常有意义的。例如行为主义学家研究发现个体间简单的冗余交互关系会导致群体做出各种各样的人群行为;生物学家研究认为动物的群聚行为是为了在艰难环境下生存下来的一种演化优势;物理学家则将人群群体视为一组粒子,并使用流体力学方程来描述个体运动及其相互作用。在现实社会中人群的群体行为也符合群体聚集模式,随着科学技术的发展,有关人群聚集行为模式识别的研究工作受到研究者的广泛关注,在计算机视觉领域范围内具有很高的科研价值与应用意义。由于人群场景中群体是人群行为的基础组成部分,因此针对群体要素的行为模式研究更有助于探索和挖掘群体聚集行为的本质,并且在目标检测[1]、异常行为识别[2]、人群计数[3]等研究问题中具有更加深远的意义和实用价值。本文将这种集体运动的空间一致性结构称为聚集流形(collective manifold)。聚集流形的一个重要结构特性是对于处于同一聚集流形区域的在局部相邻区域集体行为的一致性较高,而相距较远的个体行为一致性较低。现实社会中聚集流形现象在公共视频监控场景下的人群行为中是普遍存在的,并且监测人群的聚集群聚行为对于社会的公共安全管理具有十分重要的意义。目前视频场景下人群聚集行为模式的识别与分割问题受到了研究者的广泛关注,已有多种集体行为识别算法相继提出解决该问题,并且取得了不错的检测识别效果。然而由于实际场景人群行为的复杂性,已有的传统方法针对复杂场景无法保持精确性与鲁棒性,因此集体行为的识别分割仍然是一个具有挑战性的问题。

图 1 自然界中的集群聚集行为
Fig. 1 Collective motion behavior in nature

群体行为主要是由单个个体的运动模式所组成的,当前对于人群聚集行为识别与分割研究主要是通过跟踪个体特征点,分析特征点间的相互关系来描述群体聚集行为。在跟踪与描述个体特征点方面,Ali等人[4]提出一种基于场地模型的跟踪方法跟踪提取高密度结构场景中的人群个体;Kratz等人[5]针对极度拥挤场景下的复杂情况采用局部时空运动模式来精确地跟踪人群个体;Ge等人[6]则进一步采用可逆跳跃的马尔可夫链与蒙特卡洛模型,有效地挖掘连续帧下运动目标的时序关系,增强了连续视频帧下运动个体的识别精度。然而跟踪获取的人群轨迹在拥挤场景或者阻塞遮挡情况下并不能精确刻画场景中的人群流向,这说明需要更加合适的特征点来描述。近年来,通过跟踪特征点来学习人群的行为模式逐渐成为一个热门话题。Ali等人[7]使用拉格朗日粒子动力学方法对具有相同行为特征的光流粒子进行合并聚类,从而实现群体流动行为的分割。Hu等人[8]利用光流方法,通过提取视频所有帧中的光流轨迹使其形成单一的全局运动场,进而挖掘群体行为模式。Saleemi等人[9]引入高斯混合模型建立群体行为模式的统计表达。不过基于光流场的特征跟踪方法在识别复杂模糊场景中的群体行为模式时会因为光流跟踪噪声而出现过度拟合现象,与此同时,基于主题模型的建模应用也是构建运动模式行为生成模型的有力工具。Zhou等人[10]使用条件随机场主题模型与混合动态代理模型相结合的方法检测识别人群行为模式,并可以实现人群场景中的语义区域分析。此外,通过聚类具有相似运动流向的特征点或运动轨迹建立群体运动模式的建模方法也涌现出了许多有趣的研究,并在最近一段时间取得了极大成功[11]。Collectiveness(聚集一致性),是由Zhou等人[12]提出的一种准确全面地反映人群聚集性的描述子,其描述了个体行为表现成为一个整体的程度并可以定量地反映个体联合成为同一群簇的数量关系。因此其作者创新地提出了一种基于积分路径的算法用于计算衡量群体运动的一致程度,进而实现分割识别场景中的不同聚集行为模式。不过该方法在对于复杂流形结构下的聚集行为并不能精确地度量和识别,同时忽略了视频帧间的连续时间信息。Shao等人[13]提出了一种CT(collective transition)算法进一步改善聚集性度量,通过采用集体行为中行为一致性程度的度量实现集体行为识别。Li等人[14]进一步结合线性迭代聚类(SLIC)算法,首先通过生成视频帧图像的超像素块表征目标个体,并利用跟踪这些像素块获取目标人群的运动特征,提升了识别精确度和鲁棒性。此外文献[15]通过分析群组内近邻个体间的相互作用,从连续帧的时间序列中找到具有较高行为一致性的个体组成群组。然而针对实际场景中形状各异、密度分布散乱的集体行为模式,基于密度关系的聚类方法能够有效揭示特征点在空间分布散乱情形下潜在的一致行为关系。Wu等人[16]提出基于密度峰值的聚类方法实现局部集体行为的识别,并设计了多阶段的合并算法发掘具有全局一致性的聚集行为。然而这种方法虽然考虑到全局层面的集体行为,但对于具有复杂流形结构下的集体行为识别仍存在局限性。

针对上述问题,本文提出一种基于流形密度的集体聚类算法,能够识别具有任意形状和不同密度条件下的集体行为的局部和全局模式。该算法在基于聚集密度聚类算法的基础上,采用一种新颖的流形距离度量手段衡量与挖掘群体运动的运动行为模式,能够有效在局部层面上分割出流形结构中形状各异的集体行为簇。并且引入层次聚集合并算法快捷自主地确定全局集体行为模式下的群簇数量与划分,通过集体视频监控数据集下的实验结果验证了所提出算法的精确性和鲁棒性。

1 基于流形密度的聚集行为模式识别

聚集行为识别可以被认为是收集群体中具有相同运动方向和动机的个体在一起的过程。在本节提出一种新颖的基于流形聚集密度的聚类策略,用于实现识别不同形状的集体行为。特征点通过gKLT (generalized KLT)[12]跟踪策略提取视频场景中个体行为特征。同时基于此特征的流形聚类算法和层次合并策略也在本节各自提出。

1.1 流形聚集描述子

视频中的集体行为呈现出典型的流形运动,内部个体由于受到视域的限制,其运动会主要参考邻近个体的行为[15]。这些具有近邻关系的个体会形成子群组,且组内个体间往往具有较高的行为一致性。因此,本文从子群组的层面出发理解集体行为模式中蕴含的流式结构。然而,形状各异和内部跟踪点分布杂乱无章为这种子群组的识别带来了困难。一般地,在待识别簇的形状各异的情况下,基于密度的聚类算法可以更有优势[17]。传统的基于密度峰值的快速聚类算法运用欧氏距离测量,并假设密度峰值点的密度高于其紧邻点。不过对于复杂场景下检测全局一致性,原有算法达不到较好的表现。针对这个问题,首先提出一种新颖的流形距离度量,该度量可以同时较好反映局部与全局一致性关系结构。流形距离的计算步骤如下:

在视频场景所在的2维平面R2上,令C表示跟踪点的集合,任意跟踪点${\mathit{\boldsymbol{C}}_i}(i = 1, \cdots, N)$的位置和运动方向分别记作${\mathit{\boldsymbol{p}}_i} = \left( {p_i^x, p_i^y} \right)$${\mathit{\boldsymbol{v}}_i} = \left( {v_i^x, v_i^y} \right)$。对于任意两个跟踪点${\mathit{\boldsymbol{C}}_i}, {\mathit{\boldsymbol{C}}_j}$,有关距离和速度方向的相似度可以表示为

$ \begin{array}{*{20}{c}} {d(i,j) = \left\| {{\mathit{\boldsymbol{p}}_i} - {\mathit{\boldsymbol{p}}_j}} \right\| = }\\ {\sqrt {{{\left( {p_i^x - p_j^x} \right)}^2} + {{\left( {p_i^y - p_j^y} \right)}^2}} } \end{array} $ (1)

$ \operatorname{ori}(i, j)=\boldsymbol{v}_{i} \cdot \boldsymbol{v}_{j} /\left\|\boldsymbol{v}_{i}\right\| \cdot\left\|\boldsymbol{v}_{j}\right\| $ (2)

式中,$ori$表示运动方向。

1) 寻找提取运动特征点间的相互近邻关系并构造相互$K$近邻无向图$\mathit{\boldsymbol{G}} = (\mathit{\boldsymbol{V}}, \mathit{\boldsymbol{E}})$, 其中相互$K$近邻图中的任意相连两点存在互为近邻关系[18]$\mathit{\boldsymbol{V}}$是图$\mathit{\boldsymbol{G}}$的端点集合,$\mathit{\boldsymbol{E}}$是图$\mathit{\boldsymbol{G}}$的边的连线集合。

2) 去除邻接图中的噪声点。其中噪声点被假设为邻接图中非常小的连接部分,并包含了少于ζ×$N$的邻接点[19]($N$是所有特征点的个数, ζ是经验参数)。

3) 采用Floyd-Warshall算法计算邻接图$\mathit{\boldsymbol{G}}$中流形最短距离${d_{{\rm{man}}}}(i, j)$,因此流形距离可以定义为

$ \begin{array}{*{20}{c}} {{d_{{\mathop{\rm man}\nolimits} }}(i,j) = }\\ {\left\{ \begin{array}{l} d\left( {i,j} \right)\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{x_j} \in {\mathit{\boldsymbol{V}}_k}\left( {{x_i}} \right) \cap {x_i} \in {\mathit{\boldsymbol{V}}_k}\left( {{x_j}} \right)\\ \mathop {\min }\limits_{p \in {\mathit{\boldsymbol{P}}_{ij}}} \sum\limits_{k = 1}^{\left| p \right| - 1} {d\left( {k,k + 1} \right)} \;\;\;\;\;\;\;其他 \end{array} \right.} \end{array} $ (3)

由式(3)可知,$d(\mathit{i}, \mathit{j})$表示点$i$, $j$间的欧氏距离,其中${\mathit{\boldsymbol{V}}_k}(x)$是点$x$的近邻集合。同时${\mathit{\boldsymbol{P}}_{ij}}$是连接邻接图$G$中的所有节点的路径集合,这样计算得到的流形距离${d_{{\mathop{\rm man}\nolimits} }}(i, j)$即取得了流形拓扑结构下的最短距离。考虑到传统的密度估计对于实际人群场景下的局部与全局一致性识别达不到较好效果,本文结合距离与速度方向信息,提出一种新颖的密度估计方式用于识别集体行为运动。基于这些相似度,本文使用一种基于数据驱动的自适应策略定义可反映特征点间的聚集一致性,并称之为流形密度。

定义1  聚集性:表示特征点之间的运动一致程度,对于任意特征点${\mathit{\boldsymbol{C}}_i}$${\mathit{\boldsymbol{C}}_j}$, 其在聚集性矩阵中的表示为

$ \begin{array}{*{20}{c}} {{W_c}\left( {i,j} \right) = }\\ {\left\{ \begin{array}{l} \max \left( {\frac{{{\mathit{\boldsymbol{v}}_i} \cdot {\mathit{\boldsymbol{v}}_j}}}{{\left\| {{\mathit{\boldsymbol{v}}_i}} \right\| \cdot \left\| {{\mathit{\boldsymbol{v}}_j}} \right\|}},0} \right)\;\;\;\;d\left( {i,j} \right) \le \kappa \left( {i,j} \right) \cdot {d_c}\\ 0\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;d\left( {i,j} \right) > \kappa \left( {i,j} \right) \cdot {d_c} \end{array} \right.} \end{array} $ (4)

$ \begin{array}{*{20}{c}} {\kappa (i,j) = \left( {1 + \cos \left( {\frac{{{\mathit{\boldsymbol{v}}_i} + {\mathit{\boldsymbol{v}}_j}}}{2},{p_i} - {p_j}} \right) \times } \right.}\\ {\left( {1 + \cos \left( {{\mathit{\boldsymbol{v}}_i},{\mathit{\boldsymbol{v}}_j}} \right)} \right) \times {{\rm{e}}^{ - \frac{{{{\left\| {{p_i} - {p_j}} \right\|}^2}}}{{{d_c}}}}}} \end{array} $ (5)

式中,max函数是用于防止相似度取负数的形式。在上述方程中,${W_C}(i, j)$代表点${\mathit{\boldsymbol{C}}_i}$${\mathit{\boldsymbol{C}}_j}$的聚集性。在式(5)中,$\kappa $是一个在考虑方向信息的基础上可以动态调节距离阈值${d_c}$的调节因子。本文假设当两个子类的运动方向一致时最有可能属于同一聚集行为运动,因此组成了式(5)中的第1项。而余下的两项组成部分则考虑到具有相近距离和相似运动方向的特征点保持更高的一致聚集性。因此较大的$\kappa $值表示一致性较高,可以放宽阈值$d_c$的限制。基于聚集性的定义本文进一步给出聚集流形密度的定义。

定义2  聚集流形密度:任意跟踪点${\mathit{\boldsymbol{C}}_i}$的流形密度定义为

$ \rho_{i}=\sum\limits_{j} W_{c}(i, j) $ (6)

由式(6)可知,跟踪点${\mathit{\boldsymbol{C}}_i}$的流形密度综合考虑了${\mathit{\boldsymbol{C}}_i}$与周围所有点在聚集行为一致性方面的关联程度,更大的$\rho $值表示该点与周围点具有更加紧密的联系。根据定义2可知聚集流形密度是由近邻点间的聚集性度量求和得到,具有一些重要的性质:聚集流形密度的计算由包括具有更高相关性的邻接点甚至距离相隔较远的一致性点计算得到,但排除了噪声点以及具有较近距离的不相干点。这样能够有效地发掘潜在的在不同密度等级下一致性运动中的有序密度度量,特别是在低密度区域也可以达到更好的估计。在边界的选取方面,本文的流形聚集密度使用了自适应截断距离和动态变化的调节因子,发现具有更高一致性的运动特征,相比于传统方法有效地避免了密度估计算法中费时的选取边界过程。并且在边缘点和噪声点的判别问题上,式(5)综合考虑了近邻特征点间的一致性运动流向和动态距离信息,在符合的阈值距离边缘范围内准确地筛选相关性高的簇边缘特征点,对于噪声点通过观察得知,集体行为中的噪声点通常出现在以下两种情况下:在某个集体行为簇中的异常朝向的点;或某些规模极小的簇。在这两种情况中噪声点都有着共同的特点,即它们会形成仅包含其自身的簇,进而算法可以通过筛选仅包含自身的簇来剔除噪声点。因此,面对集体行为中跟踪点位置分布散乱的情况,流形密度更加有利于后续聚类算法有效地识别集体行为子群组。本文的定义中包含两个参数${d_c}$$k$,其中${d_c}$采用在所有距离相似度$d\left( {i,j} \right) $中第$k$小的元素,根据实验,$k$=$N$×0.02时取值效果最佳。另一方面在Mutual KNN Graph中,根据文献[20]可知$k$值的选取应与O(log2$N$)为同一数量级。

1.2 基于流形密度的聚集性聚类

集体行为子群组通常由局部行为一致性较强的特征点构成,形状各异是子群组的典型特征。本文在上述定义流形密度的基础上,利用基于密度的聚类算法能够适用于识别形状不规则的集体行为子群组。然而目前的基于密度的聚类方法,包括DBSCAN、Mean Shift和密度峰值聚类[17]都存在局限性:密度分布散乱时无法自动确定质心、缺乏精确的噪声点过滤策略。通过研究发现,集体行为簇的质心遵循以下原则:1)相比于近邻点具有更高的密度;2)与比其密度高的点间存在较远的距离和较大的方向差异。因此本文在聚类过程中确定密度峰值点就是采用这种策略。首先根据最大密度值${\max _i}\left( {{\rho _i}} \right)$赋予其质心点,并标记$cluste{r_i} = i$。除去质心点,其余特征点按照密度值降序的顺序进行排序。

在聚类分配策略中本文定义一种分配近邻关系为

$ {N_i} = \left\{ \begin{array}{l} j\;\;\;\;\;\;\exists \;\arg \;\min \left( {d\left( {i,j} \right)} \right)\\ \;\;\;\;\;\;\;\;{\rm{s}}.\;{\rm{t}}.\;\;{\rho _i} > {\rho _j} \cap {W_c}\left( {i,j} \right) > 0\\ - 1\;\;\;\;其他 \end{array} \right. $ (7)

若跟踪点${\mathit{\boldsymbol{C}}_i}$的运动方向与${\mathit{\boldsymbol{C}}_{Ni}}$行为较一致,则${\mathit{\boldsymbol{C}}_i}$的质心选择与密度较高的点${\mathit{\boldsymbol{C}}_{Ni}}$保持一致; 否则,若${\mathit{\boldsymbol{C}}_i}$${\mathit{\boldsymbol{C}}_{Ni}}$在运动方向上差异较大,即两者不在同一个局部子群组中,因此${\mathit{\boldsymbol{C}}_i}$会成为新的质心。通过该质心分配策略,初始时的非质心点会依次分配给现有质心或者成为新质心,从而实现所有跟踪点的聚类划分,并且最终具有一致性的子群组的数量自动确定得到。在这个过程中,聚簇所在的分配向量可以表示为

$ {c_i} = \left\{ {\begin{array}{*{20}{c}} \begin{array}{l} {c_{{N_i}}}\\ i \end{array}&\begin{array}{l} {N_i} \ne - 1\\ 其他 \end{array} \end{array}} \right. $ (8)

噪声点过滤是聚集流形密度聚类的另一个关键问题。集体行为中的噪声点通常有两种类型,集体行为簇内部的异常朝向点和集体行为簇外部的密度极低的跟踪点。在如上情况中,噪声点都有着共同的特点,即它们会形成仅包含其自身的簇,通过这个结论,可以剔除聚类后具有极小规模的簇来过滤噪声点。

最终,流形密度峰值聚类通过确定质心、分配非质心点以及过滤噪声点可以有效地识别具有高度行为一致性的子群组。

1.3 层次聚集合并算法

上述得到的聚类子群组反映了跟踪点局部一致性的行为模式,然而,最终的集体行为识别需要进一步考虑跟踪点间在全局层面呈现出的行为一致性。图 2描述了局部与全局一致性之间的关联联系。在人群交互关系中存在一种常见现象是相互聚集的人群所处的群组间总是直接或间接的存在一定的联系。因此提出利用聚集度来衡量捕获子群组之间的内在联系,进而合并形成具有全局一致性的群簇。正如Zhou等人[12]提出的有关聚集度的概念,本文将其用于子群组间的一致性度量方式。首先根据聚集度矩阵${\mathit{\boldsymbol{W}}_c}$计算子群组范围内跟踪点的聚集流形密度

图 2 群体场景中局部一致性与全局一致性关系
Fig. 2 Relationship between local consistency and global consistency

$ {\rho _i} = \sum\limits_{j \in \mathit{\boldsymbol{su}}{\mathit{\boldsymbol{b}}_a}} {{W_c}} (i,j) $ (9)

式中,$\mathit{\boldsymbol{su}}{\mathit{\boldsymbol{b}}_\alpha }$代表跟踪点所在的子群组。由于流形密度能够反映与周围跟踪点的运动一致程度,同时群组中的密度峰值点可以假设代表其所在子群组的整体一致性趋势,因此决定子群组的密度峰值点为

$ t = \mathop {\max }\limits_{i \in \mathit{\boldsymbol{su}}{\mathit{\boldsymbol{b}}_\alpha }} \left( {{\rho _i} + {\mu _i}} \right) $ (10)

式中,${\mu _i}$表示点$i$的近邻数量,$t$代表密度峰值点。得到峰值点后可以对所在群组的聚集一致程度进行表示:$\mathit{coh}\left( {\mathit{\boldsymbol{su}}{\mathit{\boldsymbol{b}}_\alpha }} \right) = {\mathit{\boldsymbol{\rho }}_t}$。于是子群组${\mathit{\boldsymbol{su}}{\mathit{\boldsymbol{b}}_\alpha }}$的性质可以由所选取的密度峰值点$t$进行表征。有了上述定义后将目标放在子群簇的聚集合并过程。受BRICH Cluster方法的启发,如果合并两个相邻的群组可以产生更高的一致度,则两个子群簇被认为是具有一致性的,可以合并成一个簇。因此聚集合并的满足条件可以表示为

$ \begin{array}{*{20}{c}} {Coh\left( {\mathit{\boldsymbol{su}}{\mathit{\boldsymbol{b}}_\alpha } + \mathit{\boldsymbol{su}}{\mathit{\boldsymbol{b}}_\beta }} \right) \ge }\\ {\max \left\{ {Coh\left( {\mathit{\boldsymbol{su}}{\mathit{\boldsymbol{b}}_\alpha }} \right),Coh\left( {\mathit{\boldsymbol{su}}{\mathit{\boldsymbol{b}}_\beta }} \right)} \right\}} \end{array} $ (11)

通过迭代地合并具有较高一致性的子群簇,实现最终的集体行为识别。另外在迭代合并的过程中合并顺序可能会影响结果效果,因此本文通过处理每一次选取最高相关性值$\mathit{Coh}\left( {\mathit{\boldsymbol{su}}{\mathit{\boldsymbol{b}}_\alpha } + \mathit{\boldsymbol{su}}{\mathit{\boldsymbol{b}}_\beta }} \right)$进行合并来解决这一问题。最终当没有多余的子群组满足合并的条件时算法停止。

1.4 复杂度分析

本文提出的聚集流形密度算法的时间复杂度为${\rm{O}}\left( {{N^3}} \right)$。算法过程主要分为3个阶段,在第1个阶段主要是聚集流形密度的定义与计算,其中在最短路径的计算中运用Floyd-Warshall算法,因此其时间复杂度为${\rm{O}}\left( {{N^3}} \right)$,其中$N$为特征点的数量;第2阶段聚集性聚类过程可以有效识别局部子群组间的行为一致性,由于在聚类分配的计算过程中仅需要一步遍历迭代,这样可以大大提升算法的效率,因此该阶段的时间复杂度为${\rm{O}}\left( {{N^3}} \right)$;第3阶段主要是介绍了不同子群组之间层次聚集合并的有关框架,由于寻找群组中的聚集性峰值点的复杂度为${\rm{O}}\left( n \right)$,其中$n$是子群组包含的特征点个数,因此在合并过程中算法的时间复杂度为${\rm{O}}\left( {{M^2}n} \right)$,在这里$M$为子群组个数且满$M \ll N$。综上所述,聚集合并算法的整体时间复杂度为${\rm{O}}\left( {{N^3}} \right)$

2 实验结果与分析

本文通过视频监控数据集来验证所提出算法的有效性,并对实验结果进行了深入分析。同时在当前数据集的典型场景中与4种已有方法进行效果对比。

2.1 实验数据与比较

数据集:Collective Motion Database[12], 该数据集包含413个视频序列,其中每个片段有100帧图片。视频内容涉及室内外人群、车流等真实监控场景。

对比实验:选择4种state-of-the-art方法作为对比实验检验算法的效果,CF(coherent filtering)[15]、CT(collective transition)[13]、MCC(measuring crowd collectiveness)[12]和CDC (collective density clustering)[16]。所有算法的参数采用各自最优值。

2.2 实验结果

给出聚集流形密度聚类方法在各种场景下的实验效果,包括成群的行人与交通群落。在数据预处理阶段,跟踪点的位置及速度特征由Generalized KLT(gKLT)获取,实验的参数配置采用上一节提到的配置。图 3展示了本文提出的聚类算法在视频监控数据集下的识别效果。从图中可以看出,本算法在不同场景、不同个体、不同交互的情况下都能有效地识别出正确的集体行为。另外图 3中的一些特殊场景,比如路口行人流穿行和异常个体穿过人群,由于异常个体与正常群体的规模存在较大的不平衡性并且存在着复杂关系,会进一步增加集体行为的识别难度。而实验结果则把异常个体所对应的“小簇”与正常群体对应的“大簇”较为正确地分割出来,体现了算法模型的准确性及对于簇规模不平衡问题的鲁棒性。

图 3 不同数据场景下流形密度算法的识别结果
(不同集体行为模式用不同颜色特征圈出,噪声点用红色十字表示)
Fig. 3 The demonstration of representative scenes in Collective Motion Database[12]
(scatters and arrows with different colors indicate different clusters)

2.3 实验分析

将提出的流形密度聚类算法与已有集体行为识别算法从识别效果和量化指标两个方面进行了对比分析,这些算法包括CF、CT、MCC和CDC。如图 4所示,在视频监控数据集中设计了本文算法与上述比较算法的对比实验。可以看出,传统方法对于较为复杂群体行为场景的识别结果与真实标注间差异较大,而本文方法在检测识别局部与全局一致性方面都有更好的效果。比如,图 4中的场景3中展示的不同交通流向场景,在比较的方法中仅能识别局部的一致性群体运动,而对于全局流向的群组则没有较好地识别出来;场景2展示了两组人群相对交汇穿过路口的场景,其中部分人流被另一组人群分割开来。由图中效果可知在复杂的帧场景中前者工作不能把部分散乱的小簇精确地分割出来。因此,本文提出的流形密度聚类算法识别效果相比于上述几种方法是最优的。更重要的是,在一些复杂场景中本文方法能够实现更加稳定和精确的识别效果,有效地剔除噪声因素。

图 4 流形密度算法与其他4种算法在视频监控数据集上的对比实验
Fig. 4 Representative comparison results on Collective Motion Database((a)ours; (b) CDC; (c) CF; (d) CT; (e) MCC)

在量化分析方面,选用AD(average difference)和VAR(variance)[16]作为聚类结果是否精确的指标。由指标的意义可知,AD值越小代表结果与真实值的差别越小;同样地, VAR值越低反映算法越稳定。表 1进一步给出了识别的簇个数与真实个数间差异值的量化结果,从识别正确群簇个数方面表明本文算法的识别精度更高,且与人工标注真实值偏差的波动性更小。从表 1中可以得知,本文方法将识别分割聚集行为群组的误差率结果控制在了0.81和0.99以内,相较于一些经典方法都取得了指标数值最小值,在精度方面有较大的提升。在视频监控数据集的400多个场景中进行试验,本文方法的误差方差结果控制在0~1区间之内,说明在多数场景中错误识别人群簇数的误差可以控制为0,较CF方法的识别误差率提高了近5%,在识别精度上有了明显的提升。在效率方面由于本文算法增加了最短路径的计算过程,因此比CDC方法在单帧识别效率稍慢,但由于场景特征点的数据量级不超过104,因此实验效果在保证了时间效率的前提下提高了识别精度。并且在具有复杂流形结构及任意密度条件下的人群场景中能够取得精确有效的识别结果,解决了经典方法在该特殊场景下存在的缺点。

表 1 检测集体行为簇个数差异的期望与方差量化对比
Table 1 Quantitative coruparison of expection and variances for detecting differences in cluster mumber

下载CSV
指标 方法
CF CT MCC CDC 本文
AD 2.28 1.64 3.89 0.89 0.81
VAR 6.27 2.52 8.49 1.06 0.99
注:加粗字体为最优结果。

本文方法还有一大优势在于,对于具有流形结构下的群体行为运动,流形密度聚类算法在发掘流形运动中的全局一致性方面更加鲁棒,在视频帧的识别持续效果较长。如图 5展示的连续帧场景识别结果,在人群马拉松场景中蕴含着较为明显的流形运动结构,CDC与MCC方法在前部分帧可以识别出人群流动的流形结构,然而在整个场景帧中却不能实现一个稳定优异的效果。而本文方法实现了在连续帧场景中得到精确鲁棒的识别结果,体现了本文算法相对于其他方法在探索流形结构中全局一致性的结构特征的优越性。

图 5 流形密度聚类算法与MCC、CDC算法在连续帧的识别结果对比
Fig. 5 Comparison results along time series in collective motion detection
((a) MCC; (b) CDC; (c) ours)

3 结论

针对已有方法在流形结构场景识别集体行为流向缺乏精确性和稳定性的描述和分析这一问题,提出了基于流形密度的群组聚集聚类识别算法,该算法能够有效地识别出视频中的局部和全局集体行为,并且对于多密度和复杂结构下的场景自动确定群组数量并有效剔除噪声点。在局部行为识别方面,设计提出一种流形结构度量用于挖掘复杂场景蕴含的流形结构,同时引入流形密度的定义并通过自适应的流形密度聚类算法准确有效地识别出行为一致性较强的局部子群组;在全局集体行为识别方面,通过挖掘群组间峰值特征点的性质,提出了层次聚集合并算法用于准确聚合具有一致交互关系的子群组,实现全局集体行为的识别。在集体视频监控数据集下的实验结果表明了本文算法的有效性,并与已有方法相比进一步提升了精度,增强了复杂流形场景下识别的稳定性。本文算法依旧存在不足之处,在存在间隔距离较大的群组及存在透视变换问题的情形下仍不能达到较好的效果,在下一步的工作中拟打算进一步解决上述问题。

参考文献

  • [1] Li T, Chang H, Wang M, et al. Crowded scene analysis:a survey[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(3): 367–386. [DOI:10.1109/TCSVT.2014.2358029]
  • [2] Li W X, Mahadevan V, Vasconcelos N. Anomaly detection and localization in crowded scenes[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(1): 18–32. [DOI:10.1109/TPAMI.2013.111]
  • [3] Rabaud V, Belongie S. Counting crowded moving objects[C]//Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2006: 705-711.[DOI: 10.1109/CVPR.2006.92]
  • [4] Ali S, Shah M. Floor fields for tracking in high density crowd scenes[C]//Proceedings of the 10th European Conference on Computer Vision. Marseille, France: Springer, 2008: 1-14.[DOI: 10.1007/978-3-540-88688-4_1]
  • [5] Kratz L, Nishino K. Tracking pedestrians using local spatio-temporal motion patterns in extremely crowded scenes[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(5): 987–1002. [DOI:10.1109/TPAMI.2011.173]
  • [6] Ge W N, Collins R T, Ruback R B. Vision-based analysis of small groups in pedestrian crowds[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(5): 1003–1016. [DOI:10.1109/TPAMI.2011.176]
  • [7] Ali S, Shah M. A lagrangian particle dynamics approach for crowd flow segmentation and stability analysis[C]//Proceedings of 2007 IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, USA: IEEE, 2007: 1-6.[DOI: 10.1109/CVPR.2007.382977]
  • [8] Hu M, Ali S, Shah M. Detecting global motion patterns in complex videos[C]//Proceedings of the 19th International Conference on Pattern Recognition. Tampa, FL, USA: IEEE, 2008: 1-5.[DOI: 10.1109/ICPR.2008.4760950]
  • [9] Saleemi I, Hartung L, Shah M. Scene understanding by statistical modeling of motion patterns[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, CA, USA: IEEE, 2010: 2069-2076.[DOI: 10.1109/CVPR.2010.5539884]
  • [10] Zhou B L, Wang X G, Tang X O. Random field topic model for semantic region analysis in crowded scenes from tracklets[C]//Proceedings of CVPR 2011. Colorado Springs, CO, USA: IEEE, 2011: 3441-3448.[DOI: 10.1109/CVPR.2011.5995459]
  • [11] Wang C J, Zhao X, Shou Z, et al. A discriminative tracklets representation for crowd analysis[C]//Proceedings of 2015 IEEE International Conference on Image Processing. Quebec City, Canada: IEEE, 2015: 1805-1809.[DOI: 10.1109/ICIP.2015.7351112]
  • [12] Zhou B L, Tang X O, Zhang H P, et al. Measuring crowd collectiveness[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(8): 1586–1599. [DOI:10.1109/TPAMI.2014.2300484]
  • [13] Shao J, Loy C C, Wang X G. Scene-independent group profiling in crowd[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 2227-2234.[DOI: 10.1109/CVPR.2014.285]
  • [14] Li X L, Chen M L, Wang Q. Measuring collectiveness via refined topological similarity[J]. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 2016, 12(2). [DOI:10.1145/2854000]
  • [15] Zhou B L, Tang X O, Wang X G. Coherent filtering: detecting coherent motions from crowd clutters[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer, 2012: 857-871.[DOI: 10.1007/978-3-642-33709-3_61]
  • [16] Wu Y P, Ye Y D, Zhao C Y. Coherent motion detection with collective density clustering[C]//Proceedings of the 23rd ACM International Conference on Multimedia. Brisbane, Australia: ACM, 2015: 361-370.[DOI: 10.1145/2733373.2806227]
  • [17] Rodriguez A, Laio A. Clustering by fast search and find of density peaks[J]. Science, 2014, 344(6191): 1492–1496. [DOI:10.1126/science.1242072]
  • [18] Maier M, Hein M, von Luxburg U. Optimal construction of k-nearest-neighbor graphs for identifying noisy clusters[J]. Theoretical Computer Science, 2009, 410(19): 1749–1764. [DOI:10.1016/j.tcs.2009.01.009]
  • [19] Wu S, Wong H S. Crowd motion partitioning in a scattered motion field[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 2012, 42(5): 1443–1454. [DOI:10.1109/TSMCB.2012.2192267]
  • [20] Tenenbaum J B, de Silva V, Langford J C. A global geometric framework for nonlinear dimensionality reduction[J]. Science, 2000, 290(5500): 2319–2323. [DOI:10.1126/science.290.5500.2319]