|
发布时间: 2020-12-16 |
图像理解和计算机视觉 |
|
|
收稿日期: 2020-02-10; 修回日期: 2020-03-23; 预印本日期: 2020-03-30
基金项目: 国家自然科学基金项目(61572162,61802095);浙江省重点研发计划项目(2018C01012);浙江省自然科学基金项目(LQ17F020003)
第一作者简介:
胡海洋, 1977年生, 男, 教授, 主要研究方向为机器视觉、智能制造。E-mail:huhaiyang@hdu.edu.cn;
张力, 男, 硕士研究生, 主要研究方向为视频图像处理。E-mail:172050097@hdu.edu.cn; 李忠金, 男, 讲师, 主要研究方向为云计算、工作流调度。E-mail:lizhongjin@hdu.edu.cn.
中图法分类号: TP75
文献标识码: A
文章编号: 1006-8961(2020)12-2614-16
|
摘要
目的 在自动化和智能化的现代生产制造过程中,视频异常事件检测技术扮演着越来越重要的角色,但由于实际生产制造中异常事件的复杂性及无关生产背景的干扰,使其成为一项非常具有挑战性的任务。很多传统方法采用手工设计的低级特征对视频的局部区域进行特征提取,然而此特征很难同时表示运动与外观特征。此外,一些基于深度学习的视频异常事件检测方法直接通过自编码器的重构误差大小来判定测试样本是否为正常或异常事件,然而实际情况往往会出现一些原本为异常的测试样本经过自编码得到的重构误差也小于设定阈值,从而将其错误地判定为正常事件,出现异常事件漏检的情形。针对此不足,本文提出一种融合自编码器和one-class支持向量机(support vector machine,SVM)的异常事件检测模型。方法 通过高斯混合模型(Gaussian mixture model,GMM)提取固定大小的时空兴趣块(region of interest,ROI);通过预训练的3维卷积神经网络(3D convolutional neural network,C3D)对ROI进行高层次的特征提取;利用提取的高维特征训练一个堆叠的降噪自编码器,通过比较重构误差与设定阈值的大小,将测试样本判定为正常、异常和可疑3种情况之一;对自编码器降维后的特征训练一个one-class SVM模型,用于对可疑测试样本进行二次检测,进一步排除异常事件。结果 本文对实际生产制造环境下的机器人工作场景进行实验,采用AUC(area under ROC)和等错误率(equal error rate,EER)两个常用指标进行评估。在设定合适的误差阈值时,结果显示受试者工作特征(receiver operating characteristic,ROC)曲线下AUC达到91.7%,EER为13.8%。同时,在公共数据特征集USCD(University of California,San Diego)Ped1和USCD Ped2上进行了模型评估,并与一些常用方法进行了比较,在USCD Ped1数据集中,相比于性能第2的方法,AUC在帧级别和像素级别分别提高了2.6%和22.3%;在USCD Ped2数据集中,相比于性能第2的方法,AUC在帧级别提高了6.7%,从而验证了所提检测方法的有效性与准确性。结论 本文提出的视频异常事件检测模型,结合了传统模型与深度学习模型,使视频异常事件检测结果更加准确。
关键词
视频异常事件检测; 时空兴趣块; 3维卷积神经网络; 降噪自编码器; one-class支持向量机
Abstract
Objective With the recent improvements in people's living standards and quality and the rapid development of digital information technology, all sectors of society have paid increasing attention to the application of science and technology in the field of public safety. To maintain a safe public environment, video surveillance equipment has been increasingly installed in streets, schools, communities, subways, and other public places. However, traditional video surveillance systems gradually become unable to process the ever-increasing size of video data. Therefore, the development of intelligent surveillance systems with automatic detection, identification, and alarm functions has broad and far-reaching significance for maintaining public safety and developing artificial intelligence. Anomaly detection is an important part of intelligent monitoring systems that plays a key role in maintaining public safety. As such, anomaly detection has become a hot research topic for both academic and industrial practitioners. In the past, video anomalies are manually detected, which requires much human labor. Therefore, the introduction of an efficient and automated anomaly detection system has significantly reduced the labor costs for such undertaking. Video anomaly detection technologies play an important role in automated and intelligent modern production and manufacturing, video anomaly detection remains a challenging task in complex factory environments given the anomalous events and interference of unrelated contexts in such scenarios. Many methods use hand-designed low-level features to extract features from the local areas of a video. However, these features cannot represent both motion and appearance. To address this problem, we propose a novel detection method based on deep spatial-temporal features. Method First, given that abnormalities are mainly observed in the motion areas of videos, this article extracts the surveillance video motion area via a Gaussian mixture model (GMM). Specifically, this model is used to extract a fixed-size spatial-temporal region of interest from a video. Second, to facilitate the detection of subsequent abnormal events, high-level features are extracted from the region of interest (ROI) via a 3Dconvolutional neural network. Third, to enhance anomaly detection efficiency, the extracted features are used to train a denoising auto-encoder and to detect anomalous events based on reconstruction errors. Finally, given that the self-encoding reconstruction errors of some tested abnormal samples tend to be very small, a model that uses only self-encoding reconstruction errors for anomaly detection can miss many abnormal events. To further rule out anomalies, a one-class support vector machine (SVM) is trained on low-dimensional features Result Several experiments are performed in an actual manufacturing environment operated by robots. Two common indicators are used for evaluation, namely, area under ROC (AUC) and equal error rate (EER).The receiver operating characteristic (ROC) curve is drawn by using the results obtained from various classification standards and can be used to evaluate classifier performance. Meanwhile, the AUC represents the coverage area under the ROC curve, whereas the EER can be represented by the point where the ROC curve intersects with a 45° straight line. A smaller EER indicates a better detection effect. When the appropriate error threshold is set(approximately 0.15), the AUC under the ROC curve reaches 91.7%, whereas the EER is 13.8%.The performance of the proposed model is also evaluated and compared with that of other models on public data feature sets University of California, San Diego (USCD) Ped1 and Ped2. In the USCD Ped1 dataset, the proposed model demonstrates 2.6% and 22.3% improvements in its AUC at the frame and pixel levels, respectively. In the same dataset, compared with the second-best method, the proposed model has a 5.7% higher AUC at the frame level, thereby verifying its effectiveness and accuracy. Conclusion The proposed video abnormal event detection model combines traditional and deep learning models to increase the accuracy of video abnormal event detection results. A 3D convolutional neural network (C3D) was used to extract the spatiotemporal features. A video anomaly event detection method based on deep spatiotemporal features was also developed by combining the stacked denoising autoencoder with a one-class SVM model. In extracting deep spatiotemporal features through a pre-trained C3D network, those features that were extracted from the last convolutional layer of the network were treated as the features of the spatiotemporal interest block. These features consider both the appearance and motion modes. A denoising auto-encoder was also trained to reduce the dimensions of C3D-extracted features, and the reconstruction error of an auto-encoder was used to facilitate the detection of abnormal events. Experimental results show that the proposed model can still detect anomalies when such events appear in partially occluded situations. Therefore, this model can be used for anomalous event detection in dense scenes. Future studies may consider examining other network architectures, integrating multiple input data (e.g., RGB or optical flow frames), and introducing trajectory tracking methods to track obstructed objects and improve abnormality detection accuracy. The proposed framework is suitable for highly complex scenarios.
Key words
video anomaly event detection; region of interest (ROI); 3D convolutional neural network (C3D); denoising autoencoder; one-class support vector machine (SVM)
0 引言
视频异常事件检测技术是智能监控系统的一个重要组成部分,能够对生产制造过程中的安全检测起到积极作用,一直是热门的研究课题,受到了工业界和学术界的强烈关注(Benezeth等,2009;Hasan等,2016;Lu等,2013a;Saligrama和Chen,2012)。以往视频异常检测都是采用人工观察的方式进行,花费大量人力物力,并且长时间观察会产生视觉疲劳,导致效率低下。一个高效的自动化的异常检测系统可以减少很多人工成本,因此对其深入研究十分必要。然而由于异常事件的多样性与稀缺性,使得异常事件检测在实际应用中遇到巨大挑战。与监督学习的视频动作识别(Ji等,2013)不同的是,一方面,异常事件检测中的正负样本极不平衡(正样本指异常事件,负样本指正常事件),负样本几乎占据了所有样本,而正样本很稀有,属于离群值;另一方面,正样本有很高的方差,不同正样本之间的差异性非常大。由此可知,由于正常样本和异常样本数据极不平衡,从而很难利用监督学习的方法进行正负样本的分类。
对此,有很多方法(Benezeth等,2009;Hasan等,2016;Cong等,2011;Mehran等,2009)通过使用无监督学习的方式进行解决,训练仅包含正常事件的视频片段,将与正常事件建立的模型相背离的事件判定为异常事件。这些方法都侧重通过手工的方式对局部2维图像块或者3维时空块提取一些低级的外观和运动特征。比如,多尺度光流直方图(monsanto house of the future,MHOF)(Cong等,2011)、3D方向梯度直方图(3D histogram of oriented gradient,HOG3D)(Hasan等,2016)、3D时空梯度(Kratz和Nishino,2009)等。然而手工设计的特征用来表达视频的能力有限,并且这些特征很难同时考虑外观和运动特征,因此这些特征不适用于表达复杂的生产制造环境,尤其对那些经常出现遮挡并且运动密集的生产制造场景,如图 1展示的实际生产制造环境。
近年来,基于字典学习与稀疏编码的异常检测方法(Lu等,2013a;Zhao等,2011)已经表现了很好的效果。这些方法通过选取一组完备的正常样本进行字典构建,然后利用字典的稀疏重建代价(sparse reconstruction cost, SRC)来衡量测试样本是正常还是异常事件。然而传统的基于稀疏重构的方法主要还是采用手工设计的特征,并且这类方法对样本进行测试时需要学习稀疏表达参数,检测速度很慢,不太适合对复杂生产制造环境进行建模。
随着数据规模的扩大以及计算机硬件的更新换代,深度学习方法展示了在特征学习方面的优势,尤其在监督学习领域,已经在很多任务上取得了非常大的成功,如图像分类(Krizhevsky等,2012)、目标检测(Ren等,2015)等。同时,提出了一些基于深度学习的无监督学习方法,如堆叠自编码器(Xu等,2017)、卷积自编码器(Chong和Tay,2017)、生成对抗网络(Schlegl等,2017)等。其中,自编码器(auto encoder,AE)对正常事件样本进行编码,然后再对编码后的特征进行重建,其假设正常事件样本的重构误差较小,异常事件样本的重构误差较大。很多方法(Hasan等,2016;Xu等,2017;Ribeiro等,2018;Wang等,2018)都是使用自编码器进行视频异常事件的检测,并且取得了较好的检测效果。
基于以上分析,本文提出了一种用于生产制造中的二次异常事件检测方法。首先通过高斯混合模型(Gaussian mixture model,GMM)进行时空兴趣块(region of interest,ROI)的提取,并通过预训练的3维卷积神经网络(3D convolutional neural network,C3D)对ROI进行时空特征的提取。其次利用堆叠的降噪自编码器(stacked denoising autoencoder)对时空特征进行降维,得到一个更加紧凑的时空特征。最后结合自编码器的重构误差和one-class支持向量机(support vector machine,SVM)分类器进行局部异常事件的检测。
1 相关工作
监控视频中异常事件检测技术取得了非常大的进步,大部分的检测工作主要包括事件表示和模型建立两部分。对于事件表示,有很多成熟的技术可以使用。比如,运动区域特征提取、显著性区域检测、跟踪算法等。模型建立主要基于光流(Horn和Schunck,1981)、梯度(Dalal和Triggs,2005)、轨迹(Johnson和Hogg,1996)、纹理(Mahadevan等,2010)等特征建立。此外,Kratz和Nishino(2009)、Cong等人(2013)和Zhu等人(2012)方法也是模型建立的方法。
很多研究工作通过对正常事件进行建模,构建一个正常模型。当进行检测时,那些与正常样本模型相背离的事件视为异常事件,在这类无监督学习方式中,较为常用的是稀疏重构。Cong等人(2013)通过提取多尺度的光流直方图(MHOF)对正常事件进行稀疏编码,学习一个正常事件的模型,基于训练好的模型,通过稀疏重构误差对异常事件进行判别。Lu等人(2013b)提出了学习一系列稀疏组合,采用基于规则的方法检测异常事件,虽然这种方法检测速度很快,但是对于阈值的设定很敏感。
除了使用稀疏编码进行异常事件检测外,还有一些其他的方法。Gu等人(2014)通过高斯混合模型对正常人群的速度以及分布信息进行参数估计,从而对异常事件进行检测。Kratz和Nishino(2009)采用基于分布的隐马尔可夫模型,对视频局部区域进行正常运动模式建模,而那些不符合运动模式的事件就认为是异常事件。Mahadevan等人(2010)基于混合动态纹理(mixtures of dynamic textures,MDT)对拥挤场景下的正常事件进行建模,结合了外观和运动信息,将空间上显著区域事件与时间上低概率事件判断为异常事件。Li等人(2013)采用分层混合动态纹理(hierarchical mixtures of dynamic textures,H-MDT)对正常事件进行建模,相比于基于混合动态纹理(MDT)的方法而言,提高了性能。Helbing和Molnár(1995)采用社会力模型进行异常事件检测。社会力模型用来计算目标之间的相互作用力,然后采用文档主题生成模型(latent dirichlet allocation,LDA)进行建模并对异常事件进行检测。Lin等人(2016)提出了一种基于在线加权的聚类算法,动态更新聚类簇中心与聚类簇权重,通过新样本与聚类中心和聚类簇的关系进行异常事件检测。
在异常事件检测方面,提出了一些基于深度学习的方法。Zhao等人(2017)通过学习一个正常事件的深度时空自编码器模型,利用自编码器的重构误差大小来判断异常事件。Xu等人(2017)通过联合外观特征与运动特征学习一个去噪自编码器,并采用one-class SVM算法进行异常事件的检测。Liu等人(2018)通过对未来帧的预测进行异常事件的检测。还有一些其他研究工作同时考虑正常事件和异常事件并进行建模的方法。Sultani等人(2018)使用一种称为深度多排序框架的弱监督模型,同时考虑正常和异常事件建立模型。
基于轨迹跟踪的分析方法也得到了较为广泛的运用。Jiang等人(2011)跟踪感兴趣目标轨迹来建立一个正常运动模式模型。Johnson和Hogg(1996)提出通过比较新轨迹和一系列典型轨迹的方法,先学习由图像序列产生的目标轨迹,再判断不规则行为。Hu等人(2006)提出一种新的多目标跟踪算法,用层次聚类算法对轨迹建模,进而检测异常。这一类方法通过对正常运动模式的轨迹进行建模,那些与模型不符合的运动模式被检测为异常。由于基于轨迹的方法只考虑运动的前景信息,可以避免很多无关的背景信息对检测造成的影响,因此这类方法在很多场景下的检测效果表现很不错。然而这类方法不太适应于密集拥挤的场景,因为拥挤的场景下会出现很多遮挡现象,多目标轨迹难以跟踪,这将直接影响后续检测效果。
深度学习在很多应用领域取得了非常大的成功,如图像分类、目标检测、语义分割等。Ji等人(2013)最早将卷积神经网络从2维扩展到3维,从而提取深度时空特征。Tran等人(2015)在大规模的视频数据集上进行3维卷积神经网络的训练,从而进行动作识别,并且取得了最佳的性能。这些工作都表明了3维卷积神经网络在视频分析领域比2维卷积神经网络更加高效。鉴于该网络能同时提取时间和空间特征的优点,本文采用C3D网络对时空兴趣块进行深度时空特征提取。但由于训练样本中不包含异常样本标签,无法直接对C3D网络进行训练,因而采用基于大规模公开视频数据集中预训练得到的C3D模型进行时空特征提取,这种经过大规模视频数据预训练得到的模型,在不经微调的情况下就能够提取高效的时空特征,从而能够克服传统手工特征设计的不足。
2 本文方法
2.1 异常检测模型
图 2展示了本文使用的异常检测模型,即局部异常事件检测模型的结构图。整个检测分为训练和测试两个阶段。
训练阶段的主要工作包括:1)通过预训练的3维卷积神经网络(C3D)提取视频运动区域的时空特征,将C3D网络最后一个卷积层输出的512维特征map作为提取的时空特征; 2)将提取的512维时空特征输入到堆叠的降噪自编码器中,通过逐层训练的方法调节整个网络的参数,学习到一个更加鲁棒的压缩特征; 3)根据学习到的压缩特征,训练一个one-class SVM模型。
测试阶段的主要工作包括:1)测试样本经过预训练的C3D网络提取时空特征。2)将提取的时空特征输入到训练后的降噪自编码器中,得到降维后的特征表达。3)比较自编码重构误差
2.2 视频预处理
在实际工厂机器人生产制造环境中,由于光线强度不断变化以及噪声信号的干扰,导致视频图像中像素点颜色不断发生变化,如果对图像不加以处理,会使得后续提取的特征中包含很多与异常事件检测无关的信息,势必影响后续模型检测异常事件的准确性。针对上述问题,首先使用高斯滤波器来抑制视频图像噪声并进行平滑处理,然后利用加权平均法对图像进行灰度化,有效减少后续的计算量,最后使用常见的最大最小值归一化方法对图像进行归一化操作,将数据限制在0~1范围,加快后续模型的收敛速度。除此之外,由于异常事件主要发生在视频的运动区域,因此使用常见的运动前景提取方法——高斯混合模型(GMM)(Zivkovic,2004)提取视频运动前景二值图,与前景二值图对应的前景是与异常事件检测相关的区域,从而可以避免一些无关背景信息的干扰。
在提取运动前景二值图后,利用一个大小为32×32且1/2交叉重叠的滑动窗口滑过刚刚提取的前景二值图,当滑动窗口中前景部分的像素个数与背景部分的像素个数比例超过阈值
在运动前景的提取过程中,由于异常事件并不是发生在一帧图像上,而是发生在一个视频中连续多帧图像上,因此选取同一ROI的连续
为了能够正确定位异常事件的位置,本文在对测试集样本的处理中,除了保存每个时空兴趣块的时空特征外,还保存了每个时空兴趣块的位置信息。将每个时空兴趣块定义为
2.3 时空兴趣块特征提取
通过滑动窗口提取的ROI无法直接用来建立检测模型,需要对其进行特征提取,但训练集数据都是无标签的,且数据中不包含异常事件样本,无法采用监督学习方法进行训练。针对上述问题,本文基于大规模公开视频数据集训练得到的3维卷积神经网络(C3D)来提取ROI中外观和运动信息的时空特征。
典型的3维卷积神经网络是通过对堆叠的连续多帧图像从空间和时间两个维度进行3维卷积操作。记第
$ a_{i}^{j x y z}=f\left(\sum\limits_{n=1}^{N_{i}} \sum\limits_{w=1}^{W_{i}} \sum\limits_{h=1}^{H_{i}} \sum\limits_{k=1}^{K_{i}} \sigma_{i, j}^{n w k} a_{i-1}^{k(x+h)(y+w)(z+d)}+b_{i}^{j}\right) $ | (1) |
式中,
C3D网络通过在大规模公开数据集Sports-1M(Karpathy等,2014)上进行监督训练,从而能够提取到视频中的外观和运动特征。已有的工作(Tran等,2015)证明,在模型不经过微调的情况下,此预训练的网络已经能在不同类型的视频分析任务中取得很好的效果。
在使用此网络进行ROI特征提取时,考虑到全连接层主要适用于动作识别的分类,但是最后一层卷积层包含了丰富的外观和运动特征信息,有利于异常事件检测任务。因此,本文移除C3D网络最后两个全连接层(fc6, fc7)以及用于多分类的softmax层,将卷积最后一层的特征map作为提取的ROI时空特征,ROI的具体特征提取过程如图 5所示。
首先,将连续多帧图像经过预处理得到ROI。然后,将大小为16 × 32 × 32 × 1的ROI输入到预训练的C3D网络中。最后,将最后一个卷积层提取的512个1 × 1 × 1的特征map伸展为512维列向量,并将此列向量作为最后提取的ROI时空特征。
2.4 堆叠降噪自编码器
提取了局部ROI时空特征后,为了能够利用此时空特征进行异常事件检测,训练了一个堆叠的降噪自编码器。一方面,使用降噪自编码器可以获得一个更加紧凑、鲁棒的低维度时空特征,同时可以利用其重构误差大小参与异常事件的检测;另一方面,可以利用紧凑的时空特征去训练其他用于异常检测的模型,如one class SVM、isolation forest。
降噪自编码器(Vincent等,2008)是一个单隐藏层的神经网络,将输入的数据
对于自编码器的学习,可以通过给定的训练集
$ {L_{{\rm{loss}}}} = \frac{1}{{2N}}\sum\limits_{i = 1}^N {\left\| {{\mathit{\boldsymbol{x}}_i} - {{\mathit{\boldsymbol{\hat x}}}_i}} \right\|_2^2} + \lambda \left({\left\| \mathit{\boldsymbol{W}} \right\|_2^2 + \left\| {{\mathit{\boldsymbol{W}}^\prime }} \right\|_2^2} \right) $ | (2) |
式中,等式右边第1项为重构损失项,第2项为权重衰减项,此处采用L2正则化进行权重的衰减,
对于上述只使用一个隐藏层的自编码器而言,有时并不能获取很好的数据表示。为了获取更好的数据表示,本文使用一个具有4个隐藏层的堆叠降噪自编码器,并且采用贪婪的、逐层方式进行训练。相关的堆叠降噪自编码器网络如图 6所示。
图 6中,自编码器从输入到输出的维度分别为512→256→128→64→128→256→512。利用此自编码,将C3D网络最后一层卷积提取的512维时空特征输入其中,并在输入数据中加入方差为0.000 1的高斯白噪声,最后将“瓶颈”隐藏层输出的64维时空特征作为最终提取的ROI时空特征,为后续检测模型的建立做好准备。
将512维的特征向量降到64维,主要基于以下两点考虑:1)对于512维的特征向量而言,维度并不低,其中难免存在一些不相关或冗余特征,不利于后续one-class SVM模型的训练和测试。降维可以减少所需的存储空间,加快模型的计算速度,在一定程度上也能够避免模型的过拟合。2)利用自编码器重构误差与设定阈值的大小关系可以初步判别事件的状态(正常、异常、可疑)。但是如果编码阶段特征压缩比例太大,比如32维或者更低维度,会丢失很多样本内在信息,降低样本间的区分度,从而不利于解码阶段的重构过程,本文根据经验以及实验最终设定“瓶颈”隐藏层为64维。
2.5 one-class SVM模型
通常,利用自编码重构误差进行异常事件检测有一个约定俗成的假设,即认为正常事件的重构误差较小,而异常事件的重构误差较大。然而实际的情况往往比较复杂,可能会出现某些原本为异常的测试样本经过自编码后,其重构误差也很小,进而会将其判定为正常事件,这样会导致只使用自编码重构误差进行异常检测的模型会漏检一部分异常事件。因此直接利用自编码器的重构误差进行异常事件检测,且阈值设定合理的情况下,将重构误差小于阈值的测试样本判定为正常样本,大于阈值的测试样本判定为异常样本,能够筛选排除掉大部分异常事件,但是还是会存在一部分原本异常的事件错检测为正常事件的情况。为了避免这样的情况,本文利用堆叠降噪自编码压缩的时空特征,建立一种单分类的one-class SVM模型,进一步排除利用自编码重构误差未检测出的异常事件。
one-class SVM(Chen等,2001)是一个广泛用于离群值检测的算法,将一些训练数据通过线性或非线性的核函数
$ \begin{array}{l} \min \limits_{\omega, \rho, \xi_{i}} \frac{1}{2}\|\boldsymbol{\omega}\|^{2}+\frac{1}{v N} \sum\limits_{i=1}^{N} \xi_{i}-\rho \\ \text { s. t. } \quad \boldsymbol{\omega}^{\mathrm{T}} \phi\left(x_{i}\right)>\rho-\xi_{i}, \xi_{i} \geqslant 0 \end{array} $ | (3) |
式中,
$ \begin{array}{l} \min\limits _{\alpha} \frac{1}{2} \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n} \alpha_{i} \alpha_{j} K\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \\ \text { s. t. } \quad 0 \leqslant \alpha_{i} \leqslant \frac{1}{v n}, \sum\limits_{i=1}^{n} \alpha_{i}=1 \end{array} $ | (4) |
对于一个简单的低维度样本空间,输入数据可以很容易地通过一个线性函数将正常事件和异常事件分隔。然而,对于复杂的高维样本空间,输入数据并不能直接通过一个简单的线性函数分隔,但是可以通过一个超球面对其进行分隔,通常将其称为非线性分隔问题。对于非线性问题的处理,一般是通过核函数将其转化为线性问题,进而对线性问题进行求解。常用的核函数有线性核函数
2.6 视频异常检测
视频异常检测主要集中于那些不期望出现的事件,也就是那些出现频率较低且与正常事件相背离的事件。通常基于自编码的异常事件检测假设正常事件的重构误差较小,而异常事件的重构误差较大,但是由于自编码具有很强的拟合能力,在一些复杂场景下,会出现某些重构误差较小的测试样本,其真实标签却是异常事件;而那些重构误差较大的测试样本,其真实标签较少出现为正常事件的情况。基于以上事实,同时考虑到实际生产制造环境中的安全问题,需要尽可能检测出所有的异常事件,本文提出的二次异常检测方法如下:对于给定的测试样本ROI,首先将其输入到预训练的C3D网络中,将C3D网络最后一层卷积层提取的512维时空特征
$ \gamma=\sum\limits_{i=1}^{N}\left\|\boldsymbol{x}_{i}-\hat{\boldsymbol{x}}_{i}\right\|_{2}^{2} $ | (5) |
式中,
通过仔细观察图 7中红色虚线表示的
通过上述总结,当重构误差
$ \begin{array}{c} p_{\omega, \rho}(x)=\operatorname{sign}(\omega \cdot \varphi(x)-\rho)= \\ \operatorname{sign}\left(\sum\limits_{i} \alpha_{i} K\left(\boldsymbol{x}_{i}, x\right)-\rho\right) \end{array} $ | (6) |
式中,
3 实验结果
3.1 UCSD Pedestrian数据集
为了进一步评估本文模型,在现有的公共数据特征集UCSD Pedestrian(Mahadevan等,2010)上进行实验。UCSD Pedestrian数据集包含两个子数据集,一个子数据集是Ped1,包含34个训练图像序列和36个测试图像序列,每个图像序列都是由200帧组成,且图像分辨率为158 × 238像素;另一个子数据集是Ped2,包含16个训练图像序列和12个测试图像序列,图像分辨率为240 × 360像素。两个子数据集的帧数范围为120~180帧之间,并且训练图像序列中只包含正常事件,测试图像序列中包含正常事件和异常事件。本文将异常事件定义为不期望出现或者训练样本中没有出现过的事件。Ped1和Ped2描述了两个不同的户外场景,这两个场景将行人的正常行走定义为正常事件,将步行街上的自行车、滑轮、汽车和轮椅定义为异常事件。在UCSD数据集下,两种不同场景的异常事件示例如图 8所示。
本文采用帧级别和像素级别的异常检测标准评价算法的性能,使用受试者工作特征(receiver operating characteristic,ROC)曲线下的面积(area under ROC,AUC)和等错误率(equal error rate,EER)两个常用指标。ROC曲线是一个用来评价分类器性能好坏的指标,其中横坐标为负正率(false positive rate,FPR),纵坐标为真正率(true positive rate,TPR)。在ROC曲线实验图中,越靠近左上角的曲线,表示分类效果越好;AUC表示曲线下方的面积,其值越大越好;EER表示ROC曲线上与45°角直线相交点的值,其值越小,性能越好。将所有的视频帧分为0和1两个标签,0代表视频帧正常,1代表视频帧异常。对于帧级别的异常检测,当视频中某一帧的ROI区域检测为异常,且此时这一帧的标签为1,则表示正确检测到异常事件,而不管异常是否出现在正确的位置;对于像素级别的异常检测,真正异常像素中有40%的像素被检测为异常,才算正确检测到异常事件。
由于Ped1和Ped2两个数据特征集的分辨率不一样,本文统一将它们的分辨率设置为160×224像素,以满足滑动窗口的要求。然后使用一个32 × 32的滑动窗口以1/2的交叉重叠滑过视频帧,以获取感兴趣区域ROIs。由于异常事件发生在连续的多帧上,这里取同一ROI区域连续的16帧作为时空兴趣块进行后续特征的提取。ROI区域提取的阈值
3.2 UCSD Ped1结果分析
图 10展示了在UCSD Ped1数据集的结果。从这些图像可以看出,本文算法可以有效检测出其中大部分的异常事件,包括骑自行车的、坐轮椅的、开汽车的等。图 11展示了不同检测方法在UCSD Ped1数据集上帧级别和像素级别的实验结果的ROC曲线(其中,MPPCA(Hasan等,2016)为mixed probabicity principal component analysis)。可以看出,本文方法可以比较准确地定位异常事件的位置,因为异常主要发生在视频运动区域,通过高斯混合模型提取前景运动区域,排除与异常检测无关的区域,从而能够更准确地定位异常区域。表 1是在UCSD Ped1数据集上本文方法与其他方法帧级别和像素级别的AUC和EER对比。从图 11和表 1可以看出,本文方法能够获得较高的AUC和较低的EER,达到了较好的检测效果。
表 1
UCSD Ped1数据集不同方法帧级别和像素级别的AUC和EER
Table 1
Different methods at the frame level and pixel level of AUC and EER on the UCSD Ped1 dataset
/% | |||||||||||||||||||||||||||||
方法 | 帧级别 | 像素级别 | |||||||||||||||||||||||||||
AUC | EER | AUC | EER | ||||||||||||||||||||||||||
SF | 68.3 | 31.0 | 19.7 | 79.0 | |||||||||||||||||||||||||
MPPCA | 63.0 | 40.0 | 20.5 | 81.0 | |||||||||||||||||||||||||
SF+MPPCA | 69.3 | 32.0 | 21.3 | 71.0 | |||||||||||||||||||||||||
SRC | 86.0 | 19.0 | 46.1 | 54.0 | |||||||||||||||||||||||||
MDT | 80.7 | 25.0 | 44.1 | 56.0 | |||||||||||||||||||||||||
本文 | 88.6 | 16.3 | 68.4 | 36.5 | |||||||||||||||||||||||||
注:加粗字体为各列最优结果, SF为social force。 |
3.3 UCSD Ped2结果分析
图 12展示了在UCSD Ped2数据集上的一些结果,同样能够检测出大部分的异常事件。本文主要针对密集场景下进行异常事件检测。在密集特征场景下,由于人群之间遮挡严重,很可能导致被严重遮挡的异常事件未能准确检测出来。比如,图 12(a)第4列图中,滑板的人被前面的人部分遮挡,本文设计的方法同样能够检测出来(图 12(b)第4列)。可以看出,本文方法对密集特征场景下的人群异常检测的鲁棒性较好。图 13展示了不同检测方法在UCSD Ped2数据集上的ROC曲线。由于本文采用了二次检测的方式,在误差阈值上界
表 2
UCSD Ped2数据集不同方法帧级别的AUC和EER
Table 2
Different methods in frame-level AUC and EER on the UCSD Ped2 data set
/% | |||||||||||||||||||||||||||||
算法 | 帧级别 | ||||||||||||||||||||||||||||
AUC | EER | ||||||||||||||||||||||||||||
SF | 61.3 | 42.0 | |||||||||||||||||||||||||||
MPPCA | 72.4 | 30.0 | |||||||||||||||||||||||||||
SF+MPPCA | 67.9 | 36.0 | |||||||||||||||||||||||||||
Adam | 60.8 | 42.0 | |||||||||||||||||||||||||||
MDT | 83.4 | 25.0 | |||||||||||||||||||||||||||
本文 | 90.1 | 15.8 | |||||||||||||||||||||||||||
注:加粗字体为各列最优结果。 |
3.4 与深度学习方法进行比较
除了与传统方法对比外,本文还与基于深度学习的异常检测方法(Hasan等,2016;Xu等,2017;Ribeiro等,2018)进行了性能对比,同样使用AUC和EER两个指标进行性能评价,结果如表 3所示(其中,AMDN(Xu等,2017)为appearance and motion deepnet, FR+ED(Ribeiro等,2018)为fusion of low-level frames with high-level auto-encoder)。可以看出,本文方法与其他深度学习方法相比,虽然性能指标不是最好,但整体性能优于一些直接利用自编码重构误差进行异常检测的深度学习方法,且与性能最好的方法差距并不是很大。同时,本文方法在USCD Ped1和USCD Ped2两个数据集上的检测性能差距不是很大,说明本文方法的通用性较强,能够适用于很多不同场景,在一定程度上体现了本文方法的优势。
表 3
USCD Ped1和USCD Ped2数据集不同方法的性能比较
Table 3
The performance of different methods on the USCD Ped1 and USCD Ped2 datasets
/% | |||||||||||||||||||||||||||||
方法 | USCD Ped1数据集 | USCD Ped2数据集 | |||||||||||||||||||||||||||
AUC | EER | AUC | EER | ||||||||||||||||||||||||||
Conv-AE | 81 | 27.9 | 90.0 | 21.7 | |||||||||||||||||||||||||
AMDN | 92.1 | 16.0 | 90.8 | 17.0 | |||||||||||||||||||||||||
FR + ED | 56.9 | 49.5 | 84.7 | 24.5 | |||||||||||||||||||||||||
本文 | 88.6 | 16.3 | 90.1 | 15.8 | |||||||||||||||||||||||||
注:加粗字体为各列最优结果。 |
3.5 机器人场景检测结果分析
本文采集了实际生产制造中机器人工作环境的视频数据集,同时在此数据集上进行测试。将机器人正常的工作状态定义为正常事件,将有异常人员进入的机器人工作环境定义为异常事件。在机器人正常工作情况下,为了工厂安全生产的要求,此场景内部不允许任何异常人员及不明物体进入,一旦有异常人员或不明物体进入,则判定该场景出现异常事件,同时出于安全考虑,立即让机器人停止工作。机器人的工作场景如图 14所示。
由于测试集中需要包含一些异常事件(异常人员进入机器工作环境),但是考虑到实际机器人工作中,进入是非常危险的事情,因此本文的测试集采用了视频合成的方式,将机器正常工作的状态与异常人员进入的画面相融合,生成一个模拟的异常检测场景。
图 15展示了机器人工作环境下的一些检测结果,不同的误差阈值上界
表 4
机器人工作场景下数据特征集量化检测结果
Table 4
Quantitative detection result of data feature set in robot working scene
误差阈值 |
AUC/% | EER/% |
0.25 | 61.3 | 31.6 |
0.20 | 91.7 | 13.8 |
0.15 | 75.2 | 21.3 |
注:加粗字体为各列最优结果。 |
4 结论
本文提出了一种用于实际生产制造中的异常事件检测方法,通过C3D网络提取时空特征,结合堆叠降噪自编码器与one-class SVM模型,提出了一种融合自编码器和one-class SVM的异常事件检测方法。通过预训练的C3D网络提取深度时空特征,并将网络的最后一个卷积层提取的特征作为本文时空兴趣块的时空特征,这种特征将外观与运动模式同时考虑其中。此外,本文训练了一个堆叠的降噪自编码器对C3D提取的特征进行降维,利用自编码器的重构误差将测试样本归类为正常、异常、可疑3者之一,并通过one-class SVM模型对可疑样本进行二次检测,进一步排除异常事件。通过实验发现,异常事件出现部分遮挡时,本文依然能够检测出来。因此本文方法适用于密集场景下的异常事件检测。
未来将尝试使用其他网络架构融合多种输入数据,比如RGB帧或者光流帧,通过轨迹跟踪的方法,对遮挡的物体进行跟踪,提高异常事件检测的准确性,使本文框架适用于更多的复杂场景。
参考文献
-
Benezeth Y, Jodoin P M, Saligrama V and Rosenberger C. 2009. Abnormal events detection based on spatio-temporal co-occurences//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE: 2458-2465[DOI: 10.1109/cvpr.2009.5206686]
-
Chen Y Q, Zhou X S and Huang T S. 2001. One-class SVM for learning in image retrieval//Proceedings of 2001 International Conference on Image Processing. Thessaloniki: IEEE: 34-37[DOI: 10.1109/ICIP.2001.958946]
-
Chong Y S and Tay Y H. 2017. Abnormal event detection in videos using spatiotemporal autoencoder//Proceedings of the 14th International Symposium on Advances in Neural Networks. Sapporo: Springer: 189-196[DOI: 10.1007/978-3-319-59081-3_23]
-
Cong Y, Yuan J S and Liu J. 2011. Sparse reconstruction cost for abnormal event detection//Proceedings of 2011 IEEE Conforence on Computer Vision and Pattern Recognition. Providence: IEEE: 3449-3456[DOI: 10.1109/CVPR.2011.5995434]
-
Cong Y, Yuan J S, Liu J. 2013. Abnormal event detection in crowded scenes using sparse representation. Pattern Recognition, 46(7): 1851-1864 [DOI:10.1016/j.patcog.2012.11.021]
-
Dalal N and Triggs B. 2005. Histograms of oriented gradients for human detection//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego: IEEE: 886-893[DOI: 10.1109/CVPR.2005.177]
-
Gu X X, Cui J R, Zhu Q. 2014. Abnormal crowd behavior detection by using the particle entropy. Optik, 125(14): 3428-3433 [DOI:10.1016/j.ijleo.2014.01.041]
-
Hasan M, Choi J, Neumann J, Roy-Chowdhury A K and Davis L S. 2016. Learning temporal regularity in video sequences//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE: 733-742[DOI: 10.1109/cvpr.2016.86]
-
Helbing D, Molnár P. 1995. Social force model for pedestrian dynamics. Physical Review E, 51(5): #4282 [DOI:10.1103/PhysRevE.51.4282]
-
Horn B K P, Schunck B G. 1981. Determining optical flow. Artificial Intelligence, 17(1/3): 185-203 [DOI:10.1016/0004-3702(81)90024-2]
-
Hu W M, Xiao X J, Fu Z Y, Xie D, Tan T N, Maybank S. 2006. A system for learning statistical motion patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(9): 1450-1464 [DOI:10.1109/TPAMI.2006.176]
-
Ji SW, Xu W, Yang M, Yu K. 2013. 3D convolutional neural networks for human action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(1): 221-231 [DOI:10.1109/tpami.2012.59]
-
Jiang F, Yuan J S, Tsaftaris S A, Katsaggelos A K. 2011. Anomalous video event detection using spatiotemporal context. Computer Vision and Image Understanding, 115(3): 323-333 [DOI:10.1016/j.cviu.2010.10.008]
-
Johnson N, Hogg D. 1996. Learning the distribution of object trajectories for event recognition. Image and Vision Computing, 14(8): 609-615 [DOI:10.1016/0262-8856(96)01101-8]
-
Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R and Li F F. 2014. Large-scale video classification with convolutional neural networks//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE: 1725-1732[DOI: 10.1109/CVPR.2014.223]
-
Kratz L and Nishino K. 2009. Anomaly detection in extremely crowded scenes using spatio-temporal motion pattern models//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE: 1446-1453[DOI: 10.1109/CVPR.2009.5206771]
-
Krizhevsky A, Sutskever I and Hinton G E. 2012. ImageNet classification with deep convolutional neural networks//Proceedings of the 25th International Conference on Neural Information Processing Systems. Red Hook: ACM: 1097-1105
-
Li W X, Mahadevan V, Vasconcelos N. 2013. Anomaly detection and localization in crowded scenes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(1): 18-32 [DOI:10.1109/TPAMI.2013.111]
-
Lin H H, Deng J D, Woodford B J and Shahi A. 2016. Online weighted clustering for real-time abnormal event detection in video surveillance//Proceedings of the 24th ACM International Conference on Multimedia. New York: ACM: 536-540[DOI: 10.1145/2964284.2967279]
-
Liu W, Luo W X, Lian D Z and Gao S H. 2018. Future frame prediction for anomaly detection-a new baseline//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 6536-6545[DOI: 10.1109/cvpr.2018.00684]
-
Lu C W, Shi J P and Jia J Y. 2013a. Abnormal event detection at 150 FPS in MATLAB//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney: IEEE: 2720-2727[DOI: 10.1109/iccv.2013.338]
-
Lu C W, Shi J P and Jia J Y. 2013b. Online robust dictionary learning//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE: 415-422[DOI: 10.1109/CVPR.2013.60]
-
Mahadevan V, Li W X, Bhalodia V and Vasconcelos N. 2010. Anomaly detection in crowded scenes//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE: 1975-1981[DOI: 10.1109/CVPR.2010.5539872]
-
Mehran R, Oyama A and Shah M. 2009. Abnormal crowd behavior detection using social force model//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE: 935-942[DOI: 10.1109/CVPR.2009.5206641]
-
Ren S Q, He K M, Girshick R and Sun J. 2015. Faster R-CNN: Towards real-time object detection with region proposal networks//Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge: ACM: 91-99
-
Ribeiro M, Lazzaretti A E, Lopes H S. 2018. A study of deep convolutional auto-encoders for anomaly detection in videos. Pattern Recognition Letters, 105: 13-22 [DOI:10.1016/j.patrec.2017.07.016]
-
Saligrama V and Chen Z. 2012. Video anomaly detection based on local statistical aggregates//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE: 2112-2119[DOI: 10.1109/cvpr.2012.6247917]
-
Schlegl T, Seeböck P, Waldstein S M, Schmidt-Erfurth U and Langs G. 2017. Unsupervised anomaly detection with generative adversarial networks to guide marker discovery//Proceedings of the 25th International Conference on Information Processing in Medical Imaging. Boone: Springer: 146-157[DOI: 10.1007/978-3-319-59050-9_12]
-
Sultani W, Chen C and Shah M. 2018. Real-world anomaly detection in surveillance videos//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 6479-6488[DOI: 10.1109/cvpr.2018.00678]
-
Tran D, Bourdev L, Fergus R, Torresani L and Paluri M. 2015. Learning spatiotemporal features with 3D convolutional networks//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago: IEEE: 4489-4497[DOI: 10.1109/ICCV.2015.510]
-
Vincent P, Larochelle H, Bengio Y and Manzagol P A. 2008. Extracting and composing robust features with denoising autoencoders//Proceedings of the 25th International Conference on Machine Learning. New York, USA: ACM: 1096-1103[DOI: 10.1145/1390156.1390294]
-
Wang S Q, Zeng Y J, Liu Q, Zhu C Z, Zhu E and Yin J P. 2018. Detecting abnormality without knowing normality: a two-stage approach for unsupervised video abnormal event detection//Proceedings of the 26th ACM International Conference on Multimedia. New York, USA: ACM: 636-644[DOI: 10.1145/3240508.3240615]
-
Xu D, Yan Y, Ricci E, Sebe N. 2017. Detecting anomalous events in videos by learning deep representations of appearance and motion. Computer Vision and Image Understanding, 156: 117-127 [DOI:10.1016/j.cviu.2016.10.010]
-
Zhao B, Li F F and Xing E P. 2011. Online detection of unusual events in videos via dynamic sparse coding//Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE: 3313-3320[DOI: 10.1109/CVPR.2011.5995524]
-
Zhao Y R, Deng B, Shen C, Liu Y, Lu H T and Hua X S. 2017. Spatio-temporal AutoEncoder for video anomaly detection//Proceedings of the 25th ACM International Conference on Multimedia. New York, USA: ACM: 1933-1941[DOI: 10.1145/3123266.3123451]
-
Zhu X B, Liu J, Wang J Q, Fang Y K and Lu H Q. 2012. Anomaly detection in crowded scene via appearance and dynamics joint modeling//Proceedings of the 19th IEEE International Conference on Image Processing. Orlando: IEEE: 2705-2708[DOI: 10.1109/ICIP.2012.6467457]
-
Zivkovic Z. 2004. Improved adaptive Gaussian mixture model for background subtraction//Proceedings of the 17th International Conference on Pattern Recognition. Cambridge:IEEE:28-31[DOI:10.1109/ICPR.2004.1333992]]