发布时间: 2020-12-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200042
2020 | Volume 25 | Number 12

图像理解和计算机视觉

融合自编码器和one-class SVM的异常事件检测

胡海洋, 张力, 李忠金

杭州电子科技大学计算机学院, 杭州 310018

收稿日期: 2020-02-10; 修回日期: 2020-03-23; 预印本日期: 2020-03-30

基金项目: 国家自然科学基金项目（61572162，61802095）；浙江省重点研发计划项目（2018C01012）；浙江省自然科学基金项目（LQ17F020003）

第一作者简介: 胡海洋, 1977年生, 男, 教授, 主要研究方向为机器视觉、智能制造。E-mail:huhaiyang@hdu.edu.cn;
张力, 男, 硕士研究生, 主要研究方向为视频图像处理。E-mail:172050097@hdu.edu.cn;
李忠金, 男, 讲师, 主要研究方向为云计算、工作流调度。E-mail:lizhongjin@hdu.edu.cn.

中图法分类号: TP75

文献标识码: A

文章编号: 1006-8961(2020)12-2614-16

摘要

目的在自动化和智能化的现代生产制造过程中，视频异常事件检测技术扮演着越来越重要的角色，但由于实际生产制造中异常事件的复杂性及无关生产背景的干扰，使其成为一项非常具有挑战性的任务。很多传统方法采用手工设计的低级特征对视频的局部区域进行特征提取，然而此特征很难同时表示运动与外观特征。此外，一些基于深度学习的视频异常事件检测方法直接通过自编码器的重构误差大小来判定测试样本是否为正常或异常事件，然而实际情况往往会出现一些原本为异常的测试样本经过自编码得到的重构误差也小于设定阈值，从而将其错误地判定为正常事件，出现异常事件漏检的情形。针对此不足，本文提出一种融合自编码器和one-class支持向量机（support vector machine，SVM）的异常事件检测模型。方法通过高斯混合模型（Gaussian mixture model，GMM）提取固定大小的时空兴趣块（region of interest，ROI）；通过预训练的3维卷积神经网络（3D convolutional neural network，C3D）对ROI进行高层次的特征提取；利用提取的高维特征训练一个堆叠的降噪自编码器，通过比较重构误差与设定阈值的大小，将测试样本判定为正常、异常和可疑3种情况之一；对自编码器降维后的特征训练一个one-class SVM模型，用于对可疑测试样本进行二次检测，进一步排除异常事件。结果本文对实际生产制造环境下的机器人工作场景进行实验，采用AUC（area under ROC）和等错误率（equal error rate，EER）两个常用指标进行评估。在设定合适的误差阈值时，结果显示受试者工作特征（receiver operating characteristic，ROC）曲线下AUC达到91.7%，EER为13.8%。同时，在公共数据特征集USCD（University of California，San Diego）Ped1和USCD Ped2上进行了模型评估，并与一些常用方法进行了比较，在USCD Ped1数据集中，相比于性能第2的方法，AUC在帧级别和像素级别分别提高了2.6%和22.3%；在USCD Ped2数据集中，相比于性能第2的方法，AUC在帧级别提高了6.7%，从而验证了所提检测方法的有效性与准确性。结论本文提出的视频异常事件检测模型，结合了传统模型与深度学习模型，使视频异常事件检测结果更加准确。

关键词

视频异常事件检测; 时空兴趣块; 3维卷积神经网络; 降噪自编码器; one-class支持向量机

Anomaly detection with autoencoder and one-class SVM

Hu Haiyang, Zhang Li, Li Zhongjin

School of Computer Science and Technology, Hangzhou Dianzi University, Hangzhou 310018, China

Supported by: National Natural Science Foundation of China (61572162, 61802095)

Abstract

Objective With the recent improvements in people's living standards and quality and the rapid development of digital information technology, all sectors of society have paid increasing attention to the application of science and technology in the field of public safety. To maintain a safe public environment, video surveillance equipment has been increasingly installed in streets, schools, communities, subways, and other public places. However, traditional video surveillance systems gradually become unable to process the ever-increasing size of video data. Therefore, the development of intelligent surveillance systems with automatic detection, identification, and alarm functions has broad and far-reaching significance for maintaining public safety and developing artificial intelligence. Anomaly detection is an important part of intelligent monitoring systems that plays a key role in maintaining public safety. As such, anomaly detection has become a hot research topic for both academic and industrial practitioners. In the past, video anomalies are manually detected, which requires much human labor. Therefore, the introduction of an efficient and automated anomaly detection system has significantly reduced the labor costs for such undertaking. Video anomaly detection technologies play an important role in automated and intelligent modern production and manufacturing, video anomaly detection remains a challenging task in complex factory environments given the anomalous events and interference of unrelated contexts in such scenarios. Many methods use hand-designed low-level features to extract features from the local areas of a video. However, these features cannot represent both motion and appearance. To address this problem, we propose a novel detection method based on deep spatial-temporal features. Method First, given that abnormalities are mainly observed in the motion areas of videos, this article extracts the surveillance video motion area via a Gaussian mixture model (GMM). Specifically, this model is used to extract a fixed-size spatial-temporal region of interest from a video. Second, to facilitate the detection of subsequent abnormal events, high-level features are extracted from the region of interest (ROI) via a 3Dconvolutional neural network. Third, to enhance anomaly detection efficiency, the extracted features are used to train a denoising auto-encoder and to detect anomalous events based on reconstruction errors. Finally, given that the self-encoding reconstruction errors of some tested abnormal samples tend to be very small, a model that uses only self-encoding reconstruction errors for anomaly detection can miss many abnormal events. To further rule out anomalies, a one-class support vector machine (SVM) is trained on low-dimensional features Result Several experiments are performed in an actual manufacturing environment operated by robots. Two common indicators are used for evaluation, namely, area under ROC (AUC) and equal error rate (EER).The receiver operating characteristic (ROC) curve is drawn by using the results obtained from various classification standards and can be used to evaluate classifier performance. Meanwhile, the AUC represents the coverage area under the ROC curve, whereas the EER can be represented by the point where the ROC curve intersects with a 45° straight line. A smaller EER indicates a better detection effect. When the appropriate error threshold is set(approximately 0.15), the AUC under the ROC curve reaches 91.7%, whereas the EER is 13.8%.The performance of the proposed model is also evaluated and compared with that of other models on public data feature sets University of California, San Diego (USCD) Ped1 and Ped2. In the USCD Ped1 dataset, the proposed model demonstrates 2.6% and 22.3% improvements in its AUC at the frame and pixel levels, respectively. In the same dataset, compared with the second-best method, the proposed model has a 5.7% higher AUC at the frame level, thereby verifying its effectiveness and accuracy. Conclusion The proposed video abnormal event detection model combines traditional and deep learning models to increase the accuracy of video abnormal event detection results. A 3D convolutional neural network (C3D) was used to extract the spatiotemporal features. A video anomaly event detection method based on deep spatiotemporal features was also developed by combining the stacked denoising autoencoder with a one-class SVM model. In extracting deep spatiotemporal features through a pre-trained C3D network, those features that were extracted from the last convolutional layer of the network were treated as the features of the spatiotemporal interest block. These features consider both the appearance and motion modes. A denoising auto-encoder was also trained to reduce the dimensions of C3D-extracted features, and the reconstruction error of an auto-encoder was used to facilitate the detection of abnormal events. Experimental results show that the proposed model can still detect anomalies when such events appear in partially occluded situations. Therefore, this model can be used for anomalous event detection in dense scenes. Future studies may consider examining other network architectures, integrating multiple input data (e.g., RGB or optical flow frames), and introducing trajectory tracking methods to track obstructed objects and improve abnormality detection accuracy. The proposed framework is suitable for highly complex scenarios.

Key words

video anomaly event detection; region of interest (ROI); 3D convolutional neural network (C3D); denoising autoencoder; one-class support vector machine (SVM)

0 引言

视频异常事件检测技术是智能监控系统的一个重要组成部分，能够对生产制造过程中的安全检测起到积极作用，一直是热门的研究课题，受到了工业界和学术界的强烈关注(Benezeth等，2009；Hasan等，2016；Lu等，2013a；Saligrama和Chen，2012)。以往视频异常检测都是采用人工观察的方式进行，花费大量人力物力，并且长时间观察会产生视觉疲劳，导致效率低下。一个高效的自动化的异常检测系统可以减少很多人工成本，因此对其深入研究十分必要。然而由于异常事件的多样性与稀缺性，使得异常事件检测在实际应用中遇到巨大挑战。与监督学习的视频动作识别(Ji等，2013)不同的是，一方面，异常事件检测中的正负样本极不平衡(正样本指异常事件，负样本指正常事件)，负样本几乎占据了所有样本，而正样本很稀有，属于离群值；另一方面，正样本有很高的方差，不同正样本之间的差异性非常大。由此可知，由于正常样本和异常样本数据极不平衡，从而很难利用监督学习的方法进行正负样本的分类。

对此，有很多方法(Benezeth等，2009；Hasan等，2016；Cong等，2011；Mehran等，2009)通过使用无监督学习的方式进行解决，训练仅包含正常事件的视频片段，将与正常事件建立的模型相背离的事件判定为异常事件。这些方法都侧重通过手工的方式对局部2维图像块或者3维时空块提取一些低级的外观和运动特征。比如，多尺度光流直方图(monsanto house of the future，MHOF)(Cong等，2011)、3D方向梯度直方图(3D histogram of oriented gradient，HOG3D)(Hasan等，2016)、3D时空梯度(Kratz和Nishino，2009)等。然而手工设计的特征用来表达视频的能力有限，并且这些特征很难同时考虑外观和运动特征，因此这些特征不适用于表达复杂的生产制造环境，尤其对那些经常出现遮挡并且运动密集的生产制造场景，如图 1展示的实际生产制造环境。

图 1 机器人生产制造环境

Fig. 1 Robot production and manufacturing environment

近年来，基于字典学习与稀疏编码的异常检测方法(Lu等，2013a；Zhao等，2011)已经表现了很好的效果。这些方法通过选取一组完备的正常样本进行字典构建，然后利用字典的稀疏重建代价(sparse reconstruction cost, SRC)来衡量测试样本是正常还是异常事件。然而传统的基于稀疏重构的方法主要还是采用手工设计的特征，并且这类方法对样本进行测试时需要学习稀疏表达参数，检测速度很慢，不太适合对复杂生产制造环境进行建模。

随着数据规模的扩大以及计算机硬件的更新换代，深度学习方法展示了在特征学习方面的优势，尤其在监督学习领域，已经在很多任务上取得了非常大的成功，如图像分类(Krizhevsky等，2012)、目标检测(Ren等，2015)等。同时，提出了一些基于深度学习的无监督学习方法，如堆叠自编码器(Xu等，2017)、卷积自编码器(Chong和Tay，2017)、生成对抗网络(Schlegl等，2017)等。其中，自编码器(auto encoder，AE)对正常事件样本进行编码，然后再对编码后的特征进行重建，其假设正常事件样本的重构误差较小，异常事件样本的重构误差较大。很多方法(Hasan等，2016；Xu等，2017；Ribeiro等，2018；Wang等，2018)都是使用自编码器进行视频异常事件的检测，并且取得了较好的检测效果。

基于以上分析，本文提出了一种用于生产制造中的二次异常事件检测方法。首先通过高斯混合模型(Gaussian mixture model，GMM)进行时空兴趣块(region of interest，ROI)的提取，并通过预训练的3维卷积神经网络(3D convolutional neural network，C3D)对ROI进行时空特征的提取。其次利用堆叠的降噪自编码器(stacked denoising autoencoder)对时空特征进行降维，得到一个更加紧凑的时空特征。最后结合自编码器的重构误差和one-class支持向量机(support vector machine，SVM)分类器进行局部异常事件的检测。

1 相关工作

监控视频中异常事件检测技术取得了非常大的进步，大部分的检测工作主要包括事件表示和模型建立两部分。对于事件表示，有很多成熟的技术可以使用。比如，运动区域特征提取、显著性区域检测、跟踪算法等。模型建立主要基于光流(Horn和Schunck，1981)、梯度(Dalal和Triggs，2005)、轨迹(Johnson和Hogg，1996)、纹理(Mahadevan等，2010)等特征建立。此外，Kratz和Nishino(2009)、Cong等人(2013)和Zhu等人(2012)方法也是模型建立的方法。

很多研究工作通过对正常事件进行建模，构建一个正常模型。当进行检测时，那些与正常样本模型相背离的事件视为异常事件，在这类无监督学习方式中，较为常用的是稀疏重构。Cong等人(2013)通过提取多尺度的光流直方图(MHOF)对正常事件进行稀疏编码，学习一个正常事件的模型，基于训练好的模型，通过稀疏重构误差对异常事件进行判别。Lu等人(2013b)提出了学习一系列稀疏组合，采用基于规则的方法检测异常事件，虽然这种方法检测速度很快，但是对于阈值的设定很敏感。

除了使用稀疏编码进行异常事件检测外，还有一些其他的方法。Gu等人(2014)通过高斯混合模型对正常人群的速度以及分布信息进行参数估计，从而对异常事件进行检测。Kratz和Nishino(2009)采用基于分布的隐马尔可夫模型，对视频局部区域进行正常运动模式建模，而那些不符合运动模式的事件就认为是异常事件。Mahadevan等人(2010)基于混合动态纹理(mixtures of dynamic textures，MDT)对拥挤场景下的正常事件进行建模，结合了外观和运动信息，将空间上显著区域事件与时间上低概率事件判断为异常事件。Li等人(2013)采用分层混合动态纹理(hierarchical mixtures of dynamic textures，H-MDT)对正常事件进行建模，相比于基于混合动态纹理(MDT)的方法而言，提高了性能。Helbing和Molnár(1995)采用社会力模型进行异常事件检测。社会力模型用来计算目标之间的相互作用力，然后采用文档主题生成模型(latent dirichlet allocation，LDA)进行建模并对异常事件进行检测。Lin等人(2016)提出了一种基于在线加权的聚类算法，动态更新聚类簇中心与聚类簇权重，通过新样本与聚类中心和聚类簇的关系进行异常事件检测。

在异常事件检测方面，提出了一些基于深度学习的方法。Zhao等人(2017)通过学习一个正常事件的深度时空自编码器模型，利用自编码器的重构误差大小来判断异常事件。Xu等人(2017)通过联合外观特征与运动特征学习一个去噪自编码器，并采用one-class SVM算法进行异常事件的检测。Liu等人(2018)通过对未来帧的预测进行异常事件的检测。还有一些其他研究工作同时考虑正常事件和异常事件并进行建模的方法。Sultani等人(2018)使用一种称为深度多排序框架的弱监督模型，同时考虑正常和异常事件建立模型。

基于轨迹跟踪的分析方法也得到了较为广泛的运用。Jiang等人(2011)跟踪感兴趣目标轨迹来建立一个正常运动模式模型。Johnson和Hogg(1996)提出通过比较新轨迹和一系列典型轨迹的方法，先学习由图像序列产生的目标轨迹，再判断不规则行为。Hu等人(2006)提出一种新的多目标跟踪算法，用层次聚类算法对轨迹建模，进而检测异常。这一类方法通过对正常运动模式的轨迹进行建模，那些与模型不符合的运动模式被检测为异常。由于基于轨迹的方法只考虑运动的前景信息，可以避免很多无关的背景信息对检测造成的影响，因此这类方法在很多场景下的检测效果表现很不错。然而这类方法不太适应于密集拥挤的场景，因为拥挤的场景下会出现很多遮挡现象，多目标轨迹难以跟踪，这将直接影响后续检测效果。

深度学习在很多应用领域取得了非常大的成功，如图像分类、目标检测、语义分割等。Ji等人(2013)最早将卷积神经网络从2维扩展到3维，从而提取深度时空特征。Tran等人(2015)在大规模的视频数据集上进行3维卷积神经网络的训练，从而进行动作识别，并且取得了最佳的性能。这些工作都表明了3维卷积神经网络在视频分析领域比2维卷积神经网络更加高效。鉴于该网络能同时提取时间和空间特征的优点，本文采用C3D网络对时空兴趣块进行深度时空特征提取。但由于训练样本中不包含异常样本标签，无法直接对C3D网络进行训练，因而采用基于大规模公开视频数据集中预训练得到的C3D模型进行时空特征提取，这种经过大规模视频数据预训练得到的模型，在不经微调的情况下就能够提取高效的时空特征，从而能够克服传统手工特征设计的不足。

2 本文方法

2.1 异常检测模型

图 2展示了本文使用的异常检测模型，即局部异常事件检测模型的结构图。整个检测分为训练和测试两个阶段。

图 2 异常检测模型

Fig. 2 Anomaly detection model

训练阶段的主要工作包括：1)通过预训练的3维卷积神经网络(C3D)提取视频运动区域的时空特征，将C3D网络最后一个卷积层输出的512维特征map作为提取的时空特征; 2)将提取的512维时空特征输入到堆叠的降噪自编码器中，通过逐层训练的方法调节整个网络的参数，学习到一个更加鲁棒的压缩特征; 3)根据学习到的压缩特征，训练一个one-class SVM模型。

测试阶段的主要工作包括：1)测试样本经过预训练的C3D网络提取时空特征。2)将提取的时空特征输入到训练后的降噪自编码器中，得到降维后的特征表达。3)比较自编码重构误差$ε$与设定阈值的大小，将测试样本判定为正常、异常、可疑这3种情况之一。具体地，重构误差$ε$＜$θ$的测试样本为正常事件，重构误差$ε$＞$η$的测试样本为异常事件($θ$和$η$分别为重构误差阈值下界和上界)，重构误差$ε$≥$θ$且$ε$≤$η$的测试样本为可疑事件。4)为了尽可能检测出所有异常事件，利用训练后的one-class SVM对可疑的测试样本再次检测，从而最终判定测试样本是否为正常或异常样本。

2.2 视频预处理

在实际工厂机器人生产制造环境中，由于光线强度不断变化以及噪声信号的干扰，导致视频图像中像素点颜色不断发生变化，如果对图像不加以处理，会使得后续提取的特征中包含很多与异常事件检测无关的信息，势必影响后续模型检测异常事件的准确性。针对上述问题，首先使用高斯滤波器来抑制视频图像噪声并进行平滑处理，然后利用加权平均法对图像进行灰度化，有效减少后续的计算量，最后使用常见的最大最小值归一化方法对图像进行归一化操作，将数据限制在0~1范围，加快后续模型的收敛速度。除此之外，由于异常事件主要发生在视频的运动区域，因此使用常见的运动前景提取方法——高斯混合模型(GMM)(Zivkovic，2004)提取视频运动前景二值图，与前景二值图对应的前景是与异常事件检测相关的区域，从而可以避免一些无关背景信息的干扰。

在提取运动前景二值图后，利用一个大小为32×32且1/2交叉重叠的滑动窗口滑过刚刚提取的前景二值图，当滑动窗口中前景部分的像素个数与背景部分的像素个数比例超过阈值$δ$(本文方法设定为0.4)，则认定此滑动窗口区域对应的前景为一个感兴趣区域(region of interest，ROI)。当滑过整个二值图后，就获取了所有的ROI。图 3展示了生产制造中机器人工作的ROI的提取过程。图 3(a)是USCD(University of California, San Diego)数据集中的某一帧图像，图 3(b)是经过GMM提取的前景二值图，图 3(c)是使用滑动窗口滑过整个图像提取的运动前景区域。从图 3可以看出，前景提取算法可以过滤掉大部分背景信息，只保留与异常事件检测相关的运动区域，并能够减少后续的计算成本，提高训练和检测的速度。

图 3 感兴趣区域提取过程

Fig. 3 ROI extraction process ((a)images on USCD dataset; (b)foreground binary image extracted by GMM; (c)extracted motion foreground area)

在运动前景的提取过程中，由于异常事件并不是发生在一帧图像上，而是发生在一个视频中连续多帧图像上，因此选取同一ROI的连续$K$帧图像作为视频的时空兴趣块，用来作为后续时空特征提取的输入。在视频异常事件检测任务中，由于异常事件的复杂性特点，加上不同的异常事件之间表现出的差别可能较大，样本空间方差较大，即表现出来的运动模式有很大不同。有些异常事件在某一位置只存在很短时间，而另外一些异常事件在某一位置可能存在更长时间。因此，如果$K$设置得过小，可能导致时空兴趣块中包含的运动信息不充分，不利于异常事件的检测；相反，如果$K$设置得过大，可能导致时空兴趣块中掺杂多种运动信息，难以提取高效的时空特征，从而影响异常事件检测的准确性。基于以上考虑，本文综合其他方法经验以及对数据集的分析，将$K$设置为16，即取连续的16帧ROI的灰度图作为视频时空兴趣块，这样能够在一定程度上避免出现上述情况，提高运动模式表达的准确性。

为了能够正确定位异常事件的位置，本文在对测试集样本的处理中，除了保存每个时空兴趣块的时空特征外，还保存了每个时空兴趣块的位置信息。将每个时空兴趣块定义为${\mathit{\boldsymbol{m}}_i} = \{ {\mathit{\boldsymbol{v}}_i}, {\mathit{\boldsymbol{l}}_i}\} $，其中${\mathit{\boldsymbol{v}}_i}$表示提取的时空特征，${\mathit{\boldsymbol{l}}_i} = ({x_i}, {y_i})$表示位置信息，$({x_i}, {y_i})$表示时空兴趣块的左上角坐标。对于训练集而言，由于都是正常事件，因而不需要做类似处理。

2.3 时空兴趣块特征提取

通过滑动窗口提取的ROI无法直接用来建立检测模型，需要对其进行特征提取，但训练集数据都是无标签的，且数据中不包含异常事件样本，无法采用监督学习方法进行训练。针对上述问题，本文基于大规模公开视频数据集训练得到的3维卷积神经网络(C3D)来提取ROI中外观和运动信息的时空特征。

典型的3维卷积神经网络是通过对堆叠的连续多帧图像从空间和时间两个维度进行3维卷积操作。记第$i$层第$j$个通道的$(x, y, z)$位置上的值为$a_i^{jxyz}$，具体计算为

$ a_{i}^{j x y z}=f\left(\sum\limits_{n=1}^{N_{i}} \sum\limits_{w=1}^{W_{i}} \sum\limits_{h=1}^{H_{i}} \sum\limits_{k=1}^{K_{i}} \sigma_{i, j}^{n w k} a_{i-1}^{k(x+h)(y+w)(z+d)}+b_{i}^{j}\right) $

(1)

式中，$\sigma _{i, j}^{nwhk}$表示与第$i$层相连第$j$个卷积核在$n$通道上的$(w, h, k)$位置的值, ${W_i}, {H_i}, {K_i}$分别表示3维卷积核的宽度、高度和时域长度。${N_i}$等于第$i-1$层的卷积核的数量。特征map连接前一层的连续${K_i}$帧来捕捉视频的运动信息。采用3维卷积神经网络不仅能捕捉2维图像的空间特征，还能捕捉运动的速度方向等时域特征，因而使用该网络更能高效地表示视频信息。图 4展示了C3D网络的架构图。C3D网络具有8个卷积层、5个池化层、2个全连接层以及1个softmax输出层。所有的3D卷积核的大小均为3 × 3 × 3，步长为1 × 1 × 1。除了第1个池化层大小为1 × 2 × 2，步长为1 × 2 × 2，其余所有池化层大小均为2 × 2 × 2，步长为2 × 2 × 2，每个全连接层包含4 096个输出单元。

图 4 C3D网络架构

Fig. 4 C3D network architecture

C3D网络通过在大规模公开数据集Sports-1M(Karpathy等，2014)上进行监督训练，从而能够提取到视频中的外观和运动特征。已有的工作(Tran等，2015)证明，在模型不经过微调的情况下，此预训练的网络已经能在不同类型的视频分析任务中取得很好的效果。

在使用此网络进行ROI特征提取时，考虑到全连接层主要适用于动作识别的分类，但是最后一层卷积层包含了丰富的外观和运动特征信息，有利于异常事件检测任务。因此，本文移除C3D网络最后两个全连接层(fc6, fc7)以及用于多分类的softmax层，将卷积最后一层的特征map作为提取的ROI时空特征，ROI的具体特征提取过程如图 5所示。

图 5 时空兴趣块特征提取

Fig. 5 Spatio-temporal interest block feature extraction

首先，将连续多帧图像经过预处理得到ROI。然后，将大小为16 × 32 × 32 × 1的ROI输入到预训练的C3D网络中。最后，将最后一个卷积层提取的512个1 × 1 × 1的特征map伸展为512维列向量，并将此列向量作为最后提取的ROI时空特征。

2.4 堆叠降噪自编码器

提取了局部ROI时空特征后，为了能够利用此时空特征进行异常事件检测，训练了一个堆叠的降噪自编码器。一方面，使用降噪自编码器可以获得一个更加紧凑、鲁棒的低维度时空特征，同时可以利用其重构误差大小参与异常事件的检测；另一方面，可以利用紧凑的时空特征去训练其他用于异常检测的模型，如one class SVM、isolation forest。

降噪自编码器(Vincent等，2008)是一个单隐藏层的神经网络，将输入的数据${\mathit{\boldsymbol{x}}_i}$按照某种分布加入噪声，将其变为损坏的输入${\mathit{\boldsymbol{\widetilde x}}_i}$，然后将${\mathit{\boldsymbol{\widetilde x}}_i}$输入到神经网络中重构${\mathit{\boldsymbol{x}}_i}$。降噪自编码器包括编译器和解码器两部分，分别学习映射函数${f_e}(\mathit{\boldsymbol{W}}, b)$和${f_d}(\mathit{\boldsymbol{W}}\prime, b\prime)$。首先通过输入一个损坏的${\mathit{\boldsymbol{\widetilde x}}_i}$，经过隐藏层获得一个压缩后的特征${\mathit{\boldsymbol{z}}_i}$，${\mathit{\boldsymbol{z}}_i} = {f_e}\left({{{\mathit{\boldsymbol{\tilde x}}}_i}\mid \mathit{\boldsymbol{W}}, b} \right) = $$\sigma\left(\boldsymbol{W} \tilde{\boldsymbol{x}}_{i}+b\right)$，然后解码器试图通过${\mathit{\boldsymbol{z}}_i}$还原出未损坏的${\mathit{\boldsymbol{x}}_i}$，还原的${\mathit{\boldsymbol{\widehat x}}_i} = {f_d}\left({{\mathit{\boldsymbol{z}}_i}\mid {\mathit{\boldsymbol{W}}^\prime }, {b^\prime }} \right) = \tau \left({{\mathit{\boldsymbol{W}}^\prime }{\mathit{\boldsymbol{z}}_i} + {b^\prime }} \right)$，其中，$σ$(·)和$τ$(·)都是一些常见的非线性的激活函数，如sigmoid、ReLU等。

对于自编码器的学习，可以通过给定的训练集$\boldsymbol{T}=\left\{\boldsymbol{x}_{i}\right\}_{i=1}^{N}$，最小化均方误差损失函数来学习参数$\mathit{\boldsymbol{W}}$，${{\mathit{\boldsymbol{W}}^\prime }}$和$b$，$b′$。其中，自编码器最小化的均方误差损失函数为

$ {L_{{\rm{loss}}}} = \frac{1}{{2N}}\sum\limits_{i = 1}^N {\left\| {{\mathit{\boldsymbol{x}}_i} - {{\mathit{\boldsymbol{\hat x}}}_i}} \right\|_2^2} + \lambda \left({\left\| \mathit{\boldsymbol{W}} \right\|_2^2 + \left\| {{\mathit{\boldsymbol{W}}^\prime }} \right\|_2^2} \right) $

(2)

式中，等式右边第1项为重构损失项，第2项为权重衰减项，此处采用L₂正则化进行权重的衰减，$λ$用于权衡这两项的重要性。这是一个非凸函数，可以通过随机梯度下降法去优化目标函数，从而得到一个局部最优解。

对于上述只使用一个隐藏层的自编码器而言，有时并不能获取很好的数据表示。为了获取更好的数据表示，本文使用一个具有4个隐藏层的堆叠降噪自编码器，并且采用贪婪的、逐层方式进行训练。相关的堆叠降噪自编码器网络如图 6所示。

图 6 堆叠降噪自编码器

Fig. 6 Stacked denoising autoencoder

图 6中，自编码器从输入到输出的维度分别为512→256→128→64→128→256→512。利用此自编码，将C3D网络最后一层卷积提取的512维时空特征输入其中，并在输入数据中加入方差为0.000 1的高斯白噪声，最后将“瓶颈”隐藏层输出的64维时空特征作为最终提取的ROI时空特征，为后续检测模型的建立做好准备。

将512维的特征向量降到64维，主要基于以下两点考虑：1)对于512维的特征向量而言，维度并不低，其中难免存在一些不相关或冗余特征，不利于后续one-class SVM模型的训练和测试。降维可以减少所需的存储空间，加快模型的计算速度，在一定程度上也能够避免模型的过拟合。2)利用自编码器重构误差与设定阈值的大小关系可以初步判别事件的状态(正常、异常、可疑)。但是如果编码阶段特征压缩比例太大，比如32维或者更低维度，会丢失很多样本内在信息，降低样本间的区分度，从而不利于解码阶段的重构过程，本文根据经验以及实验最终设定“瓶颈”隐藏层为64维。

2.5 one-class SVM模型

通常，利用自编码重构误差进行异常事件检测有一个约定俗成的假设，即认为正常事件的重构误差较小，而异常事件的重构误差较大。然而实际的情况往往比较复杂，可能会出现某些原本为异常的测试样本经过自编码后，其重构误差也很小，进而会将其判定为正常事件，这样会导致只使用自编码重构误差进行异常检测的模型会漏检一部分异常事件。因此直接利用自编码器的重构误差进行异常事件检测，且阈值设定合理的情况下，将重构误差小于阈值的测试样本判定为正常样本，大于阈值的测试样本判定为异常样本，能够筛选排除掉大部分异常事件，但是还是会存在一部分原本异常的事件错检测为正常事件的情况。为了避免这样的情况，本文利用堆叠降噪自编码压缩的时空特征，建立一种单分类的one-class SVM模型，进一步排除利用自编码重构误差未检测出的异常事件。

one-class SVM(Chen等，2001)是一个广泛用于离群值检测的算法，将一些训练数据通过线性或非线性的核函数$\phi $(·)映射到一个高维的特征空间，然后在高维的特征空间寻找一个超球面将这些特征向量分隔为正常事件和异常事件。具体而言，给定一些无标签的训练样本$\boldsymbol{X}=\left\{\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \boldsymbol{x}_{3}, \cdots, \boldsymbol{x}_{N}\right\}$，其中$\boldsymbol{X} \in \bf{R}^{d}$，$d$表示输入特征向量的维度，为了确保超平面以最优的边界将样本进行归类，需要优化如下对偶问题，具体为

$ \begin{array}{l} \min \limits_{\omega, \rho, \xi_{i}} \frac{1}{2}\|\boldsymbol{\omega}\|^{2}+\frac{1}{v N} \sum\limits_{i=1}^{N} \xi_{i}-\rho \\ \text { s. t. } \quad \boldsymbol{\omega}^{\mathrm{T}} \phi\left(x_{i}\right)>\rho-\xi_{i}, \xi_{i} \geqslant 0 \end{array} $

(3)

式中，${\mathit{\boldsymbol{x}}_i}$为训练样本，$ρ$是一个偏移量，$\phi $(·)是将${\mathit{\boldsymbol{x}}_i}$映射为高维特征空间的映射函数，$\mathit{\boldsymbol{\omega }}$是需要学习的权重向量，$v$∈(0, 1)，是一个正则化系数，主要用来调节分布在超球面外的异常值的预期分数，${\boldsymbol{\xi }_i}$是第$i$个训练样本对应的松弛变量。为了高效地解决此问题，可以将其转换为如下对偶形式，具体为

$ \begin{array}{l} \min\limits _{\alpha} \frac{1}{2} \sum\limits_{i=1}^{n} \sum\limits_{j=1}^{n} \alpha_{i} \alpha_{j} K\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \\ \text { s. t. } \quad 0 \leqslant \alpha_{i} \leqslant \frac{1}{v n}, \sum\limits_{i=1}^{n} \alpha_{i}=1 \end{array} $

(4)

对于一个简单的低维度样本空间，输入数据可以很容易地通过一个线性函数将正常事件和异常事件分隔。然而，对于复杂的高维样本空间，输入数据并不能直接通过一个简单的线性函数分隔，但是可以通过一个超球面对其进行分隔，通常将其称为非线性分隔问题。对于非线性问题的处理，一般是通过核函数将其转化为线性问题，进而对线性问题进行求解。常用的核函数有线性核函数$K(\mathit{\boldsymbol{x}}, \mathit{\boldsymbol{y}}) = \mathit{\boldsymbol{x}}\cdot\mathit{\boldsymbol{y}}$，多项式核函数$K(\mathit{\boldsymbol{x}}, \mathit{\boldsymbol{y}}) = {(\mathit{\boldsymbol{x}}\cdot\mathit{\boldsymbol{y}} + 1)^p}$，sigmoid核函数$K(\mathit{\boldsymbol{x}}, \mathit{\boldsymbol{y}}) = {\rm{tanh}}(\gamma \cdot\mathit{\boldsymbol{x}}\cdot\mathit{\boldsymbol{y}} + 1)$，径向基函数(radial basis function，RBF)核函数$K(\mathit{\boldsymbol{x}}, \mathit{\boldsymbol{y}})$=$\exp \left({ - \frac{{{{\left\| {\mathit{\boldsymbol{x}} - \mathit{\boldsymbol{y}}} \right\|}^2}}}{{2{\sigma ^2}}}} \right)$。根据实际使用经验，使用RBF核函数的分类效果明显优于其他核函数，因此本文采用基于RBF核函数的one-class SVM对堆叠降噪自编码器压缩的特征样本进行分隔。

2.6 视频异常检测

视频异常检测主要集中于那些不期望出现的事件，也就是那些出现频率较低且与正常事件相背离的事件。通常基于自编码的异常事件检测假设正常事件的重构误差较小，而异常事件的重构误差较大，但是由于自编码具有很强的拟合能力，在一些复杂场景下，会出现某些重构误差较小的测试样本，其真实标签却是异常事件；而那些重构误差较大的测试样本，其真实标签较少出现为正常事件的情况。基于以上事实，同时考虑到实际生产制造环境中的安全问题，需要尽可能检测出所有的异常事件，本文提出的二次异常检测方法如下：对于给定的测试样本ROI，首先将其输入到预训练的C3D网络中，将C3D网络最后一层卷积层提取的512维时空特征${\mathit{\boldsymbol{x}}_i}$输入到堆叠降噪自编码器中，然后通过训练好的降噪自编码器计算重构误差，根据其误差值与设定阈值的大小比较进行首次检测筛选。具体自编码器重构误差计算式为

$ \gamma=\sum\limits_{i=1}^{N}\left\|\boldsymbol{x}_{i}-\hat{\boldsymbol{x}}_{i}\right\|_{2}^{2} $

(5)

式中，${{{\mathit{\boldsymbol{\widehat x}}}_i}}$表示对自编码输入值${{\mathit{\boldsymbol{x}}_i}}$的还原输出结果，$ε$表示样本重构误差大小。通过上述重构误差值与设定阈值的大小比较将测试样本归为异常、正常、可疑3种情形之一，并对可疑样本进行二次检测。对此，本文方法设定两个误差阈值来判定测试样本是否需要进行二次检测筛选，为了能够比较准确地对误差阈值进行估值，本文对USCD数据集进行了部分采集，并对正常样本和异常样本的重构误差与样本数量之间的分布关系进行统计，统计结果如图 7所示。其中，横坐标表示样本重构误差大小，纵坐标表示正常和异常样本的数量。可以发现正负样本两者大体上符合一个正态分布。从图 7可以看出，正负样本分布之间存在重叠部分，且这部分很难通过设定合理的阈值来直接一次判断是否为正常或异常事件。

图 7 正负样本分布图

Fig. 7 Positive and negative sample distribution

通过仔细观察图 7中红色虚线表示的$η$值(大约0.2)，可以发现重叠部分主要集中在$η$值左边区域，而右边区域基本为异常样本，因此本文方法将重构误差大于$η$值的测试样本直接认定为异常事件。除此之外，发现图中绿色虚线所示$θ$值(0.05~0.1)的左边区域基本都为正常事件，于是将重构误差小于$θ$值的测试样本直接认定为正常事件。对于处于$θ$和$η$值之间的区域，由于重叠部分较大，很难直接通过自编码器重构误差直接判别测试样本的状态，本文将其认定为可疑事件。针对这些可疑事件，利用one-class SVM进行二次检测筛选，进一步排除异常事件。本文设定的误差阈值主要受正负样本分布的影响，且与正负样本之间的差异程度有直接关系。

通过上述总结，当重构误差$ε$>$η$时，判定时空特征对应的测试ROI为异常事件；当重构误差$ε$ < $θ$时，判定对应的ROI为正常事件；当$θ≤ε≤η$时，将经过降噪自编码器降维后的64维特征${\mathit{\boldsymbol{x}}_i}$，利用one-class SVM模型进行进一步的异常判别，其中决策函数的计算式为

$ \begin{array}{c} p_{\omega, \rho}(x)=\operatorname{sign}(\omega \cdot \varphi(x)-\rho)= \\ \operatorname{sign}\left(\sum\limits_{i} \alpha_{i} K\left(\boldsymbol{x}_{i}, x\right)-\rho\right) \end{array} $

(6)

式中，${\alpha _i}$可以通过优化式(4)得到。当${p_{\omega, \rho }}(x) > 0$时，说明若one-class SVM模型也将此特征判断为正常事件，则判定对应时空兴趣块为正常时空区域；当${p_{\omega, \rho }}(x)$≤0时，说明此模型将此特征判别为异常事件，为了避免自编码误将异常事件判断为正常事件，则将对应时空兴趣块判定为异常事件。至于异常时空兴趣块的定位，可通过预处理方法加以解决(详见3.2节)，即除了保存每个时空兴趣块的时空特征外，还将保存每个待检测时空兴趣块的位置信息。因此，每个待检测的时空兴趣块定义为${\mathit{\boldsymbol{m}}_i} = \{ {\mathit{\boldsymbol{v}}_i}, {l_i}\} $，其中${\mathit{\boldsymbol{v}}_i}$表示提取的时空特征，${\mathit{\boldsymbol{l}}_i} = ({x_i}, {y_i})$表示位置信息，$({x_i}, {y_i})$表示时空兴趣块的左上角坐标，由于本文设定的ROI区域为32 × 32，可以由点$({x_i}, {y_i})$和$({x_i} + 31, {y_i} + 31)$来定位异常区域。

3 实验结果

3.1 UCSD Pedestrian数据集

为了进一步评估本文模型，在现有的公共数据特征集UCSD Pedestrian(Mahadevan等，2010)上进行实验。UCSD Pedestrian数据集包含两个子数据集，一个子数据集是Ped1，包含34个训练图像序列和36个测试图像序列，每个图像序列都是由200帧组成，且图像分辨率为158 × 238像素；另一个子数据集是Ped2，包含16个训练图像序列和12个测试图像序列，图像分辨率为240 × 360像素。两个子数据集的帧数范围为120~180帧之间，并且训练图像序列中只包含正常事件，测试图像序列中包含正常事件和异常事件。本文将异常事件定义为不期望出现或者训练样本中没有出现过的事件。Ped1和Ped2描述了两个不同的户外场景，这两个场景将行人的正常行走定义为正常事件，将步行街上的自行车、滑轮、汽车和轮椅定义为异常事件。在UCSD数据集下，两种不同场景的异常事件示例如图 8所示。

图 8 USCD数据集异常示例

Fig. 8 USCD dataset exception example

本文采用帧级别和像素级别的异常检测标准评价算法的性能，使用受试者工作特征(receiver operating characteristic，ROC)曲线下的面积(area under ROC，AUC)和等错误率(equal error rate，EER)两个常用指标。ROC曲线是一个用来评价分类器性能好坏的指标，其中横坐标为负正率(false positive rate，FPR)，纵坐标为真正率(true positive rate，TPR)。在ROC曲线实验图中，越靠近左上角的曲线，表示分类效果越好；AUC表示曲线下方的面积，其值越大越好；EER表示ROC曲线上与45°角直线相交点的值，其值越小，性能越好。将所有的视频帧分为0和1两个标签，0代表视频帧正常，1代表视频帧异常。对于帧级别的异常检测，当视频中某一帧的ROI区域检测为异常，且此时这一帧的标签为1，则表示正确检测到异常事件，而不管异常是否出现在正确的位置；对于像素级别的异常检测，真正异常像素中有40%的像素被检测为异常，才算正确检测到异常事件。

由于Ped1和Ped2两个数据特征集的分辨率不一样，本文统一将它们的分辨率设置为160×224像素，以满足滑动窗口的要求。然后使用一个32 × 32的滑动窗口以1/2的交叉重叠滑过视频帧，以获取感兴趣区域ROIs。由于异常事件发生在连续的多帧上，这里取同一ROI区域连续的16帧作为时空兴趣块进行后续特征的提取。ROI区域提取的阈值$θ$设定为0.4，自编码器训练迭代次数设置为3 500，学习率为0.000 1，优化器采用Adam。one-class SVM采用RBF核函数，正则化系数$v$设置为{2^-10, 2^-9, …, 2^-7, 2^-6}和{10^-5, 10^-4, …, 10^-2, 10^-1}的5折叠交叉验证后的值，高斯核参数γ设置为{10^-5, 10^-4, …, 10^-2, 10^-1}的5折叠交叉验证后的值。图 9展示了此数据集上感兴趣区域的提取。

图 9 感兴趣区域提取

Fig. 9 Region of interest extraction

3.2 UCSD Ped1结果分析

图 10展示了在UCSD Ped1数据集的结果。从这些图像可以看出，本文算法可以有效检测出其中大部分的异常事件，包括骑自行车的、坐轮椅的、开汽车的等。图 11展示了不同检测方法在UCSD Ped1数据集上帧级别和像素级别的实验结果的ROC曲线(其中，MPPCA(Hasan等，2016)为mixed probabicity principal component analysis)。可以看出，本文方法可以比较准确地定位异常事件的位置，因为异常主要发生在视频运动区域，通过高斯混合模型提取前景运动区域，排除与异常检测无关的区域，从而能够更准确地定位异常区域。表 1是在UCSD Ped1数据集上本文方法与其他方法帧级别和像素级别的AUC和EER对比。从图 11和表 1可以看出，本文方法能够获得较高的AUC和较低的EER，达到了较好的检测效果。

图 10 UCSD Ped1数据集图像的异常事件检测结果

Fig. 10 The abnormal event detection results of some images on UCSD Ped1 dataset

((a)some images on UCSD Ped1 dataset; (b)anomalies detected)

图 11 不同方法在UCSD Ped1数据集上的ROC曲线

Fig. 11 ROC curves of different methods on UCSD Ped1 dataset ((a) frame-level; (b) pixel-level)

表 1 UCSD Ped1数据集不同方法帧级别和像素级别的AUC和EER
Table 1 Different methods at the frame level and pixel level of AUC and EER on the UCSD Ped1 dataset

下载CSV

/%
方法	帧级别		像素级别
方法	AUC	EER	AUC	EER
SF	68.3	31.0	19.7	79.0
MPPCA	63.0	40.0	20.5	81.0
SF+MPPCA	69.3	32.0	21.3	71.0
SRC	86.0	19.0	46.1	54.0
MDT	80.7	25.0	44.1	56.0
本文	88.6	16.3	68.4	36.5
注：加粗字体为各列最优结果, SF为social force。

3.3 UCSD Ped2结果分析

图 12展示了在UCSD Ped2数据集上的一些结果，同样能够检测出大部分的异常事件。本文主要针对密集场景下进行异常事件检测。在密集特征场景下，由于人群之间遮挡严重，很可能导致被严重遮挡的异常事件未能准确检测出来。比如，图 12(a)第4列图中，滑板的人被前面的人部分遮挡，本文设计的方法同样能够检测出来(图 12(b)第4列)。可以看出，本文方法对密集特征场景下的人群异常检测的鲁棒性较好。图 13展示了不同检测方法在UCSD Ped2数据集上的ROC曲线。由于本文采用了二次检测的方式，在误差阈值上界$η$设置合理的情况下，不仅能够通过自编码器重构误差过滤掉大部分异常事件，而且能够将那些真实标签为异常事件，自编码误判为正常事件的时空兴趣块，通过one-class SVM进一步过滤掉，因而能够在更大程度上将异常事件进行排除。因此一些出现轻微部分遮挡的情形也能够检测出来。但是如果遮挡比较严重甚至完全遮挡的情形，依然无法检测出来。表 2是本文方法与其他方法在UCSD Ped2数据集上帧级别的AUC和EER比较，可以看出本文方法达到了不错的检测效果。

图 12 UCSD Ped2数据集部分图像的异常事件检测结果

Fig. 12 The abnormal event detection results of some images on the UCSD Ped2 dataset

((a)some images in the UCSD Ped2 dataset; (b)anomalies detected)

图 13 不同方法在UCSD ped2数据集上帧级别的ROC曲线

Fig. 13 ROC curves of frame-level by different methods on UCSD Ped2 dataset

表 2 UCSD Ped2数据集不同方法帧级别的AUC和EER
Table 2 Different methods in frame-level AUC and EER on the UCSD Ped2 data set

下载CSV

/%
算法	帧级别
算法	AUC	EER
SF	61.3	42.0
MPPCA	72.4	30.0
SF+MPPCA	67.9	36.0
Adam	60.8	42.0
MDT	83.4	25.0
本文	90.1	15.8
注：加粗字体为各列最优结果。

3.4 与深度学习方法进行比较

除了与传统方法对比外，本文还与基于深度学习的异常检测方法(Hasan等，2016；Xu等，2017；Ribeiro等，2018)进行了性能对比，同样使用AUC和EER两个指标进行性能评价，结果如表 3所示(其中，AMDN(Xu等，2017)为appearance and motion deepnet, FR+ED(Ribeiro等，2018)为fusion of low-level frames with high-level auto-encoder)。可以看出，本文方法与其他深度学习方法相比，虽然性能指标不是最好，但整体性能优于一些直接利用自编码重构误差进行异常检测的深度学习方法，且与性能最好的方法差距并不是很大。同时，本文方法在USCD Ped1和USCD Ped2两个数据集上的检测性能差距不是很大，说明本文方法的通用性较强，能够适用于很多不同场景，在一定程度上体现了本文方法的优势。

表 3 USCD Ped1和USCD Ped2数据集不同方法的性能比较
Table 3 The performance of different methods on the USCD Ped1 and USCD Ped2 datasets

下载CSV

/%
方法	USCD Ped1数据集		USCD Ped2数据集
方法	AUC	EER	AUC	EER
Conv-AE	81	27.9	90.0	21.7
AMDN	92.1	16.0	90.8	17.0
FR + ED	56.9	49.5	84.7	24.5
本文	88.6	16.3	90.1	15.8
注：加粗字体为各列最优结果。

3.5 机器人场景检测结果分析

本文采集了实际生产制造中机器人工作环境的视频数据集，同时在此数据集上进行测试。将机器人正常的工作状态定义为正常事件，将有异常人员进入的机器人工作环境定义为异常事件。在机器人正常工作情况下，为了工厂安全生产的要求，此场景内部不允许任何异常人员及不明物体进入，一旦有异常人员或不明物体进入，则判定该场景出现异常事件，同时出于安全考虑，立即让机器人停止工作。机器人的工作场景如图 14所示。

图 14 机器人工作场景

Fig. 14 Working scene of robot

((a)normal event; (b)abnormal event)

由于测试集中需要包含一些异常事件(异常人员进入机器工作环境)，但是考虑到实际机器人工作中，进入是非常危险的事情，因此本文的测试集采用了视频合成的方式，将机器正常工作的状态与异常人员进入的画面相融合，生成一个模拟的异常检测场景。

图 15展示了机器人工作环境下的一些检测结果，不同的误差阈值上界$η$的取值会对检测结果产生较大影响，如果$η$值太小，则会将很多正常事件判定为异常；$η$值太大，则会降低利用自编码器的重构误差进行异常检测的效果，起不到排除大部分异常事件的作用。为了得到较合理的实验参数，本文通过经验选取不同的误差阈值上界$η$进行ROC曲线的比较。图 16展示了不同的$η$值所得到的ROC曲线。从图 16可以看出，当$η$值取0.2左右时，检测效果较好，因为此时可以最大程度地利用自编码器的重构误差准确地排除大部分异常事件。表 4展示了机器人工作场景下，不同阈值对应的ROC曲线的AUC值和EER值，可以发现误差阈值$η$取0.2时对应的AUC值最大。由于工厂生产场景比较复杂，噪声干扰非常严重，本文通过前景提取算法过滤掉大部分无关背景以及噪声的干扰，从而提高检测的效率。

图 15 机器人工作环境异常检测结果

Fig. 15 Robot working environment anomaly detection results ((a)robot working scene; (b)anomalies detected)

图 16 不同误差阈值上界$η$下的ROC曲线

Fig. 16 ROC curves under different error thresholds $η$

表 4 机器人工作场景下数据特征集量化检测结果
Table 4 Quantitative detection result of data feature set in robot working scene

下载CSV

误差阈值$η $	AUC/%	EER/%
0.25	61.3	31.6
0.20	91.7	13.8
0.15	75.2	21.3
注：加粗字体为各列最优结果。

4 结论

本文提出了一种用于实际生产制造中的异常事件检测方法，通过C3D网络提取时空特征，结合堆叠降噪自编码器与one-class SVM模型，提出了一种融合自编码器和one-class SVM的异常事件检测方法。通过预训练的C3D网络提取深度时空特征，并将网络的最后一个卷积层提取的特征作为本文时空兴趣块的时空特征，这种特征将外观与运动模式同时考虑其中。此外，本文训练了一个堆叠的降噪自编码器对C3D提取的特征进行降维，利用自编码器的重构误差将测试样本归类为正常、异常、可疑3者之一，并通过one-class SVM模型对可疑样本进行二次检测，进一步排除异常事件。通过实验发现，异常事件出现部分遮挡时，本文依然能够检测出来。因此本文方法适用于密集场景下的异常事件检测。

未来将尝试使用其他网络架构融合多种输入数据，比如RGB帧或者光流帧，通过轨迹跟踪的方法，对遮挡的物体进行跟踪，提高异常事件检测的准确性，使本文框架适用于更多的复杂场景。

参考文献

Benezeth Y, Jodoin P M, Saligrama V and Rosenberger C. 2009. Abnormal events detection based on spatio-temporal co-occurences//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE: 2458-2465[DOI: 10.1109/cvpr.2009.5206686]

Chen Y Q, Zhou X S and Huang T S. 2001. One-class SVM for learning in image retrieval//Proceedings of 2001 International Conference on Image Processing. Thessaloniki: IEEE: 34-37[DOI: 10.1109/ICIP.2001.958946]

Chong Y S and Tay Y H. 2017. Abnormal event detection in videos using spatiotemporal autoencoder//Proceedings of the 14th International Symposium on Advances in Neural Networks. Sapporo: Springer: 189-196[DOI: 10.1007/978-3-319-59081-3_23]

Cong Y, Yuan J S and Liu J. 2011. Sparse reconstruction cost for abnormal event detection//Proceedings of 2011 IEEE Conforence on Computer Vision and Pattern Recognition. Providence: IEEE: 3449-3456[DOI: 10.1109/CVPR.2011.5995434]

Cong Y, Yuan J S, Liu J. 2013. Abnormal event detection in crowded scenes using sparse representation. Pattern Recognition, 46(7): 1851-1864 [DOI:10.1016/j.patcog.2012.11.021]

Dalal N and Triggs B. 2005. Histograms of oriented gradients for human detection//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego: IEEE: 886-893[DOI: 10.1109/CVPR.2005.177]

Gu X X, Cui J R, Zhu Q. 2014. Abnormal crowd behavior detection by using the particle entropy. Optik, 125(14): 3428-3433 [DOI:10.1016/j.ijleo.2014.01.041]

Hasan M, Choi J, Neumann J, Roy-Chowdhury A K and Davis L S. 2016. Learning temporal regularity in video sequences//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE: 733-742[DOI: 10.1109/cvpr.2016.86]

Helbing D, Molnár P. 1995. Social force model for pedestrian dynamics. Physical Review E, 51(5): #4282 [DOI:10.1103/PhysRevE.51.4282]

Horn B K P, Schunck B G. 1981. Determining optical flow. Artificial Intelligence, 17(1/3): 185-203 [DOI:10.1016/0004-3702(81)90024-2]

Hu W M, Xiao X J, Fu Z Y, Xie D, Tan T N, Maybank S. 2006. A system for learning statistical motion patterns. IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(9): 1450-1464 [DOI:10.1109/TPAMI.2006.176]

Ji SW, Xu W, Yang M, Yu K. 2013. 3D convolutional neural networks for human action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(1): 221-231 [DOI:10.1109/tpami.2012.59]

Jiang F, Yuan J S, Tsaftaris S A, Katsaggelos A K. 2011. Anomalous video event detection using spatiotemporal context. Computer Vision and Image Understanding, 115(3): 323-333 [DOI:10.1016/j.cviu.2010.10.008]

Johnson N, Hogg D. 1996. Learning the distribution of object trajectories for event recognition. Image and Vision Computing, 14(8): 609-615 [DOI:10.1016/0262-8856(96)01101-8]

Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R and Li F F. 2014. Large-scale video classification with convolutional neural networks//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE: 1725-1732[DOI: 10.1109/CVPR.2014.223]

Kratz L and Nishino K. 2009. Anomaly detection in extremely crowded scenes using spatio-temporal motion pattern models//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE: 1446-1453[DOI: 10.1109/CVPR.2009.5206771]

Krizhevsky A, Sutskever I and Hinton G E. 2012. ImageNet classification with deep convolutional neural networks//Proceedings of the 25th International Conference on Neural Information Processing Systems. Red Hook: ACM: 1097-1105

Li W X, Mahadevan V, Vasconcelos N. 2013. Anomaly detection and localization in crowded scenes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(1): 18-32 [DOI:10.1109/TPAMI.2013.111]

Lin H H, Deng J D, Woodford B J and Shahi A. 2016. Online weighted clustering for real-time abnormal event detection in video surveillance//Proceedings of the 24th ACM International Conference on Multimedia. New York: ACM: 536-540[DOI: 10.1145/2964284.2967279]

Liu W, Luo W X, Lian D Z and Gao S H. 2018. Future frame prediction for anomaly detection-a new baseline//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 6536-6545[DOI: 10.1109/cvpr.2018.00684]

Lu C W, Shi J P and Jia J Y. 2013a. Abnormal event detection at 150 FPS in MATLAB//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney: IEEE: 2720-2727[DOI: 10.1109/iccv.2013.338]

Lu C W, Shi J P and Jia J Y. 2013b. Online robust dictionary learning//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE: 415-422[DOI: 10.1109/CVPR.2013.60]

Mahadevan V, Li W X, Bhalodia V and Vasconcelos N. 2010. Anomaly detection in crowded scenes//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE: 1975-1981[DOI: 10.1109/CVPR.2010.5539872]

Mehran R, Oyama A and Shah M. 2009. Abnormal crowd behavior detection using social force model//Proceedings of 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE: 935-942[DOI: 10.1109/CVPR.2009.5206641]

Ren S Q, He K M, Girshick R and Sun J. 2015. Faster R-CNN: Towards real-time object detection with region proposal networks//Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge: ACM: 91-99

Ribeiro M, Lazzaretti A E, Lopes H S. 2018. A study of deep convolutional auto-encoders for anomaly detection in videos. Pattern Recognition Letters, 105: 13-22 [DOI:10.1016/j.patrec.2017.07.016]

Saligrama V and Chen Z. 2012. Video anomaly detection based on local statistical aggregates//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE: 2112-2119[DOI: 10.1109/cvpr.2012.6247917]

Schlegl T, Seeböck P, Waldstein S M, Schmidt-Erfurth U and Langs G. 2017. Unsupervised anomaly detection with generative adversarial networks to guide marker discovery//Proceedings of the 25th International Conference on Information Processing in Medical Imaging. Boone: Springer: 146-157[DOI: 10.1007/978-3-319-59050-9_12]

Sultani W, Chen C and Shah M. 2018. Real-world anomaly detection in surveillance videos//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 6479-6488[DOI: 10.1109/cvpr.2018.00678]

Tran D, Bourdev L, Fergus R, Torresani L and Paluri M. 2015. Learning spatiotemporal features with 3D convolutional networks//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago: IEEE: 4489-4497[DOI: 10.1109/ICCV.2015.510]

Vincent P, Larochelle H, Bengio Y and Manzagol P A. 2008. Extracting and composing robust features with denoising autoencoders//Proceedings of the 25th International Conference on Machine Learning. New York, USA: ACM: 1096-1103[DOI: 10.1145/1390156.1390294]

Wang S Q, Zeng Y J, Liu Q, Zhu C Z, Zhu E and Yin J P. 2018. Detecting abnormality without knowing normality: a two-stage approach for unsupervised video abnormal event detection//Proceedings of the 26th ACM International Conference on Multimedia. New York, USA: ACM: 636-644[DOI: 10.1145/3240508.3240615]

Xu D, Yan Y, Ricci E, Sebe N. 2017. Detecting anomalous events in videos by learning deep representations of appearance and motion. Computer Vision and Image Understanding, 156: 117-127 [DOI:10.1016/j.cviu.2016.10.010]

Zhao B, Li F F and Xing E P. 2011. Online detection of unusual events in videos via dynamic sparse coding//Proceedings of 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE: 3313-3320[DOI: 10.1109/CVPR.2011.5995524]

Zhao Y R, Deng B, Shen C, Liu Y, Lu H T and Hua X S. 2017. Spatio-temporal AutoEncoder for video anomaly detection//Proceedings of the 25th ACM International Conference on Multimedia. New York, USA: ACM: 1933-1941[DOI: 10.1145/3123266.3123451]

Zhu X B, Liu J, Wang J Q, Fang Y K and Lu H Q. 2012. Anomaly detection in crowded scene via appearance and dynamics joint modeling//Proceedings of the 19th IEEE International Conference on Image Processing. Orlando: IEEE: 2705-2708[DOI: 10.1109/ICIP.2012.6467457]

Zivkovic Z. 2004. Improved adaptive Gaussian mixture model for background subtraction//Proceedings of the 17th International Conference on Pattern Recognition. Cambridge:IEEE:28-31[DOI:10.1109/ICPR.2004.1333992]]