Print

发布时间: 2016-10-25
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.20161001
2016 | Volumn 21 | Number 10




    综述    




  <<上一篇 




  下一篇>> 





鲁棒主成分分析的运动目标检测综述
expand article info 蔡念, 周杨, 刘根, 杨志景, 凌永权
广东工业大学信息工程学院, 广州 510006

摘要

目的 运动目标检测在许多计算机视觉任务中发挥了重要的作用。背景建模是运动目标检测中传统而又常用的方法。然而,许多背景建模方法是基于像素点的,对背景方面的考虑过于简单,难于处理真实视频。最近,将基于低秩和稀疏分解的鲁棒主成分分析应用于运动目标检测成为计算机视觉领域内的研究热点。为使更多国内外运动目标检测的研究者对鲁棒主成分分析方法进行探索和应用,本文对其进行系统综述。 方法 融入最新研究进展,基于误差抑制、贝叶斯理论、时间和空间信息、多特征和多因素耦合,对各种国内外的鲁棒主成分分析模型进行归纳,并理论分析其优缺点。 结果 本文采用变化检测数据集(change detection dataset)中不同场景的视频序列来对不同算法进行对比实验。从实验结果可知,属于第3类方法的DECOLOR 的检测效果优于其他算法,在均值对比中得到的召回率、精确率和F-measure分别为0.7、0.706和0.66。总体来说,当前改进算法都能有效地弥补最初鲁棒主成分分析方法的缺陷,提高了运动目标检测的精度。 结论 鲁棒主成分分析在运动目标检测上取得了较多的研究与应用成果,在智能视频监控应用领域拥有广阔的应用前景。但是,其仍需针对鲁棒主成分分析存在的一些局限性进行深入的研究。融入前景运动目标在视频中的先验知识是基于鲁棒主成分分析的运动目标检测的发展趋势。

关键词

目标检测; 计算机视觉; 背景建模; 鲁棒主成分分析; 综述

Survey of robust principal component analysis methods for moving-object detection
expand article info Cai Nian, Zhou Yang, Liu Gen, Yang Zhijing, Ling Yongquan
School of Information Engineering, Guangdong University of Technology, Guangzhou 510006, China
Supported by: National Natural Science Foundation of China (61001179, 61571139); Natural Science Foundation of Guangdong Province, China (2015A030312008)

Abstract

Objective Moving-object detection is important in many computer vision tasks. Background modeling is a traditional and usual method for moving-object detection. However, most of these methods are pixel-based, which only make overly simple considerations on background and encounter difficulty in handling real videos. Recently, robust principal component analysis (RPCA), which is based on low rank and sparse decomposition, has been studied in the field of moving-object detection by a growing number of researchers. To enable more researchers to have a comprehensive understanding of RPCA and to employ RPCA in moving-object detection, this survey conducts a thorough review of moving-object detection algorithms based on RPCA. Method In recent years, RPCA has received substantial attention from researchers in computer vision because of its excellent advantages of capturing slight variations in background appearance via low-rank matrix. Until today, many improved algorithms and applications based on RPCA have emerged in the computer vision field. In this paper, recent studies in moving-object detection based on RPCA are reviewed in detail. We classify those RPCA-based-moving detection methods into five categories, which are error mitigation, Bayesian theory, temporal and spatial information, multi-feature, and multi-factor coupling. In addition, this context summarizes and analyses studies on RPCA methods and their applications to moving-object detection locally and internationally. Results We employ the change detection dataset to compare the performances of the methods in different categories and the original RPCA. We use metrics such as recall, precision, F-measure, and time consumed for objective evaluation. Also, we illustrate foreground segmentation results achieved by those methods for subjective evaluation. Experimental results indicate that these improvements have solved certain problems in the original RPCA and have achieved more excellent performance compared with the original RPCA. Conclusion RPCA is a popular research topic in computer vision field today. However, RPCA has certain limitations, which should be studied further. Involving video prior knowledge of foreground objects in RPCA is an emerging trend in the future.

Key words

object detection; computer vision; background modeling; robust principal component analysis; review

0 引言

运动目标检测[1-2]是智能视频分析中关键的第1步,对许多高层次的计算机视觉任务起着基础性作用,如目标跟踪[3]、行为识别[4]、场景分析[5]、交通监控[6]等。运动目标检测的基本任务是将前景运动目标从观测视频图像中提取出来,也就是说,将前景和背景分离出来。前景运动目标检测大部分是通过背景建模的方法来实现的,如:混合高斯模型(GMM)[7]、视觉背景提取(visual background extractor,Vibe)[8]、基于像素的自适应分割(PBAS)[9]等算法。基本思路是判断视频帧中的像素点是否与背景模型匹配,若不匹配则属于前景区域。然而,由于这些基于像素点的建模方法对背景方面的特点归纳过于简单,使其在处理真实视频时没有取得理想的效果。

近年来,用矩阵分解的方法来实现运动目标检测引起了广泛的关注。这种方法认为观测视频中的背景部分能够被低秩矩阵所捕捉到。其中,最著名的是Wright[10]提出的鲁棒主成分分析(RPCA),在一些文献中也被称为稳健主成分分析。RPCA模型是一个子空间学习模型,其发展可追溯到主成分分析(PCA)。PCA是早期的子空间学习模型,并且同样被用于前景检测[11],然而PCA对含有异常点和大噪声的观测数据非常敏感。尽管之后PCA得到不少改进[12-13],但还不能适用于含有稀疏噪声的数据。直到近年来,RPCA通过引入了稀疏表示而对含有异常点和稀疏噪声的观测数据更加鲁棒[14]。RPCA认为观测视频是属于高维度的数据,而这些高维度的数据是存在于低维线性子空间中的。并且,在这些高维数据中的部分数据含有异常点和幅值相当大的稀疏噪声。RPCA基本的思路是由视频图像所组成的观测数据矩阵可以分为两个部分,具有低秩性的背景部分和稀疏性的前景部分。鲁棒主成分分析能够被运用于运动目标检测,但是,由于当初提出的模型具有一定的缺陷和不少场景具有一定程度的复杂性(如:恶劣的天气、海浪等),使得最初的RPCA模型[10, 14]仍然存在不少的问题,通用性较差,缺乏前景运动目标检测的鲁棒性。为此,近年来许多国内外研究学者针对文献[10, 14]提出的初期RPCA模型做了不少的改进,极大地推动了RPCA模型在目标检测中的应用。Bouwmans等人[1]对此进行了较为系统的总结和分析。然而,文献[1]只是介绍了针对早期的RPCA模型本身的缺陷所引起的误差而提出的改进模型。近几年,基于RPCA的目标检测算法犹如雨后春笋一般层出不穷,出现了众多其他类型的改进模型。因此,本文对各种国内外的鲁棒主成分分析模型进行归纳和分析,融入了最新研究进展,尝试将基于RPCA的目标检测方法分为五大类,即基于误差抑制、基于贝叶斯理论、基于时间和空间信息、基于多特征和混合型。

1 鲁棒主成分分析

1.1 基本原理

从分解和优化的角度来研究前景检测的方法最近获得了不少的关注,其基本理论是由一系列视频帧所组成的观测矩阵D可以被分解为代表着背景的低秩矩阵L和前景运动目标的稀疏矩阵S,即D=L+S,其中DRm×nm为帧行数乘以帧列数的积,n为视频帧数)是观测视频,LS分别代表背景和前景运动目标,这就是著名的RPCA的基本思路。在文献[10, 14]中,L0范数被用来表征前景稀疏矩阵,而且由于每一帧的背景图像相互之间是线性相关的,所以由背景图像所组成的矩阵L是低秩的。RPCA模型可以表示为以下问题:

$\begin{align} & \underset{\operatorname{L},S}{\mathop{\min }}\,rank(\operatorname{L})+\lambda ||\operatorname{S}|{{|}_{0}} \\ & s.t.\quad D=L+S \\ \end{align}$ (1)

式中,参数是折中因子,可以平衡背景和前景目标这两项比重。因为秩函数和L0范数是非凸的,所以上述问题是NP-hard。L1范数和核范数分别为L0范数和秩函数的凸近似,因此通过凸松弛将式(1)可转化为

$\begin{align} & \underset{\operatorname{L},S}{\mathop{min}}\,||\operatorname{L}|{{|}_{*}}+\lambda ||\operatorname{S}|{{|}_{0}} \\ & s.t.\quad D=L+S \\ \end{align}$ (2)

式中,$||\operatorname{L}|{{|}_{*}}$表示为背景矩阵L的核范数,即矩阵L的特征值之和;还有,则表示为前景稀疏矩阵S的L1范数。在文献[10, 14]中,取参数λ=$1/\sqrt{\max (m,n)}$。在上述凸优化问题具有唯一的最小值前提下,可以用主成分追踪(PCP)来得到低秩背景矩阵和前景稀疏矩阵。许多研究学者们将结合了主成分追踪的鲁棒主成分分析(RPCA-PCP)看做是最初的RPCA模型。

1.2 求解RPCA-PCP的算法

在式(2)中,需要求出L1范数和核范数之和的最小值,Wright[10]采用了迭代阈值算法(IT)来求出最优解。然而,迭代阈值算法的收敛速度非常缓慢。为了解决收敛很慢这一个问题,Lin等人[15]提出了两种算法:加速近端梯度算法(accelerated proximal gradient,APG)和梯度上升算法。可是这两种算法的收敛速度仍然达不到视频实时性的要求。之后,Lin等人[16]基于增广拉格朗日乘子(ALM)又提出了两种算法:精确增广拉格朗日乘子法(EALM)和非精确增广拉格朗日乘子法(IALM)。其中,IALM算法是EALM算法的改进版,具有相当高的精度和很快的收敛速度,被广泛使用于求出RPCA-PCP的最优解。另外,IALM也被称为交替方向法(ADM)[17]

2 RPCA-PCP模型存在的问题

鲁棒主成分分析可以运用于运动目标检测,这主要是因为其具有简单的模型[18-20],成熟的理论[10, 14, 21]和高效的算法[15-16]。但是,RPCA-PCP模型目前还遇到不少的难题。主要是有两方面:

首先,RPCA-PCP模型的本身是具有一定的缺陷的。在观测视频里的每一帧序列中,组成运动目标的前景像素在空间上是连接的并且它们的分布是具有结构性的和在时间上具有规律性的。另外,视频序列往往是有序的。然而,RPCA-PCP模型并没有考虑到这些重要的先验知识。在早期模型中,L1范数被用来表征前景运动目标的稀疏矩阵,而L1范数只是把每个前景像素看做独立的点[22-23]。折中因子λ在鲁棒主成分分析中起着调节作用的,在合理情况下,参数λ应该是自适应的。然而,在RPCA-PCP中,参数λ是全局变量而且还是固定不变的。这对于复杂场景来说,是难以满足其要求的。另外,PCP并没有考虑噪声对真实视频造成的影响[24]。还有,在许多图像处理算法里单一图片和帧序列中的像素值是对采集物体的视觉特征的进行量化后所得到的值,这会引起一定的量化误差,PCP也遇到了同样的问题[25]。RPCA-PCP通过凸松驰将秩函数凸近似为核范数,这会导致背景精度恢复不高[26]。观测视频数据具有多线性结构,RPCA-PCP会将观测数据向量化,这会破坏数据原始样例的空时结构,导致小样本问题和维数灾难问题的产生[27]

其次,RPCA-PCP模型只有在处理室内场景和简单的室外场景时才能得到理想的运动目标检测效果。原因除了鲁棒主成分分析自身的问题外,还有就是运动目标检测场景具有一定程度的复杂性。在一些复杂的环境中,一些背景物体会呈现不同程度的运动变化,例如:如水中的波纹、被风吹动的树叶和恶劣天气下的雨雪等。这类背景物体运动的幅度甚至比前景目标还要大。此外,光照强度的变化会很容易造成背景像素点像素值的变化,使其有可能被误判为前景点,对前景检测造成一定的干扰。阴影问题一直是运动目标检测的难题,尤其是由前景目标所造成的阴影区域,这类阴影区域本属于背景区域,但是在观测视频中却随着前景目标移动而移动,容易使检测算法产生误判。

3 基于RPCA的目标检测算法

正是由于上述问题的存在,研究在运动目标检测领域中具有鲁棒性和实用性的RPCA模型成为了一个热点。尤其随着其他学科(如信号处理、图像处理、稀疏表示、随机过程、概率论与统计学)的进一步发展,鲁棒主成分分析的新思路和新方法不断地涌现出来。以下是对这几年来国内外解决鲁棒主成分分析主要问题的主流方法进行介绍与分析。

3.1 基于误差抑制的RPCA模型

在视频图像中往往存在着高斯噪声,虽然这些噪声幅值不大,但是已影响目标检测而造成误差。为了从噪声干扰中精确地分离出背景低秩矩阵和前景稀疏矩阵,Zhou[24]提出了基于稳定性主成分追踪的鲁棒主成分分析(RPCA-SPCP)。该方法在RPCA-PCP模型原有的基础上认为观测数据矩阵不仅包含低秩矩阵和稀疏矩阵,还包含噪声矩阵。即D=L+S+EE为观测视频中的噪声。并且,Frobenius范数被用来表征噪声矩阵,且其值小于某一固定常数,可表示为$||\operatorname{E}|{{|}_{\text{F}}}$<α ,其中α为某一大于0的常数。此改进使RPCA-PCP模型对含有高斯噪声的数据具有更高的鲁棒性。同样是针对噪声所带来的误差,Zhou[28]提出了逼近性鲁棒主成分分析(approximated RPCA),除了也认为观测数据由前景、背景和噪声三者组成之外,该模型还引入了双边随机投影(BRP)[29]方法。通过BRP使approximated RPCA能够约束着L的秩范围和S的取值范围,从而具有相当高的运算速度,然而,正是由于对其范围的约束导致对特性的约束令其在许多场景中其检测的准确程度较低。视频或图像中的像素值都是对自然景物视觉特征的量化,这必然会导致量化误差。同样在最初的鲁棒主成分分析也存在着这样的误差。为了消除这一误差,Backer[25]提出了基于量化主成分追踪的鲁棒主成分分析(RPCA-QPCP)模型,该模型把观测数据分为前景目标、背景和量化误差3个部分,即D=L+S+ QQ代表量化误差部分,并用范数表征该部分,且其值小于0.5。用公式形式表示为$||\operatorname{Q}|{{|}_{\infty }}$< 0.5。虽然,RPCA-QPCP对量化误差进行了补偿,但是因为其主要是针对平滑问题寻找最优解,所以在一些复杂的场景中检测目标不够稳定。为了克服观测数据向量化所带来的问题,文献[27]提出了多线性鲁棒主成分分析(MRPCA)。该方法将RPCA延伸到张量情形,并引入最小张量核范数来约束低秩背景部分。通过使用低秩张量分解,使MRPCA充分考虑了数据集的时空结构,进而有效地恢复了背景。针对环境光照变化对检测的影响,文献[30]提出了基于背景图像集与图块稀疏分析的运动目标检测方法。该方法将RPCA与基于稀疏表示的图块分析结合起来。主要步骤为利用RPCA从观测数据中构建背景集合,然后通过图块稀疏分析来从输入视频帧中判断出前景目标和背景。该方法能够抑制环境光照变化的干扰,降低目标检测的误检率。然而,从理论上可知,此方法在复杂场景中所得到的背景集合质量不高,从而会影响其检测效果。

3.2 基于贝叶斯的RPCA模型

在实际应用中,RPCA模型里的参数需要进行适当的调整才能取得理想的效果。针对这一个因素,Ding [31]提出了贝叶斯鲁棒主成分分析(Bayesian RPCA)。该方法除了考虑噪声因素外,还将贝叶斯理论与鲁棒主成分分析相结合,并且用贝塔分布和伯努利分布来描述所给定的数据矩阵中前景矩阵和背景矩阵的元素和用马尔可夫链蒙特卡洛方法(MCMC)来求出近似解。Bayesian RPCA引入了层次性贝叶斯模型,并在贝叶斯框架下得到最优近似解的同时还能对未知噪声进行合理的表征,但其算法耗时长,难以符合实际应用的要求。Bayesian RPCA之所以耗时长主要是因为采用MCMC采样策略来逼近最优近似解,为了改正这一缺点,Babacan [32]提出了变分贝叶斯鲁棒主成分分析(variatonal Bayesian RPCA)。在贝叶斯框架下该模型采用自动相关决策方法(ARD)[33]来得到前景矩阵和背景矩阵中的元素所服从的分布,同时还采用变分贝叶斯方法(VB)[34]来求得最终近似解。在variatonal Bayesian RPCA的框架下算法的参数问题被看做是可以利用完全贝叶斯推理过程和先验分布来解决的随机数问题。因此,与之前的Bayesian RPCA相比,变分贝叶斯鲁棒主成分分析的收敛速度获得了很大的提高;在实际应用场景中噪声的类型是相当复杂的,但是,上述两个方法对噪声的分析过于简单,只是简单考虑了刚性噪声。为了能够处理复杂的噪声,Zhou [35]提出加入了混合高斯模型的鲁棒主成分分析(MoG-RPCA)。该模型在变分贝叶斯鲁棒主成分分析的基础上结合了混合高斯模型[7],即在表示视频图像的观测数据中,除背景以外的成分是服从混合高斯分布的。混合高斯分布是可用于连续分布的通用近似器,令MoG-RPCA模型可以适应视频中各种复杂的噪声,使其精度与Bayesian RPCA和变分贝叶斯鲁棒主成分分析相比也有所提高。

3.3 基于时间和空间信息的RPCA模型

前景运动目标的时间和空间信息是运动目标检测的重要先验知识。针对L1范数难以处理背景的动态变化的问题,文献[36-37]引入了L21范数,并提出了基于区域主成分分析的鲁棒主成分分析(RPCA-BPCP)。该方法认为背景具有低秩性,而前景具有区域稀疏性。因此观测数据矩阵可以被分解为低秩矩阵和区域稀疏矩阵。然而,RPCA-BPCP虽然考虑到了稀疏部分的空间特性,但其理论模型的设计还是没有充分运用前景目标的特性这一先验知识。Cao[38]认为式(2)中稀疏矩阵S所代表的运动区域是由前景运动区域和背景运动区域组成,即S=F+E其中F为前景和E为动态背景,并提出了全变分正则化鲁棒主成分分析(TVRPCA)。该模型结合了总变分正则化的方法[39-40],分别利用前景的空间连续性将动态背景从运动区域中过滤出来和时间连续性提取目标的运动轨迹进而进行检测。TVRPCA比较注重前景目标的平滑性,使其能有效地抑制动态背景的干扰。然而,同样因为这个原因,对于体积小和速度快的运动目标,TVRPCA不能取得很好的检测效果。Zhou[41-42]提出了运用低秩表示来检测具有区域连续性的目标(DECOLOR),通过引入马尔可夫随机场(MRFs)[43],使得该模型能够结合前景目标空间分布的信息来进行目标检测,并且分别运用soft-impute算法[44]和图割法(graph cuts)[45]得到低秩矩阵L和稀疏表示的前景矩阵S。DECOLOR融入了前景运动目标的区域性信息,可以有效地进行目标检测。但是,MRFs也导致了DECOLOR具有贪婪特性,即容易将目标附近的背景区域检测为前景,而且还忽略了前景目标的时间特性。针对折中因子λ的自适应问题,两级鲁棒主成分分析(2-pass RPCA)[22-23, 46-48]引入了运动目标检测技术,如光流法[49]和显著性运动检测[50]。同时,该技术可以使其能够结合运动信息来检测前景目标。该算法主要步骤为:1)经过第1次RPCA分解得到候选的目标运动区域;2)通过运动目标检测技术来获得各个候选运动区域的运动显著性,根据运动显著性来调整每个运动区域的参数λ;3)在第2次RPCA分解后得到最终的前景运动区域。2-pass RPCA可以看做是一个先粗提取然后再精确提取的过程,所以能得到较高的精度。但是,这种过程必然造成计算成本上升。同时,在第1次RPCA分解之后,需要根据运动轨迹来确定目标的运动显著性,因此对运动缓慢或不明显的目标物体不能取得满意效果。

3.4 基于多特征的RPCA模型

前景运动目标检测可以看做是模式识别问题,那么其效果取决于特征空间的选择。多特征对许多真实视频场景具有一定的通用性,克服了单特征的局限性。为此,多特征被广泛运用于自动视频分析[51-53]。在文献[54][55]中,分别提出了多特征稳健主成分分析(multi-feature RPCA,MFRPCA)和多任务稳健主成分分析(multi-task RPCA,MTRPCA)。这两个方法都在原有的RPCA模型的基础上,融入了颜色、纹理等多种特征。这类方法的主要步骤是对每一帧视频进行特征提取,得到一个多维特征矩阵,然后对此特征矩阵进行RPCA分解。此类方法将运动目标检测看做为一种数据聚类的问题,整合了颜色和梯度等不同类型的特征,描述了纹理、边缘、轮廓等视觉信息,使其尽可能地得到精确、可靠的运动前景目标。但是,该类方法是对多特征矩阵进行优化分解,有着相当高的内存消耗。当多特征矩阵存储问题导致了内存消耗过度时,只有少部分内存用于算法运行等操作,从而导致计算效率大幅度降低。

3.5 混合RPCA模型

在优缺点方面上,不同类型的RPCA模型之间存在着互补性。因此,由两种或两种以上类型结合在一起的RPCA模型成为一些国内外研究学者的研究方向。针对传统的RPCA模型将秩函数凸近似为核范数所带来的影响,文献[26]提出了用非凸加权核范数取代传统核范数的RPCA模型。而且,该模型还考虑了前景的空间先验知识。该方法在传统RPCA的基础上采用更为合理的非凸加权核范数代替核范数去表征出背景矩阵的秩函数,以此来更好地恢复背景。另外还结合了前景目标的空间区域连续性,使其在理论上可以有效地抑制零散的幅值较大的噪声干扰。但是,该方法对于一些较大的、纹理稀少的待检测区域会出现背景被误判为前景目标的现象,这是由于较大的、纹理稀少区域对于背景的低秩结构影响较大。存在于视频观测数据中的一种噪声,是由部分数据丢失(不完整性)所引起的。还有,观测视频序列具有有序性,这一信息被早期的RPCA模型所忽略。针对上诉两种情况,文献[56]提出了正则化不完全鲁棒主成分分析(RIRPCA)。RIRPCA认为观测视频序列的连续变化的特征可以用于抑制数据丢失所造成的噪声。为此,RIRPCA在RPCA的基础上采用正则化的方法来提取观测数据连续变化的特征,并以此来恢复丢失的数据。RIRPCA通过数据集的有序性这一先验信息构建正则化模型,让丢失噪声这一不适定问题成为适定问题,从而有效地抑制丢失元素所对应的噪声。另外,该方法主要是通过ALM法求解最优解,在每一次迭代中主要运算为前景矩阵的阈值运算和背景矩阵的奇异值分解,因此与传统RPCA一样有着相似的较低复杂度。

4 实验评估与分析

4.1 评价标准

为了精确衡量各种RPCA算法的优劣,使用召回率(r)、准确率(p)、mF作为衡量检测算法的效果。其中,r和p定义为

$p=\frac{{{P}_{\text{T}}}}{{{P}_{\text{T}}}+{{P}_{\text{F}}}}$ (3)

$r={{\frac{{{P}_{\text{T}}}}{{{P}_{\text{T}}}+N}}_{\text{F}}}$ (4)

公中,PT是被正确判定为前景的像素数目,PF是被错误判定为前景的背景像素数目,NF是被误判为背景的前景像素数目。

然而,召回率、准确率对于目标检测算法的评估仍然不够全面,需要有另外一个评价标准来将两者综合起来。因此,F-measure(mF)在许多文献中被广泛使用,其定义为

${{m}_{\text{F}}}=2\frac{pr}{p+r}$ (5)

F-measure能够有效地维持召回率、准确率两个标准的平衡。

4.2 对比实验分析

4.2.1 检测精度结果分析

实验中,在五大类RPCA算法中各挑选出一个具有代表性的算法来进行对比实验。所挑选的算法为RPCA-PCP、RPCA-SPCP、MoG-RPCA、DECOLOR、MTRPCA、文献[26]算法。在测试数据方面,文中使用的数据主要来自变化检测数据集(change detection dataset)[57],涵盖了6个不同种类的视频序列。对于每个视频序列,使用了每个视频序列的几百帧。检测精度结果如表 1表 2图 1所示。

表 1 不同RPCA算法的客观评价指标均值对比
Table 1 Comparisons on the average values of the objective evaluation metrics for the different RPCA

下载CSV
算法召回率准确率F-measure
RPCA-PCP0.6190.5890.557
RPCA-SPCP0.5720.6430.550
MoG-RPCA0.7060.5440.588
DECOLOR0.7000.7040.660
MTRPCA0.6930.4950.539
文献[26]0.5760.6780.591

表 2 不同算法在不同视频序列的结果比较
Table 2 Comparisons results achieved by the different algorithms on the different datasets

下载CSV
算法BootstrapBusStatationCanoeLibrarySkatingWavingtrees
RPCA-PCP召回率0.6690.5380.7210.4280.8170.539
准确率0.5960.7020.2110.8840.4900.650
F-measure0.6310.6090.3270.5760.6130.589
RPCA-SPCP召回率0.6050.4240.7130.3530.8080.530
准确率0.6850.8520.2130.8880.5900.627
F-measure0.6420.5660.3280.5060.6820.574
MoG-RPCA召回率0.7450.7300.7810.5790.7940.607
准确率0.4570.4920.2300.5930.7210.772
F-measure0.5670.5880.3550.5860.7550.679
DECOLOR召回率0.6820.4160.8250.8700.8040.603
准确率0.5540.6930.2210.9710.8590.925
F-measure0.6110.5200.3490.9180.8310.730
MTRPCA召回率0.6980.5960.7490.5040.8540.758
准确率0.6000.3320.2030.8530.4330.548
F-measure0.6450.4260.3190.6340.5750.635
文献[26]召回率0.7930.2500.3650.5980.8120.635
准确率0.4780.6900.6370.8220.6400.799
F-measure0.5960.3670.4640.6920.7160.707
图 1 不同方法的前景目标检测结果
Fig. 1 Foreground detection results achieved by the different methods ((a)original images; (b)ground truth images; (c) RPCA-PCP; (d) RPCA-SPCP; (e) MoG-RPCA; (f)DECOLOR; (g) MTRPCA; (h) method in reference[26])

表 1可以看出,与其他算法相比,DECOLOR的检测效果优于其他算法,得到的召回率、精确率和F-measure分别为0.7、0.706和0.66。其次则是文献[26]算法和MoG-RPCA,两者相差不大。表 2列出了不同算法在各个视频序列的详细测试结果。视频序列Boostrap是一个人群拥挤的场景,MTRPCA在该场景中的检测效果优于其他算法,其F-measure为0.645。而在视频序列BusStation的行人场景中,RPCA-PCP的F-measure为0.609,效果最好。其次,则是MoG-RPCA。值得注意的是在视频序列Canoe中,所有算法的检测效果都不理想。主要的原因是该数据集里的视频图像含有面积较大的波动明显的动态背景区域。比较特别的是,文献[26]的方法由于引入了加权非凸核范数能够有效地抑制canoe视频中的动态背景具有较高的准确率,但是在图 1中可以看出,前景运动目标也同样被严重抑制从而使得召回率较低。视频序列library是一个热成像视频图像集,其明显的特点是前景目标与背景的颜色差异度不够明显,会对检测算法造成一定的影响。其中,RPCA-PCP和RPCA-SPCP由于没有考虑到前景运动目标先验信息,因此在数据集library中被正确判断为前景的像素数目比较低,降低了召回率。RPCA-PCP和RPCA-SPCP的召回率分别为0.428和0.353。而视频序列skating和waving trees都是含有动态背景的场景。DECOLOR在这两个场景中都取得了最好的效果,其在这两个场景的F-measure分别为0.831和0.73。其次是文献[26]算法,F-measure分别为0.716和0.707。

4.2.2 算法运行效率比较

所有算法在2.3 GHz Intel Core Duo CPU和4 GB RAM的硬件平台上,采用MATLAB编程实现。此外,为了公平对比,实验数据选择视频序列skating下的200幅视频图像。由于计算资源问题,将视频帧图像的原尺寸(大小为480 ×360 像素)统一缩小为160 × 120像素大小的视频帧图像。

表 3列出了不同算法处理skating视频序列所需的帧平均时间。从表 3中可以看出,由于RPCA-SPCP里所需调节的参数较少,因此RPCA-SPCP的运行效率最高,其平均处理时间为0.241 s。而MTRPCA的运行速度最慢,平均处理每帧图像耗时23.929 s。这是因为MTRPCA需要相当大的内存来存储多特征矩阵,使得用于计算的内存偏少,计算速度变慢。DECOLOR与RPCA-PCP的运算效率非常接近,这主要是因为这两种算法在每一次迭代中主要运算都为奇异值分解运算。另外,文献[26]算法和MoG-RPCA处理每帧视频图像所需要的时间分别为1.687 s和1.795 s。

表 3 不同算法运行效率对比
Table 3 Comparisons on computational time for different algorithms

下载CSV
算法时间/(s/帧)
RPCA-SPCP 0.241
MoG-RPCA 1.795
DECOLOR 2.625
MTRPCA23.929
文献[26] 1.687
RPCA-PCP 2.634

5 结语

运动目标检测的最终目的是能够准确而又高效地检测出前景目标,然而,目前的鲁棒主成分分析模型的算法水平还没有达到这一个目标。在将来,RPCA算法需要在准确程度和效率上有着进一步的提高,特别是在保证准确性和运算速度的前提下,能做到相互兼顾。对于准确程度这一方面,目前,在传统RPCA基础上结合前景运动目标的时间和空间先验信息是不少国内外学者的研究重点,例如前景目标的空间上分布和时间上的运动轨迹等。此外,为了使模型获得更好的鲁棒性,还应该结合前景运动目标的外观模型,如目标的外表和形状等,

同时这也是目标检测领域里的一个关键问题。总的来说,能够更好地融入前景运动目标在视频中的先验知识是RPCA算法今后的发展方向。通过融合空间视觉信息(颜色、轮廓等)和时间运动轨迹等先验知识来构建出的RPCA模型,不仅仅只是能用于运动目标检测的数学优化模型,而且还是一个可以反映运动目标状况的模型。在另一方面,随着需要处理的视频帧数的不断增加,计算量也不断增加,RPCA算法将会对计算机内存消耗有着更高的要求。为了减少计算时间可以采用并行处理的方式,使用硬件加速来提高算法的运算速度。虽然RPCA现在存在着一些问题,但是在前景检测中有着巨大的潜力。因为与现今已广泛应用的基于像素点进行分析的方法不一样,如GMM[7]和Vibe[8]等算法,RPCA算法是从最优估计的角度来进行运动目标检测。另外,RPCA还具有广阔的应用前景,不仅可以应用于运动目标检测,还可以应用于人脸识别[58]、潜在语义检索[59]、图像校正[60]和缺陷检测[61]等其他领域。

志谢: 本文在撰写过程中得到了王向阳、史加荣和周宗伟等国内学者的帮助与支持,在此表示感谢。

参考文献

  • [1] Bouwmans T, Zahzah E H. Robust PCA via principal component pursuit: a review for a comparative evaluation in video surveillance[J]. Computer Vision and Image Understanding , 2014, 122 : 22–34. DOI:10.1016/j.cviu.2013.11.009]
  • [2] Sobral A, Vacavant A. A comprehensive review of background subtraction algorithms evaluated with synthetic and real videos[J]. Computer Vision and Image Understanding , 2014, 122 : 4–21. DOI:10.1016/j.cviu.2013.12.005]
  • [3] Yilmaz A, Javed O, Shah M. Object tracking: a survey[J]. ACM Computing Surveys (CSUR) , 2006, 38 (4) : #13. DOI:10.1145/1177352.1177355]
  • [4] Poppe R. A survey on vision-based human action recognition[J]. Image and Vision Computing , 2010, 28 (6) : 976–990. DOI:10.1016/j.imavis.2009.11.014]
  • [5] Loke K S, Egerton S. Scene understanding: a framework for image segmentation via object recognition[C]//Proceedings of the 2010 Sixth International Conference on Intelligent Environments. Kuala Lumpur: IEEE, 2010: 328-331.[DOI: 10.1109/IE.2010.67]
  • [6] SuganyaDevi K, Malmurugan N, Sivakumar R. OF-SMED: an optimal foreground detection method in surveillance system for traffic monitoring[C]//Proceedings of 2012 International Conference on Cyber Security, Cyber Warfare and Digital Forensic (CyberSec). Kuala Lumpur: IEEE, 2012: 12-17.[DOI: 10.1109/CyberSec.2012.6246126]
  • [7] Shimada A, Arita D, Taniguchi R I. Dynamic control of adaptive mixture-of-Gaussians background model[C]//Proceedings of IEEE International Conference on Video and Signal Based Surveillance. Sydney: IEEE, 2006: 5.[DOI: 10.1109/AVSS.2006.44]
  • [8] Barnich O, Van Droogenbroeck M. Vibe: a universal background subtraction algorithm for video sequences[J]. IEEE Transactions on Image Processing , 2011, 20 (6) : 1709–1724. DOI:10.1109/TIP.2010.2101613]
  • [9] Hofmann M, Tiefenbacher P, Rigoll G. Background segmentation with feedback: The pixel-based adaptive segmenter[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Providence, RI: IEEE, 2012: 38-43.[DOI: 10.1109/CVPRW.2012.6238925]
  • [10] Wright J, Peng Y G, Ma Y, et al. Robust principal component analysis: exact recovery of corrupted low-rank matrices by convex optimization[C]//Proceedings of Neural Information Processing Systems. Whistler: MIT Press, 2009.
  • [11] Oliver N, Rosario B, Pentland A P. A Bayesian computer vision system for modeling human interactions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2000, 22 (8) : 831–843. DOI:10.1109/34.868684]
  • [12] De La Torre F, Black M J. A robust principal component analysis for computer vision[C]//Proceedings of the Eighth IEEE International Conference on Computer Vision. Vancouver BC: IEEE, 2001, 1: 362-369.[DOI: 10.1109/ICCV.2001.937541]
  • [13] De La Torre F, Black M J. A framework for robust subspace learning[J]. International Journal of Computer Vision , 2003, 54 (1-3) : 117–142. DOI:10.1023/A:1023709501986]
  • [14] Candès E J, Li X D, Ma Y, et al. Robust principal component analysis?[J]. Journal of the ACM , 2011, 58 (3) : #11. DOI:10.1145/1970392.1970395]
  • [15] Lin Z C, Ganesh A, Wright J, et al. Fast convex optimization algorithms for exact recovery of a corrupted low-rank matrix[R]. Urbana-Champaign, Illinois, America: University of Illinois at Urbana-Champaign(UIUC), UIUC Technical Report, 2009.
  • [16] Lin Z C, Chen M M, Ma Y. The augmented Lagrange multiplier method for exact recovery of corrupted low-rank matritrices[R]. Urbana-Champaign, Illinois, America: University of Illinois at Urbana-Champaign(UIUC), UIUC Technical Report, 2010.
  • [17] Yuan X M, Yang J F. Sparse and low-rank matrix decomposition via alternating direction methods[J]. Pacific Journal of Optimization , 2009, 9 (1) : 1–11.
  • [18] Chen J H, Yang J. Robust subspace segmentation via low-rank representation[J]. IEEE Transactions on Cybernetics , 2014, 44 (8) : 1432–1445. DOI:10.1109/TCYB.2013.2286106]
  • [19] Liu G C, Lin Z C, Yan S C, et al. Robust recovery of subspace structures by low-rank representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2013, 35 (1) : 171–184. DOI:10.1109/TPAMI.2012.88]
  • [20] Liu G C, Yan S C. Latent low-rank representation for subspace segmentation and feature extraction[C]//Proceedings of IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011: 1615-1622.[DOI: 10.1109/ICCV.2011.6126422]
  • [21] Ganesh A, Wright J, Li X D, et al. Dense error correction for low-rank matrices via principal component pursuit[C]//IEEE International Symposium on Information Theory. Austin, TX, USA: IEEE, 2010: 1513-1517.[DOI: 10.1109/ISIT.2010.5513538]
  • [22] Gao Z, Cheong L F, Shan M. Block-sparse RPCA for consistent foreground detection[C]//Proceedings of 12th European Conference on Computer Vision. Berlin Heidelberg, Germany: Springer, 2012, 7576: 690-703.[DOI: 10.1007/978-3-642-33715-4_50]
  • [23] Gao Z, Cheong L F, Wang Y X. Block-sparse RPCA for salient motion detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2014, 36 (10) : 1975–1987. DOI:10.1109/TPAMI.2014.2314663]
  • [24] Zhou Z H, Li X D, Wright J, et al. Stable principal component pursuit[C]//IEEE International Symposium on Information Theory. Austin, TX: IEEE, 2010: 1518-1522.[DOI: 10.1109/ISIT.2010.5513535]
  • [25] Becker S, Candes E, Grant M. TFOCS: flexible first-order methods for rank minimization. Low-rank Matrix Optimization Symposium[C]//Proceedings of SIAM Conference on Optimization. Darmstadt, Germany: SIAM Activity Group on Computational Science and Engineering, 2011.
  • [26] Zhou Z W, Jin Z. Weighted nonconvex nuclear norm and its application in the moving target detection[J]. Journal of Image and Graphics , 2015, 20 (11) : 1482–1491. [ 周宗伟, 金忠. 非凸加权核范数及其在运动目标检测中的应用[J]. 中国图象图形学报 , 2015, 20 (11) : 1482–1491. DOI:10.11834/jig.20151107 ]
  • [27] Shi J R, Zhou S S, Zheng X Y. Multilinear robust principal component analysis[J]. Acta Electronica Sinica , 2014, 42 (8) : 1480–1486. [ 史加荣, 周水生, 郑秀云. 多线性鲁棒主成分分析[J]. 电子学报 , 2014, 42 (8) : 1480–1486. DOI:10.3969/j.issn.0372-2112.2014.08.004 ]
  • [28] Zhou T Y, Tao D C. GoDec: randomized low-rank and sparse matrix decomposition in noisy case[C]//Proceedings of the 28th International Conference on Machine Learning. Bellevue, Washington: Omnipress, 2011: 33-40.
  • [29] Zhou T Y, Tao D C. Bilateral random projections[C]//2012 IEEE International Symposium on Information Theory. Cambridge, MA: IEEE, 2012: 1286-1290.[DOI: 10.1109/ISIT.2012.6283064]
  • [30] Bao J Y, Wang H B, Chen Z, et al. Moving object detection based on background image set and sparse analysis[J]. Journal of Computer Applications , 2013, 33 (5) : 1401–1405. [ 包金宇, 王慧斌, 陈哲, 等. 基于背景图像集与稀疏分析的运动目标检测[J]. 计算机应用 , 2013, 33 (5) : 1401–1405. DOI:10.3724/SP.J.1087.2013.01401 ]
  • [31] Ding X H, He L H, Carin L. Bayesian robust principal component analysis[J]. IEEE Transactions on Image Processing , 2011, 20 (12) : 3419–3430. DOI:10.1109/TIP.2011.2156801]
  • [32] Babacan S D, Luessi M, Molina R, et al. Sparse Bayesian methods for low-rank matrix estimation[J]. IEEE Transactions on Signal Processing , 2012, 60 (8) : 3964–3977. DOI:10.1109/TSP.2012.2197748]
  • [33] Tan V Y F, Févotte C. Automatic relevance determination in nonnegative matrix factorization with the β-divergence[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2013, 35 (7) : 1592–1605. DOI:10.1109/TPAMI.2012.240]
  • [34] Beal M J. Variational algorithms for approximate Bayesian inference[D]. London, UK: University College London, 2003. http://cn.bing.com/academic/profile?id=2115979064&encoded=0&v=paper_preview&mkt=zh-cn
  • [35] Zhou Q, Meng D Y, Xu Z B, et al. Robust principal component analysis with complex noise[C]//Proceedings of the 31st International Conference on Machine Learning. Beijing: ACM, 2014: 55-63.
  • [36] Guyon C, Bouwmans T, Zahzah E H. Foreground detection based on low-rank and block-sparse matrix decomposition[C]//Proceedings of the 19th IEEE International Conference on Image Processing. Orlando, FL: IEEE, 2012: 1225-1228.[DOI: 10.1109/ICIP.2012.6467087]
  • [37] Tang G G, Nehorai A. Robust principal component analysis based on low-rank and block-sparse matrix decomposition[C]//Proceedings of 45th Annual Conference on Information Sciences and Systems. Baltimore, MD: IEEE, 2011: 1-5.[DOI: 10.1109/CISS.2011.5766144]
  • [38] Cao X C, Yang L, Guo X J. Total variation regularized RPCA for Irregularly moving object detection under dynamic background[J]. IEEE Transactions on Cybernetics , 2016, 46 (4) : 1014–1027. DOI:10.1109/TCYB.2015.2419737]
  • [39] Chan S H, Khoshabeh R, Gibson K B, et al. An augmented Lagrangian method for total variation video restoration[J]. IEEE Transactions on Image Processing , 2011, 20 (11) : 3097–3111. DOI:10.1109/TIP.2011.2158229]
  • [40] Chambolle A. An algorithm for total variation minimization and applications[J]. Journal of Mathematical Imaging and Vision , 2004, 20 (1-2) : 89–97. DOI:10.1023/B:JMIV.0000011325.36760.1e]
  • [41] Zhou X W, Yang C, Yu W C. Automatic mitral leaflet tracking in echocardiography by outlier detection in the low-rank representation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI, USA: IEEE, 2012: 972-979.[DOI: 10.1109/CVPR.2012.6247773]
  • [42] Zhou X W, Yang C, Yu W C. Moving object detection by detecting contiguous outliers in the low-rank representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2013, 35 (3) : 597–610. DOI:10.1109/TPAMI.2012.132]
  • [43] Li S Z. Markov Random Field Modeling in Image Analysis[M]. London: Springer-Verlag, 2009 .
  • [44] Mazumder R, Hastie T, Tibshirani R. Spectral regularization algorithms for learning large incomplete matrices[J]. The Journal of Machine Learning Research , 2010, 11 : 2287–2322.
  • [45] Boykov Y, Veksler O, Zabih R. Fast Approximate energy minimization via graph cuts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2001, 23 (11) : 1222–1239. DOI:10.1109/34.96911]
  • [46] Liu X, Zhao G Y, Yao J W, et al. Background subtraction based on low-rank and structured sparse decomposition[J]. IEEE Transactions on Image Processing , 2015, 24 (8) : 2502–2514. DOI:10.1109/TIP.2015.2419084]
  • [47] Yao J W, Liu X, Qi C. Foreground detection using low rank and structured sparsity[C]//Proceedings of IEEE International Conference on Multimedia and Expo. Chengdu, Sichuan, China: IEEE, 2014: 1-6.[DOI: 10.1109/ICME.2014.6890200]
  • [48] Cang Y Y, Sun Y B, Liu Q S. Moving object detection based on hierarchical robust principal component analysis[J]. Journal of Computer-Aided Design & Computer Graphics , 2014, 26 (4) : 537–544. [ 仓园园, 孙玉宝, 刘青山. 基于分层鲁棒主成分分析的运动目标检测[J]. 计算机辅助设计与图形学学报 , 2014, 26 (4) : 537–544. ]
  • [49] Sun D Q, Roth S, Black M J. Secrets of optical flow estimation and their principles[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010: 2432-2439.[DOI: 10.1109/CVPR.2010.5539939]
  • [50] Xue Y W, Guo X J, Cao X C. Motion saliency detection using low-rank and sparse decomposition[C]//Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto: IEEE, 2012: 1485-1488.[DOI: 10.1109/ICASSP.2012.6288171]
  • [51] Huang Q, Xiang J, Hou J H, et al. Multi-target tracking algorithm based on feature fusion and discriminative appearance model[J]. Journal of Image and Graphics , 2015, 20 (9) : 1188–1198. [ 黄奇, 项俊, 侯建华, 等. 联合特征融合和判别性外观模型的多目标跟踪[J]. 中国图象图形学报 , 2015, 20 (9) : 1188–1198. DOI:10.11834/jig.20150906 ]
  • [52] Qiu Y C, Zhang Y Y, Liu C M. Vehicle shadow removal with multi-feature fusion[J]. Journal of Image and Graphics , 2015, 20 (3) : 311–319. [ 邱一川, 张亚英, 刘春梅. 多特征融合的车辆阴影消除[J]. 中国图象图形学报 , 2015, 20 (3) : 311–319. DOI:10.11834/jig.20150302 ]
  • [53] Wei G J, Hou Z Q, Li W, et al. Motion coherence image segmentation fused with multi-feature[J]. Journal of Image and Graphics , 2014, 19 (5) : 701–707. [ 魏国剑, 侯志强, 李武, 等. 融合多特征的运动一致性图像分割[J]. 中国图象图形学报 , 2014, 19 (5) : 701–707. DOI:10.11834/jig.20140507 ]
  • [54] Gan C, Wang Y, Wang X Y. Multi-feature robust principal component analysis for video moving object segmentation[J]. Journal of Image and Graphics , 2013, 18 (9) : 1124–1132. [ 甘超, 王莹, 王向阳. 多特征稳健主成分分析的视频运动目标分割[J]. 中国图象图形学报 , 2013, 18 (9) : 1124–1132. DOI:10.11834/jig.20130909 ]
  • [55] Wang X Y, Wan W G. Motion segmentation via multi-task robust principal component analysis[J]. Journal of Applied Sciences , 2014, 32 (5) : 473–480. [ 王向阳, 万旺根. 采用多任务稳健主成分分析的运动目标分割[J]. 应用科学学报 , 2014, 32 (5) : 473–480. DOI:10.3969/j.issn.0255-8297.2014.05.007 ]
  • [56] Shi J R, Zheng X Y, Yang W. Regularized approach for incomplete robust principal component analysis and its applications in background modeling[J]. Journal of Computer Applications , 2015, 35 (10) : 2824–2827. [ 史加荣, 郑秀云, 杨威. 不完全鲁棒主成分分析的正则化方法及其在背景建模中的应用[J]. 计算机应用 , 2015, 35 (10) : 2824–2827. DOI:10.11772/j.issn.1001-9081.2015.10.2824 ]
  • [57] Goyette N, Jodoin P M, Porikli F, et al. Changedetection. net: a new change detection benchmark dataset[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Providence, RI: IEEE, 2012: 1-8.[DOI: 10.1109/CVPRW.2012.6238919]
  • [58] Wagner A, Wright J, Ganesh A, et al. Towards a practical face recognition system: robust registration and illumination by sparse representation[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL: IEEE, 2009: 597-604.[DOI: 10.1109/CVPR.2009.5206654]
  • [59] Papadimitriou C H, Raghavan P, Tamaki H, et al. Latent semantic indexing: a probabilistic analysis[J]. Journal of Computer and System Sciences , 2000, 61 (2) : 217–235. DOI:10.1006/jcss.2000.1711]
  • [60] Peng Y G, Ganesh A, Wright J, et al. RASL: robust alignment by sparse and low-rank decomposition for linearly correlated images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2012, 34 (11) : 2233–2246. DOI:10.1109/TPAMI.2011.282]
  • [61] Yao M H, Li J, Wang X B. Solar cells surface defects detection using RPCA method[J]. Chinese Journal of Computers , 2013, 36 (9) : 1943–1952. [ 姚明海, 李洁, 王宪保. 基于RPCA的太阳能电池片表面缺陷检测[J]. 计算机学报 , 2013, 36 (9) : 1943–1952. DOI:10.3724/SP.J.1016.2013.01943 ]