发布时间: 2016-09-25
摘要点击次数：
全文下载次数：
DOI: 10.11834/jig.20160909
2016 | Volumn 21 | Number 9

图像理解和计算机视觉

自适应邻域相关性的背景建模

万剑, 洪明坚, 赵晨丘

重庆大学软件学院, 重庆 401331

收稿日期: 2016-01-05; 修回日期: 2016-05-18

基金项目: 国家高技术研究发展计划（863）基金项目（2015AA021104）；中央高校基本科研基金项目（CDJZR12090003）；重庆市研究生科研创新项目资助（CYS14034）

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2016)09-1202-11

摘要

目的背景建模在计算机视觉领域中是检测、跟踪、行为学习和识别的基础，被广泛地应用于视频监控的运动目标检测。混合高斯（MOG）和Codebook是其中具有代表性的方法，但它们假设像素点间信息是独立的，只保留了时域信息而忽略了空域信息，使得模型对背景的描述局限于时间上的连续性。针对上述问题，提出了一种自适应邻域相关性的背景建模方法（ANC）。方法 ANC在保留原始方法时域信息建模特性的同时，增加对邻域模型的复用，同时利用计算结果反馈自适应调整邻域区域，提高对前景值判断的准确性。首先利用原始基于像素点的背景建模方法进行候选前景检测，然后将候选前景检测结果为前景点的像素与邻域像素点模型进行对比，若邻域范围存在匹配则为背景点，若不存在则为前景点；最后引入像素置信度概念，自适应调整邻域范围的大小。结果与MOG和Codebook相比，在changedetection标准数据库上，ANC在ROC（受试者工作特征曲线）和度量值等方面的平均精度和F-measure都提高了7%以上。结论自适应邻域相关性的背景建模方法适用于复杂多模态背景，克服了基于像素点背景建模方法假设的局限性。与普通基于像素点的背景建模方法相比，具有更好的鲁棒性和抗噪性，对复杂背景具有更强的适应性。

关键词

混合高斯模型; Codebook算法; 背景建模; 自适应邻域; 像素点

Background modeling based on adaptive neighborhood correlation

Wan Jian, Hong Mingjian, Zhao Chenqiu

School of Software Engineering, Chongqing University, Chongqing 401331, China

Supported by: National High Technology Research and Development Program of China(2015AA021104)

Abstract

Objective Background modeling is widely used to detect moving objects and is the basis for object tracking, behavior learning, and recognition in the field of computer vision. Mixture of Gaussian (MOG) and Codebook are current popular methods based on pixel value. However, these methods usually assume that pixels are independent and retain only time domain information while ignoring spatial information, limiting the model to the continuity of time. This paper proposes an adaptive neighborhood correlation (ANC) background modeling approach. Method The ANC approach increases the neighborhood model while retaining the domain information, and considers results to adjust neighborhood area. ANC begins by using the original pixel-based background modeling method to detect the candidate foreground; it then further compares the foreground results of candidate foreground detection with models of neighborhood pixels, with matched pixels considered as background pixels, while others foreground pixels. Finally, pixel confidence is introduced to adjust the neighborhood size adaptively. Result ANC outperforms MOG and Codebook by more than 7% in average accuracy and F-measure with the ROC curve and other aspects of the measures on change detection standard database. Conclusion ANC overcomes the limitations of pixel-based background modeling methods and is suitable for a complex multimodal background. It not only describes the change in pixels accurately, but is also robust and adaptive to the complex background.

Key words

mixture of Gusassian (MOG); Codebook; background modeling; adaptive neighborhood; pixel

0 引言

背景建模是对静态摄像头拍摄的图像序列提取运动目标的常用手段^[1-2]，近些年学者们根据不同的应用场景和方法路线提出了许多不同的背景建模方法，主要可分为两大类：基于像素和基于块的背景建模^[3-6]。基于像素的背景建模方法假设每个像素信息独立，在时域上建立像素模型，优点是能准确提取运动外形，但运用场景对算法效果影响较大; 基于块的背景建模是将图像分成小块再分别建模，优点是保留了时间和空间信息的关联性，动态背景和局部变化对算法影响较小，缺点是无法提取精确的目标形状，对后期目标行为识别和分析等影响较大。目前大部分的背景建模方法都是基于像素点进行建模分析^[7-9]，运用比较广泛的主要包括：帧差法、中值滤波法、非参数核密度估计、混合高斯(MOG)和Codebook背景建模等。

Elgammal等人^[10-11]利用概率论中估计未知密度函数的核密度估计提出了一种非参数模型方法，该方法通过估计分布而不是预知分布来得出核密度函数，每次都有新的训练样本加入，对户外复杂背景环境建模可靠性强，但其计算复杂度过高，实时性不佳，并且在光线突变条件下鲁棒性不高。Wren等人^[12]使用单高斯模型对像素点分布进行建模。这种模型适用于较长时间内运动背景比较单一，光照强度变化缓慢的单峰环境下具有较好的检测效果。因为只有一个模型，所以不能很好地将前景和背景分割开来，容易导致虚报率偏高。为了解决这个问题，Stauffer等人^[13]提出了MOG背景建模方法，对背景多个模态进行分别建模，该方法很好地模拟了多峰复杂背景，缺点是受突变光线影响较大，动态背景下噪声较多。Kim等人^[14]提出一种结构化的背景建模方法CodeBook，该方法能保留时间的起伏数据，在处理多峰环境下能得到较好的实验结果，缺点是在复杂背景情况下，内存消耗量大且实时性不强。Barnich等人^[15-16]提出的一种新的像素级背景建模方法ViBe，该算法在模型初始化和更新时考虑了邻域信息，相对其他算法在抑制虚影和运行速度等方面有较好的效果，但在复杂背景如晃动树叶情况下效果一般。

分析以上算法不难发现，这些算法充分考虑了像素点在时域上的连续性，但像素点间模型信息互相独立，具体表现为：

1) 方法假设前提都是像素点之间信息不相关，互相孤立单独建模，忽略了空间邻域信息的相关性，对背景像素的描述不够，受到噪声和背景变化等影响后效果往往比较差。

2) 方法受背景模型的数量影响较大，背景模型偏多算法的复杂度越高，内存等资源浪费也更严重；背景模型偏少，只能刻画简单背景，对复杂背景描述力不足。

邻域信息的引入往往能够很好地弥补这缺陷^[17]，图像空间信息存在一种连续性，像素点间信息即有互异性又有相似性^[18-19]。利用邻域互异性，对像素点分开建模能保留像素点位置信息的变化规律信息，能刻画背景的主要信息；利用邻域相似性可以对互异模型进行补充描述，共用邻域相似模型，可以减少像素点上的重复模型，从而减少建模数量减少内存^[20-21]。

针对以上不足，提出了一种自适应邻域相关性的背景建模方法(ANC)，对基于像素点建模的背景建模方法的前景检测阶段，结合像素相邻相似原则^[22]，采用当前像素值与自身模型和邻域范围模型对比的双重决策方式判断是否为前景值，并针对每个像素建立置信度模型，对邻域范围的自适应调整。该方法克服了Codebook、MOG等基于像素点背景建模而忽略空间邻域信息的局限性，同时保留了算法原有时域模型的完整性。将基于MOG和Codebook进行举例说明，通过实验结果表明，改进后的方法即使在减少一定的模型数量仍对复杂背景具有很好的适应性、鲁棒性和抗噪性。

1 邻域背景模型分析

1.1 邻域背景模型相似性分析

为了证明邻域背景模型的相似性，对Goyette等人^[23]视频序列进行采样实验分析，通过分别对MOG和Codebook模型的邻域模型相似度进行统计分析，了解基于像素点背景建模模型在空间上的连续性情况。首先对输入的视频序列的前100帧作为训练视频帧，分别对视频进行MOG和Codebook建模，并在第100帧时对像素点模型及像素点的周围8邻域像素点模型进行采样分析。为了保持两种算法同一颜色维度上的对比，MOG采用灰度图像作为输入，Codebook采用YUV格式图像作为输入，最后比较模型码字中与灰度值相近的Y成分范围。

通过大量实验分析得到，像素模型与邻域模型分布在不同的区域差异较大。如图 1所示。通过对比MOG各点最高权重的高斯模型分布相似度和Codebook每个码字的亮度值范围分布相似度来对比模型。以图像序列highway^[23]为例主要分为4种情况：1) 坐标点(160, 130)，背景像素分布在平滑的公路上，周围模型相似性极高；2) 坐标点(300, 80)，该点位于背景纹理较复杂稳定不变的草丛之中，周围模型峰值较为分散但有很多交集；3) 坐标点(62, 54)，像素位于纹理复杂动态抖动的树丛中，周围模型极为分散，噪声频发，邻域背景模型的引入能很好地解决这类问题；4) 坐标点(110, 60)，该点的Codebook模型与周围领域像素的Codebook模型即存在互异性，又具有互补性；同样可以看出，像素点上固定数量的高斯模型难以描述复杂背景从而出现噪声，相反Codebook却用较多的码字很好地描述了这个背景。

图 1 MOG和Codebook模型下图像模型采样

Fig. 1 Sampling of MOG and Codebook models ((a) position in image; (b) distribution of MOG models; (c) distribution of Codebook models)

从图 1这4组邻域模型可以看出，对于简单背景(如点(160, 130))，邻域模型相似度极高，邻域的引入反而会增加计算复杂度；在纹理较为复杂的区域(如点(300, 80) (62, 54))，邻域模型可以对该像素点模型补充描述，减少噪声发生率；在背景复杂多变的区域(如点(110, 60))，邻域像素点模型虽然分散，但相似度高，可以“共享”以节省资源，同时可以解决MOG等因模型数目一定而造成对背景描述不全的问题。

1.2 “共享”邻域背景模型

通常在多模态的复杂多变背景区域，基于像素的背景建模方法往往由于背景模型数量有限而导致描述不全，虽然通过自适应调整背景模型个数方法^[24]能够在一定程度上解决这类问题，但模型数量的增加往往会带来更大的计算量。根据邻域模型的“相邻相似”性，通过对邻域背景模型的“分享”，可以将邻域模型作为当前像素模型的补充模型，在不增加模型数量的同时，解决模型数量不足造成的影响。即使减少对每个像素的模型数量，由于邻域背景模型的补充，每个像素仍拥有较多可用模型。

以MOG算法为例，该算法使用K(通常取35)个高斯模型来表征图像中各个像素点的特征。假设当K=3，且共享邻域范围r=1时(即8邻域范围)，原始算法每个像素上可用的模型数量固定为3，即最大支持3种模态的复杂背景。此时，每个像素上可用的模型数量为3×9=27。由于邻域相似性，尽管这27个模型多数存在一定的相似性，但从图 1可以看出，在纹理较复杂和动态背景区域较为分散，对复杂背景仍具有较强的描述能力。

为了验证邻域背景模型“共享”的正确性，针对不同的高斯模型数量K，对Goyette等人^[23]中动态背景场景overpass视频序列进行实验分析。该场景无运动前景，背景为剧烈抖动的树叶，实验训练帧为前100帧，学习率α=0.005，邻域半径r=1。通过图 2可以看出，利用“共享”邻域背景模型能有效地增强背景模型的描素能力。在引入邻域后的MOG方法中当K=3时，就可达到原始MOG算法K=6的效果，减少了每个像素上的高斯模型数量，且不降低检测效果，显著地减少了计算量，提高了算法的性能。

图 2 overpass场景下MOG和邻域MOG算法在不同K值下建模效果

Fig. 2 Results of MOG and MOG-neighborhood under various K values in overpass scene

基于上述观察实验，结合MOG和Codebook算法对背景像素值分布的假设，提出的ANC建模方法，其主要思想是针对原始的基于像素点背景建模算法模型，在前景阶段添加对邻域像素点模型的对比，通过计算在邻域范围内是否存在匹配当前像素值的模型来确定是否为背景点。同时引入像素置信度概念，自适应调整邻域范围的大小。该方法的优点是引入了邻域信息的相关性，通过自适应扩展邻域范围的方式来“调整”模型的数量，一方面有效地控制了由于复杂背景模型数量增加带来的资源浪费和计算复杂度；另一方面解决了背景模型不够导致背景描述不全的问题。不仅如此，因为邻域模型的相似性和互补性，“共享”邻域模型可以在保证前景分割效果的前提下，对每个像素点建立更少的模型，既减少了模型数量多带来的计算复杂度和资源的浪费，又增加了像素点上模型的利用率。

2 自适应邻域相关性的背景建模方法

自适应邻域相关性的背景建模方法主要分为两个部分：1) 前景检测；2) 自适应邻域范围的更新。前景检测部分，即在前景检测阶段根据原有算法判别法判断输入的未知像素点为前景还是背景，如果是前景，则将该像素点继续和周围邻域的模型进行相同的判断，如果均未找到匹配模型时，则为前景，否则为背景。因此将原始背景建模前景检测过程称之为候选前景的检测。自适应邻域范围更新机制，引入像素置信度概念，自适应调整各像素点的邻域范围，提高前景检测的准确性。

结合自适应邻域相关性背景建模流程如图 3所示，其中实线部分为基于像素点背景建模算法流程，即候选前景检测流程；点线部分为改进新增部分。

图 3 基于像素点背景建模算法流程和改进流程

Fig. 3 The improved flowchart of pixel-based background modeling

2.1 前景检测

本文模型主要是加强了对前景检测决策判别的改进，判别时直接引用邻域模型而不在空间域上单独建立新的模型，这种方法不仅充分提高了模型的利用率，而且在引入空域信息时不带来复杂的计算量。对于输入点x_t+1判别方法如下：

1) 首先初始化邻域半径r，经过训练和更新后，像素点x_t+1半径则为r_{i, t}。

2) 对图像中每个像素点高斯模型分别按照ω_{i, t}/σ_{i, t}从大到小进行排序，并选取前B个高斯模型来代表当前像素点时域分布的最佳描述，即

$ B = \arg \;\mathop {\min }\limits_b \left( {\sum\limits_{k = 1}^b {{w_k} > T} } \right)\;\;\;\left( {0.5 < T < 1} \right) $

3) 将x_t+1与对应像素点这B个高斯模型进行匹配校验，如果存在匹配则为背景点；否则，标记为待定，并更新背景模型。

4) 将待定点x_t+1与周围半径为r的邻域范围内像素点的高斯模型匹配校验。如果存在匹配则为背景点，如果均不存在，则为前景点。如图 4所示，当x_t+1所处像素位置的高斯模型不匹配时，则寻求在邻域范围内继续查找与之匹配的高斯模型。

图 4 邻域高斯前景检测

Fig. 4 Foreground detection of MOG-ANC

从判别方法上可以看出，ANC根据相邻相似原则将邻域的像素模型与自身的像素模型实现共享模式，从而达到对像素点时域和空域上更好的描述能力，弥补了MOG和Codebook等基于像素点建模方法在复杂背景下描述能力不够的不足，减少背景图像中噪声的影响。

2.2 自适应邻域范围的更新

正如上2.1节提到，模型的数量对直接关系到算法对背景的描述能力。邻域半径越大，意味着描述能表达的模态信息越多，反之，能表达的越少，但并不是越多越好。如图 4所示，r=2，半径r越大时，所需比对邻域模型的范围越大，计算复杂度也越大；当半径r偏小时，对复杂背景的描述能力又会下降。针对这一现象，结合每个像素点背景复杂程度，自适应的调整邻域半径r的大小。

除此之外，通常情况下，动态背景容易导致产出大量噪声，噪声的特征以散列分布特征呈现，如图 5(a)中背景噪声往往是由于模型刻画过度，使得检测出的前景图像出现内部空点，缩小半径r，就可以减少背景模型数量，让前景目标更完整。如图 5(c)前景噪声的出现也从侧面反应出当前的背景模型不足以刻画背景模态信息，该像素的半径r的增大能够进一步利用邻域模型补充时域模型的不足。

图 5 常见噪声

Fig. 5 Various noise ((a) foreground noise; (b) binary image; (c) background noise)

结合以上特征，本文设计的自适应邻域半径r的更新流程如下：

1) 在算法开始执行第1帧时，初始化每个像素的邻域半径为r₀(r₀≥0)。

2) 执行前景检测后，检测像素点当前点结果值P_{i, t+1}和8邻域点前景点个数C_{i, t+1}。

$ 0 \le {r_{{\rm{low}}}} \le {r_{i,t + 1}} \le {r_{{\rm{hi}}}} $

(2)

r_low和r_hi分别表示像素点邻域半径的最小下限和最大上限

$ m = 8 - n $

(3)

n(0≤n≤7)表示当前像素为前景时，8邻域前景数少于n时则判定当前像素为噪声；同理，m(0≤n≤7)表示当前像素为背景时，8邻域背景数少于n(即8-m)时，则判定当前像素为噪声。不难看出，n是判断当前像素点是否为噪声的阈值，称为噪声阈值。

根据噪声出现情况，可计算出半径增减数M(i, t+1)存在判别式

$ M\left( {i,t + 1} \right) = \left\{ {\begin{array}{*{20}{l}} 1&{{P_{i,t + 1}} = FG且{C_{i,t + 1}} \le n}\\ { - 1}&{{P_{i,t + 1}} = BG且{C_{i,t + 1}} \ge m}\\ 0&{其他} \end{array}} \right.\; $

(4)

式中，P_{i, t+1}表示在i位置t+1时刻前景检测的结果值(FG表示前景，BG表示背景)；C_{i, t+1}表示i位置t+1时刻邻域前景点的个数。

因此，最后得出新邻域半径值

$ {r_{i,t + 1}} = {r_{i,t}} + M\left( {i,t + 1} \right) $

(5)

式中，r_{i, t}表示在i位置像素点t时刻邻域半径大小。

3)将新的r_{i, t+1}作为下一帧前景检测的i位置像素的邻域范围。

3 实验和结果分析

为了验证本文方法的有效性和实用性，在matlab R2015b下实现了本文方法，实验的硬件环境为Intel Core i3 3.40 GHz，6 GB内存，选择changdetection数据集^[23]中的不同环境分别进行实验测试，这些测试数据集分别是baseline中的highway，dynamicBackground中的overpass和cameraJitter中的badminton。其中highway中包含320×240像素1 700帧，overpass中包含320×240像素3 000帧，badminton中包含320×240像素1 150帧。

在进行对比实验时，本文实现了MOG和Codebook背景建模算法这两种基于像素点建模最具代表也是目前应用最广泛的方法，以及这两种方法加入自适应邻域后的ANC方法。实验效果表明，引入邻域模型信息后得到了更好的效果。

3.1 ROC曲线分析

ROC(受试者工作特征曲线)，又称为感受性曲线(sensitivity curve)是一种反应敏感度和特异性相互关系的一种曲线图，可以直观清晰地反应一个分类算法的优劣。前景检测即可看成一个分类算法，将待测图像分类为前景和背景。本文对原始MOG、原始Codebook算法以及这两种算法的改进算法分别对highway、overpass、badminton通过调节算法阈值参数获取了ROC曲线数据，其实验结果如图 6所示。

图 6 MOG、Codebook及其改进方法的ROC曲线

Fig. 6 ROC curves of MOG, Codebook and the proposed improvements((a)highway; (b)overpass; (c)badminton)

在highway简单场景中，4种算法无明显差异，但ANC方法相比于原始算法对角线有稍稍提高；在复杂场景overpass中，ANC方法ROC曲线距离对角线均比原始算法远，曲线下面积明显更大；在抖动场景badminton中，场景地标线的消除有明显效果，但地标线与前景目标中白衣人颜色相似，导致MOG-ANC方法下前景目标提取不完整，因此MOG-ANC方法相比于MOC分类效果优势并不明显，但Codebook-ANC方法却有较大的改善。由此可知，本文方法在分类效果上要优于原始Codebook和MOG，尤其是在动态背景和抖动摄像头场景中，邻域信息的引入在动态背景下对算法检测效果具有更大的提升。

3.2 实际检测效果

在实验检测实验中，4种算法选用的参数如表 1所示，训练帧数均为30帧。图 7给出了不同算法的实验结果，在普通highway场景中树枝的微微抖动容易产生噪声信息；在室外复杂场景的overpass中，MOG算法对树叶抖动处理效果十分不佳，误检率高；对于抖动场景badminton而言，背景变化更大，球场上的地标线呈现来回抖动，原始算法容易将其检测为前景。而引入邻域信息后，增强了背景模型的描述能力，对抖动区域自适应增大邻域半径起到了很好的抑制噪声，这也证明了本文对邻域模型“可共享”和“互补性”假设的正确性。

表 1 算法参数选取
Table 1 Parameters of various methods

下载CSV

算法	参数
MOG	k=3, α=0.005
MOG-ANC	k=3, α=0.005, r₀=2, n=2, r_hi=5
Codebook	α=0.4, β=1.5, ε=100
Codebook-ANC	α=0.4, β=1.5, ε=100, r₀=2, n=2, r_hi=5

从图 7可以看出，ANC方法的优点主要表现在干扰噪声的去除，提高了检测效果。但与传统形态学处理方法不同，传统形态学处理方法前后帧信息独立，实际意义是对检测结果进行“修正”，通过腐蚀膨胀等处理，容易将小的前景目标处理掉，而将较大的错误前景放大，且处理后的前景目标轮廓容易走样。与传统形态学处理方法相比，ANC方法具有以下3个优点：

图 7 MOG、Codebook及其改进方法的实验结果

Fig. 7 Experimental results of MOG, Codebook and the proposed improvements ((a) original; (b) ground truth; (c)MOG-ANC; (d)MOG; (e)Codebook-ANC; (f)Codebook)

1) ANC方法并不是对检测效果进行“修正”，主要目的是减少由于模型数量有限导致模型描述能力不足产生的噪声数量，提高在复杂背景下的检测效果。

2) 邻域像素模型不仅包含了时间域上信息，还保留了空间连续性信息。邻域像素模型实际是对邻域区域内像素在时间域上的历史信息描述，通过将候选前景与邻域范围内历史信息进行比对从而降低噪声发生率，这与形态学处理方法只考虑空间连通性的处理方式具有本质的不同，即使是小的前景目标也能检测出来，对较大的错误前景同样具备抑制效果。

3) 可以理解为，ANC方法是对每个像素建立了不同的、独立的空间模型，该空间模型由邻域范围、邻域像素历史信息两部分组成。该空间模型会随着时间、背景纹理的变化更新出不同的、新的空间模型，能有效地保持前景目标外形轮廓的完整性。

实验中邻域半径是根据场景的不同自动变化的，但对于算法初始化r₀宜小不宜大：1) r₀初始化偏大，前景检测需要比对的模型更多，计算复杂度增大；2) r₀偏大，即初始化时默认候选前景检测算法对背景的描述力不够，需要邻域信息补充，这与ANC方法假设基于原始算法正确性相违背；3) 初始化r₀≠0，可以让模型初始化有少量的邻域信息，有一定的鲁棒性。图 8给出了3个场景下的自适应邻域半径，可以看出，动态背景区域邻域半径较大，而对于动态目标出现的区域邻域半径都比较小。半径越小，描述像素点的背景模型越少，对前景分割则越清楚；反之，描述像素点的背景越多，对背景噪声的抑制越明显。在这些场景中，MOG-ANC邻域半径较大的点(即白点)区域更大，这也从侧面反映出MOG在时域上对背景模态描述不足，需要更多的邻域信息进行补充描述，而Codebook能在复杂场景中建立更多的码字来适配多模态背景，对复杂场景描述能力更强，但由于训练的背景不能实时更新容易出现时域模型过时，邻域范围的增大能更好地弥补时域模型的不足。

图 8 3个场景下的自适应邻域半径

Fig. 8 Adaptive neighbor radius of three scenes ((a)highway; (b)overpass; (c)badminton)

表 2列出了算法在这3个场景中一些算法指标的对比，这些指标是区别于ROC分辩分类算法好坏的另一种参考，其中召回率即查全率Recall=TP/(TP+FN)，特指度Specificity=TN/(TN+FN), 精确度Precision=TP/(TP+FP); F度量F-measure=(2×Precision×Recall)/(Precision+Recall)。TP为从Precision和F-measure值可以看出，使用本文方法后均有明显的提升。对于Codebook算法而言，背景不能实时更新，背景训练帧适合在无前景环境下进行，而实验中视频highway和badminton均为有前景帧，生成的背景模型中常常包含前景信息而影响值Recall指标。但从整体效果来看，引入ANC方法后，对算法各指标均有较大的提升，效果明显优于原始算法。

表 2 算法指标对比
Table 2 Comparison of metrics using various algorithms

下载CSV

算法	平均值
算法	Recall	Specificity	Precision	F-measure
MOG	0.827 6	0.960 7	0.616 2	0.706 5
MOG-ANC	0.910 5	0.984 6	0.705 9	0.795 2
Codebook	0.854 4	0.979 5	0.638 0	0.730 5
Codebook-ANC	0.841 5	0.992 7	0.777 4	0.808 2

3.3 参数讨论

通过噪声阈值n可以判定某像素是否为噪声，当n太小，只能判别单点噪声，噪声覆盖率小；反之，当n太大，容易将前景目标边缘误判为噪声。图 9给出了原始MOG和Codebook算法在3个场景中前景及背景噪声团块大小b_noise的统计结果图。从图 9中可以看出，b_noise≤3(即n=2)覆盖了近75%的噪声，同时避免了n太大对前景边缘的影响。

图 9 8邻域噪声团块大小分布百分比

Fig. 9 Distribution percentage of noise blob size within eight neighborhood range

邻域半径r能根据当前像素噪声发生情况自适应调节直到达到平衡值，r_low和r_hi则分别是r的下限和上限阈值。当r较小时，引入邻域信息也较少，但当r较大时，不仅会增大计算复杂度，而且超过相邻相似原则的相邻性。通常在静态场景中大部分像素模态较为单一，不引入邻域信息的原始算法就可达到较好的效果，即设置r_low=0。

针对MOG和Codebook两种算法在不同场景下对背景噪声和与之匹配的邻域模型所在半径r进行统计分析。首先将原始算法的结果图与真实结果图相减提取大于0的所有像素即为背景噪声像素；将这些背景像素与周围邻域模型进行对比，采用r从1开始递增的形式进行对比，直到找到与之匹配的半径r，r称之为噪声匹配半径。如图 10和图 11分别是MOG和Codebook在不同场景下噪声匹配半径的分布百分比，匹配半径在r≤3的范围内能消除90%左右的背景噪声，而在r≥5几乎只占少部分。并且当r较大时，模型不具备相邻相似性，因而通常r_hi取35。

图 10 MOG噪声匹配半径的分布百分比

Fig. 10 Distribution percentage of MOG noise matching radius

图 11 Codebook噪声匹配半径的分布百分比

Fig. 11 Distribution percentage of Codebook noisematchingradius

本文方法并没有结合每个算法的特性分别设计，只是针对一类基于像素点背景建模方法的改进，在邻域半径的反馈训练中，可以根据不同算法的特性自适应的调整算法参数、阈值等，以达到更好的实验效果。另外，在邻域的自适应范围模型上并没有考虑噪声在场景中出现形式的不同特征加入考虑之中，仅仅通过8邻域范围内前景数和背景数作简单对比来估计是否噪声点，容易导致训练邻域半径结果误差大，因此在检测效果中容易出现目标空洞现象。因此邻域在大多数为点噪音的情况下，效果往往比较好；但在团块噪音比较多的情况下，效果稍差。并且邻域范围可能不以某个半径区域出现，“可共享”的区域往往是不规则区域或者更相似的点具有更高的权重比等，在以后的工作中将继续修改自适应邻域范围的选择方式以达到最好的实验效果。

4 结论

本文提出的一种自适应邻域相关性的背景建模方法，结合MOG、Codebook等基于像素点建立的时间背景模型，有效地弥补这些方法的不足，从而更准确地描述了复杂动态的背景。首先，结合时间信息和空间邻域信息的双重决策，增强了对动态背景的鲁棒性；其次，自适应生成邻域相关性的区域半径，有效地抑制了背景噪声，提高了前景检测的精确度。实验结果表明，该方法检测率高、适应性更强，且具有较好的抗噪性，适用于复杂动态的背景。由于在原始方法基础上引入了空间邻域模型，增加了模型的复杂度，导致模型更新和前景检测阶段时间延长，但仍能达到实时性的要求。因此，下一步将进一步研究改善空间邻域模型的更新策略和比对方式，降低模型复杂度，提高前景检测速度。

参考文献

[1] Díaz R, Hallman S, Fowlkes C C.Detecting dynamic objects with multi-view background subtraction[C]//Proceedings of the IEEE International Conference on Computer Vision.Sydney, NSW:IEEE, 2013:273-280.[DOI:10.1109/ICCV.2013.41]

[2] Mumtaz A, Zhang W, Chan A B.Joint motion segmentation and background estimation in dynamic scenes[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Columbus, OH:IEEE, 2014:368-375.[DOI:10.1109/CVPR.2014.54]

[3] Kim H, Ku B W, Han D K, et al. Adaptive selection of model histograms in block-based background subtraction[J]. Electronics Letters , 2012, 48 (8) : 434–435. DOI:10.1049/el.2011.4068

[4] Guo J M, Hsu C S.Cascaded background subtraction using block-based and pixel-based codebooks[C]//Proceedings of the 20th International Conference on Pattern Recognition.Istanbul:IEEE, 2010:1373-1376.[DOI:10.1109/ICPR.2010.339]

[5] Wei Z, Jiang S Q, Huang Q M.A pixel-wise local information-based background subtraction approach[C]//Proceedings of the IEEE International Conference on Multimedia and Expo.Hannover:IEEE, 2008:1501-1504.[DOI:10.1109/ICME.2008.4607731]

[6] Gallego J, Pardàs M, Haro G.Bayesian foreground segmentation and tracking using pixel-wise background model and region based foreground model[C]//Proceedings of the 16th IEEE International Conference on Image Processing.Cairo:IEEE, 2009:3205-3208.[DOI:10.1109/ICIP.2009.5414380]

[7] Chen S Y, Zhang J H, Li Y F, et al. A hierarchical model incorporating segmented regions and pixel descriptors for video background subtraction[J]. IEEE Transactions on Industrial Informatics , 2012, 8 (1) : 118–127. DOI:10.1109/TⅡ.2011.2173202

[8] Jodoin J P, Bilodeau G A, Saunier N.Background subtraction based on local shape[J].arXiv preprint arXiv:1204.6326, 2012. https://arxiv.org/list/cs/1204?skip=0&show=2000

[9] Jiang S J F, Muchtar K, Lin C Y, et al.Background subtraction by modeling pixel and neighborhood information[C]//Proceedings of the Signal & Information Processing Association Annual Summit and Conference, 2012 Asia-Pacific.Hollywood, CA:IEEE, 2012:1-5.

[10] Elgammal A, Harwood D, Davis L.Non-parametric model for background subtraction[C]//Proceedings of the 6th European Conference on Computer Vision.Dublin, Ireland:Springer, 2000:751-767.[DOI:10.1007/3-540-45053-X_48]

[11] Elgammal A, Duraiswami R, Harwood D, et al. Background and foreground modeling using non-parametric kernel density estimation for visual surveillance[J]. Proceedings of the IEEE , 2002, 90 (7) : 1151–1163. DOI:10.1109/JPROC.2002.801448

[12] Wren C R, Azarbayejani A, Darrell T, et al. Pfinder:real-time tracking of the human body[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence , 1997, 19 (7) : 780–785. DOI:10.1109/34.598236

[13] Stauffer C, Grimson W E L.Adaptive background mixture models for real-time tracking[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Fort Collins, CO:IEEE, 1999, 2:2246.[DOI:10.1109/CVPR.1999.784637]

[14] Kim K, Chalidabhongse T H, Harwood D, et al. Real-time foreground-background segmentation using codebook model[J]. Real-time Imaging , 2005, 11 (3) : 172–185. DOI:10.1016/j.rti.2004.12.004

[15] Barnich O, Van Droogenbroeck M. ViBe:a universal background subtraction algorithm for video sequences[J]. IEEE Transactions on Image Processing , 2011, 20 (6) : 1709–1724. DOI:10.1109/TIP.2010.2101613

[16] Barnich O, Van Droogenbroeck M.ViBe:a powerful random technique to estimate the background in video sequences[C]//Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing.Taipei, China:IEEE, 2009:945-948.[DOI:10.1109/ICASSP.2009.4959741]

[17] Noh S J, Jeon M.A new framework for background subtraction using multiple cues[M]//Computer Vision-ACCV 2012.Berlin Heidelberg:Springer, 2013:493-506.[DOI:10.1007/978-3-642-37431-9_38]

[18] Chu Y, Chen J, Chen X.An improvedViBe background subtraction method based on region motion classification[C]//Proceedings of the SPIE 8918, MIPPR 2013:Automatic Target Recognition and Navigation.Wuhan, China:SPIE, 2013:89180I-89180I-5.[DOI:10.1117/12.2030866]

[19] Chen Y Y, Wang J Q, Lu H Q.Learning sharable models for robust background subtraction[C]//Proceedings of the IEEE International Conference on Multimedia and Expo.Turin:IEEE, 2015:1-6.[DOI:10.1109/ICME.2015.7177419]

[20] Lu B, Liu H X, Zhang Q.The research of moving object detection based on complex background[C]//Proceedings of the International Conference on Mechatronic Science, Electric Engineering and Computer.Jilin:IEEE, 2011:1366-1369.[DOI:10.1109/MEC.2011.6025724]

[21] Goyette N, Jodoin P M, Porikli F, et al.Changedetection.net:a new change detection benchmark dataset[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.Providence, RI:IEEE, 2012:1-8.[DOI:10.1109/CVPRW.2012.6238919]

[22] Mason M, Duric Z.Using histograms to detect and track objects in color video[C]//Proceedings of the 30th Conference on Applied Imagery Pattern Recognition Workshop.Washington D C, USA:IEEE, 2001:154-159.[DOI:10.1109/AIPR.2001.991219]

[23] Shimada A, Arita D, Taniguchi R.Dynamic control of adaptive mixture-of-Gaussians background model[C]//Proceedings of the IEEE International Conference on Video and Signal Based Surveillance.Sydney, Australia:IEEE, 2006:5.[DOI:10.1109/AVSS.2006.44]

[24] Wang Y Z, Liang Y, Pan Q, et al. Spatiotemporal background modeling based on adaptive mixture ofgaussians[J]. Acta Automatica Sinica , 2009, 35 (4) : 371–378. [ 王永忠, 梁彦, 潘泉, 等. 基于自适应混合高斯模型的时空背景建模[J]. 自动化学报 , 2009, 35 (4) : 371–378. DOI:10.3724/SP.J.1004.2009.00371 ]