Print

发布时间: 2016-06-25
摘要点击次数: 288
全文下载次数: 39
DOI: 10.11834/jig.20160605
2016 | Volumn 21 | Number 6




    图像分析和识别    




  <<上一篇 




  下一篇>> 





视觉注意机制下结合语义特征的行人检测
expand article info 黎宁1,2, 龚元1, 许莙苓1, 顾晓蓉3, 徐涛4, ZhouHuiyu5
1. 南京航空航天大学 电子信息工程学院, 南京 211106;
2. 南京航空航天大学 雷达成像与微波光子技术教育部重点实验室, 南京 211106;
3. 南京航空航天大学理学院,南京 211106;
4. 中国民航大学中国民航信息技术科研基地, 天津 300300;
5. School of Electronics, Electrical Engineering and Computer Science Queen's University Belfast, Belfast BT3 9DT, UK

摘要

目的 为研究多场景下的行人检测,提出一种视觉注意机制下基于语义特征的行人检测方法。 方法 首先,在初级视觉特征基础上,结合行人肤色的语义特征,通过将自下而上的数据驱动型视觉注意与自上而下的任务驱动型视觉注意有机结合,建立空域静态视觉注意模型;然后,结合运动信息的语义特征,采用运动矢量熵值计算运动显著性,建立时域动态视觉注意模型;在此基础上,以特征权重融合的方式,构建时空域融合的视觉注意模型,由此得到视觉显著图,并通过视觉注意焦点的选择完成行人检测。 结果 选用标准库和实拍视频,在Matlab R2012a平台上,进行实验验证。与其他视觉注意模型进行对比仿真,本文方法具有良好的行人检测效果,在实验视频上的行人检测正确率达93%。 结论 本文方法在不同的场景下具有良好的鲁棒性能,能够用于提高现有视频监控系统的智能化性能。

关键词

行人检测, 视觉注意模型, 语义特征, 显著图, 肤色, 运动矢量熵值

Semantic feature-based visual attention model for pedestrian detection
expand article info Li Ning1,2, Gong Yuan1, Xu Junling1, Gu Xiaorong3, Xu Tao4, Zhou Huiyu5
1. College of Electronic and Information Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China;
2. Key Laboratory of Radar Imaging and Microwave Photonics, Ministry of Education, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China;
3. College of Science, Nanjing University of Aeronautics and Astronautics, Nanjing 211106, China;
4. Information Technology Research Base of Civil Aviation Administration of China, Civil Aviation University of China, Tianjin 300300, China;
5. School of Electronics, Electrical Engineering and Computer Science, Queen's University Belfast, Belfast BT3 9DT, Unite Kingdom
Supported by: National Natural Science Foundation of China (1008-GAA14033)

Abstract

Objective Pedestrian detection under video surveillance systems has always been a hot topic in computer vision research. These systems are widely used in train stations, airports, large commercial plazas, and other public places. However, pedestrian detection remains difficult because of complex backgrounds. Given its development in recent years, the visual attention mechanism has attracted increasing attention in object detection and tracking research, and previous studies have achieved substantial progress and breakthroughs. We propose a novel pedestrian detection method based on the semantic features under the visual attention mechanism. Methods The proposed semantic feature-based visual attention model is a spatial-temporal model that consists of two parts: the static visual attention model and the motion visual attention model. The static visual attention model in the spatial domain is constructed by combining bottom-up with top-down attention guidance. Based on the characteristics of pedestrians, the bottom-up visual attention model of Itti is improved by intensifying the orientation vectors of elementary visual features to make the visual saliency map suitable for pedestrian detection. In terms of pedestrian attributes, skin color is selected as a semantic feature for pedestrian detection. The regional and Gaussian models are adopted to construct the skin color model. Skin feature-based visual attention guidance is then proposed to complete the top-down process. The bottom-up and top-down visual attentions are linearly combined using the proper weights obtained from experiments to construct the static visual attention model in the spatial domain. The spatial-temporal visual attention model is then constructed via the motion features in the temporal domain. Based on the static visual attention model in the spatial domain, the frame difference method is combined with optical flowing to detect motion vectors. Filtering is applied to process the field of motion vectors. The saliency of motion vectors can be evaluated via motion entropy to make the selected motion feature more suitable for the spatial-temporal visual attention model. Results Standard datasets and practical videos are selected for the experiments. The experiments are performed on a MATLAB R2012a platform. The experimental results show that our spatial-temporal visual attention model demonstrates favorable robustness under various scenes, including indoor train station surveillance videos and outdoor scenes with swaying leaves. Our proposed model outperforms the visual attention model of Itti, the graph-based visual saliency model, the phase spectrum of quaternion Fourier transform model, and the motion channel model of Liu in terms of pedestrian detection. The proposed model achieves a 93% accuracy rate on the test video. Conclusion This paper proposes a novel pedestrian method based on the visual attention mechanism. A spatial-temporal visual attention model that uses low-level and semantic features is proposed to calculate the saliency map. Based on this model, the pedestrian targets can be detected through focus of attention shifts. The experimental results verify the effectiveness of the proposed attention model for detecting pedestrians.

Key words

people detection, visual attention model, semantic features, saliency map, skin color, motion entropy

0 引 言

人类依赖于视觉注意机制从大量复杂的视觉信息中迅速识别目标,因此,视觉注意机制在目标检测与跟踪中越来越引起广泛重视,并且取得了实质性的进展和突破[1-3]

人类视觉注意的分配因素分为自下而上的注意和自上而下的注意[4-5]。自下而上的数据驱动型的视觉注意,根据颜色、亮度、方向等初级视觉特征,生成显著图;自上而下的任务驱动型的视觉注意,采用如脸、人体等目标的语义特征作为引导得到目标显著区域。目前大多数视觉注意模型都是基于自下而上的注意,比如认知视觉注意模型[6]、图论注意模型(GBVS)[7]、频域注意模型[8-9]等。其中,应用最为广泛的认知视觉注意模型[6]提取颜色、亮度、方向等初级特征,在多尺度的视觉空间中通过中央周边差分得到显著图。图论注意模型[7]同样基于颜色、亮度、方向特征,提出了采用马尔可夫链的方法计算显著性。四元相位谱傅里叶变换法(PQFT)[9]是基于频域的注意模型,在颜色、亮度等静态初级视觉特征基础上,增加了运动信息通道,对于视频中的运动目标而言,相比认知视觉注意模型和GBVS模型具有更好的检测效果。然而研究表明,自上而下的任务驱动型注意起着主导作用[10]。直接将经典的视觉注意模型应用于目标检测时,可能由于场景本身初级视觉特征的干扰,使得目标区域被判别为非显著区域,引起漏检和误检。

研究表明,在视频序列中,动态语义特征的显著性远高于与静态特征显著性[11]。现有动态注意模型的研究主要采用在原有视觉注意模型的基础上,添加运动特征通道作为视觉注意引导的方式。运动信息的检测可以大致分为背景减法、帧差法和光流法3种。文献[12]采用混合高斯模型生成背景图像,然后通过背景减法得到前景区域二值图,并进行降采样操作得到运动显著图,最后将亮度和颜色特征的显著图与运动区域结合以提取出显著性高的运动区域。文献[13]采用帧差法计算运动区域的二值图,将静态特征显著图与动态显著图以线性合并的方式组合成总显著图。文献[14]采用了基于梯度的光流法计算运动信息,提取高斯金字塔下不同尺度的运动矢量,作为运动显著图计算的依据。

以监控视频中的行人为检测对象,根据行人特征对认知视觉注意模型进行改进,并在此基础上,引入行人肤色的语义特征,建立静态视觉注意模型。另外,针对运动的行人,采用光流法检测运动矢量,并通过运动矢量熵值[15]的方法计算运动特征显著性。最后,以特征权重融合的方式,构建时空域融合的视觉注意模型。实验结果表明,对于监控视频下的行人检测,与Itti模型、GBVS模型、PQFT模型以及文献[12]的方法相比,本文方法具有较好的行人检测正确率及鲁棒性。

1 时空特征相结合的行人检测方法

本文提出的时空特征相结合的行人检测方法如图 1所示。该模型对空域静态特征和时域动态特征的显著性进行了融合。静态特征包括认知视觉注意模型中的颜色、亮度、方向等初级特征,以及行人肤色的语义特征。动态语义特征的显著性计算采用了光流法和运动矢量熵值[15]相结合的方法。

图 1 时空特征相结合的行人检测结构图
Fig. 1 Spatio-temporal saliency model with people detection

最后,对于总显著图,采用赢者取全(WTA)神经网络完成视觉注意焦点的选择和转移。将得到的总显著图中的显著区域作为视觉注意焦点(FOA),并利用人眼视觉注意的返回抑制的机制,实现注意焦点的转移,从而完成所有行人区域的选择。

1.1 静态显著图

1.1.1 初级特征描述

Itti提出的认知视觉注意模型[6]是目前应用最为广泛的视觉注意模型之一,较好地模拟了人眼的视觉注意。视觉注意模型以生成显著图表达显著性,根据显著性的程度,以进一步判定目标。提取图像在多尺度下的颜色、亮度、方向的初级视觉特征,通过计算特征高斯金字塔的中央层和周边层的差分,得到不同特征通道的显著图。在认知视觉注意模型中,特征通道总共有7个。一个亮度通道,两个颜色通道,分别是红绿和蓝黄通道,4个方向通道,分别是0°、45°、90°和135°方向。对于每个特征通道,中央周边差操作之后生成6幅显著图,因此,认知视觉注意模型总共计算了42幅特征显著图。通过归一化和线性合并得到图像最终的显著图,检测效果如图 2所示。

图 2 Itti视觉注意模型显著图
Fig. 2 Itti’s visual attention model ((a)original image;(b) saliency map)

以行人为检测对象,根据行人的形状对Itti视觉注意模型中的方向特征进行改进。行人是直立状态,因此90°方向的特征最为明显,一般不具有0°、45°和135°方向的特征。4个方向的显著性如图 3所示,将显著图以伪色彩图的形式叠加到原图上以更好地观察显著区域。可以看出,对于行人目标,90°方向检测效果最好,其他方向的显著性几乎定位不到行人,会造成不利的竞争。

图 3 四个方向的检测显著图
Fig. 3 The saliency maps of four degrees((a) 0°; (b) 45°; (c) 90°; (d) 135°)

因此,针对行人特征对认知视觉注意模型进行改进,对于亮度、红绿、蓝黄、90°方向4个特征通道,增强目标检测的针对性,并减小计算量,提升算法速度。总共计算出24幅特征显著图,由式(1)计算出初级视觉特征的总显著图。

$S{M_{improved - itti}} = \frac{1}{3}\left[ {N\left( I \right) + N\left( C \right) + N\left( O \right)} \right]$ (1)

式中,N(·)是归一化因子,起到突出局部显著度的作用,I为亮度,C为颜色,O为方向。

1.1.2 语义特征—肤色

在行人目标检测中,行人特征作为高级视觉特征,与颜色、亮度、方向等初级视觉特征相比有着更加重要的主导地位。肤色作为人体最为显著的特征之一,当发生遮挡、转动、大小尺度、移动等变化时,均不会发生大的改变,属于人体特征中比较稳定的特征。因此,本文在Itti视觉注意模型基础上引入行人的肤色特征,将自下而上的注意与自上而下的注意相结合,提高行人检测的准确率。

一般来说,肤色的不同取决于色度信息而非亮度信息。YCbCr色彩格式的原理与人眼视觉感知的过程相似,常被应用于肤色检测中[16]。在YCbCr色彩空间中,Y表示亮度分量,Cb、Cr表示色度分量。不考虑亮度差异,不同肤色的色度分量CbCr的分布近似呈2维高斯分布,基于这种性质的高斯肤色模型是目前应用最为广泛的肤色模型之一[17]。对于一幅彩色图像,通过计算每一个像素点与肤色模型的相似程度以得到肤色显著图。

通过训练大量肤色样本,得到均值m和协方差矩阵C,建立肤色2维高斯模型。设定xi=[Cb  Cr]T为肤色样本i的值,n为肤色样本的总个数。均值和协方差矩阵计算为

$m = E\left( X \right) = \frac{1}{n}\sum\limits_{i = 1}^n {{x_i}} $ (2)

$\begin{array}{l} C = E\left[ {X - m} \right]\left[ {X - {m^T}} \right] = \\ \frac{1}{n}\sum\limits_{i = 1}^n {\left[ {{x_i} - m} \right]{{\left[ {{x_i} - m} \right]}^T}} \end{array}$ (3)

采用肤色样本的均值m和协方差矩阵C建立2维高斯肤色模型,计算像素点与肤色的相似度,得到肤色显著图。公式为

$S{M_{skin}} = \exp \left[ { - 0.5{{\left[ {X - m} \right]}^T}{C^{ - 1}}\left[ {X - m} \right]} \right]$ (4)

肤色样本来自UCI机器学习数据库,采用数据库中50 859个肤色样本训练肤色高斯模型,计算出肤色2维高斯模型的参数值如下

$m = \left[ {101.9525\;\;159.3565} \right]$ (5)

$C = \left[ {\begin{array}{*{20}{c}} {8.08238}&{ - 40.9803}\\ { - 40.9803}&{36.4285} \end{array}} \right]$ (6)

肤色显著性的检测效果如图 4所示。

图 4 肤色视觉注意模型结果
Fig. 4 Skin visual attention model ((a) original image;(b) skin saliency map)

1.1.3 静态显著图生成

本文的静态显著图由SMimproved-ittiSMskin线性组合构成。SMimproved-itti的权值为1SMskin的权值为2,表示为

$S{M_{stationary}} = {\partial _1}S{M_{improved - itti}} + {\partial _2}S{M_{skin}}$ (7)

式中,1+2=1。12的值根据实验结果而定,其取值应使得实验取得最好的结果。

1.2 动态显著图

在视频序列中,动态语义特征的显著性远高于与静态特征显著性[11]。行人的运动信息是由运动语义特征体现的。运动分为显著运动以及非显著(干扰)运动[18-19],本文中显著运动即行人的运动,而复杂环境中的干扰运动,比如晃动的树叶等是待滤除的运动信息。对于滤波后的运动矢量场,采用基于时空域运动矢量熵值[15]的方法计算显著性,生成运动显著图。

1.2.1 语义特征—运动信息

运动信息可以通过光流计算得到[20]。通常,光流计算是全局均匀取点,计算量大并且针对目标而言,缺少针对性。因此,将帧差法与光流法相结合,初步提取运动区域后,再计算其光流特征。

运动语义特征的提取包括3个步骤:帧差法提取具有运动信息的像素点、光流法计算运动矢量场、滤波去除非显著的运动矢量。

首先,对连续两帧图像F(x,y,t)F(x,y,t+1)计算帧差Fdifference(x,y,t),即

$T = F\left( {x,y,t + 1} \right) - F\left( {x,y,t} \right)$ (8)

${F_{difference}}\left( {x,y,t} \right) = \left\{ \begin{array}{l} {v_{i,j}}\;\;\;T > {T_d}\\ 0\;\;\;\;\;\;其他 \end{array} \right.$ (9)

式中,帧差阈值Td取值10。

其次,在帧差法基础上采用基于梯度的Lucas-Kanade光流法对具有运动信息的像素点进行光流计算,由此得到相应的图像运动矢量场。光流是空间物体在观测成像面上像素运动的瞬时速度。Lucas-Kanade光流法假设中心像素pn×n邻域内像素运动一致,则邻域内每一点的光流特征都满足光流基本约束方程。令中心像素p的速度矢量P=(u,v)。则

$\left[ {\begin{array}{*{20}{c}} {{I_x}\left( {{p_1}} \right)}&{{I_y}\left( {{p_1}} \right)}\\ {{I_x}\left( {{p_2}} \right)}&{{I_y}\left( {{p_2}} \right)}\\ \vdots & \vdots \\ {{I_x}\left( {{p_{n \times n}}} \right)}&{{I_y}\left( {{p_{n \times n}}} \right)} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} u\\ v \end{array}} \right] = - \left[ {\begin{array}{*{20}{c}} {{I_t}\left( {{p_1}} \right)}\\ {{I_t}\left( {{p_2}} \right)}\\ \vdots \\ {{I_t}\left( {{p_{n \times n}}} \right)} \end{array}} \right]$ (10)

式中,Ix(pi)、Iy(pi)、It(pi)分别为pi像素点在x、y、t方向上的梯度。将式(10)表示为A[u  v]T=b,则光流特征为

$\left[ {\begin{array}{*{20}{c}} u\\ v \end{array}} \right] = {\left( {{A^T}A} \right)^{ - 1}}{A^T}b$ (11)

计算由帧差法得到的运动像素点的光流特征,得到运动矢量场。

最后,滤除干扰运动矢量,定义阈值TL,对每个运动矢量Pi,jx、y分量分别滤波,在去除不必要的干扰运动矢量的同时,为下一小节中运动显著度的生成减小计算量。

${u_{i,j}} = \left\{ {\begin{array}{*{20}{c}} {{u_{i,j}}}&{\left| {{u_{i,j}}} \right| > {T_L}}\\ 0&{其他} \end{array}} \right.$ (12)

${v_{i,j}} = \left\{ {\begin{array}{*{20}{c}} {{v_{i,j}}}&{\left| {{v_{i,j}}} \right| > {T_L}}\\ 0&{其他} \end{array}} \right.$ (13)

1.2.2 运动显著图生成

本文采用基于时空域运动矢量熵值[11]的方法计算运动显著图。分别采用运动强度因子I、空间一致性因子Cs、时间相位一致性因子Ct3个指标计算运动显著性。其中,运动强度因子I表征运动的能量,定义为

${I_{i,j}} = \frac{{\sqrt {u_{i,j}^2 + v_{i,j}^2} }}{{\max \left( {\sqrt {{U^2} + {V^2}} } \right)}}$ (14)

式中,(ui,j,vi,j)表示运动矢量Pi,jx、y方向上的分量,分母部分为运动矢量场中矢量的最大长度,UV代表了任意的ui,jvi,j分量对。一般来说幅度越大的运动越能吸引人眼的注意,因此运动强度因子I与运动显著性的大小呈正比。

空间一致性因子Cs表示运动矢量的空间一致性,在区域窗口w×w中具有一致性的运动矢量属于运动物体的可能性高。Pi,jw×w窗口中的运动矢量,其相位角为θi,j。Cs定义为

${C_s}\left( {i,j} \right) = - \sum\limits_{t = 1}^n {{p_s}\left( t \right)\log \left( {{p_s}\left( t \right)} \right)} $ (15)

${p_s}\left( t \right) = SH_{i,j}^w/\sum\limits_{k = 1}^n {SH_{i,j}^w\left( k \right)} $ (16)

式中,SHi,jw(t)是空间相位θi,j的直方图,ps(t)是空间相位直方图的概率分布,n是直方图的柱状条块个数。当某块区域运动矢量的相位一致性高即熵值小的时候,表明该运动区域属于同一个运动物体的可能更高。

类似的,在长度为L帧的滑动窗口内定义时间相位一致性因子Ct

${C_t}\left( {i,j} \right) = - \sum\limits_{t = 1}^n {{p_t}\left( t \right)} \log \left( {{p_t}\left( t \right)} \right)$ (17)

${p_t}\left( t \right) = TH_{i,j}^L\left( t \right)/\sum\limits_{k = 1}^n {TH_{i,j}^L\left( k \right)} $ (18)

式中,THi,jL(t)是时间相位直方图,pt(t)是时间相位直方图的概率分布,n仍是直方图的柱状条块个数。对于连续几帧的运动矢量熵值,熵值越大则运动越显著。

将3个指标以公式的形式组合,得到运动显著图

$S{M_{motion}} = I \times {C_t} \times \left( {1 - I \times {C_s}} \right)$ (19)

得到运动显著结果如图 5所示。

图 5 动态显著图
Fig. 5 Motion visual attention model ((a)original image; (b) motion saliency map)

1.3 总显著图

时空域融合的视觉注意模型由静态显著图SMstationary以及动态显著图SMmotion线性组合构成,表示为

$SM = {\beta _1}S{M_{stationary}} + {\beta _2}S{M_{motiom}}$ (20)

式中,β1SMstationary的权值,β2SMmotion的权值,β1+β2=1。

对于视频对象中的行人检测来说动态特征的显著性占主导地位,应给予SMmotion更高的权值。

1.4 视觉注意焦点的转移

人眼通过视点的转移,将需要观察位置的光线对准在视网膜中心凹处以实现仔细的观察,以此完成对场景的搜索。基于人眼的这种机制,Koch等人[21]提出了赢者取全神经网络(WTA)以及返回抑制(IR)的机制,完成视觉注意焦点(FOA)的选择和转移。

对于得到的显著图,WTA神经网络找到显著图中显著性最高的位置,作为视觉注意焦点。显著图和WTA神经网络构成两层的2维积分发放神经元阵列,上下层分别对应WTA神经网络和显著图,如图 6所示。显著图中像素值对应着输入电流,显著图中每个神经元通过电阻转换成输入电流,对上层神经元充电。由于WTA网络神经元的时间常数比显著图神经元的时间常数小,因而电位上升比显著图快。当上下层电势差达到门限值之后,上层最先放电的神经,对应着显著图中显著度最大的神经元,即视觉注意焦点。

图 6 视觉注意焦点的选择与转移
Fig. 6 FOA selection and shifts

对于已检测到的视觉注意焦点,WTA网络对底层显著图发出起到抑制作用的反馈信号,抑制的中心在注意焦点的位置。并采用阈值分割的方法对显著图进行显著区域的提取,将显著区域作为抑制的作用范围。这种返回抑制的机制保证了选择不同的视觉注意焦点,以完成视点转移。本文采取视觉注意焦点的方法完成行人检测,对于本文方法得到的显著图,通过视觉注意焦点的选择和转移实现监控场景下的行人目标检测。

2 实验结果与分析

在Matlab2009a平台上进行实验验证。实验样本取自标准数据库以及实拍视频。静态图像样本来自MIT和CAT2000视点数据库,数据库中包含原图以及对应的由眼动仪采集的十几位1835岁被测者的视点显著图。视频测试样本来自iLIDS database of AVSS 2007 conference标准库,以及实拍视频。

首先,通过实验确定模型中的参数,并进行有效性验证;其次,将本文提出的模型与Itti视觉注意模型、GBVS模型、PQFT模型以及文献[12]的方法进行对比实验,实验结果表明了本文提出的结合语义的视觉注意模型在监控视频下的行人检测中取得了更好的效果。

2.1 模型参数的确定

首先,确定静态显著图SMstationary中参数12的值。从MIT和CAT2000视点数据库中选择150幅包含行人的图像,对于每幅图像,计算其Itti视觉注意显著图SMitti、肤色显著图SMskin,并计算出不同12权值组合下的静态显著图。将这些静态显著图与对应的视点显著图进行比较。

AUC(area under ROC curve)指标可以用于评价本文计算出的显著图与视点显著图的吻合度。AUC是ROC(receiver operating characteristic)曲线的曲线下面积,ROC是2维平面上的曲线,横坐标是假正率(FPR),纵坐标是真正率(TPR)。对计算得到的显著图,设定不同的阈值得到多幅二值图像,将这些二值图与视点显著图相同阈值下的二值图进行比较得到不同的TPR和FPR点对,作出ROC曲线如图 7所示。图 7中的虚线表示随机情况下的ROC曲线,即随机情况下AUC值为0.5。AUC值越大表示分类效果越好,即计算出的显著图与人眼视觉显著图的吻合度越高。

图 7 ROC曲线图
Fig. 7 ROC curve

计算实验图像在不同12权值下的静态显著图与视点显著图之间的AUC值,得到曲线如图 8所示。其中横坐标为肤色显著图SMskin在静态显著图中的权值2,纵坐标为150幅实验图像的均AUC值。

图 8 静态显著模型参数实验结果
Fig. 8 Experimental results of stationary model parameters

图 8分析得出,当2=0.75时平均AUC值最大,即静态显著图SMstationary与对应的视点显著图最为吻合。由此,静态显著图为

$S{M_{stationary}}{\rm{ = }}0.25S{M_{{\rm{itti}}}} + 0.75S{M_{skin}}$ (21)

可以看出,结合肤色语义特征的SMskin在静态显著图SMstationary中起着主导的作用。在人类的视觉注意中,自上而下的任务驱动型注意起着主导作用[10],实验结果符合心理学理论。

为了验证本文提出的静态显著图的有效性,计算出3种显著图与视点显著图之间的平均AUC值如表 1所示。可以看出,肤色显著图的AUC值比Itti显著图提高了6.45%,此外,静态显著图的AUC值则比Itti显著图提高了9.22%。

表 1 显著图与视点结果的平均AUC值
Table 1 AUC value for saliency maps

下载CSV
显著图平均AUC
SMitti0.554 7
SMskin0.619 2
SMstationary0.646 9

通过不同视觉注意模型下的显著图与标准视点显著图的比较实验,进一步地阐述本文提出的静态显著图的准确性。图 9分别显示了3种场景下的实验结果。可以看出,由于场景的干扰,Itti模型检测出的显著区域与视点显著图可能有较大的不同,肤色显著图包含了人体区域,与视点显著图的吻合度较高。而静态显著图不仅包含了场景中的显著区域,还包含了人体区域,较好地模拟了人眼的视觉注意效果。

图 9 3种场景下的实验结果
Fig. 9 Experimental results under three secenes ((a) original images; (b) gaze maps; (c) Itti saliency maps;(d) skin saliency maps; (e) static saliency maps)

此外,动态语义特征的显著性远高于静态显著性[14]。对于监控视频下的行人检测,运动特征十分重要。针对动态显著图SMmotion,通过实验发现,当SMmotion的权值β2=0.7,静态显著图SMstationary的权值β1=0.3时,得到的总显著图在实验中取得了最好的效果。即

$SM = 0.3S{M_{stationary}} + 0.7{S_{motion}}$ (22)

在总显著图中,设定阈值分别滤除显著性不高以及占图像面积比例过小的显著区域,最后通过视觉注意焦点的转移完成行人检测。

2.2 行人检测实验

行人检测实验在标准视频库以及实拍视频中选取6段视频进行验证。实验在Matlab R2012a平台上进行实验仿真。本文选取3段典型视频序列的实验结果作为阐述,如图 10图 12所示,分别展示了4段视频序列中一帧图像的实验结果,以说明算法在不同场景下的鲁棒性。图 10图 12中第1行是显著图,第2行是视觉注意焦点转移的结果。分别采用Itti模型、GBVS模型、PQFT模型、文献[12]方法以及本文提出的模型进行实验对比。

图 10 视频序列1
Fig. 10 Video sequence 1((a) the proposed model; (b)Itti model; (c) GBVS model; (d) PQFT model;(e) the model in reference[12])
图 11 视频序列2
Fig. 11 Video sequence 2 ((a) the proposed model; (b)Itti model; (c) GBVS model; (d) PQFT model;(e) the model in reference[12])
图 12 视频序列3
Fig. 12 Video sequence 3 ((a) the proposed model; (b)Itti model; (c) GBVS model; (d) PQFT model; (e) the model in reference[12])

图 10为校园监控场景下的实拍视频。将行人进行编号以更清晰地分析实验结果。靠近花坛的1号同学为静止状态,2、3、4号为运动行人,其中4号行人的运动速度明显快于其他两人。在基于初级视觉特征的Itti模型、GBVS模型以及PQFT模型计算出的显著图中,场景的显著性有时高于行人区域的显著性。Itti模型和PQFT模型经过了较多的视觉转移次数才检测到所有的行人。GBVS模型甚至造成了行人的漏检。文献[12]的方法对运动行人检测效果较好,但是无法检测到静止行人,另外对阴影比较敏感。本文提出结合肤色和运动语义特征的显著图排除了误检区域,经过4次视觉焦点转移成功检测到了4名行人。可以看出速度最快的行人最先被注意到,符合人眼的注意机制。

图 11为微风天气下带有树叶晃动的实拍视频。Itti模型和PQFT模型造成了漏检或者是较多的视觉转移次数,GVBS模型、文献[12]方法和本文模型取得了较好的效果。

图 12中的视频序列取自iLIDS database of AVSS 2007 conference标准库,为地铁站台监控视频。由于地铁站的灯光以及右侧红色标志的干扰,Itti模型、GVBS模型和PQFT模型均未获得好的检测效果。文献[12]方法在车站室内光照和光滑路面的场景下,检测到大量的阴影,对行人检测造成一定影响。本文模型用较少的视觉焦点转移次数检测到了较多的行人,除了小孩的显著性不高未检测到以外,其他所有行人,包括红色标志上方玻璃后面的行人均成功检测。

为了进一步从数学统计上验证本文方法的有效性和准确率,选取上述实验的视频序列1进行视觉注意焦点正确率的统计。视频序列1来自实拍视频,总共286帧图像,帧率为10 帧/s,分辨率512×288 像素。视频序列中包含4个行人,其中1名静止,另外3人来回走动。本文分别采用5种视觉注意模型进行对比实验,当行人被选做视觉焦点时认为检测成功,但是当视觉焦点转移到被选择过的行人时则视为无效。图 13图 16显示了视频序列中4帧的实验结果。表 2显示了5种模型在前4个视觉注意焦点选择内成功检测到的行人个数。从表 2可以看出,本文方法取得了最好的效果,在4个注意焦点转移内平均每帧成功检测3.72个行人,准确率达到93%。图 17表 2的柱状图。表 3显示了5种模型的平均耗时。Itti模型以及PQFT模型算法效率较高。文献[12]方法采用混合高斯模型生成背景,在matlab平台下算法效率较低,但现有的混合高斯模型背景减方法在C语言平台下已能够实现视频序列的实时检测。本文的模型在5种模型中排第4,耗时的主要原因是运动显著图的计算包含大量的循环语句,在matlab环境下十分耗时,而C语言对于循环语句处理比较快速,可考虑移植到C语言平台上解决实时性的问题。

图 13 第8帧
Fig. 13 The 8th frame ((a) the proposed model; (b) Itti model; (c) GBVS model; (d) PQFT model; (e) the model in reference [12])
图 14 第56帧
Fig. 14 The 56th frame ((a) the proposed model; (b) Itti model; (c) GBVS model; (d) PQFT model; (e) the model in reference [12])
图 15 第123帧
Fig. 15 The 123rd frame ((a) the proposed model; (b) Itti model; (c) GBVS model; (d) PQFT model; (e) the model in reference [12])
图 16 第189帧
Fig. 16 The 189th frame ((a) the proposed model; (b) Itti model; (c) GBVS model; (d) PQFT model; (e) the model in reference [12])

表 2 5个模型行人检测的结果
Table 2 Pedestrian detection results of five models

下载CSV
/人
模型第1个视点第2个视点第3个视点第4个视点平均每帧
本文2862862832103.72
Itti2692631652443.29
GBVS2771842512353.31
PQFT1822532692543.34
文献[12]2862862801173.38
图 17 4次视点转移的行人检测效果
Fig. 17 People detection results within four fixations

表 3 平均耗时
Table 3 Average time cost per frame

下载CSV
模型平均耗时/(s/帧)
本文1.871 0
Itti0.666 8
GBVS1.186 4
PQFT0.547 8
文献[12]2.763 0

3 结 论

本文提出了一种视觉注意机制下结合语义特征的行人检测方法。该方法在颜色、亮度、方向等初级视觉特征的基础上,融合行人肤色的语义特征,将自下而上和自上而下的注意相结合,完善静态视觉注意模型。另外,结合时间域的运动语义特征,构建时空域融合的视觉注意模型,并通过实验计算出特征权重的最佳组合方式。实验结果表明,在监控视频下的行人检测中,与认知视觉注意模型、GBVS模型、PQFT模型以及文献[12]的方法相比,本文提出的视觉注意模型在不同的场景下鲁棒性能最好,并具有较高的正确率。但是依然存在少数漏检的情况。因此,如何减少行人的漏检以及提高算法的实时性,有待进一步的研究。

参考文献

  • [1] Ren Z X, Gao S H, Chia L T, et al. Region-based saliency detection and its application in object recognition[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2014 ,24 (5) : 769 –779. [DOI:10.1109/TCSVT.2013.2280096]
  • [2] Mahadevan V, Vasconcelos N. Biologically inspired object tracking using center-surround saliency mechanisms[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013 ,35 (3) : 541 –554. [DOI:10.1109/TPAMI.2012.98]
  • [3] Chang K Y, Liu T L, Chen H T, et al. Fusing generic objectness and visual saliency for salient object detection[C]//Proceedings of IEEE International Conference on Computer Vision. Barcelona: IEEE, 2011: 914-921. [DOI: 10.1109/ICCV.2011.6126333]
  • [4] Itti L, Koch C. Computational modelling of visual attention[J]. Nature Reviews Neuroscience, 2001 ,2 (3) : 194 –203. [DOI:10.1038/35058500]
  • [5] Itti L. Models of bottom-up and top-down visual attention[D]. California: California Institute of Technology, 2000.
  • [6] Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998 ,20 (11) : 1254 –1259. [DOI:10.1109/34.730558]
  • [7] Schölkopf B, Platt J, Hofmann T. Graph-based visual saliency[C]//Proceedings of the 2006 Conference on Advances in Neural Information Processing Systems 19. London: MIT Press, 2007: 545-552.
  • [8] Hou X D, Zhang L Q. Saliency detection: a spectral residual approach[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis, MN: IEEE, 2007: 1-8. [DOI: 10.1109/CVPR.2007.383267]
  • [9] Guo C L, Ma Q, Zhang L M. Spatio-temporal saliency detection using phase spectrum of quaternion fourier transform[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK: IEEE, 2008: 1-8. [DOI: 10.1109/CVPR.2008.4587715]
  • [10] Einhäuser W, Spain M, Perona P. Objects predict fixations better than early saliency[J]. Journal of Vision, 2008 ,8 (14) : 1 –26. [DOI:10.1167/8.14.18]
  • [11] Mahapatra D, Winkler S, Yen S C. Motion saliency outweighs other low-level features while watching videos[C]//Rogowitz B E, Pappas T N. Proceedings of PIE 6806, Human Vision and Electronic Imaging XIII. San Jose, CA: SPIE, 2008: 129-132. [DOI: 10.1117/12.766243]
  • [12] Liu H, Shi Y. Robust visual tracking based on selective attention shift[C]//Proceedings of IEEE Control Applications & Intelligent Control. Saint Petersburg: IEEE, 2009: 1176-1179. [DOI: 10.1109/CCA.2009.5281116]
  • [13] Guo W, Xu C S, Ma S D, et al. Visual attention based motion object detection and trajectory tracking[C]//Proceedings of the 11th Pacific Rim Conference on Multimedia. Berlin: Springer, 2010: 462-470. [DOI: 10.1007/978-3-642-15696-0_43]
  • [14] Ouerhani N, Hugli H. A model of dynamic visual attention for object tracking in natural image sequences[C]//Proceedings of Computational Methods in Neural Modeling. Berlin: Springer,2003: 702-709. [DOI: 10.1007/3-540-44868-3_89]
  • [15] Ma Y F, Zhang H J. A model of motion attention for video skimming[C]//Proceedings of International Conference on Image Processing. Rochester, NY: IEEE, 2002, 1: I-129-I-132. [DOI: 10.1109/ICIP.2002.1037976]
  • [16] Wu Z D, Wang S C, Han Z C. A Bayesian approach to skin detection in YCbCr color space[C]//Proceedings of IEEE International Joint Conference on Awareness Science and Technology and Ubi-Media Computing. Aizuwakamatsu: IEEE, 2013: 606-610. [DOI: 10.1109/ICAwST.2013.6765511]
  • [17] Ketenci S, Gencturk B. Performance analysis in common color spaces of 2D Gaussian Color Model for skin segmentation[C]//Proceedings of IEEE EUROCON. Zagreb: IEEE, 2013: 1653-1657. [DOI: 10.1109/EUROCON.2013.6625198]
  • [18] Tian Y L, Hampapur A. Robust salient motion detection with complex background for real-time video surveillance[C]//Proceedings of the 7th IEEE Workshops on Application of Computer Vison. Breckenridge, CO: IEEE, 2005: 30-35. [DOI: 10.1109/ACVMOT.2005.106]
  • [19] Guraya F F E, Cheikh F A, Trémeau A, et al. Predictive saliency maps for surveillance videos[C]//The 9th International Symposium on Distributed Computing and Applications to Business Engineering and Science. Hong Kong, China: IEEE, 2010: 508-513. [DOI: 10.1109/DCABES.2010.160]
  • [20] ZhaoG, Wang X L, Wang L R. Motion analysis and research of local navigation system for visual-impaired person based on improved LK optical flow[C]//Proceedings of the 5th IEEE International Conference on Intelligent Networks and Intelligent Systems. Tianjin: IEEE, 2012: 348-351. [DOI: 10.1109/ICINIS.2012.80]
  • [21] Koch C, Ullman S. Shifts in selective visual attention: towards the underlying neural circuitry[J]. Human Neurobiology, 1985 ,4 (4) : 219 –227.