Robust correlation filtering-based tracking by multifeature hierarchical fusion
Lu Guozhi, Peng Dongliang, Gu Yu
Fundamental Science on Communication Information Transmission and Fusion Technology Laboratory, Hangzhou Dianzi University, Hangzhou 310018, China
Supported by: National Natural Science Foundation of China (61771177, 61375011)

target tracking; correlation filter; multi-feature fusion; hierarchical fusion; feature response map

# 1 多通道相关滤波跟踪原理

$d$ 通道目标外观模板为 $\mathit{\boldsymbol{f }}$ ，其第 $l$ 个通道特征表示为 $\mathit{\boldsymbol{f }} ^l$ $\{l\in{1, \cdots , d}\}$ 。记相关滤波器为 $\mathit{\boldsymbol{h }}$ ，其由 $d$ 个单通道滤波器 $\mathit{\boldsymbol{h }}^l$ 组成。多通道相关滤波跟踪算法通过最小化训练损失函数 $ε$ 求取 $\mathit{\boldsymbol{h }}$ ，即

 $\varepsilon = {\left\| {\mathit{\boldsymbol{g-}}\sum\limits_{l = 1}^d {{\mathit{\boldsymbol{h}}^l} * {\mathit{\boldsymbol{f}}^l}} } \right\|^2} + \lambda \sum\limits_{l = 1}^d {{{\left\| {{\mathit{\boldsymbol{h}}^l}} \right\|}^2}}$ (1)

 ${\mathit{\boldsymbol{H}}^l} = \frac{{\mathit{\boldsymbol{\bar G}}{\mathit{\boldsymbol{F}}^l}}}{{\sum\limits_{k = 1}^d {{{\mathit{\boldsymbol{\bar F}}}^k}{\mathit{\boldsymbol{F}}^k} + \lambda } }};\;\;\;l = 1, \cdots, d$ (2)

 $\begin{array}{l} \mathit{\boldsymbol{A}}_{_t}^{^l} = \left( {1-\eta } \right)\mathit{\boldsymbol{A}}_{_{t-1}}^{^l} + \eta \mathit{\boldsymbol{\bar GF}}_{_t}^{^l};\;\;\;\;\;l = 1, \cdots, d\\ {\mathit{\boldsymbol{B}}_t} = \left( {1-\eta } \right){\mathit{\boldsymbol{B}}_{t - 1}} + \eta \sum\limits_{k = 1}^d {\mathit{\boldsymbol{\bar F}}_{_t}^{^k}\mathit{\boldsymbol{F}}_{_t}^{^k}} \end{array}$ (3)

 ${y_t} = {F^{-1}}\left\{ {\frac{{\sum\limits_{l = 1}^d {\mathit{\boldsymbol{\bar A}}_{_{t-1}}^{^l}\mathit{\boldsymbol{Z}}_{_t}^{^l}} }}{{{\mathit{\boldsymbol{B}}_{t-1}} + \lambda }}} \right\}$ (4)

# 2.1.2 颜色直方图特征

 $\begin{array}{l} {\varepsilon _{{\rm{hist}}}} = \frac{1}{{\left| \mathit{\boldsymbol{O}} \right|}}\sum\limits_{u \in O} {{{\left( {{\mathit{\boldsymbol{\beta }}^{\rm{T}}}\mathit{\boldsymbol{\varphi }}\left[u \right] - 1} \right)}^2} + } \\ \;\;\;\;\;\;\;\;\frac{1}{{\left| \mathit{\boldsymbol{B}} \right|}}\sum\limits_{u \in B} {{{\left( {{\mathit{\boldsymbol{\beta }}^{\rm{T}}}\mathit{\boldsymbol{\varphi }}\left[u \right]} \right)}^2}} \end{array}$ (5)

 ${\mathit{\boldsymbol{\beta }}^j} = \frac{{{\mathit{\boldsymbol{\rho }}^j}\left( \mathit{\boldsymbol{O}} \right)}}{{{\mathit{\boldsymbol{\rho }}^j}\left( \mathit{\boldsymbol{O}} \right) + {\mathit{\boldsymbol{\rho }}^j}\left( \mathit{\boldsymbol{B}} \right) + \lambda }};\;\;\;\;\;j = 1, \cdots, M$ (6)

PSR的计算公式为

 $P = \frac{{\max \left( {{y_t}} \right)-{u_\mathit{\Phi} }\left( {{\mathit{\boldsymbol{y}}_t}} \right)}}{{{\sigma _\mathit{\Phi} }({\mathit{\boldsymbol{y}}_t})}}$ (8)

SCCM越小，PSR值越大，表明对应特征的跟踪结果可信度越高，在模板特征融合时应该赋予更大的权重。基于以上考虑，设计的自适应特征融合权重计算公式为

 ${w_{{\rm{CN}}}} = \frac{{\frac{{{P_{{\rm{CN}}}}}}{{{S_{{\rm{CN}}}}}}}}{{\frac{{{P_{{\rm{CN}}}}}}{{{S_{{\rm{CN}}}}}} + \frac{{{P_{{\rm{HOG}}}}}}{{{S_{{\rm{HOG}}}}}}}}$ (9)

 ${w_{{\rm{CN}}, t}} = \left( {1-\tau } \right) \times {w_{{\rm{CN}}, t-1}} + \tau \times {w_{{\rm{CN}}}}$ (10)

 ${\mathit{\boldsymbol{y}}_{{\rm{tmpl}}}} = {w_{{\rm{CN}}}} \times {\mathit{\boldsymbol{y}}_{{\rm{CN}}}} + \left( {1-{w_{{\rm{CN}}}}} \right) \times {\mathit{\boldsymbol{y}}_{{\rm{HOG}}}}$ (11)

# 2.2.2 固定系数特征融合

 ${\mathit{\boldsymbol{y}}_{{\rm{trans}}}} = \alpha \times {\mathit{\boldsymbol{y}}_{{\rm{hist}}}} + \left( {1-\alpha } \right) \times {\mathit{\boldsymbol{y}}_{{\rm{tmpl}}}}$ (12)

# 2.4 算法流程

1) 在第 $t$ 帧的目标估计位置 $p_t$ 处和尺度 $s_t$ 上，提取HOG和CN特征，通过式(3)更新滤波器 $\boldsymbol{H }_{\rm{HOG}}$ $\boldsymbol{H } _{\rm{CN}}$ 和尺度滤波器 $\boldsymbol{H } _{\rm{scale}}$ 。提取$\mathit{\boldsymbol{\rho }}(\mathit{\boldsymbol{O}}) $$\mathit{\boldsymbol{\rho }}(\mathit{\boldsymbol{B}}) 特征，通过线性插值方法更新 {\mathit{\boldsymbol{\rho }}_t}(\mathit{\boldsymbol{O}})$$ {\mathit{\boldsymbol{\rho }}_t}(\mathit{\boldsymbol{B}})$

2) 在第 $t+1$ 帧的 $p_t$ 处和尺度 $s_t$ 上，提取HOG和CN特征位置候选样本，通过式(4)分别得到 $\boldsymbol{y}_{\rm{HOG}}$ $\boldsymbol{y}_{\rm{CN}}$ 。通过式(10)进行融合权重 $w_{\rm{CN}}$ 更新。通过式(6)和积分图技术，在候选样本 $\boldsymbol{Z}$ 上计算得到 $\boldsymbol{y} _{\rm{hist}}$

3) 通过式(11)进行自适应特征融合得到 $\boldsymbol{y}_{\rm{tmpl}}$ 。通过式(12)进行固定系数特征融合得到位置响应图 $\boldsymbol{y}_{\rm{trans}}$ ，通过 $\boldsymbol{y}_{\rm{trans}}$ 的峰值位置得到第 $t+1$ 帧目标估计位置 $p_{t+1}$

4) 在第 $t+1$ 帧的目标估计位置 $p_{t+1}$ 处，提取HOG特征尺度候选样本，通过式(4)得到尺度响应图 $\boldsymbol{y}_{\rm{scale}}$ ，通过 $\boldsymbol{y}_{\rm{scale}}$ 的峰值位置得到第 $t+1$ 帧目标估计尺度 $s_{t+1}$

5) 输出第 $t+1$ 帧目标位置 $p_{t+1}$ 和目标尺度 $s_{t+1}$ 。返回1)，跟踪下一帧。

# 3.3.3 多特征分层融合参数分析

$α$ 固定为0.3时，学习系数 $τ$ 的变化对算法的准确率影响较小，这从另一方面表明了HOG和CN特征的有效性和互补性。当 $τ$ 为0.2时，算法准确率最高。 $τ$ 固定为0.2时，融合系数 $α$ 的变化对算法的准确率影响很大。当 $α$ 系数大于0.45时，随着 $α$ 的增大，算法准确率会随之下降。 $α$ 为1时，算法只利用颜色直方图特征，算法准确率最低，说明了颜色直方图特征的局限性。当 $α$ 为0.3时，算法准确率最高，因此实验中取 $τ$ 为0.2， $α$ 为0.3。

# 3.4 与5种主流基于相关滤波的跟踪算法对比分析

Table 1 Summary and comparison of the six kinds of algorithms

 算法 特征组合 特征融合方法 尺度自适应 Gray HOG CN 颜色直方图 合并成多通道特征 加权融合 CN[8] √ √ √ × KCF[7] √ × SAMF[10] √ √ √ √ √ DSST[9] √ √ √ √ Staple[17] √ √ √ √ √ √ 本文 √ √ √ √ √ √ 注：√表示是，×表示否。

# 3.4.1 OTB-2013实验结果

Table 2 Average speed of six tracking algorithms on OTB-2013

 本文 Staple[17] SAMF[10] DSST[9] KCF[7] CN[8] 平均速度/(帧/s) 21.3 41.4 10.4 25.3 131.1 99.5

# 3.4.2 VOT-2014实验结果

VOT-2014的实验类型包含baseline和region noise两种，其中region noise实验是测试算法在干扰情况下的跟踪性能。本文算法没有随机性，在baseline实验上做了3次仿真卡罗模拟，在region noise实验上做了5次仿真卡罗模拟。表 3为本文算法与对比算法在VOT-2014上的跟踪结果，可以看出，本文算法在baseline和region noise实验中的鲁棒性均好于其他算法，这进一步说明了提出的多特征分层融合策略的有效性。

Table 3 Summary of six kinds of algorithms tracking results on VOT-2014

 算法 baseline实验 region noise实验 Accuracy Robustness Accuracy Robustness CN[8] 0.52 1.68 0.48 1.64 KCF[7] 0.62 1.32 0.57 1.51 SAMF[10] 0.61 1.28 0.57 1.43 DSST[9] 0.62 1.16 0.57 1.28 Staple[17] 0.64 0.96 0.58 1.04 本文 0.62 0.88 0.58 0.95 注：加粗字体为最优结果。

