发布时间: 2018-05-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.170365
2018 | Volume 23 | Number 5

GDC 2017会议专栏

针对用户兴趣的视频精彩片段提取

王晗¹, 俞璜悦¹, 滑蕊¹, 邹玲²

1. 北京林业大学信息学院, 北京 100083;

2. 北京电影学院数字媒体学院, 北京 100088

收稿日期: 2017-07-10; 修回日期: 2017-10-19

基金项目: 国家自然科学基金项目（61703046，31770589）；中央高校基本科研业务费专项基金项目（2015ZCQ-XX）

第一作者简介: 王晗(1986-), 女, 讲师, 2014年于北京理工大学获计算机应用技术专业博士学位, 主要研究方向为图像理解、视频分析、机器学习和计算机视觉等。E-mail:wanghan@bjfu.edu.cn.

中图法分类号: TP391

文献标识码: A

文章编号: 1006-8961(2018)05-0748-08

摘要

目的视频精彩片段提取是视频内容标注、基于内容的视频检索等领域的热点研究问题。视频精彩片段提取主要根据视频底层特征进行精彩片段的提取，忽略了用户兴趣对于提取结果的影响，导致提取结果可能与用户期望不相符。另一方面，基于用户兴趣的语义建模需要大量的标注视频训练样本才能获得较为鲁棒的语义分类器，而对于大量训练样本的标注费时费力。考虑到互联网中包含内容丰富且易于获取的图像，将互联网图像中的知识迁移到视频片段的语义模型中可以减少大量的视频数据标注工作。因此，提出利用互联网图像的用户兴趣的视频精彩片段提取框架。方法利用大量互联网图像对用户兴趣语义进行建模，考虑到从互联网中获取的知识变化多样且有噪声，如果不加选择盲目地使用会影响视频片段提取效果，因此，将图像根据语义近似性进行分组，将语义相似但使用不同关键词检索得到的图像称为近义图像组。在此基础上，提出使用近义语义联合组权重模型权衡，根据图像组与视频的语义相关性为不同图像组分配不同的权重。首先，根据用户兴趣从互联网图像搜索引擎中检索与该兴趣语义相关的图像集，作为用户兴趣精彩片段提取的知识来源；然后，通过对近义语义图像组的联合组权重学习，将图像中习得的知识迁移到视频中；最后，使用图像集中习得的语义模型对待提取片段进行精彩片段提取。结果本文使用CCV数据库中的视频对本文提出的方法进行验证，同时与多种已有的视频关键帧提取算法进行比较，实验结果显示本文算法的平均准确率达到46.54，较其他算法相比提高了21.6%，同时算法耗时并无增加。此外，为探究优化过程中不同平衡参数对最终结果的影响，进一步验证本文方法的有效性，本文在实验过程中通过移除算法中的正则项来验证每一项对于算法框架的影响。实验结果显示，在移除任何一项后算法的准确率明显降低，这表明本文方法所提出的联合组权重模型对提取用户感兴趣视频片段的有效性。结论本文提出了一种针对用户兴趣语义的视频精彩片段提取方法，根据用户关注点的不同，为不同用户提取其感兴趣的视频片段。

关键词

视频检索; 视频精彩片段提取; 视频分析; 知识迁移

Video highlight extraction based on the interests of users

Wang Han¹, Yu Huangyue¹, Hua Rui¹, Zou Ling²

1. School of Information Science & Technology, Beijing Forestry University, Beijing 100083, China;

2. School of Digital Media, Beijing Film Academy, Beijing 100088, China

Supported by: National Natural Science Foundation of China (61703046, 31770589)

Abstract

Objective Video highlight extraction is of interest in video summary, organization, browsing, and indexing. Current research mainly focuses on extraction by optimizing the low-level feature diversity or representativeness of video frames, ignoring the interests of users, which leads to extraction results that are inconsistent with the expectation of users. However, collecting a large number of required labeled videos to model different user interest concepts for different videos is time consuming and labor intensive. Method We propose to learn models for user interest concepts on different videos by leveraging numerous Web images that which cover many roughly annotated concepts and are often captured in a maximally informative manner to alleviate the labeling process. However, knowledge from the Web is noisy and diverse such that brute force knowledge transfer may adversely affect the highlight extraction performance. In this study, we propose a novel user-oriented keyframe extraction framework for online videos by leveraging a large number of Web images queried by synonyms from image search engines. Our work is based on the observation that users may have different interests in different frames when browsing the same video. By using user interest-related words as keywords, we can easily collect weakly labeled image data for interest concept model training. Given that different users may have different descriptions of the same interest concept, we denote different descriptions with similar semantic meanings as synonyms. When querying images from the Web, we use synonyms as keywords to avoid semantic one-sidedness. An image set returned by a synonym is considered a synonym group. Different synonym groups are weighted according to their relevance to the video frames. Moreover, the group weights and classifiers are simultaneously learned by a joint synonym group optimization problem to make them mutually beneficial and reciprocal. We also exploit the unlabeled online videos to optimize the group weights and classifiers for building the target classifier. Specifically, new data-dependent regularizers are introduced to enhance the generalization capability and adaptiveness of the target classifier. Result Our method's mAP achieved 46.54 in average and boosted 21.6% compare to the stat-of-the-art without take much longer time. Experimental results several challenging video datasets that using grouped knowledge obtained from Web images for video highlight extraction is effective and provides comprehensive results. Conclusion We presented a new framework for video highlight extraction by leveraging a large number of loosely labeled Web images. Specifically, we exploited synonym groups to learn more sophisticated representations of source domain Web images. The group classifiers and weights are jointly learned in a unified optimization algorithm to build the target domain classifiers. We also introduced two new data-dependent regularizers based on the unlabeled target domain consumer videos to enhance the generalization capability of the target classifier.

Key words

video retrieval; highlights extraction; video analysis; knowledge transfer

0 引言

随着移动拍摄技术和移动网络的高速发展，每天都有大量的视频数据生成和共享，用户难以从如此海量的视频数据中获取到自己感兴趣的内容。如何有效地对视频精彩片段进行识别、提取，使用户能快速而准确地获取视频中感兴趣的内容成为亟需解决的问题。

传统方法大多基于底层特征对视频精彩片段进行提取^[1-3]，忽略了对用户感兴趣内容的选取。而视频片段提取是一个相对主观的工作，当视频内容较为复杂或者持续时间较长时，不同用户对于同一段视频感兴趣的内容区别较大。例如，对于一场篮球比赛视频，用户感兴趣的内容可能是灌篮、三分球等一些精彩片段，也可能集中在球员的控球姿势、球场走位等技术动作，这导致不同用户对于视频精彩片段提取的期望有所不同。因此，本文考虑能根据用户不同的兴趣点在同一段视频中提取出不同的视频片段。

近年来，通过使用高层语义对视频精彩片段进行提取的研究逐渐引起研究人员的关注。Yao等人^[4]提出可根据用户在互联网中的搜索和点击事件挖掘视频语义，从而对视频进行标注；Ismail等人^[5]指出图像的语义标签和底层特征决定了其是否能被观看者记住并产生兴趣；Wang等人^[6]提出收集联想关键词构建迁移源域，进一步迁移学习后实现视频标注。然而互联网中的视频，通常在由非专业人士随机拍摄，视频中含有大量因抖动引起的模糊现象以及因拍摄场景复杂引起的类内变换^[7]，直接对视频本身进行语义建模需要标注大量的视频，费时费力，且视频中可能存在的模糊、抖动情况将给语义建模带来极大困难。互联网中包含大量已标注信息^[8]，这些图像通常包含丰富信息，且由用户经过挑选上传，能为语义建模提供丰富且质量较好的训练数据，有效避免为获得用户兴趣语义模型而标注大量视频作为训练数据的繁重工作^[9]，通过使用与用户兴趣相关的关键词，在互联网图像搜索引擎中进行检索即可获得大量与用户兴趣语义相关图像集。因此，本文考虑从互联网图像中获取知识，指导基于用户兴趣的视频精彩片段提取。

在使用与用户兴趣相关的关键字进行图像检索时，对于同一个内容，不同用户可能会产生不同的描述。例如，扣篮、灌篮、补扣、大风车等在篮球比赛中都属于同一种语义内容，但这些关键词在互联网中进行检索时，获得的图像集会产生差别^[10]，如图 1。使用单一关键词对兴趣语义相关图像进行检索可能会产生偏差，为搜集尽可能全面的事件知识，本文提出一种基于近义语义检索的联合组权重组学习模型，对不同用户提供的兴趣内容进行近义语义建模。通过对含有近义语义模型的兴趣内容进行再加权联合学习，可获得关于一个用户感兴趣内容更完整的视觉信息。

图 1 近义语义检索得到不同的图像集

Fig. 1 Different image sets retrieved by synonyms

((a) dunk; (b) shoot; (c) salm dunk)

本文提出一种面向用户兴趣的视频精彩片段提取算法。本文算法框架如图 2所示。

图 2 基于用户兴趣的视频精彩片段提取算法框架

Fig. 2 Framework of highlights extraction based on users' interests

1 问题描述

本文的目标是根据用户兴趣对视频进行精彩片段的提取，在对用户兴趣进行语义建模的过程中，考虑从互联网图像中获取知识，以减少对视频标注数据的依赖。将不同用户对同一视频内容的不同描述称为近义语义，不同近义语义之间虽存在差异，但其描述语义内容基本一致，将近义语义进行语义聚类得视频兴趣语义，通过对近义语义模型的联合组权重学习构建最终语义模型。

定义$\mathit{\boldsymbol{Z}} = \left\{ {{\mathit{\boldsymbol{X}}^1}, {\mathit{\boldsymbol{X}}^2}, \cdots, {\mathit{\boldsymbol{X}}^s}} \right\}$为兴趣语义图像集合，$S$指图像组数量，式中${\mathit{\boldsymbol{X}}^s} = \left\{ {\mathit{\boldsymbol{x}}_j^s|_{j = 1}^{{n_s}}} \right\}$表示第$s$个近义语义图像组，${\mathit{\boldsymbol{x}}_j^s}$∈${{\bf{R}}^d}$为图像组${\mathit{\boldsymbol{X}}^s}$的第$j$幅图像，$d$为图像特征维度，${n_s}$指图像组内图像数量。令${\mathit{\boldsymbol{D}}^t} = \left\{ {\mathit{\boldsymbol{x}}_i^t|_{i = 1}^{{N_t}}} \right\}$, ${\mathit{\boldsymbol{x}}_i^t}$∈${{\bf{R}}^d}$表示视频帧特征集，${\mathit{\boldsymbol{x}}_i^t}$指每帧特征向量，${N_t}$表示视频总帧数。

对于每一个兴趣语义使用多个近义语义进行检索，通过检索而得的图像构建近义图像组指导近义语义建模，通过对近义语义模型的联合组权重学习，进一步提高迁移学习有效性，获取更加完整的语义模型，识别内容能更全面地表征用户对于该视频的关注点，有针对性获取用户所需的精彩内容。

2 基于用户兴趣的视频精彩片段提取

2.1 近义图像组分类器预学习

收集不同用户给出的近义描述，根据每一近义语义构建近义图像组，通过语义聚合形成兴趣语义。假设针对该兴趣语义收集了$S$个近义语义图像组构成训练数据，第$s$个图像组的近义语义模型${f_s}\left( {{\mathit{\boldsymbol{x}}^s}} \right)$的一般形式为

$ {f_s}\left( {{\mathit{\boldsymbol{x}}^s}} \right) = {\left( {{\mathit{\boldsymbol{\omega }}^\mathit{s}}} \right)^{\rm{T}}}\varphi \left( {{\mathit{\boldsymbol{x}}^s}} \right) $

(1)

式中，$\varphi \left( {{\mathit{\boldsymbol{x}}^s}} \right)$为图像特征向量，${{\mathit{\boldsymbol{\omega }}^\mathit{s}}}$为特征权重向量。${{\mathit{\boldsymbol{x}}^s}}$为第$s$组图像中单幅图像。使用SVM算法训练图像组数据，将第$s$个图像组中所含的图像视为正样本，其余所有图像组中的图像视为负样本，得到最终近义语义模型。

2.2 联合组权重学习模型

一个兴趣语义由多个图像组构成，图像组从不同角度提供该语义的视觉信息，进一步保证分类结果准确。使用不同近义语义对同一语义信息进行检索所获取的图像集内容会有所差别，若对所有图像集进行平均融合将会忽略图像组之间的差异，考虑联合组语义优化的方式习得近义语义模型的最优权重，采用近义语义模型加权融合的方式获得最终语义模型。语义模型算法结构如图 3，可使用多个近义词对兴趣语义进行描述，分别构建近义词图像组，根据图像组训练基于图像组的子分类器，将多个近义语义模型(图中子分类器)加权融合，即

${F_t}\left( \mathit{\boldsymbol{x}} \right) = \sum\limits_{s = 1}^S {{\alpha _s}} {f_s}\left( {{\mathit{\boldsymbol{x}}^s}} \right) $

(2)

图 3 基于用户兴趣的语义模型知识迁移算法

Fig. 3 Transfer knowledge from web images to videos

式中, ${{\alpha _s}}$表示第$s$个近义语义模型的权重，即第$s$个近义语义图像组与兴趣语义的相关性，定义$\mathit{\boldsymbol{\alpha = }}{\left[{{\alpha _1}, {\alpha _1}, \cdots, {\alpha _S}} \right]^{\rm{T}}}$为所有分组权重的集合，$\mathit{\boldsymbol{x}}$表示近义图像组中图像集合。使用联合优化算法思想求解不同近义语义模型的权重，为提高知识迁移有效性，对语义模型进行优化。

最小化近义语义模型在不同视频数据上的误差。考虑最小化一个联合正则项的目标函数$\Omega \left( {F\left( {{\mathit{\boldsymbol{Z}}_i}} \right)} \right)$，强制近义图像组样本上的决策值尽可能相近, $\Omega \left( {{F_t}\left( x \right)} \right)$可描述为

$ \begin{array}{l} \;\;\;\;\;\;\;\;\;\;\;\Omega \left( {{F_t}\left( \mathit{\boldsymbol{x}} \right)} \right) = \frac{1}{2}{\left\| \mathit{\boldsymbol{\alpha }} \right\|^2} + {\Omega _L}\left( {{F_t}\left( \mathit{\boldsymbol{x}} \right)} \right)\\ {\Omega _L}\left( {{F_t}\left( \mathit{\boldsymbol{x}} \right)} \right) = \sum\limits_{i = 0}^{{N_s}} {\sum\limits_{s = 1}^S {{\alpha _s}\sum\limits_{k = 1, k \ne s}^S {{{\left\| {{f_s}\left( {{\mathit{\boldsymbol{x}}^\mathit{s}}} \right) - {f_k}\left( {{\mathit{\boldsymbol{x}}^\mathit{k}}} \right)} \right\|}^2}} } } \end{array} $

(3)

式中，正则项$\frac{1}{2}{\left\| \mathit{\boldsymbol{\alpha }} \right\|^2}$防止函数过拟合，降低算法复杂度；${\Omega _L}\left( {F_t^i\left( \mathit{\boldsymbol{x}} \right)} \right)$是图像组分类函数在标注数据上的损失函数，约束同一语义在不同的近义图像组应有相似的决策值，使用不同近义描述能得到较为一致的结果，根据测试数据的计算结果调整${{\alpha _s}}$的取值，为效果较好的图像组分配较高的权值，惩罚那些远远偏离中心语义的图像组。

最小化语义模型的分类结果在已标注数据上的误差。定义${\mathit{\boldsymbol{Y}}^i}$为第$i$个图像集标签，使用已标注数据对语义模型进行优化，强制语义模型的决策值尽可能接近视频数据的真实值，将第$i$个图像集中的图像视为正样本，除去$i$以外所有图像集的图像视为负样本，目标函数${\Omega _G}\left( {F_t^i\left( \mathit{\boldsymbol{x}} \right)} \right)$可写为

$ {\Omega _G}\left( {F_t^i\left( \mathit{\boldsymbol{x}} \right)} \right) = \sum\limits_{i = 1}^{{N_s}} {{{\left\| {F_t^i\left( \mathit{\boldsymbol{x}} \right) - {\mathit{\boldsymbol{Y}}^i}} \right\|}^2}} $

(4)

使用二次项对语义模型进行约束，使分类结果尽可能接近标注数据真实值。

整合以上各式，可将联合学习的优化函数$Q\left( \mathit{\boldsymbol{\alpha }} \right)$表示为

$ \begin{array}{l} \;\;\;\;\;\;\;\;\;\mathop {Q\left( \mathit{\boldsymbol{\alpha }} \right)}\limits_{{\rm{min}}\mathit{\alpha }} = \frac{1}{2}{\left\| \mathit{\boldsymbol{\alpha }} \right\|^2} + {\lambda _L}\sum\limits_{i = 0}^{{N_s}} {\sum\limits_{s = 1}^S {{\alpha _s}} } \\ \sum\limits_{k = 1, k \ne s}^S {{{\left\| {{f_s}\left( {{\mathit{\boldsymbol{x}}^\mathit{s}}} \right) - {f_k}\left( {{\mathit{\boldsymbol{x}}^\mathit{k}}} \right)} \right\|}^2}} + {\lambda _G}\sum\limits_{i = 1}^{{N_s}} {{{\left\| {F_t^i\left( \mathit{\boldsymbol{x}} \right) - {\mathit{\boldsymbol{Y}}^i}} \right\|}^2}} \\ \;\;\;\;\;\;\;\;\;\;{\rm{s}}{\rm{.t}}{\rm{.}}\;\;\;\;\;\;\sum\limits_{s = 1}^S {{\alpha _s} = 1} \end{array} $

(5)

式中，${\lambda _L}、{\lambda _G} > 0$为优化平衡参数。

将问题转化为求解等式约束的二次规划，使用拉格朗日乘子求解式(5)最优解${\mathit{\boldsymbol{\alpha }}^ * }$，将优化函数转化为

$ L\left( {\mathit{\boldsymbol{\alpha }}, \lambda } \right) = Q\left( \mathit{\boldsymbol{\alpha }} \right) - {\mathit{\boldsymbol{\mu }}^{\rm{T}}}\left( {\sum\limits_{s = 1}^S {{\alpha _s} = 1} } \right) $

(6)

由KKT条件可知，当 ${\nabla _\alpha }L\left( {\mathit{\boldsymbol{\alpha }}, \mathit{\boldsymbol{\mu }}} \right) = 0$，${\nabla _\mu }L\left( {\mathit{\boldsymbol{\alpha }}, \mathit{\boldsymbol{\mu }}} \right) = 0$时可得最优权值${\mathit{\boldsymbol{\alpha }}^ * }$。

2.3 基于用户兴趣的视频精彩片段提取

将视频均匀分割为较短时长的视频片段，使用随机分布函数，每秒随机抽取一帧构成帧集合用于表征该片段内容。然后将视频帧代入语义模型计算分类结果，将帧集合内所有帧的计算结果累加得该视频片段的分类值，分类值越小表明越有可能为用户感兴趣内容，提取分类值较小的的视频片段作为用户感兴趣的精彩片段。

3 实验

3.1 实验数据库

3.1.1 视频数据集

从CCV数据库^[11]获取视频数据，该数据库包含4 659个训练视频和4 658个测试视频，选取足球运动、篮球比赛、跳水、游泳和生日5类关注点丰富、语义描述多样的视频用于实验。考虑用户对视频片段时长的接受程度，本文将视频分割为若干个4 s片段，采用每秒选取一帧的方式构建帧集合用以表征该视频片段。为进一步保证实验过程客观可靠，邀请来自不同研究领域(包括语言学、物理学、经济管理学、计算机和设计美学)的15位测试员，统计他们对同一型视频期望关注内容的语义描述；然后给出测试视频，要求测试员对视频进行标注，测试员将根据个人偏好对任意的4 s片段进行标注，若认为该片段属于其感兴趣的关注内容，则使用对应的词汇进行描述；最后统计标注结果，发现不同测试员对同一视频片段可能使用不同词汇进行描述，例如{扣篮、灌篮、入樽}3个不同的语义标签被不同的测试员用来描述同一4 s视频片段，本文将描述相同4 s视频片段的描述词认为是近义语义，所表达内容相似，并对其进行语义聚类形成兴趣语义。将最终结果统计如表 1所示。

表 1 用户兴趣描述
Table 1 User-interest semantics

下载CSV

视频类别	关注事件数	近义描述
篮球比赛	3	{扣篮、灌篮、入樽}、{运球、控球}、{开场、跳球}
跳水	2	{入水}、{跳台、跳板}
足球运动	1	{进球、射门、入门、得分}
游泳	1	{到达终点、排名、冠军}
生日视频	2	{吹蜡烛、灭蜡烛}、{切蛋糕}

3.1.2 图像数据集

获取不同用户对视频的不同近义语义，进一步聚合为语义模型，并从互联网中检索与近义语义相关的图像组，通过对近义语义模型的联合组权重学习得最终兴趣语义模型，该模型描述信息全面，符合用户个性。本文使用百度图片搜索引擎，索引得图像组由200~300幅互联网图像构成。

3.2 实验设置

对视频帧及互联网图像分别提取以下特征：

1) SIFT特征^[12]和HOG特征^[13]，通过量化局部特征比较图像与视频帧间的相似性，使用PCA算法将SIFT特征向量降低至2 048维。

2) GIST特征^[14]，由于不同用户兴趣关注点不同，视频常常表现为随意且无重点，这时若通过局部特征去识别图像，计算量无疑巨大，因此利用GIST特征忽略图像的局部特点，用一种更加“宏观”的方式去描述图像，减少计算复杂度；将特征连接为4 324维特征向量，使用k-mean算法将特征向量降低至2 000维左右，构建训练集与测试集数据。进一步，为尽可能客观地对比不同方法间结果的差异，选用平均正确率(AP)、平均正确率均值(mAP)和运行时间(RT)对算法性能进行评价。

3.3 实验结果

3.3.1 方法对比

将本文方法与下列视频精彩片段提取方法进行对比:

1) 子空间配准法。将测试帧与训练图像看做不同空间上的特征集合，采用构建特征子空间的方式连接两个空间中不同特征，从而对测试帧与训练图像进行相似度比较。

2) GFK核函数法。将源域(训练图像集)和目标域(测试帧集合)的数据在Grassmann流形空间标记并连接，通过核函数最大程度地拟合不同域间的差异，得到与源域数据最相近的目标域视频提取结果。

3) 随机选取法。构造随机模拟器，模拟生成多个在[0, 1]服从均匀分布的随机样本点$\nu $，得到随机数$rand = \nu \cdot \left( {{N_S} \cdot {n_s}} \right)$，从测试视频中选取对应帧图像所在的视频片段作为视频精彩片段，该方法不考虑用户需求且不使用图像特征进行训练。

4) 颜色直方图比较法。考虑使用文献[17]提出的基于RGB颜色特征聚类算法，对训练图像和视频帧进行基于颜色特征的聚类，定义4个聚类中心对彩色图像进行迭代聚类，将图像每个像素的R、G和B的值都分成4×4区域，统计直方图颜色信息，并对比测试图像与训练帧间颜色直方图的欧式距离进行精彩片段提取。

5) 不使用联合组权重学习的底层特征比较法。使用PCA算法对本文算法中提取的4 324维特征向量(颜色直方图、SIFT(尺度不变特征变换)、GIST(空间包络特征)和HOG2×2 (方向梯度直方图))降至2 000维左右，然后直接计算测试图像与视频帧特征空间的KNN(k-NearestNeighbor)距离，不采用任何分类函数构建分类器，设定$k=4$，提取距离较小的视频帧所在的视频片段作为视频精彩片段。

基于DAG-SVM的线性分类法。在获取用户对视频的兴趣语义后，使用platt^[18]提出的分类算法，针对${{N_S}}$个兴趣语义构造${N_S} = \left( {{N_S} - 1} \right)$个分类器(节点)，所有分类器构成两面有向无环图，当对测试帧进行分类时，从顶部根结点开始逐层细分直到底部叶子节点，每一段视频导入后将根据分类结果对视频帧进行标记提取。

其中，子空间配准法(DA-SA^[15])及GFK核函数法(GFK^[16])运用了迁移学习的算法思想。

图 4展示了不同精彩片段提取方法与本文方法的mAP对比，图 5给出不同算法运行时间。由提取结果可看出，DA-SA算法和GFK算法在最后结果上表现相似，由于足球视频多采用航拍方式，画面中物体较小，在图像归一化中易将关键信息忽略^[19]，因此该类视频mAP仅有0.23和0.24。对比DAG-SVM算法结果和本文方法结果可以看出，同样使用基于支持向量机(SVM)分类的基本思想，本文方法mAP相比于DAG-SVM提高了45.3%，这是由于DAG-SVM仅使用单图像集训练语义模型，没有考虑同一语义有多种近义描述，无法全面获取全部语义信息；颜色直方图对比和不使用联合组权重学习的底层特征比较法采用蛮力迁移的方式，计算过程中将测试视频帧的每一项特征值与对应训练图像进行对比，耗费大量时间，准确度较差；对于游泳、跳水等内容颜色分布单一、主色调明显的视频，颜色直方图对比算法能有较好表现。

图 4 不同算法的结果对比

Fig. 4 Comparison between traditional key-frame extraction algorithms and our method

图 5 不同算法耗时对比

Fig. 5 The run time comparison between traditional key-frame extraction algorithms and our method

3.3.2 联合优化结果验证

通过构建联合组权重模型对近义语义模型的权值进行优化，既最小化不同图像组之间的差异，还最小化语义模型分类结果的误差。为探究优化过程中不同平衡参数对最终结果的影响，进一步验证本文方法的有效性，图 6列出了${\lambda _L}$, ${\lambda _G}$取不同值时的分类结果mAP对比，可以看出，若${\lambda _L}=0$, ${\lambda _G}=0$表示移除部分优化过程，将大大削弱最终分类效果。

图 6 不同正则项效果验证

Fig. 6 Evaluation on different components of the optimization function using mAPs

3.3.3 近义语义分组训练结果验证。

将对比实验设置为不对兴趣语义进行近义语义的联合组权重学习，直接对用户选择的兴趣语义构建索引，从互联网检索获取该语义图像集，根据图像集进行模型训练；将本文方法与对比实验进行结果mAP对比。图 7列出实验结果，由实验结果可看出，对同一语义进行多个近义语义分组学习将mAP提高了53.3%，多组学习能有效提高结果准确率，适用于不同用户的不同描述。注意到本文方法与对比实验在生日类视频上mAP值相近，仅提高2.3%，这是由于生日类视频对比其他视频可关注信息较少，且用户描述较为统一，近义语义间差异较小，但对比篮球类视频本文方法较对比实验mAP提高了57.4%，这是由于篮球类视频中可关注点较多，且不同用户兴趣差异较大，容易差生不同的兴趣语义描述，进一步说明本文方法针对内容复杂、可关注点较多的视频有较好分类效果。

图 7 近义语义分组学习效果验证对比

Fig. 7 The mAP comparison between keyframe extraction with and without joint group

4 结论

本文提出了一种基于用户兴趣的视频精彩片段提取算法，根据用户兴趣的不同使用网络图像提供的视觉知识对视频提取相应精彩片段。在这个框架下，将属于同一语义的多个近义描述作为关键词在互联网图像搜索引擎中进行检索，并将不同近义语义检索得到的图像集视为不同图像组。根据不同图像组与视频之间的相关性，通过联合优化学习习得各组的权重，从而获得关于用户兴趣语义模型，进一步指导视频精彩片段提取。实验结果表明，本文方法不仅能提取高质量的视频精彩片段，并且通过用户自主选择能更加合理有效地针对用户兴趣得出结果，提高视频用户对视频浏览的效率。

参考文献

[1] Wolf W H. Key frame selection by motion analysis[C]//Proceedings of 1996 IEEE International Acoustics, Speech, and Signal Processing. Atlanta, GA: IEEE, 1996: 1228-1231. [DOI:10.1109/ICASSP.1996.543588]

[2] Zhang H J, Wu J H, Zhong D, et al. An integrated system for content-based video retrieval and browsing[J]. Pattern Recognition, 1997, 30(4): 643–658. [DOI:10.1016/S0031-3203(96)00109-4]

[3] Lu Z, Grauman K. Story-driven summarization for egocentric video[C]//Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR: IEEE, 2013: 2714-2721. [DOI:10.1109/CVPR.2013.350]

[4] Yao T, Mei T, Ngo C W, et al. Annotation for free: video tagging by mining user search behavior[C]//Proceedings of the 21st ACM International Conference on Multimedia. New York: ACM, 2013: 977-986. [DOI:10.1145/2502081.2502085]

[5] El Sayad I, Martinet J, Urruty T, et al. A semantically significant visual representation for social image retrieval[C]//Proceedings of 2011 IEEE International Conference on Multimedia and Expo. Barcelona, Spain: IEEE, 2011: 1-6. [DOI:10.1109/ICME.2011.6011867]

[6] Wang H, Wu X X, Jia Y D. Video annotation by using heterogeneous multiple image groups on the web[J]. Chinese Journal of Computers, 2013, 36(10): 2062–2069. [王晗, 吴心筱, 贾云得. 使用异构互联网图像组的视频标注[J]. 计算机学报, 2013, 36(10): 2062–2069. ] [DOI:10.3724/SP.J.1016.2013.02062]

[7] Wang H, Video Annotation Based on Transfer Learning[D]. Beijing: Beijing Institute of Technology, 2014. [王晗. 基于迁移学习的视频标注方法[D]. 北京: 北京理工大学, 2014.] http://cdmd.cnki.com.cn/article/cdmd-10007-1014086880.htm

[8] Wang H, Wu X X. Finding event videos via image search engine[C]//Proceedings of 2015 IEEE International Conference on Data Mining Workshop. Atlantic City, NJ: IEEE, 2015: 1221-1228. [DOI:10.1109/ICDMW.2015.78]

[9] Wang H, Wu X X, Jia Y D. Video annotation via image groups from the web[J]. IEEE Transactions on Multimedia, 2014, 16(5): 1282–1291. [DOI:10.1109/TMM.2014.2312251]

[10] Wang H, Song H, Wu X X, et al. Video annotation by incremental learning from grouped heterogeneous sources[C]//Proceedings of the 12th Asian Conference on Computer Vision. Taipei, Taiwan, China: Springer, 2014: 493-507. [DOI:10.1007/978-3-319-16814-2_32]

[11] Jiang Y G, Ye G N, Chang S F, et al. Consumer video understanding: a benchmark database and an evaluation of human and machine performance[C]//Proceedings of the 1st ACM International Conference on Multimedia Retrieval. Trento, Italy: ACM, 2011: 29. [DOI:10.1145/1991996.1992025]

[12] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91–110. [DOI:10.1023/B:VISI.0000029664.99615.94]

[13] Hoiem D, Efros A A, Hebert M. Recovering surface layout from an image[J]. International Journal of Computer Vision, 2007, 75(1): 151–172. [DOI:10.1007/s11263-006-0031-y]

[14] Oliva A, Torralba A. Modeling the shape of the scene:a holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001, 42(3): 145–175. [DOI:10.1023/A:1011139631724]

[15] Fernando B, Habrard A, Sebban M, et al. Unsupervised visual domain adaptation using subspace alignment[C]//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, NSW: IEEE, 2013: 2960-2967. [DOI:10.1109/ICCV.2013.368]

[16] Gong B Q, Shi Y, Sha F, et al. Geodesic flow kernel for unsupervised domain adaptation[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2012: 2066-2073. [DOI:10.1109/CVPR.2012.6247911]

[17] Mei T, Tang L X, Tang J H, et al. Near-lossless semantic video summarization and its applications to video analysis[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2013, 9(3): #16. [DOI:10.1145/2487268.2487269]

[18] Platt J C, Cristianini N, Shawe-Taylor J. Large margin DAGs for multiclass classification[C]//Advances in Neural Information Processing Systems. Cambridge, UK: MIT Press, 2000: 547-553.

[19] Meng J J, Wang H X, Yuan J S, et al. From keyframes to key objects: video summarization by representative object proposal selection[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV: IEEE, 2016: 1039-1048. [DOI:10.1109/CVPR.2016.118]