Print

发布时间: 2020-09-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200025
2020 | Volume 25 | Number 9




    图像处理和编码    




  <<上一篇 




  下一篇>> 





适用小样本的无参考水下视频质量评价方法
expand article info 宋巍1, 刘诗梦1, 黄冬梅1,2, 王文娟1, 王建1
1. 上海海洋大学信息学院, 上海 201306;
2. 上海电力大学, 上海 201306

摘要

目的 视频质量评价是视频技术研究的关键之一。水下环境比其他自然环境更加复杂,自然光在深水中被完全吸收,拍摄所用的人工光源在水中传播时会发生光吸收、色散和散射等情况,同时受水体浑浊度和拍摄设备等影响,导致水下视频具有高度的空间弱可视性和时间不稳定性,常规视频质量评价方法无法对水下视频进行准确、有效的评价。本文考虑水下视频特性,提出一种适用小样本的结合空域统计特性与编码的水下视频质量评价方法。方法 基于水下视频成像特性,建立新的水下视频数据库,设计主观质量评价方法对所有视频进行15分质量标注。从水下视频中提取视频帧图像,针对空间域计算图像失真统计特性,然后结合视频编码参数,通过训练线性模型权重系数完成水下视频的质量评价。结果 实验表明,与几种主流的质量评价方法相比,本文水下视频质量评价方法与人类视觉感知的相关性最高,模型评价结果与主观质量评价结果的皮尔森线性相关系数PCC(Pearson's correlation coefficient)为0.840 8,斯皮尔曼等级秩序相关系数SROCC(Spearman's rank order correlation coefficient)为0.832 2。通过比较各方法评价结果与真实值的均方误差(mean square error,MSE),本文方法MSE值最小,为0.113 1,说明本文的质量评价结果更加稳定。结论 本文通过空间域单帧图像自然场景统计特性和视频编码参数融合的方式,提出的无参考水下视频质量评价方法,能够很好地运用小样本水下视频数据集建立与人类视觉感知高度相关的评价模型,为水下视频做出更准确的质量评价。

关键词

视频质量评价; 客观质量评价模型; 水下视频; 自然场景统计; 编码参数

Non-reference underwater video quality assessment method for small size samples
expand article info Song Wei1, Liu Shimeng1, Huang Dongmei1,2, Wang Wenjuan1, Wang Jian1
1. College of Information, Shanghai Ocean University, Shanghai 201306, China;
2. Shanghai University of Electric and Power, Shanghai 201306, China
Supported by: National Natural Science Foundation of China (61702323)

Abstract

Objective The application of underwater video technology has a history of more than 60 years. This technology plays an important role in promoting research on marine bioecology, fish species, and underwater object detection and tracking. Video quality assessment is one of the key areas being studied in video technology research. Such assessment is especially vital for underwater videos because underwater environments are more complex than atmospheric ones. On the one hand, natural sunlight is seriously absorbed in deep water, and the artificial light used in video shooting suffers from light absorption, dispersion, and scattering due to water turbidity and submarine topography. As a result, underwater videos have blurred picture, low contrast, color cast, and uneven lighting. On the other hand, underwater video quality is affected by the limitation of photography equipment and the influence of water flow. When shooting a moving object, the lens hardly stabilizes and turns unsmooth. Compared with videos shot in natural scenes, underwater videos are characterized by large lens movement, shaking, and serious out of focus. These characteristics make it difficult for conventional video quality assessment(VQA) methods to evaluate underwater video accurately and effectively. Thus, the "quality" of underwater videos must be redefined, and an effective quality assessment method must be established. In this study, we establish an underwater video dataset by considering underwater video imaging characteristics, annotate its video quality via subjective quality assessment, and propose an objective underwater video quality assessment model on the basis of spatial naturalness and video compression index. Method First, a new underwater video dataset is established to 1) collect several underwater videos captured in real deep sea environments for processing as source data; 2) filter these videos preliminarily to include different underwater scenes; 3) cut the preliminary screened videos at intervals of 10 seconds; 4) refilter the short video sequences to cover different shoot characteristics and color diversity, thus generating 25 video sequences with rich color information, different video contents, and different underwater video features; and 5) expand the dataset using different frame rates and bit rates as compression parameters. A total of 250 (25+25×3×3) video sequences are obtained. Then, subjective quality assessment is conducted. Absolute category rating is used by 20 participants to annotate all the 250 videos with scores ranging from 1 to 5. Then, we consider influences on the underwater video quality from the aspects of spatial, temporal, and compression features. The spatial features are expressed by natural scene statistics distortion characteristics in the spatial domain and are calculated using the blind/referenceless image spatial quality evaluator(BRISQUE) algorithm. The temporal features are expressed by optical flow motion features. We first compute the dense optical flow matrix between adjacent frames and then extract the mean and variation of overall optical flows and the mean and variation of the main objects in the video. Compression features use resolution, frame rate, and bit rate, which are easy-to-access video coding parameters. Considering the redundancy and relevancy of these potential features, we analyze the correlations among the features and between the features and the subjective quality scores. Then, we select 21 features as influence factors, which only contain 18 spatial natural characteristics and three compression indexes. Lastly, we establish a linear model with the selected features to evaluate underwater video quality objectively through linear regression with cross validation. Result Experimental results show that the proposed underwater video quality assessment model based on spatial naturalness and compression index can obtain the highest correlation with subjective scores in comparison with several mainstream quality assessment models, including two underwater image quality indices (underwater image quality measure(UIQM) and underwater color image quality evaluation(UCIQE)), a natural image quality distortion index (BRISQUE), and a video quality assessment model (video intrinsic integrity and distortion evaluation oracle(VIIDEO)). Performance evaluation is based on Pearson's correlation coefficient (PCC), Spearman's rank order correlation coefficient (SROCC) and the mean squared errors (MSE) between the predicted video quality scores of each model and the subjective scores. On the test video dataset, our method achieves the highest correlation (PCC=0.840 8, SROCC=0.832 2) and a minimum MSE value of 0.113 1. This result indicates that our proposed method is more stable and can predict video quality more accurately than other methods. By contrast, the video quality assessment model VIIDEO can hardly provide correct results, whereas UIQM and UCIQE demonstrate poor performance with a PCC and SROCC of 0.3~0.4. In addition, BRISQUE performs relatively better than the other methods although still poorer than our method. Conclusion Underwater videos are characterized by blurred picture, low contrast, color distortion, uneven lighting, large lens movement, and out of focus. To achieve an accurate assessment of underwater video quality, we fully consider the characteristics and shooting conditions of underwater videos and establish a labeled underwater video dataset with subjective video quality assessment. By fitting a linear regression model for subjective quality scores with natural statistical characteristics of video frames and video compression parameters, we propose an objective underwater video quality assessment model. The proposed nonreference underwater video quality assessment method is suitable to establish a prediction model that is highly related to human visual perception, with a small sample size of underwater video dataset.

Key words

video quality assessment; objective quality assessment model; underwater video; natural scene statistics; compression parameters

0 引言

随着深海探测技术的不断发展,水下视频在海底探索和研究中的作用日益凸显。而视频质量评价在视频技术研究中处于重要地位。对水下视频准确、有效的质量评价不仅是直接衡量水下视频质量的重要指标,也是获取高质量水下视频的重要前提,还是评价水下图像/视频修复或增强技术的重要手段,有助于水下视频质量的持续提高和有用信息的提取与识别。

水下视频质量一方面受复杂的水下成像条件影响, 自然光在深海中被完全吸收,拍摄时的辅助人工光源在海水中传播时发生光吸收、散射和色散,同时受海水浑浊度和海底地形等影响,在空间维度上呈现画面模糊、对比度低、色彩失真和光照不均等特点(图 1(a)(b));另一方面受拍摄设备限制和水流等影响,移动拍摄时镜头不易稳定,固定镜头拍摄移动物体时,镜头转动生涩,相比于自然场景下拍摄的视频,水下视频具有镜头移动晃动大(图 1(c)),以及失焦严重(图 1(d))等问题。因此,大气环境下建立的自然场景视频质量评价指标或方法可能无法对水下视频质量做出准确合理评价,需要重新定义水下视频的“质量”,并建立有效的质量评价方法和模型。

图 1 水下视频帧示例
Fig. 1 Examples of underwater video frames
((a) hazy frame; (b) color cast and uneven lighting frame; (c)blur frame due to wobbly camera shot; (d)out-of-focus video frame)

国内外在水下视频质量评价(video quality assessment, VQA)方面的研究成果较少,研究主要集中于水下图像质量评价方法。少数几个水下视频质量评价模型,如Moreno-Roldán等人(2017, 2018)提出的模型,存在样本不真实和模型过拟合等问题。水下视频质量评价模型在理论和实用性方面都面临挑战。相对而言,自然场景下的视频质量评价的研究已经比较成熟,有主观质量评价和客观质量评价两种,前者是通过人眼对视频的主观感受来评估视频质量,后者通过模型模拟人类视觉感知量化指标衡量视频质量。典型的视频主观VQA方法主要由国际视频质量专家组VEQG(video quality expert group)提出,并被国际电信联盟(International Telecommunication Union, ITU)标准化(ITU-T,1999ITU-R, 2002, 2007)。通过主观评价得到的结果,通常认为最符合人类感知的质量,但是主观评价方法普遍存在耗时长、用户评价负担重和容易产生个体偏见等问题,更重要的是,主观评价不能自动化,因此,建立可靠的客观VQA是目前水下视频质量评价的一个有效的途径。客观VQA面临的挑战是要准确模拟人类视觉感知,从而替代复杂耗时的主观质量评价。ITU根据是否需要参考原始视频,把客观VQA分为全参考(full-reference, FR)、部分参考(reduced-reference, RR)和无参考(no-reference, NR)方法。考虑到水下视频的特性,通常无法获得理想的参考视频,FR和RR方法在水下视频质量评价中的实用性有限,因此,对水下视频质量评价一般采用无参考/盲预测的方法。

本文构建了水下视频数据集,然后从时空域和视频编码参数分别讨论了相关特征对水下视频质量的影响,并利用最终选定的特征建立了基于空域自然特性与编码参数的无参考水下视频质量评价模型(no-reference underwater video quality assessment,NR-UVQA),该模型能够以较小的计算复杂度,获得与人类视觉感知较高的相关性。本文贡献概述如下:1)充分考虑水下视频成像特性,建立水下视频质量评价数据集;2)通过分析视频空间全帧统计特性、光流运动特性和编码参数对视频质量的影响,获取与感知质量相关的少量特征,建立NR-UVQA模型;3)与多种优秀的质量评价模型对比,分析认为本文方法在评价结果和观察者评级之间能够获得更高的相关性。

1 相关工作

视频由在时间上连续播放的单帧图像组成,因此单帧图像的质量对于整体视频的质量具有绝对的意义。许多学者提出的视频质量评价方法都是在图像质量评价方法的基础上做出的创新。其中,自然图像统计(natural scene statistics,NSS)(Field,1999)模式是一种常用的图像特征提取方法,例如,Moorthy和Bovik(2011)基于NSS以图像真实性完整性为指标提出无参考图像质量评价方法(distortion identification-based image verity and integrity evaluation, DIIVINE),在LIVE IQA数据库进行全面评估,取得与较好的FR质量评价等同的效果。Mittal等人(2012)提出一种基于NSS的失真通用盲/无参考质量评估算法(blind/referenceless image spatial quality evaluator, BRISQUE),该算法不计算特定图像失真特性,而是使用局部归一化亮度系数的场景统计来量化可能的损失,能够以非常低的计算复杂度准确表示图像质量。Mittal等人(2013)基于简单的空间域NSS模型提出自然图像质量评估器(natural image quality evaluator, NIQE),在不知道图像失真特性的情况下,能够得到较准确的质量评价结果。

针对水下图像特性,也有许多专门用于水下图像质量评价的成果。例如,Yang和Sowmya(2015)提出水下彩色图像质量评价指标(underwater color image quality evaluation, UCIQE),该指标提取CIELab空间统计特征中与观察者感知相关度最高的3个质量度量:色度、饱和度和对比度,将这些参数线性组合用来预测图像质量,最终能够在预测结果和观察者评级之间获得很好的相关性。Panetta等人(2016)受到人类视觉系统属性的启发,提出了一种无参考的水下图像质量评价方法(underwater image quality measure, UIQM),针对水下图像的模糊、低对比度和色偏的特点,采用3种水下图像属性测量:水下图像色彩测量(underwater image colorfulness measure, UICM)、水下图像清晰度测量(underwater image sharpness measure, UISM)和水下图像对比度测量(underwater image contrast measure, UIConM)来表征水下图像质量。Wang等人(2018)基于水下吸收和散射特征的成像分析,提出新的水下彩色图像质量评估方法CCF(colorfulness,contrast,fog density),该方法将色度、对比度和雾密度作为评价指标。郭继昌等人(2017)将深度学习网络框架与随机森林回归模型相结合,无需参考图像就能得到与观察者感知质量相关性很高的预测结果,但模型的参数调节需要原始数据,且深度学习网络对小样本数据容易过拟合。Wang等人(2019)对比信息熵(ENTROPY),BRISQUE0,NIQE,UIQM和UCIQE等5种方法评估水下图像增强效果,结果显示BRISQUE,UIQM和UCIQE各有优劣,而ENTROPY,NIQE不能准确反映水下图像质量。

无论是水下图像还是自然场景图像,对图像进行质量评价都能取得较好的评价结果,但将图像质量评价方法直接运用于水下视频的质量评价,存在明显的局限性。图像质量评价方法能够用于评估每一帧图像的质量,但视频具有运动特性,仅评估视频帧的质量不能很好地体现视频运动特性对视频质量的影响。Saad等人(2014)提出一种Video BLINEDS的盲参考视频质量评价模型,以离散余弦变换系数的统计特性表示视频的时间的空间属性,结合运动一致性对视频质量分数进行预测。其使用LIVE VQA数据库(Seshadrinathan等,2010)进行训练,然后在该数据库和EPFL-Polimi数据库(De Simone等,2010)上进行评估性能,取得与对比FR方法同等效果。Mittal等人(2016)提出VIIDEO(video intrinsic integrity and distortion evaluation oracle),通过评估视频内在完整性和失真程度,克服对主观得分的依赖性和其他失真,在视频质量评价中取得比Video BLINEDS更加接近人类视觉感知的结果。尽管这些方法都能取得优秀的结果,但是在水下视频质量评价的实际应用中,应避免复杂的处理任务、涉及大量图像或特征处理的方法,容易导致过拟合。因此,需要一种低计算复杂度的方法去训练水下视频质量评价客观模型,从而得到更加准确的水下视频质量评价结果。

Moreno-Roldán等人(2017)提出两种用于水下视频质量评估的机器学习模型:基于曲面拟合回归的NR参数模型和基于序数逻辑回归的RR混合模型,两种模型均以比特率和帧率作为参数进行训练,主要考虑了水下传输对图像质量的影响。2018年,他们进一步提出一种无参考水下视频质量评价方法(Moreno-Roldán等,2018),该方法使用视频单帧和相邻帧差的NSS特征建立线性模型来表征水下视频质量,在他们建立的主观评价数据集上取得一个不错的结果,但该方法所采用的特征值数量多达41个,而且全部是基于NSS的统计特征,对于小样本的数据集易过拟合。因此,针对水下视频特点,设计专门应用于水下视频质量评价的方法仍是需要解决的问题。

本文从水下视频的特点出发,建立水下视频数据集,并设计一种适用于小样本的无参考水下视频质量评价模型。该方法不针对特定失真类型,最终取得与人类视觉感知相关性最高的评价结果。

2 主观质量评价数据集

本文提出的无参考视频质量评价算法目标是取得接近主观水下视频质量评价的结果。由于不存在公开的水下视频质量评价数据集,在构建本文的NR-UVQA算法进行水下视频质量评价实验之前,需要建立一个水下视频数据集。数据集构建过程如图 2所示。

图 2 数据集构建流程图
Fig. 2 Flowchart of dataset construction

2.1 源数据

用来测试的水下视频主要来源于日本海洋地球科学技术局的深海图像E-library (J-EDI)。考虑到样本的多样性,共收集60个不同时间、不同场景、不同分辨率以及不同拍摄环境的水下视频,并根据视频拍摄内容、色彩信息和镜头特点等信息对源数据建立了人为描述。在图 3中举例说明了4个水下视频的描述。图 3(a)视频描述为:拍摄时间:2004.10.08;拍摄地点:Lau Basin VaiLiliSite;水深:1 717.2~1 716.7 m;特点:色彩丰富、静止主体、镜头少许缩放和转动。图 3(b)视频描述为:拍摄时间:2007.10.03;拍摄地点:Kushiro Canyon;水深:3 896.5~3 896.3 m;特点:高亮度、低色彩饱和度,海底静止主体,镜头拉近、转动。图 3(c)视频描述为:拍摄时间:2016.02.21;水深:3 419.0~3 387.0 m;特点:绿色偏暗,缓慢匀速移动拍摄海底岩石。图 3(d)视频描述为:拍摄时间:2015.05.05;拍摄地点:Sanriku;水深:799.7~799.7 m;特点:绿色偏色、不清晰,主体在海底轻微摆动,镜头拉近,有轻微晃动。

图 3 水下视频源数据示例
Fig. 3 Examples of underwater videos
((a) video 1; (b) video 2; (c) video 3; (d) video 4)

2.2 数据集构建

通过大量观察,本文总结出水下视频具有以下特点。从视频画面来看:

1) 视频色彩多呈现蓝、蓝紫、蓝绿、绿、黄绿和暗黑等;

2) 视频多模糊、浑浊;

3) 补光充足多出现曝光现象,导致拍摄主体反光或画面泛白等情况;

4) 补光不足导致视频昏暗,细节内容较少。

从视频拍摄角度来看,视频在水下拍摄过程中,受设备条件限制,具有以下几种情况:

1) 镜头转动不灵活,晃动大,易失焦;

2) 镜头移动拍摄,主体易出画面框;

3) 镜头焦距缩放容易导致失焦,甚至长时间无法对焦;

4) 静止拍摄时,非固定相机会随水流轻微摆动。

为了在筛选的视频中体现上述水下视频特点,本文根据视频内容和画面进行初步筛选。视频内容包含简单的海底几乎静止的动植物、复杂的不规则岩石布局和移动的动植物(植物随水流)。初选出21个视频作为代表性样本和潜在的测试序列。再将这些时长不同的视频以10 s为间隔进行剪切。根据视频拍摄出现的几种情况进行二次筛选并保证视频色彩多样性,最终选出25个视频序列作为水下视频质量评价数据集的原始数据。

在图像/视频的质量评价中色彩信息通常是重要的评价方面之一。本文在原始视频的选取中,充分考虑视频画面色彩多样性,视频序列包含的色彩跨度大:R通道像素均值范围在(9,162.4),G通道像素均值范围在(12.6,184.2),B通道像素均值范围在(18.3,198.2))。在图 4所示的R、G、B 3维坐标图显示这些视频序列的色彩分布比较分散,没有集中在某一区域。

图 4 25个视频序列的RGB像素平均值的3维分布
Fig. 4 3D distribution of average R, G and B intensities of 25 video sequences

图 5展示了6个代表性视频序列的R、G、B通道像素值逐帧变化的散点图,图下方为3个通道的均值。可以看出,这些视频序列色彩分布情况不同,且视频色彩既有平缓变化(如图 5(b)(d)),也有剧烈变化(如图 5(e))。

图 5 不同视频的R、G、B像素值的逐帧变化图
Fig. 5 The change of R, G, and B values with frames for different videos
((a) video 1; (b) video 2; (c) video 3; (d) video 4; (e) video 5; (f) video 6)

此外,比特率、帧率和内容变化是对质量分数影响较大的变量。视频运动量和空间细节会影响视觉的可感知性(Legge和Foley,1980Zhong等,2004),因此,要确保进行主观视频质量评估的视频序列具有不同的运动信息和空间信息。通常由空间感知信息(spatial information,SI)和时间感知信息(temporal information,TI)(ITU-T,1999)表示这种场景内容变化。文中通过式(1)和式(2)逐帧计算SI和TI,然后取视频帧序列中的最大SI值和TI值作为视频的$S$$T$,即

$ S=\text{ma}{{\text{x}}_{\text{ time }}}\{st{{d}_{\text{ space }}}[ Sobel ({{P}_{n}}(i,j))]\} $ (1)

$ T=\text{ma}{{\text{x}}_{\text{ time }}}\{st{{d}_{\text{ space }}}[{{Q}_{n}}(i,j)]\} $ (2)

式中,${{Q_n}(i, j) = {P_n}(i, j) - {P_{n - 1}}(i, j), {P_n}(i, j)}$表示在时刻$n$时,视频帧像素坐标($i, j$)点的亮度值。$Sobel$ (·)是对各视频帧进行Sobel算子边缘检测(Duda和Hart,1973)。$st{d_{{\rm{space}}}}$运算符表示像素矩阵内亮度值的标准偏差,${\max _{{\rm{time}}}}$运算符表示取参数最大值。

将所有视频的SI和TI值作散点图展示(如图 6),可以看出,除一个视频的SI和TI值比较高之外,本文最终选择的视频序列在空间和时间复杂度上的分布比较均匀,能够全面反映不同空间和时间复杂度视频的质量结果。

图 6 25个原始视频的SI和TI值
Fig. 6 SI and TI values of 25 original videos

考虑到比特率和帧率对质量分数的影响,将最终选定的25个视频序列进行扩展。其中24个视频的比特率在780~820 kbps之间,帧率为29.97帧/s,1个视频比特率为1 820 kbps,帧率为25帧/s。对视频的压缩编码,使用超过原视频本身的参数没有意义,因此,本文中以表 1所示参数值进一步产生质量受损视频序列,共生成250 (25×3×3+25)个样本。在图 7中以帧率为5帧/s的视频为例,展示了不同比特率的压缩视频的第1帧图像,可以看出,经过压缩的视频与原始视频在细节上的有明显的差别,不同比特率的压缩视频之间也能看出细微的差别。

表 1 视频数据集参数的范围
Table 1 Range of video dataset parameters

下载CSV
参数 不同的视频编码参数
比特率/kbps 96 200 500
帧率/(帧/s) 5 10 25
图 7 帧率为5帧/s的视频帧示例
Fig. 7 Example of a video frame with a frame rate of 5 frame/s
((a) original video; (b) compressed video with the bitrate 96 kbps; (c) compressed video with the bitrate 200 kbps; (d) compressed video with the bitrate 500 kbps)

2.3 主观质量评价

对数据集的主观质量评价,本文采用P.910(ITU-T,1999)中描述的绝对分类评分ACR(absolute category rating)方法。这种经典方法时间短,并且一次评价一个视频,与典型的视频观看方式最接近。这里采用1~5分的打分制表示5级评级。

由于海底环境涉及生物、地质和海底导航等多方面范畴,很难对质量表达做出直接量化。为此,通过定性分析,结合实际环境,在深入理解视频质量的内涵和属性的基础上,设计深海视频质量的多维语义度量,从画面感受质量、视频流畅程度和主体是否可辨等几个角度进行评判。

参加这项研究的受试者由10名普通受试者和10名从事海洋图像和视频处理方面研究的受试者组成,均无视频质量评估经验。在开始实验之前为受试者做一个简短的培训,包括观看相对较好的5个水下视频序列和相对较差的5个水下视频,并熟悉测试程序。

研究中所有视频全部观看需要1 h,为尽量减少观众疲劳的影响,每隔20 min休息3 min。视频播放系统是专门为此开发的HTML5应用程序,播放界面如图 8所示。为避免质量判断中的上下文和记忆效应,每次观看时,视频序列随机播放。视频播放窗口固定在屏幕中央1 400像素宽的区域,高度自动适应,右侧为打分框,播放完毕后进行打分,点击“下一个”进入下一条视频序列。由20名受试者依次进行打分,最终,得到20个评价结果。去除结果中的异常值,计算平均意见得分(mean opinion score, MOS),即得到视频主观质量结果。

图 8 HTML5质量评价应用程序界面
Fig. 8 Quality assessment application interface with HTML5

3 水下视频客观质量评价模型

本文提出的NR-UVQA模型,从视频图像特征、视频运动特征和编码参数3个方面出发,分析不同特征对视频质量的影响,将对视频质量影响较大的特征作为质量评价指标输入线性模型,最终得到水下视频质量评价模型。

3.1 全帧统计特征及分析

视频单帧的空间失真是感知视频质量的重要因素。根据自然场景统计和视频统计理论(NSS/NVS)(Ruderman,1994),未失真的图像表现出某种统计特性,当出现失真时,这些统计特性就会丢失。BRISQUE算法(Mittal等,2012)使用局部亮度归一化的场景统计量化局部块损失。现将BRISQUE算法得到的每一视频帧的质量分数取均值作为视频质量分数,即

$ {{Q}_{\text{s}}}= mean \{B({{P}_{n}})\} $ (3)

式中,${B\left({{P_n}} \right)}$表示BRISQUE算法计算时刻$n$时,视频帧的质量分数。

BRISQUE算法首先使用式(4)对输入视频帧的亮度值$I\left({i, j} \right)$进行去均值对比度归一化处理,变换后的亮度$\widehat I\left({i, j} \right)$称为MSCN(mean subtracted contrast normalized)系数,即

$ \hat{I}(i,j)=\frac{I(i,j)-\mu (i,j)}{\sigma (i,j)+1} $ (4)

$ \mu (i,j)=\sum\limits_{i=1}^{M}{\sum\limits_{j=1}^{N}{{{w}_{k,l}}}}{{I}_{k,l}}(i,j) $ (5)

$ \sigma (i,j)=\sqrt{\sum\limits_{i=1}^{M}{\sum\limits_{j=1}^{N}{{{w}_{k,l}}}}{{({{I}_{k,l}}(i,j)-\mu (i,j))}^{2}}} $ (6)

式中, $i \in \left\{ {1, 2, \cdots, M} \right\}, j \in \left\{ {1, 2, \cdots, N} \right\}$, $M$$N$为图像尺寸,$w = \left\{ {{w_{k,l}}\left| {k = - K, \cdots ,K;l = - L, \cdots ,L} \right.} \right\}$是2维循环对称复高斯加权权重(2D circularly-symmetric Gaussian weighting),这里$K$ = $L$ =3。

BRISUQE算法接下来通过拟合MSCN系数广义高斯分布(generalized Gaussian distribution,GGD)(Sharifi和Leon-Garcia,1995)的形状和方差参数得到特征${b_1}, {b_2}$。失真情况下,相邻像素之间会产生干扰,BRISUQE将原始图像与相邻像素(水平方向, 垂直方向,主对角方向和次对角方向)的MSCN系数两两相乘,再拟合其非对称广义高斯分布(asymmetric generalized Gaussian distribution, AGGD)(Lasmar等,2009)的形状、均值、左方差和右方差参数得到特征${b_3}, \cdots, {b_{18}}$ (具体描述如表 2)。降低一半分辨率进行相同操作得到特征${b_{19}}, \cdots, {b_{36}}$, 最终获得36个统计特征。

表 2 图像特征摘要
Table 2 Feature summary

下载CSV
特征ID 特征描述 计算方式
b1, b2 形状,方差 MSCN系数GGD拟合
b3, …, b6 形状,均值,
左方差,右方差
水平方向AGGD拟合
b7, …, b10 形状,均值,
左方差,右方差
垂直方向AGGD拟合
b11, …, b14 形状,均值,
左方差,右方差
主对角方向AGGD拟合
b15, …, b18 形状,均值,
左方差,右方差
次对角方向AGGD拟合

本文中建立的水下视频数据集,样本数量小,过多的冗余参数会导致模型泛化性能差。通过分析,希望减少特征数量也能取得很好的性能。表 3为求取原始图像和降低分辨率图像对应特征之间的皮尔森线性相关系数(Pearson’s correlation coefficient, PCC)。可以看出,除了${b_8} - {b_{26}}$特征对,其他的特征对之间都有很高的相关性(PCC相关系数均>0.7)。为了验证只使用其中一组特征也能取得良好的效果,分别使用原始图像的18个特征和降低分辨率图像的18个特征对水下视频数据集进行建模,并计算预测值与主观质量之间的皮尔森线性相关系数PCC和斯皮尔曼等级秩序相关系数(Spearman’s romk order correlation coefficient, SROCC)(表 4)。从表 4的相关性分析结果可以看出,降低分辨率图像的18个特征参数能得到与使用全部特征很接近的结果,因此,本文将特征${b_{19}}, \cdots, {b_{36}}$用做衡量水下视频质量的指标,记为${\mathit{\boldsymbol{F}}_1}\left({{f_1}, \cdots, {f_{18}}} \right)$)。

表 3 两组特征之间的皮尔森线性相关系数
Table 3 PCC between two sets of features

下载CSV
特征ID PCC
b1-b19 0.888 5
b2-b20 0.983 9
b3-b21 0.860 4
b4-b22 0.706 4
b5-b23 0.932 0
b6-b24 0.831 1
b7-b25 0.878 5
b8-b26 0.126 4
b9-b27 0.877 5
b10-b28 0.989 0
b11-b29 0.911 0
b12-b30 0.806 4
b13-b31 0.946 3
b14-b32 0.977 3
b15-b33 0.912 6
b16-b34 0.789 0
b17-b35 0.943 4
b18-b36 0.974 3

表 4 视频特征和主观质量评价结果的PCC和SROCC相关系数
Table 4 PCC and SROCC coefficients between video features and subjective quality evaluation results

下载CSV
特征ID PCC SROCC
b1, …, b36 0.755 0 0.739 7
b1, …, b18 0.586 7 0.576 1
b19, …, b36 0.720 9 0.706 6

3.2 光流运动特征及分析

与图像质量评价不同,视频需要考虑运动特性对质量的影响。光流法不仅携带物体的运动信息,还包含景物的3维结构信息,能够很好地刻画目标运动过程,因此,本文采用光流法表示视频帧序列的运动特性。

光流法是利用像素强度的时域变化和相关性来确定各自像素位置的“运动”。水下视频画面模糊、雾化严重,所以采用传统的稠密光流法,计算帧间光流矩阵。两帧之间的稠密光流矩阵采用OpenCV的calcOpticalFlowFarneback函数获得。对得到的光流矩阵提取光流运动特征,包括整体运动特性和视频中主体的运动特征。

视频整体的运动特征用帧间运动距离的均值${\mu _{{\rm{opt}}}}$和方差$\sigma _{{\rm{opt}}}^2$来表示,即

$ {{\mu }_{\text{opt}}}=\frac{1}{K-1}\sum\limits_{k=1}^{K-1}{d_{\text{opt}}^{k}} $ (7)

$ \sigma _{\text{opt}}^{2}=\frac{1}{K-1}\sum\limits_{k=1}^{K-1}{{{(d_{\text{opt}}^{k}-{{\mu }_{\text{opt}}})}^{2}}} $ (8)

$ {\mathit{\boldsymbol{d}}_{{\rm{opt}}}} = \{ d_{{\rm{opt}}}^1,d_{{\rm{opt}}}^2, \cdots ,d_{{\rm{opt}}}^{n - 1}\} $ (9)

$ d_{\text{opt}}^{k}=\frac{1}{MN}\sum\limits_{i=1}^{M}{\sum\limits_{j=1}^{N}{\sqrt{d_{x,ij}^{2}+d_{y,ij}^{2}}}} $ (10)

式中,$K$为视频帧数,$K - 1$为帧间光流矩阵数,$M, N$为视频尺寸。$d_{{\rm{opt}}}^k$是第$k$帧光流矩阵的运动距离,${d_{x, ij}}$${d_{y, ij}}$分别为光流矩阵($i, j$)点水平方向和垂直方向的运动距离。视频光流矩阵的均值和方差体现了景物运动的程度和波动(例如水下视频拍摄时,拍摄设备不灵活的转向会导致视频运动的突然增加)。

除了视频整体的运动体现,视频中主体的运动状态能体现水下视频的科学有用性,也是本文所考虑的。设置阈值$\varepsilon $,统计第$k$帧光流矩阵中超过这一阈值的像素点个数$nu{m_{k, {\rm{pix}}}}$ (式(11)),表示运动明显的像素点个数,并计算这些像素点的均值(式(12))和方差(式(13))。本文中阈值取光流矩阵的均值

$ nu{{m}_{k,\text{pix}}}=\sum\limits_{i=1}^{M}{\sum\limits_{j=1}^{N}{{{\delta }_{ij}}}} $ (11)

式中,${\delta _{ij}} = \left\{ {\begin{array}{*{20}{l}} 0&{\sqrt {d_{x,ij}^2 + d_{y,ij}^2} < \varepsilon }\\ 1&{\sqrt {d_{x,ij}^2 + d_{y,ij}^2} \ge \varepsilon } \end{array}} \right.$

$ {{\mu }_{\text{op}{{\text{t}}_{-}}num}}=\frac{1}{K-1}\sum\limits_{k=1}^{K-1}{n}u{{m}_{k,\text{pix}}} $ (12)

$ \sigma _{\text{op}{{\text{t}}_{-}}num}^{2}=\frac{1}{K-1}\sum\limits_{k=1}^{K-1}{{{(nu{{m}_{k,\text{pix}}}-{{\mu }_{\text{op}{{\text{t}}_{-}}num}})}^{2}}} $ (13)

${\mu _{{\rm{opt}}}}, \sigma _{{\rm{opt}}}^2和{\mu _{{\rm{opt\_}}num}}, \sigma _{{\rm{opt\_}}num}^2$作为视频的运动特征${\mathit{\boldsymbol{F}}_2}\left({{f_{19}}, {f_{20}}, {f_{21}}, {f_{22}}} \right)$进行讨论。

3.3 编码参数及分析

本文从视频的空间域和时间域讨论,得到视频的空间统计特征和时间运动特征,但是视频的编码特性对视频质量的影响也是不容忽视的。在数据处理阶段,很容易得到视频的分辨率(像素)、帧率(帧/s)、码率(kbps)信息,这些编码参数是视频处理非常常见也容易获取的参数,因此,本文将视频的分辨率、帧率、码率信息作为编码特征${\mathit{\boldsymbol{F}}_3}\left({{f_{23}}, {f_{24}}, {f_{25}}} \right)$进行讨论。

3.4 水下视频质量评价模型

将上述视频特征:空间特征${F_1}\left({{f_1}, \cdots, {f_{18}}} \right)$,光流运动特征${\mathit{\boldsymbol{F}}_2}\left({{f_{19}}, {f_{20}}, {f_{21}}, {f_{22}}} \right)$以及编码参数${\mathit{\boldsymbol{F}}_3}\left({{f_{23}}, {f_{24}}, {f_{25}}} \right)$作为25个输入变量${f_i}$建立多变量线性回归模型(multivariate linear regression model, MLR),每个水下视频的主观质量得分为

$ y=\sum\limits_{i=1}^{25}{{{\omega }_{i}}}{{f}_{i}} $ (14)

式中,${\omega _i}$是每个特征${f_i}$的加权系数。在获得每个视频的25个特征之后,将250个测试水下视频数据集分成两个不重叠的部分:80%训练集,20%测试集建模。进行交叉验证, 重复该过程200次,计算每次预测结果和主观MOS值之间的皮尔森线性相关系数(PLCC)和斯皮尔曼等级次序相关系数(SROCC),将相关系数的中值作为性能度量结果。为了说明每组特征对主观分数的相关程度进行如表 5所示的相关性对比实验。

表 5 单个特征和组合特征与主观质量评价结果的皮尔森线性相关系数和斯皮尔曼等级秩序相关系数
Table 5 PCC and SROCC between single feature and feature combinations and subjective quality evaluation results

下载CSV
特征ID PCC SROCC
F1 0.720 9 0.706 6
F2 0.331 1 0.348 4
F3 0.599 4 0.532 9
F1F2 0.746 4 0.717 7
F1F3 0.841 6 0.832 8
F2F3 0.643 5 0.615 5
F1F2F3 0.838 5 0.826 7
注:加粗字体为每列最优值。

表 5可以看出,视频运动特征${\mathit{\boldsymbol{F}}_2}$单独预测视频质量的结果与主观结果的相关性很低,说明运动特性并不能很好地体现视频质量的好坏。而且在分别与${\mathit{\boldsymbol{F}}_1}$${\mathit{\boldsymbol{F}}_3}$组合预测的结果,提升并不明显,甚至${\mathit{\boldsymbol{F}}_1}$${\mathit{\boldsymbol{F}}_2}$${\mathit{\boldsymbol{F}}_3}$预测结果与主观结果的相关性低于${\mathit{\boldsymbol{F}}_1}$${\mathit{\boldsymbol{F}}_3}$组合的结果。因此,最终本文采用${\mathit{\boldsymbol{F}}_1}$${\mathit{\boldsymbol{F}}_3}$共21个特征值作为模型的输入变量。

4 性能评估

使用本文建立的水下视频数据集开展实验,与目前最优的两种水下图像质量评价方法UIQM (Panetta等,2016)和UCIQE(Yang和Sowmya,2015),基于自然统计特性的图像质量评价方法BRISQUE (Mittal等,2012),以及一种视频质量评价方法VIIDEO(Mittal等,2016)进行对比实验,将与主观评价得分(MOS)的相关性作为指标,评估所提出算法的性能。

使用UIQM、UCIQE和BRISQUE图像质量评价方法对水下视频进行评价时,对每一帧视频的质量进行评价,然后取全部视频帧的均值作为水下视频的质量评价结果。为了达到3种对比方法的最佳性能,本文用自己构建的水下数据集分别对UIQM、UCIQE和BRISQUE模型进行了训练,获得适合本数据集的权重系数线性模型,然后用于对测试视频集进行预测。

由于这3个对比模型均为线性模型,所以可以采用3.4节相同的方式训练。以UIQM方法为例,首先对训练数据集中的每个视频序列,计算其所有视频帧的水下图像色彩测量UICM、清晰度测量UISM、对比度测量UIConM;然后求取视频序列的UICM均值、UISM均值、UIConM均值作为线性模型的输入变量,通过线性回归拟合主观评价结果,得到训练好的模型和权重;最后在测试集上进行预测。其他两个方法类似。VIIDEO是视频质量评价模型,能够直接用于水下视频的质量评价。

图 9展示了几种方法在测试阶段的视频质量预测结果与主观质量评价结果的散点图,其中横坐标$x$轴为主观质量评分,纵坐标$y$轴为模型预测的质量评分。以主观质量评分为真值,理想情况下预测值和真值完全匹配,散点落在主对角线($y$ = $x$)上。因此,图 9中散点分布越靠近主对角线,表示模型预测越准确。可以看出,BRISQUE和本文方法的预测值分布接近主对角线,说明这两种方法在水下视频质量的评价中均有良好的性能,但本文方法使用了更少的参数,模型的泛化性能更好;VIIDEO方法的表现可以说是预测失败。

图 9 UIQM、UCIQE、BRISQUE、VIIDEO和本文方法主观质量分数与预测结果分数的散点图
Fig. 9 Scatter plots between the predicted scores by different methods and subjective quality scores

除了各方法与主观质量评价分数的散点图和拟合线性关系,相关性性能评估结果如表 6所示。从主观评分分别与UIQM、UCIQE、VIIDEO、BRISQUE和本文方法预测评分之间的相关系数PLCC和SROCC可以看出,VIIDEO几乎不能得出正确的结果(相关性系数 < 0.1),UIQM、UCIQE的预测结果不佳(相关系数 < 0.6),BRISQUE可以得到一个不错的结果,本文算法则得到与主观质量分数最高的相关性(PCC=0.840 8,SROCC=0.832 2),说明本文模型评价的结果更符合人类视觉感知。

表 6 PLCC和SROCC性能指标结果比较
Table 6 Performance comparison of different methods

下载CSV
方法 PCC SROCC
UIQM 0.410 3 0.314 1
UCIQE 0.312 4 0.338 2
BRISQUE 0.763 1 0.747 5
VIIDEO -0.009 0 0.005 0
本文 0.841 6 0.832 8
注:加粗字体为每列最优值。

为了更加直观地说明算法之间的质量评价结果,随机选择6个水下视频(图 10)进行测试,得到的评分情况如表 7。对比观察具体视频的模型评价结果与主观评价分值,可以看出本文方法和BRISQUE都与主观得分比较接近,其他方法对某些视频(例如图 7(e)视频)也有更接近主观分数的预测结果。但是,单一的视频质量评价结果的准确度并不能说明该方法的好坏。本文通过计算各方法评价结果与主观分数的均方误差(mean square error, MSE)(表 8),来判断不同的方法对实际视频质量预测的稳定性。通过比较MSE,可以认为本文方法比其他方法更稳定。

图 10 随机参数的6个水下视频
Fig. 10 Six underwater videos with random parameters
((a) video 1; (b) video 2; (c) video 3; (d) video 4; (e) video 5; (f) video 6)

表 7 各类方法的预测结果比较
Table 7 Comparison of predicted scores by different methods

下载CSV
方法 图 10
视频1 视频2 视频3 视频4 视频5 视频6
UIQM 2.8 2.4 2.8 2.6 2.4 2.5
UCIQE 2.6 2.4 2.7 2.7 2.2 2.5
BRISQUE 3.6 1.7 3.2 3.3 2.7 1.8
VIIDEO 2.9 3.7 4.2 3.3 4.5 3.5
本文 3.6 1.4 3.1 3.0 2.6 1.5
主观分数 3.8 1.4 3.6 2.4 2.3 1.8

表 8 各类方法预测结果的MSE
Table 8 MSE of prediction results by different methods

下载CSV
方法
UIQM UCIQE BRISQUE VIIDEO 本文
MSE 0.312 7 0.332 0 0.165 3 1.392 2 0.113 1
注:加粗字体为最优值。

5 结论

由于水下拍摄环境复杂,且受拍摄设备限制,拍摄的水下视频多存在画面模糊、对比度低、色彩失真、光照不均、镜头移动晃动大和失焦等问题。针对这些问题,本文考虑水下视频特点和水下视频拍摄情况,建立水下视频数据库,并通过主观评价打分的方式对视频质量进行标注;然后从空间维度、时间维度和视频参数几个方面进行讨论,提出了一种基于空域自然特性与编码参数的水下视频质量评价方法。该方法无需参考视频,能够很好地适用于小样本数据,准确性高,结果符合人类视觉感知。

由于实验条件所限,本文还存在一些不足。首先,色彩信息通常对图像/视频的质量评价有重要影响,但在主观质量评价时,没有要求评价主体从图像色彩上对视频质量进行评价,而是要求从画面质量、视频流畅度和主体可辨的总体感受性进行评价。主要是考虑:一方面本文在制作深海视频数据集时尽量考虑了色彩的多样性,评价者对画面质量的评价本身已隐含了对颜色的视觉感受性;另一方面该方法视频数据大部分来自水深500~5 000 m的深海,在无光环境下借助人工辅助光源拍摄到的图像或视频广泛存在色偏、色彩不够丰富等问题,人们(在大气环境中建立起来)的普遍色彩经验在这种情况下不适用,对色彩方面的评价难度较大。

下一步工作将更多地考虑水下视频各方面的特殊性,研究更合理的主观质量评价方法。本文数据集在数据量上也有局限,仍无法很好地涵盖水下视频的特点,在接下来的工作中将从数据的多样化出发,补充数据集,增加模型鲁棒性。

参考文献

  • De Simone F, Tagliasacchi M, Naccari M, Tubaro S and Ebrahimi T. 2010. A H.264/AVC video database for the evaluation of quality metrics//Proceedings of 2010 IEEE International Conference on Acoustics, Speech and Signal Processing. Dallas: IEEE: 2430-2433[DOI:10.1109/ICASSP.2010.5496296]
  • Duda R O and Hart P E. 1973. Pattern Classification and Scene Analysis. New York: Wiley
  • Field D J. 1999. Wavelets, vision and the statistics of natural scenes. Philosophical Transactions of the Royal Society A:Mathematical, Physical and Engineering Sciences, 357(1760): 2527-2542 [DOI:10.1098/rsta.1999.0446]
  • Guo J C, Li C Y, Zhang Y, Gu X Y. 2017. Quality assessment method for underwater images. Journal of Image and Graphics, 22(1): 1-8 (郭继昌, 李重仪, 张艳, 顾翔元. 2017. 面向水下图像的质量评价方法. 中国图象图形学报, 22(1): 1-8) [DOI:10.11834/jig.20170101]
  • ITU-R. 2002. Methodology for the subjective assessment of the quality of television pictures. Recommendation BT.500-11[EB/OL].[2020-01-01]. https://www.itu.int/rec/R-REC-BT.500
  • ITU-R. 2007. Methodology for the subjective assessment of video quality in multimedia applications. Recommendation BT. 1788[EB/OL].[2020-01-01]. https://www.itu.int/rec/R-REC-BT.1788/en
  • ITU-T. 1999. Subjective video quality assessment methods for multimedia applications. Recommendation P.910[EB/OL].[2020-01-01]. https://www.itu.int/rec/T-REC-P.910/en
  • Lasmar N E, Stitou Y and Berthoumieu Y. 2009. Multiscale skewed heavy tailed model for texture analysis//Proceedings of the 16th IEEE International Conference on Image Processing. Cairo: IEEE: 2281-2284[DOI:10.1109/ICIP.2009.5414404]
  • Legge G E, Foley J M. 1980. Contrast masking in human vision. Journal of the Optical Society of America, 70(12): 1458-1471 [DOI:10.1364/JOSA.70.001458]
  • Mittal A, Moorthy A K, Bovik A C. 2012. No-reference image quality assessment in the spatial domain. IEEE Transactions on Image Processing, 21(12): 4695-4708 [DOI:10.1109/TIP.2012.2214050]
  • Mittal A, Saad M A, Bovik A C. 2016. A completely blind video integrity oracle. IEEE Transactions on Image Processing, 25(1): 289-300 [DOI:10.1109/TIP.2015.2502725]
  • Mittal A, Soundararajan R, Bovik A C. 2013. Making a "completely blind" image quality analyzer. IEEE Signal Processing Letters, 20(3): 209-212 [DOI:10.1109/LSP.2012.2227726]
  • Moorthy A K, Bovik A C. 2011. Blind image quality assessment:from natural scene statistics to perceptual quality. IEEE Transactions on Image Processing, 20(12): 3350-3364 [DOI:10.1109/TIP.2011.2147325]
  • Moreno-Roldán J M, Luque-Nieto M Á, Poncela J, Otero P. 2017. Objective video quality assessment based on machine learning for underwater scientific applications. Sensors, 17(4): 664 [DOI:10.3390/s17040664]
  • Moreno-Roldán J M, Poncela J, Otero P, Bovik A C. 2018. A no-reference video quality assessment model for underwater networks. IEEE Journal of Oceanic Engineering, 45(1): 342-346 [DOI:10.1109/JOE.2018.2869441]
  • Panetta K, Gao C, Agaian S. 2016. Human-visual-system-inspired underwater image quality measures. IEEE Journal of Oceanic Engineering, 41(3): 541-551 [DOI:10.1109/JOE.2015.2469915]
  • Ruderman D L. 1994. The statistics of natural images. Network:Computation in Neural Systems, 5(4): 517-548 [DOI:10.1088/0954-898X_5_4_006]
  • Saad M A, Bovik A C, Charrier C. 2014. Blind prediction of natural video quality. IEEE Transactions on Image Processing, 23(3): 1352-1365 [DOI:10.1109/TIP.2014.2299154]
  • Seshadrinathan K, Soundararajan R, Bovik A C, Cormack L K. 2010. Study of subjective and objective quality assessment of video. IEEE Transactions on Image Processing, 19(6): 1427-1441 [DOI:10.1109/TIP.2010.2042111]
  • Sharifi K, Leon-Garcia A. 1995. Estimation of shape parameter for generalized Gaussian distributions in subband decompositions of video. IEEE Transactions on Circuits and Systems for Video Technology, 5(1): 52-56 [DOI:10.1109/76.350779]
  • Wang Y, Li N, Li Z Y, Gu Z R, Zheng H Y, Zheng B, Sun M M. 2018. An imaging-inspired no-reference underwater color image quality assessment metric. Computers & Electrical Engineering, 70: 904-913 [DOI:10.1016/j.compeleceng.2017.12.006]
  • Wang Y, Song W, Fortino G, Qi L Z, Zhang W Q, and Liotta A. 2019. An experimental-based review of image enhancement and image restoration methods for underwater imaging. IEEE Access, 7: 140233-140251 [DOI:10.1109/ACCESS.2019.2932130]
  • Yang M, Sowmya A. 2015. An underwater color image quality evaluation metric. IEEE Transactions on Image Processing, 24(12): 6062-6071 [DOI:10.1109/TIP.2015.2491020]
  • Zhong Y, Richardson I, Sahraie A and McGeorge P. 2004. Influence of task and scene content on subjective video quality//Campilho A, Kamel M, eds. International Conference on Image Analysis and Recognition. Porto: Springer: 295-301[DOI:10.1007/978-3-540-30125-7_37]