|
发布时间: 2020-09-16 |
图像处理和编码 |
|
|
收稿日期: 2020-01-17; 修回日期: 2020-03-09; 预印本日期: 2020-03-16
基金项目: 国家自然科学基金项目(61702323)
第一作者简介:
宋巍, 1977年生, 女, 教授, 主要研究方向为计算机视觉、图像/视频处理、海洋大数据分析。E-mail:wsong@shou.edu.cn;
刘诗梦, 女, 硕士研究生, 主要研究方向为图像/视频处理、视频质量评价。E-mail:m170500823@st.shou.edu.cn; 黄冬梅, 女, 教授, 博士生导师, 主要研究方向为海洋遥感技术、空间地理信息系统。E-mail:dmhuang@shou.edu.cn; 王文娟, 女, 讲师, 主要研究方向为软件工程, 水产品冷链物流与质量溯源, 工作流技术。E-mail:wangwj@shou.edu.cn.
中图法分类号: TN911.73
文献标识码: A
文章编号: 1006-8961(2020)09-1787-13
|
摘要
目的 视频质量评价是视频技术研究的关键之一。水下环境比其他自然环境更加复杂,自然光在深水中被完全吸收,拍摄所用的人工光源在水中传播时会发生光吸收、色散和散射等情况,同时受水体浑浊度和拍摄设备等影响,导致水下视频具有高度的空间弱可视性和时间不稳定性,常规视频质量评价方法无法对水下视频进行准确、有效的评价。本文考虑水下视频特性,提出一种适用小样本的结合空域统计特性与编码的水下视频质量评价方法。方法 基于水下视频成像特性,建立新的水下视频数据库,设计主观质量评价方法对所有视频进行15分质量标注。从水下视频中提取视频帧图像,针对空间域计算图像失真统计特性,然后结合视频编码参数,通过训练线性模型权重系数完成水下视频的质量评价。结果 实验表明,与几种主流的质量评价方法相比,本文水下视频质量评价方法与人类视觉感知的相关性最高,模型评价结果与主观质量评价结果的皮尔森线性相关系数PCC(Pearson's correlation coefficient)为0.840 8,斯皮尔曼等级秩序相关系数SROCC(Spearman's rank order correlation coefficient)为0.832 2。通过比较各方法评价结果与真实值的均方误差(mean square error,MSE),本文方法MSE值最小,为0.113 1,说明本文的质量评价结果更加稳定。结论 本文通过空间域单帧图像自然场景统计特性和视频编码参数融合的方式,提出的无参考水下视频质量评价方法,能够很好地运用小样本水下视频数据集建立与人类视觉感知高度相关的评价模型,为水下视频做出更准确的质量评价。
关键词
视频质量评价; 客观质量评价模型; 水下视频; 自然场景统计; 编码参数
Abstract
Objective The application of underwater video technology has a history of more than 60 years. This technology plays an important role in promoting research on marine bioecology, fish species, and underwater object detection and tracking. Video quality assessment is one of the key areas being studied in video technology research. Such assessment is especially vital for underwater videos because underwater environments are more complex than atmospheric ones. On the one hand, natural sunlight is seriously absorbed in deep water, and the artificial light used in video shooting suffers from light absorption, dispersion, and scattering due to water turbidity and submarine topography. As a result, underwater videos have blurred picture, low contrast, color cast, and uneven lighting. On the other hand, underwater video quality is affected by the limitation of photography equipment and the influence of water flow. When shooting a moving object, the lens hardly stabilizes and turns unsmooth. Compared with videos shot in natural scenes, underwater videos are characterized by large lens movement, shaking, and serious out of focus. These characteristics make it difficult for conventional video quality assessment(VQA) methods to evaluate underwater video accurately and effectively. Thus, the "quality" of underwater videos must be redefined, and an effective quality assessment method must be established. In this study, we establish an underwater video dataset by considering underwater video imaging characteristics, annotate its video quality via subjective quality assessment, and propose an objective underwater video quality assessment model on the basis of spatial naturalness and video compression index. Method First, a new underwater video dataset is established to 1) collect several underwater videos captured in real deep sea environments for processing as source data; 2) filter these videos preliminarily to include different underwater scenes; 3) cut the preliminary screened videos at intervals of 10 seconds; 4) refilter the short video sequences to cover different shoot characteristics and color diversity, thus generating 25 video sequences with rich color information, different video contents, and different underwater video features; and 5) expand the dataset using different frame rates and bit rates as compression parameters. A total of 250 (25+25×3×3) video sequences are obtained. Then, subjective quality assessment is conducted. Absolute category rating is used by 20 participants to annotate all the 250 videos with scores ranging from 1 to 5. Then, we consider influences on the underwater video quality from the aspects of spatial, temporal, and compression features. The spatial features are expressed by natural scene statistics distortion characteristics in the spatial domain and are calculated using the blind/referenceless image spatial quality evaluator(BRISQUE) algorithm. The temporal features are expressed by optical flow motion features. We first compute the dense optical flow matrix between adjacent frames and then extract the mean and variation of overall optical flows and the mean and variation of the main objects in the video. Compression features use resolution, frame rate, and bit rate, which are easy-to-access video coding parameters. Considering the redundancy and relevancy of these potential features, we analyze the correlations among the features and between the features and the subjective quality scores. Then, we select 21 features as influence factors, which only contain 18 spatial natural characteristics and three compression indexes. Lastly, we establish a linear model with the selected features to evaluate underwater video quality objectively through linear regression with cross validation. Result Experimental results show that the proposed underwater video quality assessment model based on spatial naturalness and compression index can obtain the highest correlation with subjective scores in comparison with several mainstream quality assessment models, including two underwater image quality indices (underwater image quality measure(UIQM) and underwater color image quality evaluation(UCIQE)), a natural image quality distortion index (BRISQUE), and a video quality assessment model (video intrinsic integrity and distortion evaluation oracle(VIIDEO)). Performance evaluation is based on Pearson's correlation coefficient (PCC), Spearman's rank order correlation coefficient (SROCC) and the mean squared errors (MSE) between the predicted video quality scores of each model and the subjective scores. On the test video dataset, our method achieves the highest correlation (PCC=0.840 8, SROCC=0.832 2) and a minimum MSE value of 0.113 1. This result indicates that our proposed method is more stable and can predict video quality more accurately than other methods. By contrast, the video quality assessment model VIIDEO can hardly provide correct results, whereas UIQM and UCIQE demonstrate poor performance with a PCC and SROCC of 0.3~0.4. In addition, BRISQUE performs relatively better than the other methods although still poorer than our method. Conclusion Underwater videos are characterized by blurred picture, low contrast, color distortion, uneven lighting, large lens movement, and out of focus. To achieve an accurate assessment of underwater video quality, we fully consider the characteristics and shooting conditions of underwater videos and establish a labeled underwater video dataset with subjective video quality assessment. By fitting a linear regression model for subjective quality scores with natural statistical characteristics of video frames and video compression parameters, we propose an objective underwater video quality assessment model. The proposed nonreference underwater video quality assessment method is suitable to establish a prediction model that is highly related to human visual perception, with a small sample size of underwater video dataset.
Key words
video quality assessment; objective quality assessment model; underwater video; natural scene statistics; compression parameters
0 引言
随着深海探测技术的不断发展,水下视频在海底探索和研究中的作用日益凸显。而视频质量评价在视频技术研究中处于重要地位。对水下视频准确、有效的质量评价不仅是直接衡量水下视频质量的重要指标,也是获取高质量水下视频的重要前提,还是评价水下图像/视频修复或增强技术的重要手段,有助于水下视频质量的持续提高和有用信息的提取与识别。
水下视频质量一方面受复杂的水下成像条件影响, 自然光在深海中被完全吸收,拍摄时的辅助人工光源在海水中传播时发生光吸收、散射和色散,同时受海水浑浊度和海底地形等影响,在空间维度上呈现画面模糊、对比度低、色彩失真和光照不均等特点(图 1(a)(b));另一方面受拍摄设备限制和水流等影响,移动拍摄时镜头不易稳定,固定镜头拍摄移动物体时,镜头转动生涩,相比于自然场景下拍摄的视频,水下视频具有镜头移动晃动大(图 1(c)),以及失焦严重(图 1(d))等问题。因此,大气环境下建立的自然场景视频质量评价指标或方法可能无法对水下视频质量做出准确合理评价,需要重新定义水下视频的“质量”,并建立有效的质量评价方法和模型。
国内外在水下视频质量评价(video quality assessment, VQA)方面的研究成果较少,研究主要集中于水下图像质量评价方法。少数几个水下视频质量评价模型,如Moreno-Roldán等人(2017, 2018)提出的模型,存在样本不真实和模型过拟合等问题。水下视频质量评价模型在理论和实用性方面都面临挑战。相对而言,自然场景下的视频质量评价的研究已经比较成熟,有主观质量评价和客观质量评价两种,前者是通过人眼对视频的主观感受来评估视频质量,后者通过模型模拟人类视觉感知量化指标衡量视频质量。典型的视频主观VQA方法主要由国际视频质量专家组VEQG(video quality expert group)提出,并被国际电信联盟(International Telecommunication Union, ITU)标准化(ITU-T,1999;ITU-R, 2002, 2007)。通过主观评价得到的结果,通常认为最符合人类感知的质量,但是主观评价方法普遍存在耗时长、用户评价负担重和容易产生个体偏见等问题,更重要的是,主观评价不能自动化,因此,建立可靠的客观VQA是目前水下视频质量评价的一个有效的途径。客观VQA面临的挑战是要准确模拟人类视觉感知,从而替代复杂耗时的主观质量评价。ITU根据是否需要参考原始视频,把客观VQA分为全参考(full-reference, FR)、部分参考(reduced-reference, RR)和无参考(no-reference, NR)方法。考虑到水下视频的特性,通常无法获得理想的参考视频,FR和RR方法在水下视频质量评价中的实用性有限,因此,对水下视频质量评价一般采用无参考/盲预测的方法。
本文构建了水下视频数据集,然后从时空域和视频编码参数分别讨论了相关特征对水下视频质量的影响,并利用最终选定的特征建立了基于空域自然特性与编码参数的无参考水下视频质量评价模型(no-reference underwater video quality assessment,NR-UVQA),该模型能够以较小的计算复杂度,获得与人类视觉感知较高的相关性。本文贡献概述如下:1)充分考虑水下视频成像特性,建立水下视频质量评价数据集;2)通过分析视频空间全帧统计特性、光流运动特性和编码参数对视频质量的影响,获取与感知质量相关的少量特征,建立NR-UVQA模型;3)与多种优秀的质量评价模型对比,分析认为本文方法在评价结果和观察者评级之间能够获得更高的相关性。
1 相关工作
视频由在时间上连续播放的单帧图像组成,因此单帧图像的质量对于整体视频的质量具有绝对的意义。许多学者提出的视频质量评价方法都是在图像质量评价方法的基础上做出的创新。其中,自然图像统计(natural scene statistics,NSS)(Field,1999)模式是一种常用的图像特征提取方法,例如,Moorthy和Bovik(2011)基于NSS以图像真实性完整性为指标提出无参考图像质量评价方法(distortion identification-based image verity and integrity evaluation, DIIVINE),在LIVE IQA数据库进行全面评估,取得与较好的FR质量评价等同的效果。Mittal等人(2012)提出一种基于NSS的失真通用盲/无参考质量评估算法(blind/referenceless image spatial quality evaluator, BRISQUE),该算法不计算特定图像失真特性,而是使用局部归一化亮度系数的场景统计来量化可能的损失,能够以非常低的计算复杂度准确表示图像质量。Mittal等人(2013)基于简单的空间域NSS模型提出自然图像质量评估器(natural image quality evaluator, NIQE),在不知道图像失真特性的情况下,能够得到较准确的质量评价结果。
针对水下图像特性,也有许多专门用于水下图像质量评价的成果。例如,Yang和Sowmya(2015)提出水下彩色图像质量评价指标(underwater color image quality evaluation, UCIQE),该指标提取CIELab空间统计特征中与观察者感知相关度最高的3个质量度量:色度、饱和度和对比度,将这些参数线性组合用来预测图像质量,最终能够在预测结果和观察者评级之间获得很好的相关性。Panetta等人(2016)受到人类视觉系统属性的启发,提出了一种无参考的水下图像质量评价方法(underwater image quality measure, UIQM),针对水下图像的模糊、低对比度和色偏的特点,采用3种水下图像属性测量:水下图像色彩测量(underwater image colorfulness measure, UICM)、水下图像清晰度测量(underwater image sharpness measure, UISM)和水下图像对比度测量(underwater image contrast measure, UIConM)来表征水下图像质量。Wang等人(2018)基于水下吸收和散射特征的成像分析,提出新的水下彩色图像质量评估方法CCF(colorfulness,contrast,fog density),该方法将色度、对比度和雾密度作为评价指标。郭继昌等人(2017)将深度学习网络框架与随机森林回归模型相结合,无需参考图像就能得到与观察者感知质量相关性很高的预测结果,但模型的参数调节需要原始数据,且深度学习网络对小样本数据容易过拟合。Wang等人(2019)对比信息熵(ENTROPY),BRISQUE0,NIQE,UIQM和UCIQE等5种方法评估水下图像增强效果,结果显示BRISQUE,UIQM和UCIQE各有优劣,而ENTROPY,NIQE不能准确反映水下图像质量。
无论是水下图像还是自然场景图像,对图像进行质量评价都能取得较好的评价结果,但将图像质量评价方法直接运用于水下视频的质量评价,存在明显的局限性。图像质量评价方法能够用于评估每一帧图像的质量,但视频具有运动特性,仅评估视频帧的质量不能很好地体现视频运动特性对视频质量的影响。Saad等人(2014)提出一种Video BLINEDS的盲参考视频质量评价模型,以离散余弦变换系数的统计特性表示视频的时间的空间属性,结合运动一致性对视频质量分数进行预测。其使用LIVE VQA数据库(Seshadrinathan等,2010)进行训练,然后在该数据库和EPFL-Polimi数据库(De Simone等,2010)上进行评估性能,取得与对比FR方法同等效果。Mittal等人(2016)提出VIIDEO(video intrinsic integrity and distortion evaluation oracle),通过评估视频内在完整性和失真程度,克服对主观得分的依赖性和其他失真,在视频质量评价中取得比Video BLINEDS更加接近人类视觉感知的结果。尽管这些方法都能取得优秀的结果,但是在水下视频质量评价的实际应用中,应避免复杂的处理任务、涉及大量图像或特征处理的方法,容易导致过拟合。因此,需要一种低计算复杂度的方法去训练水下视频质量评价客观模型,从而得到更加准确的水下视频质量评价结果。
Moreno-Roldán等人(2017)提出两种用于水下视频质量评估的机器学习模型:基于曲面拟合回归的NR参数模型和基于序数逻辑回归的RR混合模型,两种模型均以比特率和帧率作为参数进行训练,主要考虑了水下传输对图像质量的影响。2018年,他们进一步提出一种无参考水下视频质量评价方法(Moreno-Roldán等,2018),该方法使用视频单帧和相邻帧差的NSS特征建立线性模型来表征水下视频质量,在他们建立的主观评价数据集上取得一个不错的结果,但该方法所采用的特征值数量多达41个,而且全部是基于NSS的统计特征,对于小样本的数据集易过拟合。因此,针对水下视频特点,设计专门应用于水下视频质量评价的方法仍是需要解决的问题。
本文从水下视频的特点出发,建立水下视频数据集,并设计一种适用于小样本的无参考水下视频质量评价模型。该方法不针对特定失真类型,最终取得与人类视觉感知相关性最高的评价结果。
2 主观质量评价数据集
本文提出的无参考视频质量评价算法目标是取得接近主观水下视频质量评价的结果。由于不存在公开的水下视频质量评价数据集,在构建本文的NR-UVQA算法进行水下视频质量评价实验之前,需要建立一个水下视频数据集。数据集构建过程如图 2所示。
2.1 源数据
用来测试的水下视频主要来源于日本海洋地球科学技术局的深海图像E-library (J-EDI)。考虑到样本的多样性,共收集60个不同时间、不同场景、不同分辨率以及不同拍摄环境的水下视频,并根据视频拍摄内容、色彩信息和镜头特点等信息对源数据建立了人为描述。在图 3中举例说明了4个水下视频的描述。图 3(a)视频描述为:拍摄时间:2004.10.08;拍摄地点:Lau Basin VaiLiliSite;水深:1 717.2~1 716.7 m;特点:色彩丰富、静止主体、镜头少许缩放和转动。图 3(b)视频描述为:拍摄时间:2007.10.03;拍摄地点:Kushiro Canyon;水深:3 896.5~3 896.3 m;特点:高亮度、低色彩饱和度,海底静止主体,镜头拉近、转动。图 3(c)视频描述为:拍摄时间:2016.02.21;水深:3 419.0~3 387.0 m;特点:绿色偏暗,缓慢匀速移动拍摄海底岩石。图 3(d)视频描述为:拍摄时间:2015.05.05;拍摄地点:Sanriku;水深:799.7~799.7 m;特点:绿色偏色、不清晰,主体在海底轻微摆动,镜头拉近,有轻微晃动。
2.2 数据集构建
通过大量观察,本文总结出水下视频具有以下特点。从视频画面来看:
1) 视频色彩多呈现蓝、蓝紫、蓝绿、绿、黄绿和暗黑等;
2) 视频多模糊、浑浊;
3) 补光充足多出现曝光现象,导致拍摄主体反光或画面泛白等情况;
4) 补光不足导致视频昏暗,细节内容较少。
从视频拍摄角度来看,视频在水下拍摄过程中,受设备条件限制,具有以下几种情况:
1) 镜头转动不灵活,晃动大,易失焦;
2) 镜头移动拍摄,主体易出画面框;
3) 镜头焦距缩放容易导致失焦,甚至长时间无法对焦;
4) 静止拍摄时,非固定相机会随水流轻微摆动。
为了在筛选的视频中体现上述水下视频特点,本文根据视频内容和画面进行初步筛选。视频内容包含简单的海底几乎静止的动植物、复杂的不规则岩石布局和移动的动植物(植物随水流)。初选出21个视频作为代表性样本和潜在的测试序列。再将这些时长不同的视频以10 s为间隔进行剪切。根据视频拍摄出现的几种情况进行二次筛选并保证视频色彩多样性,最终选出25个视频序列作为水下视频质量评价数据集的原始数据。
在图像/视频的质量评价中色彩信息通常是重要的评价方面之一。本文在原始视频的选取中,充分考虑视频画面色彩多样性,视频序列包含的色彩跨度大:R通道像素均值范围在(9,162.4),G通道像素均值范围在(12.6,184.2),B通道像素均值范围在(18.3,198.2))。在图 4所示的R、G、B 3维坐标图显示这些视频序列的色彩分布比较分散,没有集中在某一区域。
图 5展示了6个代表性视频序列的R、G、B通道像素值逐帧变化的散点图,图下方为3个通道的均值。可以看出,这些视频序列色彩分布情况不同,且视频色彩既有平缓变化(如图 5(b)(d)),也有剧烈变化(如图 5(e))。
此外,比特率、帧率和内容变化是对质量分数影响较大的变量。视频运动量和空间细节会影响视觉的可感知性(Legge和Foley,1980;Zhong等,2004),因此,要确保进行主观视频质量评估的视频序列具有不同的运动信息和空间信息。通常由空间感知信息(spatial information,SI)和时间感知信息(temporal information,TI)(ITU-T,1999)表示这种场景内容变化。文中通过式(1)和式(2)逐帧计算SI和TI,然后取视频帧序列中的最大SI值和TI值作为视频的
$ S=\text{ma}{{\text{x}}_{\text{ time }}}\{st{{d}_{\text{ space }}}[ Sobel ({{P}_{n}}(i,j))]\} $ | (1) |
$ T=\text{ma}{{\text{x}}_{\text{ time }}}\{st{{d}_{\text{ space }}}[{{Q}_{n}}(i,j)]\} $ | (2) |
式中,
将所有视频的SI和TI值作散点图展示(如图 6),可以看出,除一个视频的SI和TI值比较高之外,本文最终选择的视频序列在空间和时间复杂度上的分布比较均匀,能够全面反映不同空间和时间复杂度视频的质量结果。
考虑到比特率和帧率对质量分数的影响,将最终选定的25个视频序列进行扩展。其中24个视频的比特率在780~820 kbps之间,帧率为29.97帧/s,1个视频比特率为1 820 kbps,帧率为25帧/s。对视频的压缩编码,使用超过原视频本身的参数没有意义,因此,本文中以表 1所示参数值进一步产生质量受损视频序列,共生成250 (25×3×3+25)个样本。在图 7中以帧率为5帧/s的视频为例,展示了不同比特率的压缩视频的第1帧图像,可以看出,经过压缩的视频与原始视频在细节上的有明显的差别,不同比特率的压缩视频之间也能看出细微的差别。
表 1
视频数据集参数的范围
Table 1
Range of video dataset parameters
参数 | 不同的视频编码参数 | ||
比特率/kbps | 96 | 200 | 500 |
帧率/(帧/s) | 5 | 10 | 25 |
2.3 主观质量评价
对数据集的主观质量评价,本文采用P.910(ITU-T,1999)中描述的绝对分类评分ACR(absolute category rating)方法。这种经典方法时间短,并且一次评价一个视频,与典型的视频观看方式最接近。这里采用1~5分的打分制表示5级评级。
由于海底环境涉及生物、地质和海底导航等多方面范畴,很难对质量表达做出直接量化。为此,通过定性分析,结合实际环境,在深入理解视频质量的内涵和属性的基础上,设计深海视频质量的多维语义度量,从画面感受质量、视频流畅程度和主体是否可辨等几个角度进行评判。
参加这项研究的受试者由10名普通受试者和10名从事海洋图像和视频处理方面研究的受试者组成,均无视频质量评估经验。在开始实验之前为受试者做一个简短的培训,包括观看相对较好的5个水下视频序列和相对较差的5个水下视频,并熟悉测试程序。
研究中所有视频全部观看需要1 h,为尽量减少观众疲劳的影响,每隔20 min休息3 min。视频播放系统是专门为此开发的HTML5应用程序,播放界面如图 8所示。为避免质量判断中的上下文和记忆效应,每次观看时,视频序列随机播放。视频播放窗口固定在屏幕中央1 400像素宽的区域,高度自动适应,右侧为打分框,播放完毕后进行打分,点击“下一个”进入下一条视频序列。由20名受试者依次进行打分,最终,得到20个评价结果。去除结果中的异常值,计算平均意见得分(mean opinion score, MOS),即得到视频主观质量结果。
3 水下视频客观质量评价模型
本文提出的NR-UVQA模型,从视频图像特征、视频运动特征和编码参数3个方面出发,分析不同特征对视频质量的影响,将对视频质量影响较大的特征作为质量评价指标输入线性模型,最终得到水下视频质量评价模型。
3.1 全帧统计特征及分析
视频单帧的空间失真是感知视频质量的重要因素。根据自然场景统计和视频统计理论(NSS/NVS)(Ruderman,1994),未失真的图像表现出某种统计特性,当出现失真时,这些统计特性就会丢失。BRISQUE算法(Mittal等,2012)使用局部亮度归一化的场景统计量化局部块损失。现将BRISQUE算法得到的每一视频帧的质量分数取均值作为视频质量分数,即
$ {{Q}_{\text{s}}}= mean \{B({{P}_{n}})\} $ | (3) |
式中,
BRISQUE算法首先使用式(4)对输入视频帧的亮度值
$ \hat{I}(i,j)=\frac{I(i,j)-\mu (i,j)}{\sigma (i,j)+1} $ | (4) |
$ \mu (i,j)=\sum\limits_{i=1}^{M}{\sum\limits_{j=1}^{N}{{{w}_{k,l}}}}{{I}_{k,l}}(i,j) $ | (5) |
$ \sigma (i,j)=\sqrt{\sum\limits_{i=1}^{M}{\sum\limits_{j=1}^{N}{{{w}_{k,l}}}}{{({{I}_{k,l}}(i,j)-\mu (i,j))}^{2}}} $ | (6) |
式中,
BRISUQE算法接下来通过拟合MSCN系数广义高斯分布(generalized Gaussian distribution,GGD)(Sharifi和Leon-Garcia,1995)的形状和方差参数得到特征
表 2
图像特征摘要
Table 2
Feature summary
特征ID | 特征描述 | 计算方式 |
b1, b2 | 形状,方差 | MSCN系数GGD拟合 |
b3, …, b6 | 形状,均值, 左方差,右方差 |
水平方向AGGD拟合 |
b7, …, b10 | 形状,均值, 左方差,右方差 |
垂直方向AGGD拟合 |
b11, …, b14 | 形状,均值, 左方差,右方差 |
主对角方向AGGD拟合 |
b15, …, b18 | 形状,均值, 左方差,右方差 |
次对角方向AGGD拟合 |
本文中建立的水下视频数据集,样本数量小,过多的冗余参数会导致模型泛化性能差。通过分析,希望减少特征数量也能取得很好的性能。表 3为求取原始图像和降低分辨率图像对应特征之间的皮尔森线性相关系数(Pearson’s correlation coefficient, PCC)。可以看出,除了
表 3
两组特征之间的皮尔森线性相关系数
Table 3
PCC between two sets of features
特征ID | PCC |
b1-b19 | 0.888 5 |
b2-b20 | 0.983 9 |
b3-b21 | 0.860 4 |
b4-b22 | 0.706 4 |
b5-b23 | 0.932 0 |
b6-b24 | 0.831 1 |
b7-b25 | 0.878 5 |
b8-b26 | 0.126 4 |
b9-b27 | 0.877 5 |
b10-b28 | 0.989 0 |
b11-b29 | 0.911 0 |
b12-b30 | 0.806 4 |
b13-b31 | 0.946 3 |
b14-b32 | 0.977 3 |
b15-b33 | 0.912 6 |
b16-b34 | 0.789 0 |
b17-b35 | 0.943 4 |
b18-b36 | 0.974 3 |
表 4
视频特征和主观质量评价结果的PCC和SROCC相关系数
Table 4
PCC and SROCC coefficients between video features and subjective quality evaluation results
特征ID | PCC | SROCC |
b1, …, b36 | 0.755 0 | 0.739 7 |
b1, …, b18 | 0.586 7 | 0.576 1 |
b19, …, b36 | 0.720 9 | 0.706 6 |
3.2 光流运动特征及分析
与图像质量评价不同,视频需要考虑运动特性对质量的影响。光流法不仅携带物体的运动信息,还包含景物的3维结构信息,能够很好地刻画目标运动过程,因此,本文采用光流法表示视频帧序列的运动特性。
光流法是利用像素强度的时域变化和相关性来确定各自像素位置的“运动”。水下视频画面模糊、雾化严重,所以采用传统的稠密光流法,计算帧间光流矩阵。两帧之间的稠密光流矩阵采用OpenCV的calcOpticalFlowFarneback函数获得。对得到的光流矩阵提取光流运动特征,包括整体运动特性和视频中主体的运动特征。
视频整体的运动特征用帧间运动距离的均值
$ {{\mu }_{\text{opt}}}=\frac{1}{K-1}\sum\limits_{k=1}^{K-1}{d_{\text{opt}}^{k}} $ | (7) |
$ \sigma _{\text{opt}}^{2}=\frac{1}{K-1}\sum\limits_{k=1}^{K-1}{{{(d_{\text{opt}}^{k}-{{\mu }_{\text{opt}}})}^{2}}} $ | (8) |
$ {\mathit{\boldsymbol{d}}_{{\rm{opt}}}} = \{ d_{{\rm{opt}}}^1,d_{{\rm{opt}}}^2, \cdots ,d_{{\rm{opt}}}^{n - 1}\} $ | (9) |
$ d_{\text{opt}}^{k}=\frac{1}{MN}\sum\limits_{i=1}^{M}{\sum\limits_{j=1}^{N}{\sqrt{d_{x,ij}^{2}+d_{y,ij}^{2}}}} $ | (10) |
式中,
除了视频整体的运动体现,视频中主体的运动状态能体现水下视频的科学有用性,也是本文所考虑的。设置阈值
$ nu{{m}_{k,\text{pix}}}=\sum\limits_{i=1}^{M}{\sum\limits_{j=1}^{N}{{{\delta }_{ij}}}} $ | (11) |
式中,
$ {{\mu }_{\text{op}{{\text{t}}_{-}}num}}=\frac{1}{K-1}\sum\limits_{k=1}^{K-1}{n}u{{m}_{k,\text{pix}}} $ | (12) |
$ \sigma _{\text{op}{{\text{t}}_{-}}num}^{2}=\frac{1}{K-1}\sum\limits_{k=1}^{K-1}{{{(nu{{m}_{k,\text{pix}}}-{{\mu }_{\text{op}{{\text{t}}_{-}}num}})}^{2}}} $ | (13) |
将
3.3 编码参数及分析
本文从视频的空间域和时间域讨论,得到视频的空间统计特征和时间运动特征,但是视频的编码特性对视频质量的影响也是不容忽视的。在数据处理阶段,很容易得到视频的分辨率(像素)、帧率(帧/s)、码率(kbps)信息,这些编码参数是视频处理非常常见也容易获取的参数,因此,本文将视频的分辨率、帧率、码率信息作为编码特征
3.4 水下视频质量评价模型
将上述视频特征:空间特征
$ y=\sum\limits_{i=1}^{25}{{{\omega }_{i}}}{{f}_{i}} $ | (14) |
式中,
表 5
单个特征和组合特征与主观质量评价结果的皮尔森线性相关系数和斯皮尔曼等级秩序相关系数
Table 5
PCC and SROCC between single feature and feature combinations and subjective quality evaluation results
特征ID | PCC | SROCC |
F1 | 0.720 9 | 0.706 6 |
F2 | 0.331 1 | 0.348 4 |
F3 | 0.599 4 | 0.532 9 |
F1、F2 | 0.746 4 | 0.717 7 |
F1、F3 | 0.841 6 | 0.832 8 |
F2、F3 | 0.643 5 | 0.615 5 |
F1、F2、F3 | 0.838 5 | 0.826 7 |
注:加粗字体为每列最优值。 |
由表 5可以看出,视频运动特征
4 性能评估
使用本文建立的水下视频数据集开展实验,与目前最优的两种水下图像质量评价方法UIQM (Panetta等,2016)和UCIQE(Yang和Sowmya,2015),基于自然统计特性的图像质量评价方法BRISQUE (Mittal等,2012),以及一种视频质量评价方法VIIDEO(Mittal等,2016)进行对比实验,将与主观评价得分(MOS)的相关性作为指标,评估所提出算法的性能。
使用UIQM、UCIQE和BRISQUE图像质量评价方法对水下视频进行评价时,对每一帧视频的质量进行评价,然后取全部视频帧的均值作为水下视频的质量评价结果。为了达到3种对比方法的最佳性能,本文用自己构建的水下数据集分别对UIQM、UCIQE和BRISQUE模型进行了训练,获得适合本数据集的权重系数线性模型,然后用于对测试视频集进行预测。
由于这3个对比模型均为线性模型,所以可以采用3.4节相同的方式训练。以UIQM方法为例,首先对训练数据集中的每个视频序列,计算其所有视频帧的水下图像色彩测量UICM、清晰度测量UISM、对比度测量UIConM;然后求取视频序列的UICM均值、UISM均值、UIConM均值作为线性模型的输入变量,通过线性回归拟合主观评价结果,得到训练好的模型和权重;最后在测试集上进行预测。其他两个方法类似。VIIDEO是视频质量评价模型,能够直接用于水下视频的质量评价。
图 9展示了几种方法在测试阶段的视频质量预测结果与主观质量评价结果的散点图,其中横坐标
除了各方法与主观质量评价分数的散点图和拟合线性关系,相关性性能评估结果如表 6所示。从主观评分分别与UIQM、UCIQE、VIIDEO、BRISQUE和本文方法预测评分之间的相关系数PLCC和SROCC可以看出,VIIDEO几乎不能得出正确的结果(相关性系数 < 0.1),UIQM、UCIQE的预测结果不佳(相关系数 < 0.6),BRISQUE可以得到一个不错的结果,本文算法则得到与主观质量分数最高的相关性(PCC=0.840 8,SROCC=0.832 2),说明本文模型评价的结果更符合人类视觉感知。
表 6
PLCC和SROCC性能指标结果比较
Table 6
Performance comparison of different methods
方法 | PCC | SROCC |
UIQM | 0.410 3 | 0.314 1 |
UCIQE | 0.312 4 | 0.338 2 |
BRISQUE | 0.763 1 | 0.747 5 |
VIIDEO | -0.009 0 | 0.005 0 |
本文 | 0.841 6 | 0.832 8 |
注:加粗字体为每列最优值。 |
为了更加直观地说明算法之间的质量评价结果,随机选择6个水下视频(图 10)进行测试,得到的评分情况如表 7。对比观察具体视频的模型评价结果与主观评价分值,可以看出本文方法和BRISQUE都与主观得分比较接近,其他方法对某些视频(例如图 7(e)视频)也有更接近主观分数的预测结果。但是,单一的视频质量评价结果的准确度并不能说明该方法的好坏。本文通过计算各方法评价结果与主观分数的均方误差(mean square error, MSE)(表 8),来判断不同的方法对实际视频质量预测的稳定性。通过比较MSE,可以认为本文方法比其他方法更稳定。
表 7
各类方法的预测结果比较
Table 7
Comparison of predicted scores by different methods
方法 | 图 10 | |||||
视频1 | 视频2 | 视频3 | 视频4 | 视频5 | 视频6 | |
UIQM | 2.8 | 2.4 | 2.8 | 2.6 | 2.4 | 2.5 |
UCIQE | 2.6 | 2.4 | 2.7 | 2.7 | 2.2 | 2.5 |
BRISQUE | 3.6 | 1.7 | 3.2 | 3.3 | 2.7 | 1.8 |
VIIDEO | 2.9 | 3.7 | 4.2 | 3.3 | 4.5 | 3.5 |
本文 | 3.6 | 1.4 | 3.1 | 3.0 | 2.6 | 1.5 |
主观分数 | 3.8 | 1.4 | 3.6 | 2.4 | 2.3 | 1.8 |
表 8
各类方法预测结果的MSE
Table 8
MSE of prediction results by different methods
方法 | |||||
UIQM | UCIQE | BRISQUE | VIIDEO | 本文 | |
MSE | 0.312 7 | 0.332 0 | 0.165 3 | 1.392 2 | 0.113 1 |
注:加粗字体为最优值。 |
5 结论
由于水下拍摄环境复杂,且受拍摄设备限制,拍摄的水下视频多存在画面模糊、对比度低、色彩失真、光照不均、镜头移动晃动大和失焦等问题。针对这些问题,本文考虑水下视频特点和水下视频拍摄情况,建立水下视频数据库,并通过主观评价打分的方式对视频质量进行标注;然后从空间维度、时间维度和视频参数几个方面进行讨论,提出了一种基于空域自然特性与编码参数的水下视频质量评价方法。该方法无需参考视频,能够很好地适用于小样本数据,准确性高,结果符合人类视觉感知。
由于实验条件所限,本文还存在一些不足。首先,色彩信息通常对图像/视频的质量评价有重要影响,但在主观质量评价时,没有要求评价主体从图像色彩上对视频质量进行评价,而是要求从画面质量、视频流畅度和主体可辨的总体感受性进行评价。主要是考虑:一方面本文在制作深海视频数据集时尽量考虑了色彩的多样性,评价者对画面质量的评价本身已隐含了对颜色的视觉感受性;另一方面该方法视频数据大部分来自水深500~5 000 m的深海,在无光环境下借助人工辅助光源拍摄到的图像或视频广泛存在色偏、色彩不够丰富等问题,人们(在大气环境中建立起来)的普遍色彩经验在这种情况下不适用,对色彩方面的评价难度较大。
下一步工作将更多地考虑水下视频各方面的特殊性,研究更合理的主观质量评价方法。本文数据集在数据量上也有局限,仍无法很好地涵盖水下视频的特点,在接下来的工作中将从数据的多样化出发,补充数据集,增加模型鲁棒性。
参考文献
-
De Simone F, Tagliasacchi M, Naccari M, Tubaro S and Ebrahimi T. 2010. A H.264/AVC video database for the evaluation of quality metrics//Proceedings of 2010 IEEE International Conference on Acoustics, Speech and Signal Processing. Dallas: IEEE: 2430-2433[DOI:10.1109/ICASSP.2010.5496296]
-
Duda R O and Hart P E. 1973. Pattern Classification and Scene Analysis. New York: Wiley
-
Field D J. 1999. Wavelets, vision and the statistics of natural scenes. Philosophical Transactions of the Royal Society A:Mathematical, Physical and Engineering Sciences, 357(1760): 2527-2542 [DOI:10.1098/rsta.1999.0446]
-
Guo J C, Li C Y, Zhang Y, Gu X Y. 2017. Quality assessment method for underwater images. Journal of Image and Graphics, 22(1): 1-8 (郭继昌, 李重仪, 张艳, 顾翔元. 2017. 面向水下图像的质量评价方法. 中国图象图形学报, 22(1): 1-8) [DOI:10.11834/jig.20170101]
-
ITU-R. 2002. Methodology for the subjective assessment of the quality of television pictures. Recommendation BT.500-11[EB/OL].[2020-01-01]. https://www.itu.int/rec/R-REC-BT.500
-
ITU-R. 2007. Methodology for the subjective assessment of video quality in multimedia applications. Recommendation BT. 1788[EB/OL].[2020-01-01]. https://www.itu.int/rec/R-REC-BT.1788/en
-
ITU-T. 1999. Subjective video quality assessment methods for multimedia applications. Recommendation P.910[EB/OL].[2020-01-01]. https://www.itu.int/rec/T-REC-P.910/en
-
Lasmar N E, Stitou Y and Berthoumieu Y. 2009. Multiscale skewed heavy tailed model for texture analysis//Proceedings of the 16th IEEE International Conference on Image Processing. Cairo: IEEE: 2281-2284[DOI:10.1109/ICIP.2009.5414404]
-
Legge G E, Foley J M. 1980. Contrast masking in human vision. Journal of the Optical Society of America, 70(12): 1458-1471 [DOI:10.1364/JOSA.70.001458]
-
Mittal A, Moorthy A K, Bovik A C. 2012. No-reference image quality assessment in the spatial domain. IEEE Transactions on Image Processing, 21(12): 4695-4708 [DOI:10.1109/TIP.2012.2214050]
-
Mittal A, Saad M A, Bovik A C. 2016. A completely blind video integrity oracle. IEEE Transactions on Image Processing, 25(1): 289-300 [DOI:10.1109/TIP.2015.2502725]
-
Mittal A, Soundararajan R, Bovik A C. 2013. Making a "completely blind" image quality analyzer. IEEE Signal Processing Letters, 20(3): 209-212 [DOI:10.1109/LSP.2012.2227726]
-
Moorthy A K, Bovik A C. 2011. Blind image quality assessment:from natural scene statistics to perceptual quality. IEEE Transactions on Image Processing, 20(12): 3350-3364 [DOI:10.1109/TIP.2011.2147325]
-
Moreno-Roldán J M, Luque-Nieto M Á, Poncela J, Otero P. 2017. Objective video quality assessment based on machine learning for underwater scientific applications. Sensors, 17(4): 664 [DOI:10.3390/s17040664]
-
Moreno-Roldán J M, Poncela J, Otero P, Bovik A C. 2018. A no-reference video quality assessment model for underwater networks. IEEE Journal of Oceanic Engineering, 45(1): 342-346 [DOI:10.1109/JOE.2018.2869441]
-
Panetta K, Gao C, Agaian S. 2016. Human-visual-system-inspired underwater image quality measures. IEEE Journal of Oceanic Engineering, 41(3): 541-551 [DOI:10.1109/JOE.2015.2469915]
-
Ruderman D L. 1994. The statistics of natural images. Network:Computation in Neural Systems, 5(4): 517-548 [DOI:10.1088/0954-898X_5_4_006]
-
Saad M A, Bovik A C, Charrier C. 2014. Blind prediction of natural video quality. IEEE Transactions on Image Processing, 23(3): 1352-1365 [DOI:10.1109/TIP.2014.2299154]
-
Seshadrinathan K, Soundararajan R, Bovik A C, Cormack L K. 2010. Study of subjective and objective quality assessment of video. IEEE Transactions on Image Processing, 19(6): 1427-1441 [DOI:10.1109/TIP.2010.2042111]
-
Sharifi K, Leon-Garcia A. 1995. Estimation of shape parameter for generalized Gaussian distributions in subband decompositions of video. IEEE Transactions on Circuits and Systems for Video Technology, 5(1): 52-56 [DOI:10.1109/76.350779]
-
Wang Y, Li N, Li Z Y, Gu Z R, Zheng H Y, Zheng B, Sun M M. 2018. An imaging-inspired no-reference underwater color image quality assessment metric. Computers & Electrical Engineering, 70: 904-913 [DOI:10.1016/j.compeleceng.2017.12.006]
-
Wang Y, Song W, Fortino G, Qi L Z, Zhang W Q, and Liotta A. 2019. An experimental-based review of image enhancement and image restoration methods for underwater imaging. IEEE Access, 7: 140233-140251 [DOI:10.1109/ACCESS.2019.2932130]
-
Yang M, Sowmya A. 2015. An underwater color image quality evaluation metric. IEEE Transactions on Image Processing, 24(12): 6062-6071 [DOI:10.1109/TIP.2015.2491020]
-
Zhong Y, Richardson I, Sahraie A and McGeorge P. 2004. Influence of task and scene content on subjective video quality//Campilho A, Kamel M, eds. International Conference on Image Analysis and Recognition. Porto: Springer: 295-301[DOI:10.1007/978-3-540-30125-7_37]