Print

发布时间: 2022-05-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.210303
2022 | Volume 27 | Number 5




    数据集论文    




  <<上一篇 




  下一篇>> 





面向真实水下图像增强的质量评价数据集
expand article info 顾约瑟1, 姜求平1, 邵枫1, 高伟2,3
1. 宁波大学信息科学与工程学院, 宁波 315211;
2. 北京大学深圳研究生院信息工程学院, 深圳 518055;
3. 鹏城实验室, 深圳 518055

摘要

目的 由于光在水中的衰减/散射以及微生物对光的吸收/反射等影响,水下图像通常存在色偏、模糊、光照不均匀以及对比度过低等诸多质量问题。研究人员对此提出了许多不同的水下图像增强算法。为了探究目前已有的水下图像增强算法的性能和图像质量客观评价方法是否适用于评估水下图像,本文开展大规模主观实验来对比不同水下图像增强算法在真实水下图像数据集上的性能,并对现有图像质量评价方法用于评估水下图像的准确性进行测试。方法 构建了一个真实的水下图像数据集,其中包含100幅原始水下图像以及对应的1 000幅由10种主流水下图像增强方法增强后的图像。基于成对比较的策略开展水下图像主观质量评价,进一步对主观评价得到的结果进行分析,包括一致性分析、收敛性分析以及显著性检验。最后将10种现有主流的无参考图像质量评价在本文数据集上进行测试,检验其在真实水下图像数据集上的评价性能。结果 一致性分析中,该数据集包含的主观评分有较高的肯德尔一致性系数,其值为0.41;收敛性分析中,所收集的投票数量与图像数量足够得到稳定的主观评分;表明本文构建的数据集具有良好的有效性与可靠性。此外,目前对比自然图像的无参考图像质量评价方法并不适用于水下图像数据集,验证了水下图像与自然图像的巨大差异。结论 本文构建的真实水下图像数据集为未来水下图像质量客观评价方法以及水下图像增强算法的研究提供了参考与支持。所涉及的图像以及所有收集的用户数据,都在项目主页(https://github.com/yia-yuese/RealUWIQ-dataset)上公开。

关键词

图像质量评价; 水下图像增强; 主观质量评价; 数据集; 成对比较(PC)

A real-world quality evaluation dataset for enhanced underwater images
expand article info Gu Yuese1, Jiang Qiuping1, Shao Feng1, Gao Wei2,3
1. Faculty of Information Science and Engineering, Ningbo University, Ningbo 315211, China;
2. School of Electronic and Computer Engineering, Shenzhen Graduate School, Peking University, Shenzhen 518055, China;
3. Peng Cheng Laboratory, Shenzhen 518055, China
Supported by: National Natural Science Foundation of China (61901236, 62071261, 61801303); Natural Science Foundation of Zhejiang Province, China (LR22F020002); Fundamental Research Funds for the Provincial Universities of Zhejiang (SJLZ2020003)

Abstract

Objective Underwater images processing are essential to marine issues in the context of defense, environmental protection and engineering. However, there are always severe quality degradation issues like color cast, blur, and low contrast are greatly restricted the quality of underwater imaging and operation systems due to the inner-water light attenuation/scattering and the microbe derived absorption/reflection of light. Underwater image enhancement (UIE) algorithms have been demonstrated to improve the quality of underwater images nowadays. The two aspects of challenges are critical to be illustrated as below: one of huge gap between the synthesized and in-situ underwater images processing are constrained of complicated degradations of diverse underwater environments. The other is challenged that the existing objective image quality metrics are matched to evaluate the in-situ quality of various UIE algorithms. To resolve the above two issues, our demonstration has illustrated as following: first, we build up a real-world underwater image quality evaluation dataset to compare the performance of different UIE algorithms based on a collection of in-situ underwater images. Next, we evaluate the performance of existing image quality evaluation metrics on our generated dataset. Method First, we collect 100 real-world underwater images, including 60 color cast-dominant and 40 blur-dominant ones, and apply 10 representative UIE algorithms to enhance the 100 raw underwater images. A total number of 1 000 enhanced results (10 results for each raw underwater image) are generated. Next, we conduct complex human subjective studies to evaluate the performance of different UIE algorithms based on the pairwise comparison (PC) strategy. Thirdly, we analyze the results obtained from our subjective studies to demonstrate the reliability of our human subjective studies and get insights on the pros and cons of each UIE algorithm. The Bradley-Terry (B-T) model on the PC results obtained B-T scores as the ground truth quality scores of the enhanced underwater images. Finally, we test the capabilities of existing image quality metrics via the correlations between the B-T scores and the predicted 10 existing representative no-reference image quality metrics for evaluating UIE results. Result We illustrates the Kendall coefficient of inner subjects' protocols, a convergence analysis and conducts a significance test to verify the dataset. The Kendall coefficient of inner subjects' protocols on the full-set is around 0.41, which demonstrates a qualified inter-subject consistency level. Such coefficient is slightly different on the two subsets, i.e., 0.39 and 0.44 on the color cast subset and blur subset, respectively. In respect of the convergence analysis, the mean and the variance of each underwater image enhancement algorithms tend to be clarified in the context of the increasing of the number of votes and the number of images.The similar subjective scores are obtained for each underwater enhancement algorithms. The significance for test results demonstrates that GL-Net is the best and underwater image enhancement convolutional neural network(UWCNN) is the worst for the adopted 10 UIE algorithms. In addition, there is slight difference on the performance rankings of different UIE algorithms on the two subsets. Finally, an existing no-reference image quality metrics can be unqualified for UIE algorithms evaluation. Conclusion Our first contribution is based on an in-situ underwater image quality evaluation dataset through conducting human subjective studies to compare the performance of various UIE algorithms with a collection of in-situ underwater images. The other one is that the performance of existing image quality evaluation methods is evaluated based on our dataset and the limitation of the existing image quality metrics is identified for UIE quality evaluation. Overall, this research targets underwater image quality evaluation metrics. All the images and collected data involved are available at: https://github.com/yia-yuese/RealUWIQ-dataset.

Key words

image quality evaluation; underwater image enhancement; subject image quality assessment; dataset; pairwise comparison(PC)

0 引言

水下成像系统(McGlamery,1980)在海洋军事、海洋工程应用以及海洋环境保护等领域扮演越来越重要的角色(Jaffe,1990)。然而,由于光在水中的衰减、散射(Hou等,2012),微生物对光的吸收(Akkaynak和Treibitz,2018)、反射等问题的影响(Akkaynak等,2017),水下环境获取到的图像通常存在色偏、模糊、光照不均匀以及对比度过低等质量问题,这严重影响各类水下应用系统的性能。因此,水下图像增强技术得到了研究人员的广泛关注(Jaffe,2015Sheinin和Schechner,2016)。水下图像增强算法旨在对水下环境获取到的图像画质进行增强,从而获得更高视觉质量的水下图像。

目前针对水下图像增强算法的性能评测,仍然存在以下两方面问题。一方面,目前很多水下图像增强算法在合成的水下图像数据集上进行测试,而用算法模拟水下退化过程得到的合成水下图像难以真正地刻画真实水下图像普遍存在的复杂失真,因此在合成数据集上的性能评估无法准确反映水下增强算法在面对真实水下场景时的性能。另一方面,目前的水下图像数据集缺乏大规模主观实验,没有提供不同算法增强后图像的主观视觉质量评分,因此现有的图像质量客观评价方法用于评估水下图像的准确性得不到验证。尽管目前的工作都是直接使用这些已有的图像质量客观评价方法得到的评分结果进行对比,但事实上这些图像质量客观评价方法的可靠性都未能得到验证。

为了解决上述问题,本文着手构建了第一个针对真实水下图像增强算法性能评测的基准数据集。该数据集能够用于验证各种图像质量客观评价方法用于水下图像质量评价以及不同水下图像增强算法性能评测的有效性。本文的主要研究内容简述如下。构建了一个真实水下图像数据集,包含100幅原始水下图像以及对应的1 000幅由10种主流方法增强后的图像。基于成对比较的策略, 开展大规模主观实验对由不同方法增强后的水下图像的视觉质量进行主观评估,并进一步对主观实验结果进行分析,探究不同水下图像增强算法存在的优缺点。基于所构建的数据集对10种主流无参考图像质量客观评价方法的性能进行了评测和分析。本文工作为未来真实水下图像质量客观评价方法以及真实水下图像增强算法的研究提供了富有价值的参考,主要体现在以下两个方面:1)大规模的主观实验给出了不同增强图像的主观视觉质量评分,通过计算客观评价结果和主观评价结果之间的相关性,未来新的无参考水下图像质量客观评价方法的性能可以在本文数据集上得到有效验证。2)有针对性地选取了10种主流的(包括经典的和最新的)水下图像增强算法进行对比,这些算法的增强效果有好有坏,在算法选取上具有广泛的代表性。因此,即便数据集只考虑了10种增强算法,依然有理由认为对于这10种方法开展主观实验得到的主观评分能够为未来无参考水下图像质量评价方法的设计具有很高的参考价值。总而言之,这项工作的主要贡献如下:

1) 数据集。建立了首个针对真实水下图像增强算法性能评估的数据集。该数据集不仅包含原始水下图像以及对应的不同算法增强后的图像,同时还提供了不同算法增强后图像的主观质量评分,为验证目前图像质量客观评价方法的性能提供了富有价值的参考。

2) 主观评价。基于成对比较的方法在构建的数据集上开展大规模的主观实验,从主观视觉感知的角度对由不同方法增强后的水下图像的视觉质量进行主观评估,最终获得每一幅增强后图像的主观质量评分。此外,还随机地在成对比较后向打分者提出问题,以获得打分者做出该选择的原因,后期对这些原因进行统计分析,探究不同水下图像增强算法存在的优缺点。

3) 客观评价。选取了目前广泛使用的10种无参考图像质量客观评价方法(包含8种自然图像质量评价方法和2种水下图像质量评价方法), 对数据集中的水下增强图像的质量进行评分,并给出了不同客观评价模型得到的客观质量评分与主观质量评分之间的相关性,从而有效验证了这些图像质量客观评价方法用于评估水下增强图像质量的可靠性,为进一步设计高效的水下增强图像质量客观评价方法提供思路。

本项目涉及的完整数据集,包括所有的图像以及主观实验的用户数据,都在项目主页(https://github.com/yia-yuese/RealUWIQ-dataset)上公开以方便研究人员使用。

1 相关工作

1.1 水下图像增强

研究人员相继提出许多不同的水下图像增强算法。这些方法大体可以分为两类:基于传统图像处理的方法(Song等,2020Li等,2016Ghani和Isa,2014Fu等,2014, 2017Huang等,2018Drews等,2016)和基于深度学习的方法(Li等,2019, 2020Fu和Cao,2020)。Song等人(2020)通过对背景光和景深图的估计、补偿和修正,来实现水下图像颜色和对比度的改善。Li等人(2016)提出一种基于最小信息丢失原理的图像去阴影算法来恢复退化的水下图像的可见度和颜色,还提出一种基于直方图分布先验的对比度增强算法来提高对比度和亮度。Ghani和Isa(2014)提出了基于瑞利分布和色调饱和度颜色模型的对比度校正技术和颜色校正技术。Fu等人(2014)通过色彩校正、亮化黑暗区域、保持自然度以及增强边缘和细节等实现水下图像的增强。Huang等人(2018)提出了一种基于参数动态优化的直方图拉伸,并采用引导滤波器降噪的水下图像增强方法,用于实现水下图像的对比度和色彩校正。Fu等人(2017)提出了一种基于分段线性变换的颜色校正策略来解决颜色失真,同时还对水下图像逐像素计算,进行低对比度的改善。Drews等人(2016)同时考虑亮度、对比度、饱和度和显著性等特征的融合,在改善水下图像颜色失真的同时提升对比度和清晰度。Li等人(2020)基于合成的水下图像数据集,设计了一种用于增强水下图像的轻型卷积神经网络(convolutional neural network, CNN),并进一步推广到水下视频增强。Fu和Cao(2020)构建了一个包含两个分支的网络,分别用于补偿全局颜色失真和局部对比度下降来实现水下图像质量增强。Li等人(2019)首先收集了大量的真实水下图像,然后用不同的增强方法进行处理,最后通过主观实验从不同方法的增强结果中挑选效果最好的结果作为标签图像,从而实现端到端的真实水下图像增强网络的训练。

1.2 水下图像数据集

为了比较不同水下图像增强算法的性能,目前的工作主要进行主客观两个层面的性能评价。1)主观评价:选取一些具有代表性的原始水下图像进行增强,通过对比不同方法增强后图像的主观视觉质量来实现不同水下图像增强算法的性能比较。为了公平比较,目前已经有研究人员构建了若干合成的(Li等,2020)和真实的(Li等,2019Liu等,2020Yang等,2019)水下图像数据集用于测试。但是,目前已有的这些水下图像数据集只包含了原始水下图像,而没有包含不同算法增强后的图像,同时由于缺乏大规模主观实验也没有提供增强图像的主观视觉质量评分。2)客观评价:利用现有的图像质量评价方法对不同算法增强后的水下图像质量进行预测。由于水下图像增强没有真实的参考图像,因此只能使用无参考图像质量评价方法进行度量。目前常用的客观评价方法包括:无参考自然图像质量评价方法(Mittal等,2012Saad等,2012Moorthy和Bovik,2011Zhang等,2015Liu等,2016Liu等,2014Xue等,2014Ghadiyaram和Bovik,2017)以及无参考水下图像质量评价方法(Yang和Sowmya,2015Panetta等,2016)。

2 数据集构建

2.1 真实水下图像

本文旨在构建面向真实水下图像增强的质量评价基准数据集。为此,收集了一些真实的水下图像,这些图像主要来自于Li等人(2019)的工作。通常而言,图像数据集的规模和场景内容的多样性有助于全面地分析水下图像视觉质量问题以及评估现有图像质量评价方法的性能。因此通过筛选,选取100幅真实的包含丰富场景内容的水下图像作为数据源(增强对象),并且根据水下图像质量退化的特点,进一步将这100幅图像分成两组:色偏主导(60幅)和模糊主导(40幅)。这里需要说明的一点是,由于水下成像环境的复杂性,色偏图像中可能同时存在模糊,模糊图像中可能也同时存在色偏,这里仅考虑某种因素占主导作用而将其分到对应类别中去。图 1展示了部分原始水下图像,其中图 1(a)是色偏主导的图像,图 1(b)是模糊主导的图像。从图中可以看出:1)真实水下图像通常呈现出偏蓝或偏绿的特点,这是由于红光在水下传播时遭受强烈的吸收衰减,而波长在480±30 nm波段的蓝绿光在水中的吸收衰减系数最小,穿透能力最强;2)真实水下图像的整体清晰度不高而且某些局部区域的对比度也较低,这是由于光线在水下传输时会发生前向散射和后向散射,使得图像细节模糊和对比度下降,尤其是强烈的后向散射使整个图像呈现出类似雾化的模糊效果。

图 1 由色偏和模糊主导的原始水下图像
Fig. 1 Raw underwater images dominated by color cast and blur, respectively
((a)color cast; (b) blur)

2.2 水下图像增强算法

为了改善水下图像质量,研究人员相继提出许多水下图像增强方法以消除色偏和模糊的影响。从近年公开发表的论文中选取了10种具有代表性的较为前沿的水下图像增强算法对100幅原始水下图像进行处理。这10种增强方法既包含典型的传统算法:基于背景光和传输图的方法(background light and transmission map,BL-TM)(Song等,2020), 基于最小信息损失和直方图分布先验的方法(minimum information loss and histogram distribution prior,MILHP)(Li等,2016), 基于瑞利拉伸的方法(Rayleigh-stretching,Rayleigh)(Ghani和Isa,2014), 基于同态滤波的方法(retinex-based,Retinex)(Fu等,2014), 基于全局直方图拉伸的方法(relative global histogram stretching,RGHS)(Huang等,2018), 针对颜色和对比度的增强方法(two-step approach,Two-step)(Fu等,2017), 基于水下暗通道先验的方法(underwater dark channel prior,UDCP)(Drews等,2016),又包含最新的基于深度学习的方法:水下图像增强卷积神经网络(underwater image enhancement convolutional neural network,UWCNN)(Li等,2020),基于全局和局部的卷积神经网络(global-local networks,GL-Net)(Fu和Cao,2020), 水下图像增强网络(underwater image enhancement network,Water-Net)(Li等,2019)。为了保证算法实现的准确性,使用作者公开的源代码对原始水下图像进行处理得到增强后的图像。基于以上这10种算法对100幅原始水下图像进行处理,最终得到1 000幅增强后的图像。图 2给出了部分原始水下图像以及对应的由10种不同算法增强后的图像。从中可以看出,不同的增强方法虽然各自具有优点,但同时也存在各自的不足。例如,BL-TM (Song等,2020)过度增加了图像的亮度和对比度,使图像显得过亮甚至产生过曝光现象;MILHP(Li等,2016),Rayleigh (Ghani和Isa,2014)和Two-step(Fu等,2017)这3种方法对于一些图像会引入红色色偏;RGHS(Huang等,2018)和UDCP (Drews等,2016)对于某些图像不但无法有效校正色偏,甚至加重了色偏的影响;UWCNN(Drews等,2016)会降低图像的亮度和对比度,而且对于色偏的校正效果也不是很理想。相比于其他方法,GL-Net(Fu和Cao,2020)和Water-Net (Li等,2019)这两种最新的基于深度学习的方法总体性能更好,但是仍然存在局部区域细节无法看清以及在某些图像上性能不如其他方法等问题。总而言之,目前的算法均存在各自的优点和缺陷。因此,对不同增强算法在真实水下图像数据集上的性能开展评测具有非常重要的意义。本文对不同增强算法的性能开展主观评价。基于主观评价的结果,进一步验证目前的图像质量客观评价算法的有效性。

图 2 不同水下图像增强方法的增强结果
Fig. 2 Enhancement results of different underwater image enhancement algorithms
((a) original underwater images; (b) BL-TM; (c) MILHP; (d) Rayleigh; (e) Retinex; (f) RGHS; (g) Two-step; (h) UDCP; (i) UWCNN; (j) GL-Net; (k) Water-Net)

2.3 主观评价

一般而言,常见的图像质量主观评价方法包括绝对类别评级(absolute categorical rating, ACR)和成对比较(pairwise comparison, PC)两种策略。ACR方法是邀请观测者直接按照视觉感受对图像质量进行分级评分,例如国际上通用的5级绝对尺度(5分为“丝毫看不出图像质量变坏”,4分为“能看出图像质量变化但不妨碍观看”,3分为“清楚看出图像质量变坏,对观看稍有妨碍”,2分为“对观看有妨碍”,1分为“非常严重地妨碍观看”)。若干个观测者对一幅图像绝对评分的平均值作为该图像的最终质量分数。虽然ACR方法简单直接,但是在打分过程存在较大的不确定性,即各个尺度的界限难以清晰判定,以及观测者的认知存在差异,最终导致ACR方法得到的主观质量不够可靠。为了获得更可靠的主观质量评分,本文采用基于PC的主观质量评价方法,要求观测者每次观察一对(两幅)图像,并给出这两个图像的相对质量(即一对图像中,哪一个质量相对更好)。一对图像由若干个观测者进行相对质量的评判后,由大多数人的意见决定其最终的相对质量,最后综合所有图像对的相对质量,通过聚合算法得到各个图像的全局质量分数。相比于ACR方法中需要观测者给出一个图像的绝对质量分数,基于PC的主观质量评价方法只需要比较两幅图像的相对质量,不需要观测者从认知层面去判定各个尺度的界限,任务要求相对简单,对观测者的要求也更低,最终获得的主观评分结果的可靠性也更高。

图 3展示了设计的主观评价界面。通过该界面,观测者可以在两幅图像之间进行切换并进行放大比较,从而方便选择质量相对更高的图像,将两幅图像在同一位置进行切换可以使对比更加明显。构建的数据集包含100幅原始水下图像,每幅图像对应有10幅增强后的图像,成对比较的总次数为$\text{C}^2_{10}×100=4 $500次。由于总对比次数过多,如果要求观测者完成所有的比对任务,会导致观测者的注意力下降,对主观评测的结果存在潜在影响。

图 3 主观评价界面
Fig. 3 Screen-shot of our designed GUI for subjective evaluation

因此,将100幅原始水下图像平均分成5组(每组有20幅原始水下图像,对应的结果图像有200幅),记为A1—A5。一共邀请了75位年龄在18至30周岁之间的观测者,同样将他们随机平均分成5组(每组15人),记为S1—S5,对应负责完成A1—A5的主观评分。因此,每位观测者需要完成的两两对比次数均为$ \text{C}^2_{10}×20=900 $次,一次完整的主观实验时间大约持续90 min,要求观测者将主观实验分3阶段进行,保证每一阶段的时间在30 min左右,从而保证主观评价结果的可靠性。同时,在每位观测者开始主观实验之前,单独向每个观测者介绍了实验目的,明确告知不具有色偏和模糊的图像才是质量更高的图像,防止出现观测者误认为水下图像应有的蓝绿色才是质量更高的表现。

此外,还对观测者为何倾向于选择某一幅图像而不选择另外一幅的原因进行了统计,如图 4所示。通过收集观测者在成对比较中做出偏好选择的原因,能够方便统计对水下图像视觉质量影响较大的若干因素,同时也有助于进一步分析不同增强方法存在的优缺点。

图 4 偏好原因提问界面
Fig. 4 Screen-shot of our designed GUI for questionnaire

3 主观评价结果分析

本文的主要目的是对不同水下图像增强算法的性能开展主观评价, 并基于主观评价得到的结果进一步验证目前主流无参考图像质量客观评价算法的有效性。为了证明本文主观实验的可靠性,需要对主观实验的结果进行全面分析:

1) 一致性分析。分析了不同观测者投票的一致性,以确保主观实验不是随机的。

2) 全局排名。根据Bradley-Terry(B-T) 模型从成对比较的投票结果中获得全局分数和排名。

3) 收敛性分析。从投票数量与图像数量两个方面进行收敛性分析,以证明所收集的投票数量与图像数量足够得到稳定的主观评分。

4) 显著性检验。对10种增强算法进行了显著性检验,根据所得的投票数差异对所评估的增强算法进行分组(分到同一组的算法性能被认为是在统计上不具有显著性差异)。

5) 偏好原因分析。对主观实验中收集到的偏好原因进行了统计分析。

6) 客观评价方法。基于主观评价得到的结果验证了目前主流无参考图像质量客观评价算法的有效性。

3.1 一致性分析

主观实验无法避免主观偏好问题,如果观测者的偏好显著不一致,投票的随机性就会增加。因此,本文通过计算肯德尔一致性系数(Kendall和Smith,1940)来度量不同观测者投票之间的一致性程度$ u$,即

$ u = \frac{{2\sum\limits_{i = 1}^M {\sum\limits_{j = 1}^M {\left( {\begin{array}{*{20}{c}} {{c_{ij}}}\\ 2 \end{array}} \right)} } }}{{\left( {\begin{array}{*{20}{c}} S\\ 2 \end{array}} \right)\left( {\begin{array}{*{20}{c}} M\\ 2 \end{array}} \right)}} - 1 $ (1)

式中,$ c_{ij}$表示算法$ i$和算法$ j$相比较时算法$ i$被选择的次数,$ S$表示观测者人数,$ M$表示增强方法的数量。由式(1)可以看出,如果所有观测者做出的选择是完全一致的,那么肯德尔一致性系数$ u$取到最大值1;如果所有观测者的选择是平均分布的,那么此时肯德尔一致性系数$ u$取到最小值-1/$ S$。在实验中,$ S$=15,$ M$=10。也就是说,对于每一幅原始水下图像,将其对应的10幅增强图像作为一个参与比较的组,根据15名观测者的投票情况,最终计算得到该组对应的肯德尔一致性系数。最终,计算数据集内所有原始水下图像(比较组)对应的肯德尔一致性系数的平均值,用来反映在整个数据集上不同观测者投票的一致性程度。

图 5展示了在整个数据集,以及色偏和模糊子集上计算得到的肯德尔一致性系数。在整个数据集上,肯德尔一致性系数为0.41,而在色偏和模糊子集上,肯德尔一致性系数分别为0.39和0.44。由于采用的是成对比较的策略,即观测者必须在一对(两幅)图像中选择质量较好的一幅。但是,当两幅图像质量非常接近,或仅仅存在不同程度的色偏时,主观性就比较强,这就导致了不同观测者的投票会出现较大的不一致性。在总体主观一致性较高的基础上,对于存在色偏的水下图像,受试者展示出的主观一致性略低于平均值,而对于模糊的水下图像,观测者展示出的主观一致性略高于平均值。对于这种现象,一个可能的原因是观测者在判断清晰度方面都会有明确一致的偏好,但是对于图像存在色偏的时候,观测者偏好的随机性变大。因此,为了尽可能弱化随机性带来的影响,在主观实验中采取PC的策略而并非ACR的策略。

图 5 整个数据集以及色偏和模糊子集上的平均肯德尔一致性系数
Fig. 5 The Kendall coefficient on the whole data-set, the color cast subset, and blur subset

3.2 全局排名

为了从成对比较的结果中获得全局排名,使用了经典的Bradley-Terry (B-T) 模型(Bradley和Terry,1952)。B-T模型是一个经典的根据成对比较结果估计出全局排序的概率统计模型。假设一共有$ M$种方法参与成对比较,B-T模型的目的是根据所有观测者对这$ M$种方法两两比较的打分结果估计出每种方法对应的全局分数$ \boldsymbol{s}=[s_{1}, s_{2}, …, s_{M}]$,其中$ s_{i}$表示第$ i$种方法的全局分数。首先,基于成对比较的投票结果构造胜利矩阵$ \boldsymbol{C}$$ {\bf{R}}^{M×M}$。假设观测者选择方法$ i$而不选择方法$ j$的概率为

$ {P_{ij}} = \frac{{{{\rm{e}}^{{S_i}}}}}{{{{\rm{e}}^{{S_i}}} + {{\rm{e}}^{{S_j}}}}} $ (2)

从而$ s$成立的可能性为

$ P(s) = \prod\limits_{i = 1}^M {\prod\limits_{j = 1\atop \\j \ne i}^M {{{\left( {{P_{ij}}} \right)}^{{c_{ij}}}}} } $ (3)

通过对式(4)最小化负对数似然可以得到$ s$的一个估计。式(3)的负对数似然为

$ L(s) = - \sum\limits_{i = 1}^M {\sum\limits_{j = 1\atop \\j \ne i}^M {{C_{ij}}} } \log {P_{ij}} $ (4)

$ L(s)$关于$ s_{k}$的偏导数为

$ \frac{{\partial L(s)}}{{\partial {s_k}}} = \sum\limits_{i = 1\atop \\j \ne k}^M {\frac{{\left( {{C_{ki}} + {C_{ik}}} \right) \cdot {{\rm{e}}^{{s_k}}}}}{{{{\rm{e}}^{{s_k}}} + {{\rm{e}}^{{s_i}}}}}} - \sum\limits_{j = 1\atop \\j \ne k}^M {{C_{kj}}} $ (5)

式中,$ k=1, 2, …, M$,令$ \frac{{\partial L(s)}}{{\partial {s_k}}} = 0$,可得$ s_{k}(k=1, 2, …, M)$的第$ t+1$次迭代式为

$ s_k^{t + 1} = \log \left( {\frac{{\sum\limits_{j = 1,j \ne k}^M {{C_{kj}}} }}{{\sum\limits_{i = 1,i \ne k}^M {\frac{{{C_{kj}} + {C_{ik}}}}{{{{\rm{e}}^{{s_k}}} + {{\rm{e}}^{s_i^t}}}}} }}} \right) $ (6)

由于$ C_{kk}=0$,因此式(6)可进一步写为

$ s_k^{t + 1} = \log \left( {\frac{{\sum\limits_{j = 1}^M {{C_{kj}}} }}{{\sum\limits_{i = 1}^M {\frac{{{C_{kj}} + {C_{ik}}}}{{{{\rm{e}}^{{s_k}}} + {{\rm{e}}^{s_i^l}}}}} }}} \right) $ (7)

当求得$ s$的一个估计$ \hat{s}$后,对其进行零均值归一化得到最终的全局分数。根据B-T模型得到的全局分数对10种水下图像增强方法进行排名,并在图 6中绘制了B-T分数的累计频率曲线。图 6中曲线越靠近右侧,说明该方法具有越好的性能,因为其对应的B-T分数的均值更高。从图中可以看出,GL-Net方法具有最好的性能。除此之外,还分析了色偏子集和模糊子集的平均B-T分数之间的相关性,结果如图 7所示。图中的每个数据点对应某一种增强方法,位于虚直线右下方的数据点说明经过这些方法对色偏图像的改善效果更好;反之,位于虚直线左上方的算法对模糊图像的改善效果更好。从中可以看出大部分方法对于这两种失真类型图像都具有比较相似的改善性能。然而,UWCNN方法对于色偏图像的改善效果远远好于模糊主导的图像。究其原因,主要是该方法基于合成数据集进行训练,但是合成的数据无法全面地刻画和表征真实水下环境下成像的非均匀失真(例如,局部模糊、局部区域对比度下降),因此对于模糊/低对比度主导的图像的增强效果表现不佳。

图 6 B-T分数累计频率曲线
Fig. 6 The cumulative frequency curve of B-T score
图 7 不同水下图像增强方法在色偏和模糊子集上的性能对比
Fig. 7 Performance difference of on color cast and blur subsets subsets

3.3 收敛性分析

为了证明所收集的投票数量与图像数量足够得到稳定的主观评分,从投票数量与图像数量两个方面进行收敛性分析。

1) 投票数量。成对比较一共收集了67 500个投票。取$ \boldsymbol{a}$=[2 000, 10 000, 18 000, 26 000, 34 000, 42 000, 50 000, 58 000, 66 000],然后从所有投票中随机挑选$ a$个投票,计算出每种方法的B-T分数。这个过程重复1 000次,计算出1 000次随机挑选下各种增强方法所得B-T分数的均值和标准差。图 8(a)给出了各种增强方法所得B-T分数的均值和标准差随$ a$取值的变化趋势图。从中可以发现,随着投票次数的增多,各种增强方法的B-T分数标准差逐渐减小,最后趋于一个极小的稳定值,这说明所收集的投票数量能够保证得到稳定的主观评分。

图 8 不同增强方法所得B-T分数的均值和标准差随投票数量和图像数量取值的变化趋势
Fig. 8 Mean and standard deviation of B-T scores obtained by different enhancement methods vary with the number of votes and images
((a) number of votes; (b) number of images)

2) 图像数量。数据集共包含100幅原始水下图像。取$ \boldsymbol{b}$=[5, 15, 25, 35, 45, 55, 65, 75, 85, 95],然后从100幅原始水下图像中随机挑选$ b$幅,计算出每种方法的B-T分数。同样地,这个过程重复1 000次,计算出这1 000次随机挑选下各种增强方法所得B-T分数的均值和标准差。图 8(b)给出了各种增强方法所得B-T分数的均值和标准差随$ b$取值的变化趋势图。从中可以发现,随着图像数量的增多,各种增强方法的B-T分数标准差也在逐渐减小,最后趋于一个极小的稳定值,这说明图像数量能够保证得到稳定的主观评分。

3.4 显著性检验

某一种方法具有较高的B-T分数并不代表它总是优于其他算法,为了检验被评估算法的排名是否在统计上可分,进一步进行了显著性检验(Fisher,1926)。显著性检验的总体思想是:如果任意两种增强方法获得的投票数之差小于一个设定的阈值,那么就将这两种增强算法归为一组,即认为这两种方法不具有显著性差异。将任意两种方法所得投票数之差记为$ R$。目标是找到一个阈值$ R′$,使得概率$ P[R≥R′]≤α$。根据Gilbert(1964)可知,可以使用式(8)来获得$ P(R≥R′)$的一个近似,即

$ P\left( {{W_M} \ge {W_{M,\alpha }}} \right) \le \alpha ,\;\;\;{\kern 1pt} {W_{M,\alpha }} = \frac{{2{R^\prime } - 0.5}}{{\sqrt {MS} }} $ (8)

式中,$ M$是参与比较的方法总数,$ S$是观测者的数量,$ α$是设定的置信度(在本文中,$ α = 0.01$)。$ W_{M, α}$可以根据Pearson和Hartley(1974)的方法求得。进一步,可以得到$ R′$的表达式为

$ {R^\prime } = 0.5{W_{M,\alpha }}\sqrt {MS} + 0.25 $ (9)

当且仅当一组方法中任意两个方法的分数差异小于$ R′$,这些方法才能被分为同一组。表 1列出了主观实验获得的投票总数、数据集中的图像对数量、每个图像对比较的次数以及对应使用的阈值$ R′$图 9给出了整个数据集上以及两个子集上所有方法的分组结果。对于不同的水下增强算法,虽然在两个子集上的排序和在整个数据集上的排序类似,但是在两个子集的对比中,算法还是会存在若干不同的排序以及分组。这一差异是由不同增强算法对水下图像的不同失真类型的增强性能差异所导致的。同时,为了验证显著性检验的准确性,还给出了10种水下图像增强算法在整个数据集以及两个子集上获得投票数的百分比,结果如图 10所示。通过对比图 9图 10总结出以下两点:1)显著性检验在整个数据集以及两个子集上的绝对排序是完全正确的;2)经过显著性检验,被划分在同一个框内的水下图像增强算法所获得的投票数的百分比的确非常相近。

表 1 显著性检验的阈值
Table 1 Threshold of significance test

下载CSV
全集 色偏子集 模糊子集
投票数 67 500 40 500 27 000
图像对数量 4 500 2 700 1 800
比较次数 10 10 10
阈值R 316 245 201
图 9 显著性检验
Fig. 9 Significance test results
((a)full-set; (b) color cast subset; (c) blur subset)
图 10 不同算法获得投票的比例
Fig. 10 Percentage of votes obtained by different algorithms
((a)full-set; (b) color cast subset; (c) blur subset)

3.5 偏好原因分析

本节将对主观实验过程中收集到的偏好原因进行统计分析。问题是为什么你不喜欢另一幅图像,并且提供了8个相关选项,提问界面如图 4左下角所示。前6个原因被认为是影响水下图像质量的主要因素。偏好原因提问界面出现的概率为1/10,这是因为考虑到观测者的疲劳程度,假如在每次成对比较之后都需要回答问题,那么将会极大程度地增加观测者的工作量,进而影响主观实验的可靠性。通过对观测者给出的偏好原因进行统计,绘制了如图 11所示的统计图。图中横坐标指的是提出的8个问题,纵坐标指的是本文中使用的10种水下图像增强算法,图中的数字表示的是在某种算法没有被选择的情况下,该原因占所有原因的百分比。也就是说,对于某一种算法而言,某一原因占比越大,说明经过这种算法增强后的图像可能存在这一原因所对应的失真的可能性也就越大。从图 11中的数据分布可以看出,观测者在进行主观实验时,原因3、4、6被选择的机率较大。原因3、4、6分别反映了色偏、亮度和模糊对于水下图像质量的影响。其中色偏和模糊是导致水下图像失真的两种最主要的原因。因此,水下图像增强主要应该关注校正水下图像自身带有的色偏,同时能够使图像亮度适中以及包含更多清晰的细节信息。另一方面,有效的水下图像质量客观评价方法应该综合考虑色偏、亮度以及模糊等多方面因素对视觉质量的影响。

图 11 偏好原因百分比
Fig. 11 Vote percentage map of different reasons

3.6 客观评价方法性能分析

除了基于成对比较开展主观实验构建水下图像增强质量评价基准数据库,本文的另一个重点是分析研究目前的图像质量客观评价方法是否能够准确评价不同方法增强后的图像的视觉质量。这项研究非常重要,因为大规模的主观评价是十分耗时耗力的,在实际应用中,希望找到一种准确的水下图像质量评价方法(客观评价方法)来代替主观评价。由于水下图像不存在原始参考图像,因此只能使用现有的无参考图像质量评价方法进行测试。具体而言,选择了10种具有代表性的(包括经典的和最新的)无参考图像质量评价方法,包含8种自然图像质量评价方法(BRISQUE(blind/referenceless image spatial quality evaluator)(Mittal等,2012),BLIINDS-Ⅱ(Saad等,2012),DIVINE(distortion Identification-based image verity and integrity evaluation)(Moorthy和Bovik,2011),ILNIQE(integrated local natural image quality evaluator)(Zhang等,2015),OG-IQA(oriented gradients image quality assessment)(Liu等,2016),SSEQ(spatial-spectral entropy-based quality)(Liu等,2014),GM-LOG(gradient magnitude map and Laplacian of Gaussian response)(Xue等,2014),FRIQUEE(feature maps based referenceless image quality evaluation engine)(Ghadiyaram和Bovik,2017))以及2种专门的水下图像质量评价方法(UCIQE(underwater color image quality evaluation)(Yang和Sowmya,2015),UIQM(underwater image quality measure)(Panetta等,2016))对数据集中包含的水下图像的视觉质量进行自动评分,并计算不同客观评价方法得到的客观质量评分与主观质量评分之间的相关性,从而有效验证了这些图像质量客观评价方法用于评估水下图像质量的可靠性,为进一步设计高效的水下图像质量客观评价方法提供思路。

为了反映主客观评分之间的相关性/一致性,采用肯德尔秩等级相关系数(Kendall rank-order correlation coefficient,KROCC)和斯皮尔曼秩等级相关系数(Spearman rank-order correlation coefficient,SROCC)两个在图像质量评价领域得到广泛使用的指标。

这里选择KROCC和SROCC作为评价指标而没有使用质量评价中常用的皮尔森线性相关系数(Pearson linear correlation coefficient,PLCC)和均方根误差(root mean square error,RMSE)的原因如下:1)本文设计的主观实验是按照组内两两比较的策略进行,最终得到的是组内图像的排序而不是绝对分数,而KROCC和SROCC评价指标恰恰正是度量排序相关性; 2)PLCC和RMSE度量的是数值层面上的相关性,预测数值中包含的排序规律更重要而不是数值本身。KROCC和SROCC的定义及其计算方式为:

1) 肯德尔秩等级相关系数为

$ {f_{{\rm{KR}}}} = \frac{{2{n_{\rm{c}}} - {n_{\rm{d}}}}}{{n(n - 1)}} $ (10)

式中,$ n_\text{c}$是数据集中的一致对的个数,$ n_\text{d}$是数据集中的不一致对的个数。对于同一原始水下图像的不同增强图像,假定通过主观实验获得的主观评分值(B-T分数)序列为$ {x_{1}, x_{2}, …, x_{n}}$,通过某种无参考图像评价指标估计得到的图像质量评分值的序列为$ {y_{1}, y_{2}, …, y_{n}}$,对于两个序列中任意的两对数据$ (x_{i}, x_{j})$$ (y_{i}, y_{j})$,如果满足当$ x_{i}>x_{j}$$ y_{i}>y_{j}$或者当$ x_{i}<x_{j}$$ y_{i}<y_{j}$,则称这两个序列是一致的。相反,如果不满足上述条件,则称这两个序列是不一致的。

2) 斯皮尔曼秩等级相关系数为

$ {f_{{\rm{SR}}}} = 1 - \frac{6}{{n\left( {{n^2} - 1} \right)}}\sum\limits_{i = 1}^n {{{\left( {{k_{xi}} - {k_{yi}}} \right)}^2}} $ (11)

式中,$ k_{xi}$$ k_{yi}$分别是$ x_{i}$$ y_{i}$在序列$ {x_{1}, x_{2}, …, x_{n}}$$ {y_{1}, y_{2}, …, y_{n}}$中的排序位置。最理想的情况,也就是排序位置如果全都一致,则式(11)中SROCC的取值为1。

不同客观评价方法的KROCC和SROCC指标如表 2所示。其中,除ILNIQE是基于确定性评价的方法之外,其余都是基于机器学习的方法。对于9种基于学习的方法,随机选取80%的样本用做训练,剩下20%的样本用于测试。每次测试都计算预测得分与主观得分之间的KROCC和SROCC指标,重复上述步骤100次,将计算得到的KROCC和SROCC指标的均值作为最终的结果。同时,表中不但给出了整个数据集上的结果,还给出了不同失真子集上的结果,从中可以看出,不同客观评价方法在面对不同失真类型的水下图像时所展现出来的评价性能的差异。

表 2 不同无参考图像质量客观评价方法的KROCC和SROCC指标对比
Table 2 KROCC and SROCC of different no-reference image quality evaluation methods

下载CSV
客观评价方法 KROCC SROCC
全集 色偏子集 模糊子集 全集 色偏子集 模糊子集
BRISQUE(Mittal等,2012) 0.588 4 0.539 3 0.672 2 0.716 7 0.671 6 0.790 2
BLIINDS-II(Saad等,2012) 0.434 9 0.415 0 0.443 5 0.561 0 0.540 2 0.576 6
DIVINE(Moorthy和Bovik,2011) 0.481 8 0.432 1 0.569 8 0.611 9 0.553 8 0.703 8
ILNIQE(Zhang等,2015) 0.299 1 0.257 9 0.360 8 0.394 0 0.345 2 0.467 2
OG_IQA(Liu等,2016) 0.287 1 0.238 1 0.385 1 0.389 1 0.331 1 0.506 8
SSEQ(Liu等,2014) 0.424 9 0.414 6 0.449 4 0.547 5 0.544 0 0.570 8
GM_LOG(Xue等,2014) 0.512 8 0.462 8 0.599 9 0.651 8 0.599 8 0.732 0
FRIQUEE(Ghadiyaram和Bovik,2017) 0.490 5 0.486 8 0.566 1 0.626 6 0.620 5 0.707 2
UCIQE(Yang和Sowmya,2015) 0.386 3 0.331 7 0.468 4 0.518 4 0.448 7 0.616 2
UIQM(Panetta等,2016) 0.309 8 0.293 8 0.361 9 0.408 5 0.400 4 0.471 1
注:加粗字体表示各列最优结果。

BRISQUE和FRIQUEE在其中有较好的表现。BRISQUE发现高质量自然图像的归一化像素强度可以用对称高斯分布和非对称高斯分布拟合,而高质量的水下图像则是符合瑞利分布(Ghani和Isa,2014),非对称高斯分布与瑞利分布存在相似之处。因此BRISQUE在评估水下图像时具有一定效果,但依旧存在不足之处;对于FRIQUEE,它融合了图像多个颜色空间的特征信息,预测较准确但存在特征冗余度高、运行时间长等不足。除上述两种客观评价方法外,其余方法的SROCC和KROCC值都偏低,无法很好地预测主观视觉感知。其次,相比于色偏子集,所有评价方法在模糊子集上的SROCC和KROCC都更高,这意味着现有的无参考图像质量客观评价方法能够更好地评价模糊主导的水下图像的视觉质量。而对于水下图像所特有的色偏失真,目前这些方法的评价准确性相对较低。这些现象说明准确的水下图像无参考视觉质量评估方法的设计仍然是一项非常具有挑战性的任务。值得注意的是本文并没有另外设计更为有效的水下图像质量评价方法。在后续工作中,基于本工作构建的数据集,提出有效的适用于水下图像(特别是由不同方法增强后的水下图像)的客观质量评价方法将是重点。

4 结论

本文基于成对比较开展主观实验构建了迄今为止首个面向水下图像增强算法比较的质量评价基准数据集,并且基于构建的数据集对比了目前若干主流无参考图像质量客观评价方法用于评估水下图像时的性能。具体而言,构建了一个包含100幅原始水下图像以及对应的1 000幅由10种主流方法增强后的图像的真实水下图像数据集。基于成对比较的策略开展大规模主观实验对由不同方法增强后的水下图像的视觉质量进行主观评估,给出不同水下图像的主观评分。基于所构建的数据集对10种主流无参考图像质量客观评价方法的性能进行了评测和分析,最终发现现有的这些客观评价方法都无法很好地预测人眼关于水下图像质量的视觉感知。为未来真实水下图像质量客观评价方法以及真实水下图像增强算法的研究提供了富有价值的参考。

参考文献

  • Akkaynak D and Treibitz D. 2018. A revised underwater image formation model//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 6723-6732 [DOI: 10.1109/CVPR.2018.00703]
  • Akkaynak D, Treibitz T, Shlesinger T, Loya R, Tamir R and Iluz D. 2017. What is the space of attenuation coefficients in underwater computer vision?//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE: 568-577 [DOI: 10.1109/CVPR.2017.68]
  • Bradley R A, Terry M E. 1952. Rank analysis of incomplete block designs: the method of paired comparisons. Biometrika, 39(3/4): 324-345 [DOI:10.1093/biomet/39.3-4.324]
  • Drews P L J, Nascimento E R, Botelho S S C, Campos M F M. 2016. Underwater depth estimation and image restoration based on single images. IEEE Computer Graphics and Applications, 36(2): 24-35 [DOI:10.1109/MCG.2016.26]
  • Fisher R A. 1926. Statistical methods for research workers. Journal of the Royal Statistical Society, 89(1): 144-145 [DOI:10.2307/2341488]
  • Fu X Y, Cao X Y. 2020. Underwater image enhancement with global-local networks and compressed-histogram equalization. Signal Processing: Image Communication, 86: #115892 [DOI:10.1016/j.image.2020.115892]
  • Fu X Y, Fan Z W, Ling M, Huang Y and Ding X H. 2017. Two-step approach for single underwater image enhancement//Proceedings of 2017 International Symposium on Intelligent Signal Processing and Communication Systems (ISPACS). Xiamen, China: IEEE: 789-794 [DOI: 10.1109/ISPACS.2017.8266583]
  • Fu X Y, Zhuang P X, Huang Y, Liao Y H, Zhang X P and Ding X H. 2014. A retinex-based enhancing approach for single underwater image//Proceedings of 2014 IEEE International Conference on Image Processing (ICIP). Paris, France: IEEE: 4572-4576 [DOI: 10.1109/ICIP.2014.7025927]
  • Ghadiyaram D, Bovik A C. 2017. Perceptual quality prediction on authentically distorted images using a bag of features approach. Journal of Vision, 17(1): #32 [DOI:10.1167/17.1.32]
  • Ghani A S A and Isa N A M. 2014. Underwater image quality enhancement through composition of dual-intensity images and Rayleigh-stretching//Proceedings of the 4th IEEE International Conference on Consumer Electronics Berlin (ICCE-Berlin). Berlin, Germany: IEEE: 219-220 [DOI: 10.1109/ICCE-Berlin.2014.7034265]
  • Gilbert E N. 1964. Review: H. A. David, the method of paired comparisons. The Annals of Mathematical Statistics, 35(3): 1386-1387 [DOI:10.1214/aoms/1177703303]
  • Hou W L, Woods S, Jarosz E, Goode W, Weidemann A. 2012. Optical turbulence on underwater image degradation in natural environments. Applied Optics, 51(14): 2678-2686 [DOI:10.1364/AO.51.002678]
  • Huang D M, Wang Y, Song W, Sequeira J and Mavromatis S. 2018. Shallow-water image enhancement using relative global histogram stretching based on adaptive parameter acquisition//Proceedings of the 24th International Conference on Multimedia Modeling. Bangkok, Thailand: Springer: 453-465 [DOI: 10.1007/978-3-319-73603-7_37]
  • Jaffe J S. 1990. Computer modeling and the design of optimal underwater imaging systems. IEEE Journal of Oceanic Engineering, 15(2): 101-111 [DOI:10.1109/48.50695]
  • Jaffe J S. 2015. Underwater optical imaging: the past, the present, and the prospects. IEEE Journal of Oceanic Engineering, 40(3): 683-700 [DOI:10.1109/JOE.2014.2350751]
  • Kendall M G, Smith B B. 1940. On the method of paired comparisons. Biometrika, 31(3/4): 324-345 [DOI:10.2307/2332613]
  • Li C Y, Anwar S and Porikli F. 2020. Underwater scene prior inspired deep underwater image and video enhancement. Pattern Recognition, 98: #107038 [DOI: 10.1016/j.patcog.2019.107038]
  • Li C Y, Guo C L, Ren W Q, Cong R M, Hou J H, Kwong S, Tao D C. 2019. An underwater image enhancement benchmark dataset and beyond. IEEE Transactions on Image Processing, 99: 4376-4389 [DOI:10.1109/TIP.2019.2955241]
  • Li C Y, Guo J C, Cong R M, Pang Y W, Wang B. 2016. Underwater image enhancement by dehazing with minimum information loss and histogram distribution prior. IEEE Transactions on Image Processing, 25(12): 5664-5677 [DOI:10.1109/TIP.2016.2612882]
  • Liu L X, Hua Y, Zhao Q J, Huang H, Bovik A C. 2016. Blind image quality assessment by relative gradient statistics and adaboosting neural network. Signal Processing: Image Communication, 40: 1-15 [DOI:10.1016/j.image.2015.10.005]
  • Liu L X, Liu B, Huang H, Bovik A C. 2014. No-reference image quality assessment based on spatial and spectral entropies. Signal Processing: Image Communication, 29(8): 856-863 [DOI:10.1016/j.image.2014.06.006]
  • Liu R S, Fan X, Zhu M, Hou M J, Luo Z X. 2020. Real-world underwater enhancement: challenges, benchmarks, and solutions under natural light. IEEE Transactions on Circuits and Systems for Video Technology, 30(12): 4861-4875 [DOI:10.1109/tcsvt.2019.2963772]
  • McGlamery B L. 1980. A computer model for underwater camera systems//Proceedings of SPIE 0208 Ocean Optics VI. Monterey, Mexico: SPIE: #208 [DOI: 10.1117/12.958279]
  • Mittal A, Moorthy A K, Bovik A C. 2012. No-reference image quality assessment in the spatial domain. IEEE Transactions on Image Processing, 21(12): 4695-4708 [DOI:10.1109/TIP.2012.2214050]
  • Moorthy A K, Bovik A C. 2011. Blind image quality assessment: from natural scene statistics to perceptual quality. IEEE Transactions on Image Processing, 20(12): 3350-3364 [DOI:10.1109/TIP.2011.2147325]
  • Panetta K, Gao C, Agaian S. 2016. Human-visual-system-inspired underwater image quality measures. IEEE Journal of Oceanic Engineering, 41(3): 541-551 [DOI:10.1109/JOE.2015.2469915]
  • Pearson E S, Hartley H O. 1974. Biometrika tables for statisticians. Biometrics, 30(2): #372 [DOI:10.2307/2529662]
  • Saad M A, Bovik A C, Charrier C. 2012. Blind image quality assessment: a natural scene statistics approach in the DCT domain. IEEE Transactions on Image Processing, 21(8): 3339-3352 [DOI:10.1109/TIP.2012.2191563]
  • Sheinin M and Schechner Y Y. 2016. The next best underwater view//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE: 3764-3773 [DOI: 10.1109/CVPR.2016.409]
  • Song W, Wang Y, Huang D M, Liotta A, Perra C. 2020. Enhancement of underwater images with statistical model of background light and optimization of transmission map. IEEE Transactions on Broadcasting, 66(1): 153-169 [DOI:10.1109/TBC.2019.2960942]
  • Xue W F, Mou X Q, Zhang L, Bovik A C, Feng X C. 2014. Blind image quality assessment using joint statistics of gradient magnitude and Laplacian features. IEEE Transactions on Image Processing, 23(11): 4850-4862 [DOI:10.1109/TIP.2014.2355716]
  • Yang M, Du Y X, Huang Y, Liu H T, Wei Z Q, Hu J T, Hu K and Sheng Z B. 2019. Preselection based subjective preference evaluation for the quality of underwater images//Proceedings of 2019 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPR). Long Beach, USA: IEEE: 34-43
  • Yang M, Sowmya A. 2015. An underwater color image quality evaluation metric. IEEE Transactions on Image Processing, 24(12): 6062-6071 [DOI:10.1109/TIP.2015.2491020]
  • Zhang L, Zhang L, Bovik A C. 2015. A feature-enriched completely blind image quality evaluator. IEEE Transactions on Image Processing, 24(8): 2579-2591 [DOI:10.1109/TIP.2015.2426416]