Print

发布时间: 2019-11-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.190035
2019 | Volume 24 | Number 11




    综述    




  <<上一篇 




  下一篇>> 





光场数据压缩研究综述
expand article info 刘宇洋, 朱策, 郭红伟
电子科技大学, 成都 611731

摘要

光场数据体量大,为存储和压缩带来巨大困难。由于光场数据格式与传统图像视频数据不同,现有图像视频编码工具难以高效压缩光场数据。因此,光场数据高效压缩研究对降低存储消耗和传输带宽具有重要意义。目前,光场压缩的研究越来越深入,提出的方法种类也越来越丰富。本文对现阶段光场压缩进行系统综述,为后续研究者提供研究基础。本文简要介绍了光场的基本理论及四类光场采集设备,分析了4类采集设备的优缺点,阐明了光场采集方式对光场数据格式的影响;介绍了国际标准组织联合图像专家组(JPEG)在光场压缩标准化方面的最新进展,对JPEG Pleno光场编码器的每个模块做了详细介绍;在广泛文献调研的基础上,将光场压缩算法分成3类:基于变换的压缩方法、基于伪视频序列的压缩方法和基于预测的压缩方法,对每类算法进行详细梳理和总结,并做了详细地对比分析。通过系统地梳理,凝练出光场压缩近期的进展和尚存在的问题,并对未来光场压缩的研究趋势进行展望。实现光场的高效压缩非常具有挑战性,虽然光场压缩研究近期迅猛发展,但是压缩性能仍有待进一步提高。

关键词

光场; 光场压缩; 光场成像; JPEG Pleno; 变换; 伪视频序列

Survey of light field data compression
expand article info Liu Yuyang, Zhu Ce, Guo Hongwei
University of Electronic Science and Technology of China, Chengdu 611731, China
Supported by: National Natural Science Foundation of China (61571102); Applied Basic Research Programs of Science and Technology in Sichuan Province, China (2018JY0035)

Abstract

Light field imaging is an attractive technique for 3D visualization, especially in virtual and augmented reality application scenarios. This technique has also been applied to computer vision areas, such as depth estimation, 3D reconstruction, and object detection. However, light field data have put great pressure on cost-effective storage and transmission owing to the large data volume. The data format of light field is also relatively different from that of conventional images or videos. This difference has resulted in the inefficient compression of light field data by current coding tools designed for traditional images or videos. Thus, light field compression methods must be developed, especially from the perspective of cost-effective storage and transmission bandwidth. With the advancement of light field compression, various light field compression methods have been proposed. This study conducts a survey of related works on light field compression to provide a research foundation for later researchers who will focus on this topic. First, this study briefly introduces the fundamentals of light field and the four types of light field-capturing devices. The advantages and drawbacks of different types of capturing devices are presented accordingly. The influence of different capturing devices on light field data format is also described. Second, this work discusses the recent advances in JPEG Pleno, which is a standard framework for representing and signaling plenoptic modalities. JPEG Pleno was started in 2015 by the Joint Photographic Experts Group Committee. The term "pleno" is an abbreviation of "plenoptic, " which is a mathematical formulation to represent the information of a beam of light passing through an arbitrary point within a scene. JPEG Pleno proposes a light field-coding framework for the light field data acquired by a plenoptic camera or a high-density array of cameras. The JPEG Pleno light field encoder consists of three parts, with each part illustrated in detail. Lastly, on the basis of extensive literature research, the proposed light field compression methods are divided into three categories according to the characteristics of the coding algorithms, namely, transform, pseudo-sequence-based, and predictive coding approaches. We analyze and discuss the coding methods in each category. As for transform coding approaches, the coding performance is not better than those of the other two methods because transform coding approaches do not contain the prediction process. Although several transform methods can achieve good performance in terms of energy compaction, the decorrelation efficiency of transform methods is not as good as that of the hybrid coding framework that consists of prediction and transformation. As for pseudo-sequence-based coding approaches, the correlation in spatial or view domain is converted into temporal domain. Temporal correlation can be removed by inter-prediction techniques with the use of a well-developed video encoder, such as HEVC (high efficiency video coding) codec. The coding performance can be further improved because the disparity information is not used in the video encoder. As for the predictive coding approaches, they can be further divided into two methods: self-similarity-based coding methods, which were proposed in the last two years, and disparity prediction-based coding approaches. Self-similarity-based coding methods directly encode light field images by applying template-matching-based coding methods. However, the coding performance of this method is insufficient compared with that of disparity prediction-based coding approaches. The latter can achieve the best coding performance compared with other coding methods. JPEG Pleno applies such method to encode light field data. The advantages and shortcomings of existing light field-coding methods are elucidated on the basis of the preceding analysis, and possible promising directions for future research are suggested. First, light field video data sets to explore light field video coding are lacking. Second, the JPEG Pleno light field coding framework should be studied, and coding methods should be developed on the basis of this framework. Lastly, a few coding tools, such as depth estimation and view synthesis, should be improved. Light field compression is a popular research topic, and related research achievements, including standardization advances on JPEG Pleno, will attract increasing attention. Efficient compression of light field data remains a great challenge. Although many compression approaches are available for light field data, the coding performance still needs to be improved.

Key words

light field; light field compression; light field imaging; JPEG Pleno; transform; pseudo-sequence

0 引言

视觉是人类感知世界的主要途径之一。为了满足人们对极致视觉感官的追求,关于3维场景信息采集与存储的探索与研究从未止步。早在1839年,法国科学家就已发明银版照相术,随着数字传感器的发明及应用,成像技术已历经了数次革命性的发展。如今,数码相机已成为人们日常生活中主要的场景信息采集设备。然而,以数码相机为代表的摄像设备采用传统成像技术,在采集3维场景信息时,丢弃了场景的深度信息,无法重建出具有沉浸感的真3维场景。3维场景信息不仅能重建出逼真的3维场景,其中包含的深度信息还能帮助求解多个层面的计算机视觉问题,对算法的性能提升显著。目前,光场成像技术是3维场景信息采集的主要途径之一,已引起学者们的广泛关注。尤其在Lytro公司推出面向消费市场的手持光场相机后,关于光场成像技术的应用研究已覆盖到多个领域[1]

光场成像理论的研究可追溯到19世纪早期,但受到传感器技术及光学工艺的限制,光场成像技术在20世纪初才逐渐成熟。目前,光场成像技术采用4维光场模型,通过记录场景的空域和视点域信息重建出具有沉浸感的3维场景[2]。以Lytro光场相机为例,根据光场相机记录的场景信息,结合计算成像技术可实现多视点成像、全对焦成像、深度估计等功能,具有“先拍摄,后对焦”的特点。目前主流的光场采集设备采用密集采样的方式获取光场数据,采集到的数据具有视点密集、数据相关性高等特点,因此,本文中称为密集光场数据。相较于传统2维图像,密集光场数据体量更大,为数据存储和传输带来巨大困难。同时,现有编码工具大都针对传统图像/视频格式设计,无法对光场数据高效压缩,该问题已引起研究者们的广泛关注,目前已涌现出大量的研究成果。另外,国际标准组织联合图像专家组(JPEG)于2015年开展了光场数据压缩标准的制定工作,目前标准化工作仍在进行中[3-4]

1 光场表示与采集设备概述

本节主要介绍光场的基本理论及4种主流的光场采集设备,并对光场相机采集的图像数据进行简单介绍。

1.1 光场表示

光场的概念是用于描述光线在3维空间中的传输特性。文献[5]提出了7维的全光函数$L(x, y, z, θ, ϕ, λ, t)$来描述3维空间中光线的位置、方向、波长及时间信息,其中$(x, y, z)$为光线经3维空间任意一点的坐标,$(θ, ϕ)$为光线的俯仰角和方位角,$λ$$t$分别表示光的波长和时刻。然而,7维全光模型需要记录的信息体量大、维度高,为存储带来巨大压力, 同时给后续的信息处理带来巨大困难,难以在实际生活中得到应用。针对该问题,文献[5]将全光模型的维数由7维降低到5维,该方法假设光线波长恒定,从而舍弃了光线的时间及波长信息。随后,文献[2]对5维全光模型进一步简化,提出了基于“双平面”的4维光场模型$L(u, v, s, t)$,其中$(u, v)$为第1个平面坐标,用于描述光场的角度信息,$(s, t)$为第2个平面坐标,用于描述光场各视角的空域信息。该4维光场模型的示意图如图 1所示。

图 1 4维光场模型示意图[2]
Fig. 1 Four-dimensional light field model[2]

1.2 光场采集设备

光场成像是一种基于多视点的自主立体成像方式,可实现裸眼3D观看。目前主流的光场成像技术大都采用4维光场模型,通过采集光场的角度和空间信息重建3维场景。根据不同的采集方式,光场采集设备分为4类:相机移动平台(camera gantry)、全光相机(plenoptic camera)、相机阵列(camera array)、基于稀疏采样的采集设备。

1.2.1 相机移动平台

相机移动平台通过快速移动相机的方式采集静态物体的3维信息。该方面代表性的工作包括文献[6-7]提出的多自由度相机移动平台,可实现多个自由度的平移和转动。然而相机移动平台对稳定性要求极高,文献[8]将相机固定, 然后通过高速移动平面镜的方式有效地提升了稳定性。移动相机平台通过多个方位采集静态场景信息的方式获取光场信息,最终得到一组从不同视角拍摄的静态场景图片。但相机移动平台机械结构复杂,只能采集静态场景,很难在实际生活场景中得到应用。

1.2.2 相机阵列

相机阵列是目前光场数据采集的主要手段之一,将多个相机排列成特定的阵列形式完成数据采集。文献[9]设计了一套8×8规模的摄像机阵列系统,可实现光场的实时采集。文献[10]设计了一套可自我调节摄像机位置及姿态的光场采集系统,可显著地提升图像渲染质量。文献[11]基于宽带网络,设计了一套8×8规模的实时光场流传输系统,实现了可由网络用户自由选择观看视角的3维电视系统。斯坦福大学自1991年一直致力于光场采集系统的设计研究工作,目前设计的摄像机阵列已经能够采集高质量的光场数据[12-13]。相机阵列可采集多个固定视角的场景信息,最终得到一组多视点图像。但相机阵列体积庞大,需要较多的计算资源,因此大多用于科学研究。

1.2.3 基于压缩感知的光场采集设备

基于稀疏采样的光场采集方法能够减少光场数据体量,是目前光场成像领域的研究热点。文献[14-15]利用模板遮挡主镜头的一个或几个子孔径对光线进行编码,通过多次曝光的方式采集光场数据。同样基于压缩感知理论,文献[16-17]提出的相机模型可通过1幅编码图像(coded image)重建4维光场。该类采集设备虽然通过稀疏采样的方式有效减少了数据量,但重建图像信噪比较低,不适用于日常光场采集。

1.2.4 全光相机

全光相机的核心技术是集成成像技术。该技术基于光路可逆原理,利用微透镜阵列仅需一次曝光即可完成3维场景信息采集。重建的3维场景具有全视差(包括水平视差和垂直视差),且在一定视角范围内包含密集的准连续视点。早在1908年,法国物理学家Lippmann就已提出了集成摄影技术[18]。然而,受限于微透镜阵列的加工材料及工艺限制,对集成成像技术的研究在20世纪初进展缓慢。直至20世纪中叶,随着电子技术的迅猛发展及微透镜阵列制造工艺的不断进步,尤其是电荷耦合器件、互补金属氧化物半导体等感光元器件的出现,弥补了传统感光胶片的不足,集成成像技术才逐渐引起研究者们的关注。

1992年Adelson等人[19]设计了全光相机结构,该相机将一个微透镜阵列放置在相机主透镜和图像传感器之间。图 2展示了该相机结构及采集过程的示意图。光线经过微透镜阵列后,图像传感器单元通过记录不同入射角度的场景信息完成信息采集。受限于图像传感器及微透镜阵列的制造工艺,Adelson等人[19]在相机模型中加入场镜(field lens),使得主透镜的光瞳始终处于微透镜焦距的无穷远处,同时采用中继镜来调和图像传感器与微透镜阵列之间的尺寸差异。虽然该光场相机模型只能获取角度分辨率为5×5、空域分辨率为100×100像素的光场图像,但这是集成成像技术与光电系统的结合,为数据存储、数据处理和显示带来极大的便利。

图 2 全光相机结构示意图[19]
Fig. 2 Plenoptic camera structure[19]

Ng[18]设计了首款手持式光场相机。该相机模型没有采用图 2所示的相机结构,取消了场镜和中继镜,将传感器安装在微透镜阵列一倍焦距的位置,使得相机体积大大缩小,可获取角度分辨率为14×14的光场图像,相比于Adelson等人[19]设计的相机,所获取光场图像的角度分辨率得到极大的提升。基于此模型,Lytro公司开发了两款消费级光场相机Lytro和Lytro Illum,由于使用方便且价格适中,已被广泛应用在光场图像数据采集及计算机视觉领域的研究中。

由于光场图像的角度信息和空域信息只能用图像传感器记录,因此必须在角度分辨率和空间分辨率二者之间做出取舍。Ng[18]设计的光场相机牺牲空间分辨率记录光线的角度信息,为了提高光场图像的空间分辨率,Georgeiv等人[20]提出了聚焦光场相机(focused plenoptic camera)。与Ng[18]设计的相机结构不同,聚焦光场相机的图像传感器安装在微透镜阵列的焦面上,该设计使得微透镜成像面在微透镜阵列与主透镜光瞳平面之间的虚拟像平面上,从而可通过调整图像传感器、微透镜阵列及虚拟像平面三者之间的距离来调节光场相机的角度分辨率和空间分辨率。基于该相机模型,Raytrix公司开发了一系列工业级光场相机[20]。与Lytro相比,Raytrix精度更高,且具备采集视频功能,但售价高昂。

Lytro和Raytrix都属于单镜头光场相机,由于该类型光场相机体积小且使用方便,尤其是价格适中的Lytro Illum,已成为目前光场图像处理领域普遍使用的光场图像数据采集设备。图 3显示了由光场相机采集的光场图像“Seagull”[22],光场图像由多个基本图片(elemental image)组成,每个基本图像尺寸为75×75像素,整幅光场图像尺寸为7 240×5 236像素。在图 3中,不难发现相邻基本图像之间存在大量的重叠区域,整幅光场图像具有较大的空域冗余。同时,通过视点图像绘制算法[23],可将光场图像转换成多幅子视点图像。子视点图像即代表单个特定视点观测到的3维场景。子视点图像的尺寸和位置与微透镜阵列有关,由于各视点图像共用同一图像传感器,因此每幅子视点图像的空间分辨率较低。另外,各子视点图像表征了光场的角度信息,根据图 1所示的4维光场模型,可用角度平面的2维坐标$(u, v)$索引各子视点图像。

图 3 光场图片区域放大图和子视点图像示意图
Fig. 3 Zoom-in map for light field image and its sub-view images

在本文中,由相机阵列和光场相机采集的光场数据统称为密集光场数据。由于相机阵列和全光相机采集的数据格式不同,文中的光场图像单指由全光相机采集的光场数据,由光场图像转化的多幅子视点图像统称为子视点图像集。

2 光场数据压缩

2015年,国际图像压缩标准组织JPEG启动了JPEG Pleno标准的制定工作,目前标准化工作仍在进行中[3-4, 24]

2.1 JPEG Pleno标准概述

JPEG Pleno标准面向3种真3维数据(包括光场、点云、全息),旨在提出一个包含多种新颖压缩工具的编码系统,支持数据及元数据(metadata)的编辑、随机接入及产权保护等功能。同时,JPEG Pleno将提供一个高效的数据压缩格式;解决在资源(包括传输码率带宽、计算复杂度、功耗等)受限下如何保证重建场景的视觉质量;支持多种应用需求,如低延时、JPEG压缩格式的兼容性、可拓展性、差错掩盖、并行/分布式处理等。值得一提的是,JPEG Pleno标准仍然采用JPEG系统(JPEG system)的通用规范,包括辅助元数据(包括数据的采集、生成、标定、渲染等)的标志信息、数据编辑信息和用户接口等。

JPEG Pleno标准包含7个部分,其框架如图 4所示。目前,JPEG Pleno已开始4个部分(Part 1—Part 4)标准制定工作。

图 4 JPEG Pleno标准框架[3]
Fig. 4 JPEG Pleno standard framework[3]

Part 1定义了JPEG Pleno框架的句法元素格式规范,包括两部分内容:JPEG Pleno框架的通用规范和编码器输入文件格式信息。在Part 1中,JPEG Pleno超级工具箱(superbox)记录输入数据格式(光场、点云、全息)及元数据信息。

Part 2为光场数据压缩部分,包括两部分内容:光场数据的编码工具和文件格式信息。目前,光场压缩的标准化工作仍在进行中,JPEG Pleno已公布了光场编码验证模型。

Part 3为一致性实验(conformance testing)部分,评估第3方测试平台实验数据的一致性。

Part 4为JPEG Pleno标准参考软件(reference software),是各模块的软件实现,用以仿真实验。该参考软件没有考虑计算复杂度,因此不适用于对实时性要求较高的应用场景。另外,点云数据压缩、全息数据压缩和质量测试(quality test procedures)的标准化工作目前还处于探索阶段,且不是本文的关注重点,因此不再过多陈述。

2.2 JPEG Pleno光场编码器

1) 多层级编码结构。为了满足随机接入的需求,JPEG Pleno光场编码器采用多层级编码结构(hierarchical coding structure) [3, 25]。以图 5所示角度分辨率为13×13的光场图像为例,子视点图像分为6个层级。在实际应用中,每一层的子视点图像集都可由用户自由设定。第1层只包含1个视点的图像,由于中央视点图像质量最高,因此往往被设置为第1层。在编码过程中,高层级的子视点图像将参考重建后低层级的子视点图像。

图 5 多层级编码结构示意图[25]
Fig. 5 Hierarchical coding structure[25]

2) 编码器框架。JPEG Pleno光场编码器框架如图 6,分为3个模块。第1个模块采用图像编码标准JPEG 2000对包含有$N$幅参考图像的参考视点图像集(记为$\left\{\boldsymbol{L}_{\mathrm{ref}_{i}} | i=1, \cdots, N\right\}, \boldsymbol{L}_{\mathrm{ref}_{i}}$为第$i$幅参考图像)进行编码,然后将码流传至解码端。参考视点图像集的构建与多层级编码结构和目标码率有关。在低码率情况下,只选取少量的低层级子视点图像(在码率极低的情况下,参考视点图像集只包含中央视点图像);在高码率情况下,参考视点图像集可包含多幅来自于多个低层级的子视点图像。重建的参考视点图像$\boldsymbol{L}_{\mathrm{ref}_{i}}^{\mathrm{dec}}$作为第3个模块的输入,用以预测参考视点图像集以外的非参考视点图像。该模块对每幅参考视点图像单独编码,没有考虑视点间的相关性,因此压缩性能不高。

图 6 JPEG Pleno光场编码器框架示意图[3]
Fig. 6 Framework of JPEG Pleno light field encoder[3]

第2个模块是深度图像参考集(记为$\left\{\boldsymbol{D}_{\mathrm{ref}_{i}} | i=1, \cdots, H\right\}$,其中$\boldsymbol{D}_{\mathrm{ref}_{i}}$为第$i$幅深度图参考图像)编码模块,其中深度图像由深度估计算法得到。与子视点图像参考集构建方式一样,在低码率情况下,只选取1幅深度图;在高码率情况下,参考集中可包含多个视点的深度图。该模块同样采用JPEG 2000压缩标准对深度图像进行压缩,将深度图的码流传至解码端;重建的深度图$\boldsymbol{D}_{\mathrm{ref}_{i}}^{\mathrm{dec}}$作为第3个模块的输入,用以估计非参考视点的深度图。

第3个模块在图 6中右半部分,是JPEG Pleno光场编码器的核心部分,根据输入的参考视点图像及深度图,利用视点几何关系预测其他非参考视点的纹理图及深度图。如图 6中所示,当存在多个参考视点时,根据各参考视点的空间位置信息,可对当前视点$(k, l)$进行视点间预测;对于纹理图,JPEG Pleno光场编码器采用文献[26]提出的算法合并多幅映射图$\boldsymbol{W}_{k, l}$;对于深度图,选取得到的多幅深度图同一位值的中间值作为最终预测值,得到预测的深度图$\boldsymbol{D}_{k, l}^{\mathrm{dec}}$。由于视点间映射会产生空洞,针对该问题,JPEG Pleno光场编码器首先利用文献[27-28]提出的算法得到稀疏预测模板,将该模板与合并后的映射图卷积实现空洞填充,最终生成非参考视点的预测图。该预测图与原始的非参考视点图像做残差,然后利用JPEG 2000压缩标准对得到的残差进行编码。最终生成的码流包含5个部分:子视点图像参考集、深度图参考集、预测残差、稀疏预测模板参数$\{p\}$和变换图像合并算法参数$\{o\}^{\mathrm{C}}$

2.2 基于变换的光场压缩方法

基于变换的光场压缩算法流程如图 7所示,首先将光场图像转化为子视点图像,针对子视点图像集采用不同的变换方法得到变换系数,最后经量化熵编码输出码流。本文根据变换方法的特点,进一步将该类算法分为:基于多维变换的压缩方法和基于图变换(graph transform)的压缩方法。

图 7 基于变换的光场压缩方法流程图
Fig. 7 Illustration for transform coding approaches

2.2.1 基于多维变换的压缩方法

基于多维变换的方法包括3维离散余弦变换(3D-DCT)、3维离散小波变换(3D-DWT)等。

对原始光场图像,可直接采用JPEG(采用DCT)或JPEG 2000(采用DWT)进行压缩,但是这两种编码框架不是针对光场图像设计的,没有考虑光场图像的特点,因此压缩性能不高[29]。针对该问题,文献[30]将光场原始图像转换为子视点图像集,然后采用4D-DWT对子视点图像集进行压缩,但是算法复杂度高。文献[31]根据各视点的空间位置将子视点图像集划分为多个子集,然后利用3D-DCT对各子集进行处理;基于该思想,文献[32]将3D-DWT应用到光场图像压缩中。

对子视点图像集直接做变换编码难以保证视点间相对几何信息的正确性,同时视点间的视差会造成大量的高频系数,为熵编码带来困难。为了解决这一问题,文献[33]提出了一种基于小波包变换(wavelet packet transform)的光场图像压缩方法,该方法首先利用多组小波包基将光场图像分解,获得光场图像在小波域多个子带的系数,然后根据小波系数的重要性将小波包基划分为可预测基集合和不可预测基集合两个部分,通过光流法获取各视点间的视差图,利用所得到的视差图对各子带图像进行预测。在重建光场图像时,首先从可预测基集合中选取小波包基,当可预测基集合为空但重建质量仍没有达到要求时,从不可预测基集合中选取小波包基提升重建质量。文献[34]首次提出了基于视差补偿的小波变换光场压缩方法。为了进一步提升算法性能,文献[34]利用聚类算法对子视点图像进行聚类,然后对每个类别中的子视点图像进行排序,最终组成一个完整的序列;采用视差补偿算法做视点间预测,并利用Haar小波对预测残差进行变换,最后利用SPIHT(set partitioning in hierarchical trees)编码器对变换系数进行编码。针对光场图像中的物体,文献[34]还提出了一种自适应形状变换方法,利用图像分割算法获取物体形状,然后利用视差补偿算法预测各视点中同一物体的形状,所获取的形状信息将作为边信息传到解码端。

不同于上述基于子视点图像的多维变换方法,文献[35]提出基于多聚焦图片集的光场图像压缩方法,该方法将光场图像转化为多聚焦图像,然后利用3D-DCT对多聚焦图像进行变换,变换系数经量化后,采用霍夫曼编码生成码流。在低码率下,该方法能够取得比JPEG更好的压缩效果;在高码率下,该方法与基于视差估计的光场图片压缩方法性能相当。与文献[35]类似,文献[36]首先将光场图像转化为多幅尺寸更小的多聚焦图片,然后利用预测编码技术去除多聚焦图片的冗余,最后利用解码的多聚焦图片集重建光场图像。文献[37]提出了一种基于编码快照的光场图片集压缩方法,该方法将$N$幅光场图像合并为一幅图像,然后利用压缩感知算法进行重建,在低码率情况下, 该方法的编码性能优于H.264。同样利用压缩感知理论,文献[38]通过优化结构化观测矩阵和字典学习,求解4维光场数据的稀疏表示。与传统字典学习方法相比,文献[38]所提方法可有效地提升光场的重建质量。

基于多维变换的光场压缩算法研究主要集中在2000年左右,属于光场压缩领域的早期研究成果。目前算法框架大都基于混合编码框架,变换是该框架不可或缺的一部分,因此,基于多维变换的压缩方法的编码性能很难超越该类算法。此外,还有一些基于压缩感知理论的压缩方法,如文献[37-38],在低码率下取得了较好的压缩性能。

2.2.2 基于图变换的压缩方法

图信号(graph signal)能够较好地描述图像中不规则形状,已引起研究者们的广泛关注。尤其在2017—2018年,涌现了许多基于图变换的光场压缩研究工作。其中,部分文献采用预测+图变换的混合编码结构,但该类方法的重点是如何利用图高效表示光场信息。因此,本文分类时以是否采用了图变换为依据,将采用预测+图变换的压缩方法划分。

在对比分析基于图变换的压缩方法之前,简单介绍图变换的基本原理:首先,构建图模型$\boldsymbol{G}=\{\boldsymbol{V},\boldsymbol{E}\}, \boldsymbol{V}$为图模型$\boldsymbol{G}$中的节点集合,$\boldsymbol{E}$为图模型$\boldsymbol{G}$的边集合,边代表每个节点之间的链接关系;假设图模型$\boldsymbol{G}$中存在$N$个节点,根据$\boldsymbol{E}$中描述的链接关系,可得链接矩阵$\boldsymbol{A} \in {\bf R}^{N \times N}, \boldsymbol{A}$中的每个元素$a_{i, j}$代表图$\boldsymbol{G}$中第$i$个节点与第$j$个节点的链接关系;然后,由链接矩阵$\boldsymbol{A}$可得图模型$\boldsymbol{G}$的拉普拉斯矩阵$\boldsymbol{L}=\boldsymbol{D-A}, \boldsymbol{D}$为对角矩阵,其对角元素的值为

$d_{i i}=\sum\limits_{i=1}^{N} a_{i j}$

最后对拉普拉斯矩阵$\boldsymbol{L}$奇异值分解,即

$ \mathit{\boldsymbol{L}} = {\mathit{\boldsymbol{U}}^{\rm{T}}}\mathit{\boldsymbol{ \boldsymbol{\varLambda} U}} $

式中,$\mathit{\boldsymbol{ \boldsymbol{\varLambda}}}$为对角矩阵,$\boldsymbol{U}$即为由图模型$\boldsymbol{G}$得到的变换基。

因此,图的构建方式不同,所得的变换基也不同。文献[39]利用深度信息对子视点图像的每一行像素进行分类,每一类中的像素都具有相同的深度;根据每一类的深度信息构建光场的图表示(graph representation), 并对其他视点图像进行预测,所得残差采用高效视频编码标准(HEVC)进行压缩。该方法依赖视点的深度信息,对深度图的精确度要求较高,只适用于计算机虚拟生成的光场数据。文献[39]提出了一种基于图学习(graph learning)的光场图像压缩框架。在图连接构建过程中,文献[40]将每个子视点图像作为图的节点,以相邻视点间的相似度作为图的边。在编码端,通过最小化图的稀疏度和连通性得到最优的图表示,根据图表示选取参考视点;为了获得较好的压缩性能和重建质量,分别采用无损和有损的压缩方式将图的权重矩阵和参考视点图像压缩并传输至解码端;在解码端,已知解码后的权重矩阵和参考视点图像,通过最小化视点间的相似性来重建光场图像。类似的基于图变换的光场压缩研究工作还出现在文献[41-42]中。

通常,基于Bayer模式的传感器数据(每个像素点只含有一个颜色通道的信息)需经过去马赛克、标定等一系列预处理过程转化为传统的RGB格式图像(每个像素点包含红、绿、蓝3个颜色通道信息),但是前期的预处理过程增大了光场数据的冗余,为光场压缩带来困难。针对这一问题,文献[43]直接对未经预处理的传感器数据进行压缩,提出了一种基于图提升变换(graph lifting transform)的光场紧凑表示方法,该方法首先将原始像素(只有一个颜色分量的信息)映射到集成图像上,然后由视点几何关系生成子视点图像,进而根据子视点图像每个像素代表的颜色通道分别构建RGB 3个颜色分量的邻接图,最后利用图提升变换编码分别对RGB 3个颜色分量进行变换编码。在高码率条件下,该方法的性能优于HEVC帧内编码方法。

针对原始光场数据,除了文献[43]提出的基于图变换的压缩方法外,还有一些相关的研究工作。文献[44]通过减少光场数据比特深度的方式,将高比特深度的数据转化为低比特深度数据(一般为8 bit),利用JPEG压缩转化后的数据,同时通过大量的统计实验建立数据映射表,在重建时通过查表的方式恢复高精度像素值。文献[45]利用线性变换和插值对光场图像数据进行预处理,进而获得规则化的光场图像,然后对规则化图像进行颜色空间转换并用图像/视频编码器进行压缩,有效规避了较大的计算量。

为了获得更好的压缩性能,采用图变换的方法已逐渐引起研究者的关注。近年涌现出许多基于图变换的光场图像压缩算法。该类算法通过设计紧凑的图表示进而得到更加高效的变换基,具有较高的新颖度。为了更清晰直观对比基于变换的光场压缩算法,表 1列出了该部分主要算法的变换核及性能对比结果。

表 1 基于变换的光场压缩方法对比
Table 1 Comparison of transform coding methods for light field

下载CSV
文献 数据类型 变换方法 算法分析及性能对比
[29] 光场图像 JPEG (DCT)、JPEG2000 (DWT) 压缩性能较低,一般作为算法对比的基准
[30] 子视点图像集 4D-DWT 适用于小尺寸光场数据,算法复杂度高
[31-32] 子视点图像集 3D-DCT、3D-DWT 算法性能优于JPEG,但复杂度较高
[33] 光场图像 小波包变换 重建质量可调,压缩性能优于JPEG2000和文献[31]
[34] 子视点图像集 小波变换 首次利用视差预测,压缩性能优于文献[34]
[35-36] 多聚焦图像集 3D-DCT 低码率下,压缩性能优于JPEG
[37] 多幅光场图像合成的图像 稀疏表示 低码率下,压缩性能优于H.264
[38] 子视点图像集 字典学习+稀疏表示 压缩性能优于传统字典学习方法
[39] 子视点图像集 图变换 需要高精度的深度信息,仅适用于虚拟生成的光场数据
[40] 子视点图像集 图学习 压缩性能优于HEVC和JPEG Pleno标准
[43] 图像传感器数据 图变换 高码率下,压缩性能优于HEVC帧内编码
[44] 图像传感器数据 JPEG (DCT) 对高比特传感器数据进行比特缩减,利用JPEG进行数据压缩,适用于光场数据压缩的硬件实现中

2.3 基于伪视频序列的光场压缩方法

光场图像可转化为多幅子视点图像,图 8显示了横向和环形两种扫描方式,其中$(u, v)$代表 4维光场模型角度平面坐标,用来索引不同视点的位置。由于光场相机的成像机制,每幅子视点图像质量并不相同,因此,采用伪视频序列(pseudo-sequence)的生成方式将会影响压缩性能。针对该问题,文献[46-49]提出了横向、纵向、之字形、环形及分组等不同的扫描方式。

图 8 横向和环形扫描示意图[46]
Fig. 8 Illustration for two scanning orders[46]

为了进一步提高编码性能,文献[50]提出一种由之字形扫描和U型扫描组成的混合扫描方法,该方法可充分利用各子视点之间的信息冗余,使得伪视频序列中相邻帧之间具有更高的内容相似度。文献[51-53]对环形和横向扫描两种排序方式在多种编码配置环境下的压缩性能进行了对比,证明了图像的排序方式会对压缩性能造成较大的影响。文献[54]根据帧间时域依赖关系,提出了一种基于图像质量的排序方式,取得了良好的压缩性能。上述扫描方式算法主要针对2维子视点图像阵列,文献[55]综合考虑子视点图像转化与伪视频序列生成两个部分,使得两部分共用同一种扫描方式,然后利用视频编码器压缩生成的伪视频序列,能够达到较高的压缩比率。

子视点图像代表光场的角度信息,分布在2维空间中,现有编码器采用1维层级参考结构,无法高效地去除视点间的冗余信息。因此,文献[56-57]提出了2维层级参考结构,如图 9所示,各视点首先被划分为4个象限,每个象限4个边角位置(红色框)的视点图像为第1层;按照层级高低,每层包含的图像分别用绿、黄、黑色框表示,高层级的视点图像会参考低层级的重建图像。基于该2维层级结构,文献[58]根据视点间的依赖关系,将全局率失真优化思想[59-63]应用到视点域中;所提方法与文献[57]相比,取得了更优的率失真性能。

图 9 2维层级编码结构示意图[57]
Fig. 9 2D hierarchical coding structure[57]

上述研究工作都是基于单视点视频编码平台,利用运动搜索算法进行视点间预测,无法充分利用视差信息。文献[64-65]利用多视点视频编码工具,提出了一种3D-HEVC和HEVC混合的编码框架,该框架从光场图像中提取单个或多个视点图像,采用3D-HEVC编码器对多视点图像进行编码;根据重建的多视点图像还原出光场图像,然后与未压缩的光场图像相减得到残差图像;利用HEVC编码器对所得残差进行编码,最终的码流包含两部分:一部分来自于多视点图像,另一部分来自于密集视点视频的残差图像。

基于伪视频序列的压缩方法的思想是将光场图像的大部分空域相关性转换为时域相关性,利用视频编码器帧间预测方法,去除伪视频序列的时域冗余。而排序方式之所以会对压缩性能造成影响,是因为排序方式改变了编码器的参考帧候选集。由于子视点图像的相似性与子视点之间的距离成反比,因此当参考帧候选集中包含相邻子视点图像时,当前帧的预测效率更高。表 2列出了该部分主要算法的扫描方式及性能对比结果。

表 2 基于伪视频序列的光场压缩算法对比
Table 2 Comparison of pseudo-sequence based light field compression methods

下载CSV
文献 数据类型 扫描方式 算法分析及性能对比
[46] 子视点图像集 旋转扫描 压缩性能优于JPEG和H.264横向扫描方式
[47-48] 子视点图像集 将子视点图像分组+横向扫描 压缩性能优于HEVC
[49] 子视点图像集 横向或纵向扫描 利用帧间预测对每行(横向扫描)或每列(纵向扫描)子视点图像进行压缩,压缩性能优于帧内编码
[50] 子视点图像集 之字形和U形混合的扫描方式 压缩性能优于之字形和U形扫描方式
[54] 子视点图像集 依赖于子视点图像质量的扫描方式 压缩性能优于之字形扫描方式
[55] 子视点图像集 旋转、横向、纵向、自定义扫描方式 该算法在x.264平台实现,适用于光场图像压缩实时性要求较高的应用场景
[56-57] 子视点图像集 2维层级参考结构 压缩性能优于JPEG和HEVC

2.4 基于预测的光场压缩方法

基于预测的压缩方法主要是针对光场数据的特点设计的预测编码方法,根据算法特点,可进一步分为基于光场图像自相似性的预测编码方法和基于视差几何的预测编码方法。

2.4.1 基于图像自相似性的预测编码方法

由于光场图像的基本图像之间相似性很大,文献[66]将视频编码中帧间预测思想引入到帧内编码中,如图 10所示,通过搜索当前编码块的左侧和上方已解码区域得到预测块,所得残差与运动矢量一起传至解码端。基于相同思想,文献[67]提出了一种基于图像自相似性的双向预测方法,在搜索窗口中沿着两个不同方向搜寻与当前编码块相似的两个解码块,通过率失真代价函数决定最佳预测块。该方法可有效地去除光场图像的空间冗余,与JPEG和HEVC相比,编码性能显著提升。

图 10 基于自相似性的帧内预测[66]
Fig. 10 Self-similarity based intra prediction[66]

类似的工作还有文献[68]提出的基于模板匹配的预测方法,如图 11所示,首先求解模板C在搜索窗口中重建块模板最优的线性表示,然后用相同的系数表示当前编码块$P$的预测值,最后将预测残差传至解码端。文献[69]采用仿射变换对参考块进行处理,并且增加仿射变换的种类获取更多的预测块候选,最后根据率失真代价函数选择最优的预测块及相应的仿射变换模式。

图 11 模板匹配算法示意图[68]
Fig. 11 Illustration for template matching based coding method[68]

与上述方法不同,文献[70]针对原始光场图像,提出了一种基于宏像素边界匹配的压缩方法,该方法首先对原始光场图像的宏像素进行重排列,然后通过预测块的边界像素和当前编码块的边界像素加权的方式得到预测值。基于宏像素的光场压缩算法往往需要对原始光场数据进行预处理,类似的算法还有文献[71]中基于宏像素的光场视频帧间预测方法,该方法基于宏像素对当前预测单元的运动矢量进行校正,然后利用校正的运动矢量进一步搜索得到率失真代价最小的运动矢量,有效提升了帧间预测效率。

基于图像自相似性的压缩方法大部分基于视频帧内编码框架,利用现有的帧间预测及模板匹配算法去除空间冗余。就去除数据冗余性的效率而言,现有视频编码工具去除时域冗余的效率往往要高于空域冗余。因此,该类算法的性能往往难以超越基于视差几何的预测编码算法。

2.4.2 基于视差几何的预测编码方法

由于光场数据各视点间相关性高,如何高效地去除视点间冗余是光场压缩的关键问题。基于视差几何的预测编码方法利用视点间的几何关系,估计各视点间的视差或各视点的深度图,进而利用视差图或深度图进行视点间预测,提升算法性能。

文献[72]提出了一种结合单应性变换和低秩逼近的光场压缩方法,该方法利用单应性变换将各子视点图像映射到一个或多个深度面上,然后求解映射后图像的低秩表示,取得了比文献[56]更优的压缩性能。该算法虽然采用单应性变换获得低秩的光场数据,但只能重建各视点重叠区域,降低了光场的空间分辨率。

近两年,采用类似JPEG Pleno光场编码器框架结构的算法研究成为主流。文献[73]挖掘视点间的相似性,通过对相邻视点中的重建块线性加权预测当前编码块,并在HEVC屏幕编码器上实现算法仿真。文献[74]提出了一种3层可分级光场图像编码框架:在编码端,首先对光场图像进行下采样,采用有损压缩方式将采样图像压缩并传至解码端(基本层码流);其次,采用无损压缩方式将预测的视差图传至解码端(第2层码流);最后,利用解码的采样图像和视差图重建光场图像,与原始光场图像做差获得残差图像,采用HEVC帧内和帧间编码将残差图像压缩并传至解码端(第3层码流);在解码端,按照接收到的不同层级码流即可解码出尺寸和质量各异的光场图像。与文献[57]类似,文献[75]将各视点图像划分为4个区域,综合考虑各子视点图像的质量及其对各区域的影响,定义了5个结构关键视点(structural key views);然后根据视点几何关系计算视差,利用基于字典学习和稀疏编码预测其他子视点图像,最后将选取的5个结构关键视点图像、视差图和预测残差压缩并传至解码端。实验结果表明,在相同码率下,该算法的重建质量峰值信噪比(PSNR)比文献[57]算法提高0.5 dB。

文献[76-77]提出了一种基于线性逼近先验(linear approximation prior)的压缩方法,如图 12所示,该方法首先将子视点图像分为两部分$\boldsymbol{S}_{A}$$\boldsymbol{S}_{B}$,其中,$\boldsymbol{S}_{A}$部分被转化为伪视频序列并用视频编码器进行压缩,并传至解码端,然后利用解码重建后的$\boldsymbol{S}_{A}$通过求解线性逼近问题预测$\boldsymbol{S}_{B}$,最后将预测残差压缩并传至解码端。实验结果表明,在相同码率下,该算法的性能比x.265编码器最高可提升1.5 dB。文献[76-77]所提算法相比,该方法无须传输视差信息即可重建光场图像。

图 12 光场编解码框架示意图[76]
Fig. 12 Light field compression framework[76]

基于文献[76]算法思想,文献[78]在两部分子视点图像中选取16个视点图像,然后利用选取的16幅视点图像中的9幅线性逼近其余的7幅子视点图像;在重建过程中,首先重建选取的16幅子视点图像,然后通过卷积神经网络(CNN)模型虚拟合成其他视点图像。相比HEVC,该方法能够节省50%以上的码率。文献[79]方法与JPEG Pleno光场编码器框架类似,选取少量的参考视点,利用深度图预测非参考视点,实验结果表明该方法比文献[56]和文献[46]算法性能更好。表 3列出了基于预测的主要算法对比,包括压缩时输入的光场数据格式、算法优缺点及性能对比等。

表 3 基于预测的光场压缩算法对比
Table 3 Comparison of predictive coding methods for light field

下载CSV
分类 文献 数据类型 方法 算法优缺点
基于图像自相似性的预测编码方法 [66-67] 光场图像 将帧间预测引入到帧内预测中 基于现有视频帧内编码框架,与基于视差几何的压缩算法相比,复杂度较低,但编码性能不高
[68] 光场图像 模板匹配
[69] 光场图像 通过对预测块进行多种仿射变换提升预测效率
[70] 原始光场数据 基于宏像素的帧内预测方法
基于视差几何的预测编码方法 [72] 子视点图像集 单应性变换+低秩逼近 只能重建出各子视点重叠区域
[74] 光场图像 可分级编码方案 可根据带宽重建尺寸和质量各异的光场图像
[75] 子视点图像集 选取部分视点作为参考视点,然后将参考视点图像及预测残差传至解码端,根据解码重建的参考视点重建其他非参考视点 该类算法框架已成为目前光场图像压缩的主流,并且压缩性能普遍优于其他类压缩算法
[76-77] 子视点图像集
[78] 子视点图像集
[79] 子视点图像集

3 光场数据库

为了验证算法性能,许多研究机构相继公布了不同规模的光场数据库。表 4总结了9个主流的光场数据库,包括斯坦福大学光场档案馆(Stanford Light Field Archives)[80]先后公布的一系列光场数据库及瑞士洛桑联邦理工学院(EPFL)利用光场相机Lytro Illum采集的光场数据库[85]

表 4 光场数据库
Table 4 Light field dataset

下载CSV
数据库 角度分辨率 空间分辨率/像素
Stanford Multiview Light Field Datasets[80] 3~5个视点 541×376
Stanford Lytro Light Field Archive[80] 15×15 625×434
Standford Light Field Archive (new)[80] From the Gantry 17×17 640×1 024~1 536×1 152
Microscope Light Field 16×16、20×20 170×114、289×289
From Camera Array 45、88个视点 640×480
Standford Light Field Archive (old)[80] 8×8~32×32 128×128~256×256
LFSD[81] 11×11 379×379
LCAV-31[82] 10×10 301×301
HCI Light Field Datasets (old)[83] 9×9 628×768~926×1 024
HCI Light Field Datasets (new)[84] 9×9 512×512
EPFL Light Field Datasets[85] 15×15 625×434
Synthetic Light Field Archive[86] 5×5、7×7 525×840、384×512
JPEG Pleno(https://jpeg.org/jpegpleno/plenodb.html.) 15×15~20×20 170×114~1 536×1 152

数据库LCAV-31针对物体识别,包含的光场数据背景和内容单一,因此不适合验证光场压缩算法性能[82]。数据库LFSD针对光场显著性检测[81],海德堡联合图像处理实验室(HCI)针对深度估计先后公布了两个光场数据库[83-84]。另外,JPEG Pleno在2018年公布了JPEG Pleno光场压缩测试数据集,包含了斯坦福大学、洛桑联邦理工学院和海德堡联合图像处理实验室等多家机构公布的光场数据库(https://jpeg.org/jpegpleno/plenodb.html)。

4 结语

4.1 总结

随着传感器及光学元器件制造工艺的进步,光场成像技术飞速发展。光场成像技术是实现裸眼观看3维图像/视频内容的主要手段之一,是下一代3维视频系统的发展方向,已引起研究者们的广泛关注。同时,由于不同于传统相机的采集方式,光场成像技术采集的数据——光场图像数据格式显著区别于传统2维图像,使得现有的图像/视频编码器无法高效压缩光场图像,从而引发了针对光场图像压缩研究的热潮。鉴于此,本文首先简要介绍了光场成像的原理及现在几种常用的光场相机模型;然后归纳分析了光场图像压缩的最新研究进展,包括国际标准组织JPEG近期在光场压缩方面的标准化工作和十几年来研究者提出的光场压缩方法。

从近十年的文献来看,基于多维变换的光场压缩方法属于该领域的早期研究成果,已涌现出大量的成熟算法。而基于压缩感知理论、低秩逼近和图变换的压缩方法在最近几年才刚刚起步。对于基于伪视频序列的压缩方法来说,该类算法已有较多研究成果公开发表,部分算法已被许多最新算法作为基准进行性能对比,如文献[56]算法。基于图像自相似性的压缩算法也涌现出许多研究成果,但该类算法针对光场图像,与JPEG Pleno标准和现有主流压缩框架文献[75-79]相比,该类算法性能只在某些极限条件下(如低码率限制)能取得较好的压缩性能。

4.2 展望

目前,关于光场成像技术的应用研究已受到越来越多的重视。对于光场数据的高效压缩已成为当前的研究热点之一。总结以往的研究成果,该领域未来几年可能的发展趋势包括:

1) 通过本文列举的算法对比,不难发现,现有主流压缩框架[75-79]的编码性能优异,已成为最近几年光场压缩研究的主流。需要指出的是,本文总结归纳的其他类别的光场压缩算法,如基于变换、预测和伪视频序列的压缩算法都可融入到该类算法框架中。另外,JPEG Pleno压缩标准采用的编码框架与上面所提算法框架类似,基于JPEG Pleno光场编码平台的研究工作将是未来光场压缩方面不可或缺的一部分。目前,JPEG Pleno光场编码器验证模型已经公布,为研究者们提供了一个良好的测试平台。可以预见,基于JPEG Pleno光场编码平台的研究工作,包括预测、变换、量化[87]、视差估计等方面,将涌现出大量的研究成果。

2) 探索不同应用环境下的光场图像编码算法。现有大多算法的目的是为了提升编码性能,没有考虑其他特殊应用背景下的条件约束,如算法复杂度、设备的功耗、内存开销[88]等。目前,在不同应用背景下针对光场图像高效压缩的研究仍然空白。

3) 探索针对光场数据的客观质量评估算法及相应的编码算法。光场数据的客观质量评估仍然是一个开放性问题,仍有待进一步探讨。与此同时,在不同视觉质量评价准则(不同于PSNR)下达到最优压缩性能极具研究意义。

4) 探索与光场成像应用相结合的编码方法。采用有损压缩的方式势必会损伤光场成像相关应用的算法性能,如特征点检测、目标识别等。面向光场成像应用的编码方法研究,可满足有损压缩下各种应用的性能能够维持在较高的水平,具有重要的应用价值。

5) 探索针对光场视频的高效编码方法。目前,大部分研究主要集中在光场图像压缩方面,针对光场视频压缩算法研究仍处于起步阶段。另外,只有极少量的光场视频数据库可供测试,因此,无论是虚拟生成的光场视频数据还是实时采集的光场视频数据都对该方面的算法研究有着重要意义。

目前,光场压缩已引起相关领域学者的关注,作为多媒体应用不可或缺的一环,光场压缩将持续作为相关领域的研究热点之一。

参考文献

  • [1] Zhang C, Liu F, Hou G Q, et al. Light field photography and its application in computer vision[J]. Journal of Image and Graphics, 2016, 21(3): 263–281. [张弛, 刘菲, 侯广琦, 等. 光场成像技术及其在计算机视觉中的应用[J]. 中国图象图形学报, 2016, 21(3): 263–281. ] [DOI:10.11834/jig.20160301]
  • [2] Levoy M, Hanrahan P. Light field rendering[C]//Proceedings of the 23rd Annual Conference on Computer Graphics and Interactive Techniques. New York, USA: ACM, 1996: 31-42.[DOI: 10.1145/237170.237199]
  • [3] Schelkens K, Alpaslan Z Y, Ebrahimi T, et al. JPEG Pleno: a standard framework for representing and signaling plenoptic modalities[C]//Proceedings of SPIE Applications of Digital Image Processing XLI. San Diego, USA: SPIE, 2018.[DOI: 10.1117/12.2323404]
  • [4] Ebrahimi T, Foessel S, Pereira F, et al. JPEG Pleno:toward an efficient representation of visual reality[J]. IEEE Multimedia, 2016, 23(4): 14–20. [DOI:10.1109/MMUL.2016.64]
  • [5] Adelson E, Bergen J. The plenoptic function and the elements of early vision[M]//Landy M, Movshon J A. Computational Models of Visual Processing. Cambridge: MIT Press, 1991: 3-20.
  • [6] Levoy M, Hanrahan P. Method and system for light field rendering: US, 6097394A1[P]. 2000-08-01.
  • [7] Isaksen A, McMillan L, Gortler S J. Dynamically reparameterized light fields[C]//Proceedings of the 27th Annual Conference on Computer Graphics and Interactive Techniques. New York, USA: ACM, 2000: 297-306.[DOI: 10.1145/344779.344929]
  • [8] Ihrke I, Stich T, Gottschlich H, et al. Fast incident light field acquisition and rendering[J]. Journal of WSCG, 2008, 16(1): 25–32.
  • [9] Yang J C, Everett M, Buehler C, et al. A real-time distributed light field camera[C]//Proceedings of the Eurographics Workshop on Rendering. Pisa, Italy: The Eurographics Association, 2002: 1-10.[DOI: 10.2312/EGWR/EGWR02/077-086]
  • [10] Zhang C, Chen T. A self-reconfigurable camera array[C]//Proceedings of the 27th Annual Conference on Computer Graphics and Interactive Techniques. Los Angeles, California, USA: ACM, 2004: #151.[DOI: 10.1145/1186223.1186412]
  • [11] Liu Y B, Dai Q H, Xu W L. A real time interactive dynamic light field transmission system[C]//Proceedings of 2006 IEEE International Conference on Multimedia and Expo. Toronto, Canada: IEEE, 2006: 2173-2176.[DOI: 10.1109/ICME.2006.262686]
  • [12] Wilburn B, Joshi N, Vaish V, et al. High performance imaging using large camera arrays[J]. ACM Transactions on Graphics, 2005, 24(3): 765–776. [DOI:10.1145/1073204.1073259]
  • [13] Dansereau D G, Schuster G, Ford J, et al. A wide-field-of-view monocentric light field camera[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 3757-3766.[DOI: 10.1109/CVPR.2017.400]
  • [14] Levin A, Fergus R, Durand F, et al. Image and depth from a conventional camera with a coded aperture[J]. ACM Transactions on Graphics, 2007, 26(3): 70–70. [DOI:10.1145/1276377.1276464]
  • [15] Liang C K, Lin T H, Wong B Y, et al. Programmable aperture photography:multiplexed light field acquisition[J]. ACM Transactions on Graphics, 2008, 27(3): #55. [DOI:10.1145/1360612.1360654]
  • [16] Marwah K, Wetzstein G, Bando Y, et al. Compressive light field photography using overcomplete dictionaries and optimized projections[J]. ACM Transactions on Graphics, 2013, 32(4): 46. [DOI:10.1145/2461912.2461914]
  • [17] Chen J, Chau L P. Light field compressed sensing over a disparity-aware dictionary[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017, 27(4): 855–865. [DOI:10.1109/TCSVT.2015.2513485]
  • [18] Ng R. Digital light field photography[D]. Stanford: Stanford University, 2006: 23-24.
  • [19] Adelson E H, Wang J Y A. Single lens stereo with a plenoptic camera[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1992, 14(2): 99–106. [DOI:10.1109/34.121783]
  • [20] Georgeiv T, Zheng K C, Curless B, et al. Spatio-angular resolution tradeoffs in integral photography[C]//Proceedings of the 17th Eurographics conference on Rendering Techniques. Nicosia, Cyprus: ACM, 2006: 263-272.[DOI: 10.2312/EGWR/EGSR06/263-272]
  • [21] Perwaβ C, Wietzke L. Single lens 3D-camera with extended depth-of-field[C]//Proceedings of SPIE Human Vision and Electronic Imaging. Burlingame, California, USA: SPIE, 2012: 829108.[DOI: 10.1117/12.909882]
  • [22] Yu Z, Yu J Y, Lumsdaine A, et al. An analysis of color demosaicing in plenoptic cameras[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, Rhode Island, USA: IEEE, 2012: 901-908.[DOI: 10.1109/CVPR.2012.6247764]
  • [23] Georgiev T G, Lumsdaine A. Focused plenoptic camera and rendering[J]. Journal of Electronic Imaging, 2010, 19(2): 021106. [DOI:10.1117/1.3442712]
  • [24] Astola P, Tabus I. Improving residual coding of WaSP light field codec[C]//Proceedings of 2018 International Conference on 3D Immersion. Brussels, Belgium: IEEE, 2018: 1-8.[DOI: 10.1109/IC3D.2018.8657907]
  • [25] Astola P, Tabus I. WaSP: hierarchical warping, merging, and sparse prediction for light field image compression[C]//Proceedings of the 7th European Workshop on Visual Information Processing. Tampere, Finland: IEEE, 2018: 1-6.[DOI: 10.1109/EUVIP.2018.8611756]
  • [26] Astola P, Tabus I. Light field compression of HDCA images combining linear prediction and JPEG 2000[C]//Proceedings of the 26th European Signal Processing Conference. Rome, Italy: IEEE, 2018: 1860-1864.[DOI: 10.23919/EUSIPCO.2018.8553482]
  • [27] Helin P, Astola P, Rao B, et al. Sparse modelling and predictive coding of subaperture images for lossless plenoptic image compression[C]//Proceedings of 3DTV-Conference: The True Vision-Capture, Transmission and Display of 3D Video. Hamburg, Germany: IEEE, 2016: 1-4.[DOI: 10.1109/3DTV.2016.7548953]
  • [28] Helin P, Astola P, Rao B, et al. Minimum description length sparse modeling and region merging for lossless plenoptic image compression[J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(7): 1146–1161. [DOI:10.1109/JSTSP.2017.2737967]
  • [29] Babacan S D, Georgiev T G. Method and apparatus for block-based compression of light field-images: US, 8155456B2[P]. 2012-04-10.
  • [30] Magnor M A, Endmann A, Girod B. Progressive compression and rendering of light fields[C]//Proceedings of Vision Modeling and Visualization. Saarbrücken, Germany: [s.n.], 2000: 199-204.
  • [31] Aggoun A. A 3D DCT compression algorithm for omnidirectional integral images[C]//Proceedings of 2006 IEEE International Conference on Acoustics, Speech, and Signal Processing. Toulouse, France: IEEE, 2006.[DOI: 10.1109/ICASSP.2006.1660393]
  • [32] Aggoun A. Compression of 3D integral images using 3D wavelet transform[J]. Journal of Display Technology, 2011, 7(11): 586–592. [DOI:10.1109/JDT.2011.2159359]
  • [33] Xu D, Dai Q H, Xu W L. Data compression of light field using wavelet packet[C]//Proceedings of 2004 IEEE International Conference on Multimedia and Expo. Taipei, China: IEEE, 2004: 1071-1074.[DOI: 10.1109/ICME.2004.1394394]
  • [34] Chang C L, Zhu X Q, Ramanathan P, et al. Light field compression using disparity-compensated lifting and shape adaptation[J]. IEEE Transactions on Image Processing, 2006, 15(4): 793–806. [DOI:10.1109/TIP.2005.863954]
  • [35] Sakamoto T, Kodama K, Hamamoto T. A novel scheme for 4-D light-field compression based on 3-D representation by multi-focus images[C]//Proceedings of 2012 IEEE International Conference on Image Processing. Orlando, USA: IEEE, 2012: 2901-2904.[DOI: 10.1109/ICIP.2012.6467506]
  • [36] Liang C K. Predictive light field compression: US, 20160212443A1[P]. 2016-07-21.
  • [37] Choudhury C, Tarun Y, Rajwade A, et al. Low bit-rate compression of video and light-field data using coded snapshots and learned dictionaries[C]//Proceedings of 2015 IEEE International Workshop on Multimedia Signal Processing. Xiamen, China: IEEE, 2015: 1-6.[DOI: 10.1109/MMSP.2015.7340830]
  • [38] Yin B C, Su J Z, Shi Y H, et al. A joint structural observation and sparse representation optimization method for light field camera: CN, CN108492239A[P]. 2018-09-04. [尹宝才, 宿建卓, 施云惠, 等.一种面向光场相机的结构化观测与稀疏表示的协同优化方法: 中国, CN108492239A[P]. 2018-09-04.]
  • [39] Su X, Rizkallah M, Maugey T, et al. Graph-based light fields representation and coding using geometry information[C]//Proceedings of 2017 IEEE International Conference on Image Processing. Beijing, China: IEEE, 2017: 4023-4027.[DOI: 10.1109/ICIP.2017.8297038]
  • [40] Viola I, Maretic H P, Frossard P, et al. A graph learning approach for light field image compression[C]//Proceedings of Applications of Digital Image Processing XLI. San Diego, USA: SPIE, 2018.[DOI: 10.1117/12.2322827]
  • [41] Rizkallah M, Su X, Maugey T, et al. Graph-based transforms for predictive light field compression based on super-pixels[C]//Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, Canada: IEEE, 2018: 1718-1722.[DOI: 10.1109/ICASSP.2018.8462288]
  • [42] Elias V R M, Martins W A. On the use of graph Fourier transform for light-field compression[J]. Journal of Communication and Information Systems, 2018, 33(1): 92–103. [DOI:10.14209/jcis.2018.10]
  • [43] Chao Y H, Cheung G, Ortega A. Pre-demosaic light field image compression using graph lifting transform[C]//Proceedings of 2017 IEEE International Conference on Image Processing. Beijing, China: IEEE, 2017: 3240-3244.[DOI: 10.1109/ICIP.2017.8296881]
  • [44] Akeley K, Bevensee B, Pitts C, et al. Compression of light field images: US, 20160316218[P]. 2016-10-27.
  • [45] Jin X, Han H X, Dai Q H. A light field image compression method: CN, CN106254719A[P]. 2018-11-30. [金欣, 韩海旭, 戴琼海.一种基于线性变换和图像插值的光场图像压缩方法: 中国, CN106254719A[P]. 2018-11-30.]
  • [46] Dai F, Zhang J, Ma Y K, et al. Lenselet image compression scheme based on subaperture images streaming[C]//Proceedings of 2015 IEEE International Conference on Image Processing. Québec City, Canada: IEEE, 2015: 4733-4737.[DOI: 10.1109/ICIP.2015.7351705]
  • [47] Jiang Y. Research on light field compression[D]. Chengdu: University of Electronic Science and Technology of China, 2016. [蒋妍.光场图像压缩算法研究[D].成都: 电子科技大学, 2016.]
  • [48] Wang Z N, Bai Q L, Jiang Y, et al. A light field image compression method: CN, CN106375766A[P]. 2017-02-01. [王正宁, 柏祁林, 蒋妍, 等.一种光场图像压缩方法: 中国, CN106375766A[P]. 2017-02-01.]
  • [49] Guo Z L, Yang X X, Diao W M, et al. A light field image compression method: CN, CN201710305196.9[P]. 2017-09-05. [郭正霖, 杨昕欣, 刁为民, 等.一种光场图像的压缩方法: 中国, CN201710305196.9[P]. 2017-09-05.]
  • [50] Chen Z B, Zhao S Y, Yang K, et al. A light field image compression method based on hybrid scanning orders: CN, CN201611192842.7[P]. 2017-03-22. [陈志波, 赵盛洋, 杨昆, 等.基于混合扫描顺序的光场图像压缩方法: 中国, 201611192842.7[P]. 2017-03-22.]
  • [51] Viola I, Řeábek M, Ebrahimi T. Comparison and evaluation of light field image coding approaches[J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(7): 1092–1106. [DOI:10.1109/JSTSP.2017.2740167]
  • [52] Vieira A, Duarte H, Perra C, et al. Data formats for high efficiency coding of Lytro-Illum light fields[C]//Proceedings of 2015 International Conference on Image Processing Theory, Tools and Applications. Orleans, France: IEEE, 2015: 494-497.[DOI: 10.1109/IPTA.2015.7367195]
  • [53] Sun X, Shi Z R. Light field compression based on HEVC encoding and decoding[J]. Electronic Design Engineering, 2017, 25(4): 133–137. [孙夏, 石志儒. 基于HEVC编解码的光场图像压缩[J]. 电子设计工程, 2017, 25(4): 133–137. ] [DOI:10.14022/j.cnki.dzsjgc.2017.04.034]
  • [54] Liu Y Y, Zhu C, Mao M. Light field image compression based on quality aware pseudo-temporal sequence[J]. Electronics Letters, 2018, 54(8): 500–501. [DOI:10.1049/el.2017.4560]
  • [55] Dai F, Zhang Y D. A compression system for light field image captured by micro-lens array: CN: CN104469372A[P]. 2018-09-07. [代锋, 张勇东.用于压缩微透镜阵列采集的光场图像的方法和系统: 中国, CN104469372A[P]. 2018-09-07.]
  • [56] Liu D, Wang L Z, Li L, et al. Pseudo-sequence-based light field image compression[C]//Proceedings of 2016 IEEE International Conference on Multimedia & Expo Workshops. Seattle, WA, USA: IEEE, 2016: 1-4.[DOI: 10.1109/ICMEW.2016.7574674]
  • [57] Li L, Li Z, Li B, et al. Pseudo-sequence-based 2-D hierarchical coding structure for light-field image compression[J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(7): 1107–1119. [DOI:10.1109/JSTSP.2017.2725198]
  • [58] Gao Y B. Research on rate distortion optimization in video coding[D]. Chengdu: University of Electronic Science and Technology of China, 2018. [高艳博.基于率失真优化的视频编码方法研究[D].成都: 电子科技大学, 2018.]
  • [59] Yang T W, Zhu C, Fan X J, et al. Source distortion temporal propagation model for motion compensated video coding optimization[C]//Proceedings of 2012 IEEE International Conference on Multimedia and Expo. Melbourne, Australia: IEEE, 2012: 85-90.[DOI: 10.1109/ICME.2012.171]
  • [60] Li S, Zhu C, Gao Y B, et al. Lagrangian multiplier adaptation for rate-distortion optimization with inter-frame dependency[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 26(1): 117–129. [DOI:10.1109/TCSVT.2015.2450131]
  • [61] Gao Y B, Zhu C, Li S, et al. Temporally dependent rate-distortion optimization for low-delay hierarchical video coding[J]. IEEE Transactions on Image Processing, 2017, 26(9): 4457–4470. [DOI:10.1109/TIP.2017.2713598]
  • [62] Gao Y B, Zhu C, Li S, et al. Source distortion temporal propagation analysis for random-access hierarchical video coding optimization[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(2): 546–559. [DOI:10.1109/TCSVT.2017.2787190]
  • [63] Guo H W, Zhu C, Li S X, et al. Optimal bit allocation at frame level for rate control in HEVC[J]. IEEE Transactions on Broadcasting, 2019, 65(2): 270–281. [DOI:10.1109/TBC.2018.2847445]
  • [64] Dricot A, Jung J, Cagnazzo M, et al. Improved integral images compression based on multi-view extraction[C]//Proceedings of SPIE Applications of Digital Image Processing XXXIX. San Diego, CA, USA: SPIE, 2016.[DOI: 10.1117/12.2238707]
  • [65] Dricot A, Jung J, Cagnazzo M, et al. Integral images compression scheme based on view extraction[C]//Proceedings of 2015 European Signal Processing Conference. Nice, France: IEEE, 2015: 101-105.[DOI: 10.1109/EUSIPCO.2015.7362353]
  • [66] Li Y, Sjöström M, Olsson R, et al. Efficient intra prediction scheme for light field image compression[C]//Proceedings of 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Florence, Italy: IEEE, 2014: 539-543.[DOI: 10.1109/ICASSP.2014.6853654]
  • [67] Conti C, Nunes P, Soares L D. HEVC-based light field image coding with bi-predicted self-similarity compensation[C]//Proceedings of 2016 IEEE International Conference on Multimedia & Expo Workshops. Seattle, WA, USA: IEEE, 2016: 1-4.[DOI: 10.1109/ICMEW.2016.7574667]
  • [68] Lucas L F R, Conti C, Nunes P, et al. Locally linear embedding-based prediction for 3D holoscopic image coding using HEVC[C]//Proceedings of the 22nd European Signal Processing Conference. Lisbon, Portugal: IEEE, 2014: 11-15.
  • [69] Monteiro R J S, Nunes P J L, Rodrigues N M M, et al. Light field image coding using high-order intrablock prediction[J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(7): 1120–1131. [DOI:10.1109/JSTSP.2017.2721358]
  • [70] Jin X, Han H X, Dai Q H. A light field image compression method based on macro-pixel boundary matching: CN, CN106961605A[P]. 2017-07-18. [金欣, 韩海旭, 戴琼海.一种基于宏像素边界匹配的光场图像压缩方法: 中国, CN106961605A[P]. 2017-07-18.]
  • [71] Jin X, Li L J, Dai Q H. Macro-pixel based inter prediction method for light field video: CN, CN107483936A[P]. 2017-12-15. [金欣, 李羚俊, 戴琼海.一种基于宏像素的光场视频帧间预测方法: 中国, CN107483936A[P]. 2017-12-15.]
  • [72] Jiang X R, Le Pendu M, Farrugia R A, et al. Light field compression with homography-based low-rank approximation[J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(7): 1132–1145. [DOI:10.1109/JSTSP.2017.2747078]
  • [73] Liu D Y, Wang G J, Wu J, et al. Light field image compression method based on correlation of rendered views[J]. Laser Technology, 2019, 43(4): 551–556. [刘德阳, 王广军, 吴健, 等. 基于视点相关性的光场图像压缩算法[J]. 激光技术, 2019, 43(4): 551–556. ] [DOI:10.7510/jgjs.issn.1001-3806.2019.04.020]
  • [74] Li Y, Sjöström M, Olsson R, et al. Scalable coding of plenoptic images by using a sparse set and disparities[J]. IEEE Transactions on Image Processing, 2016, 25(1): 80–91. [DOI:10.1109/TIP.2015.2498406]
  • [75] Chen J, Hou J H, Chau L R. Light field compression with disparity-guided sparse coding based on structural key views[J]. IEEE Transactions on Image Processing, 2018, 27(1): 314–324. [DOI:10.1109/TIP.2017.2750413]
  • [76] Zhao S Y, Chen Z B. Light field image coding via linear approximation prior[C]//Proceedings of 2017 IEEE International Conference on Image Processing. Beijing, China: IEEE, 2017: 4562-4566.[DOI: 10.1109/ICIP.2017.8297146]
  • [77] Chen Z B, Zhao S Y. A light field image compression method based on linear reconstruction: CN, 201711065302.7[P]. 2018-03-06. [陈志波, 赵盛洋.基于线性重建的光场图像压缩方法: 中国, 201711065302.7[P]. 2018-03-06.]
  • [78] Bakir N, Hamidouche W, Déforges O, et al. Light field image compression based on convolutional neural networks and linear approximation[C]//Proceedings of the 25th IEEE International Conference on Image Processing. Athens, Greece: IEEE, 2018: 1128-1132.[DOI: 10.1109/ICIP.2018.8451597]
  • [79] Huang X P, An P, Shen L Q, et al. Efficient light field images compression method based on depth estimation and optimization[J]. IEEE Access, 2018, 6: 48984–48993. [DOI:10.1109/ACCESS.2018.2867862]
  • [80] Stanford Light Field Archives[DB/OL]. 2018-10-01[2019-02-18]http://lightfields.stanford.edu.
  • [81] Li N Y, Ye J W, Ji Y, et al. Saliency detection on light field[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(8): 1605–1616. [DOI:10.1109/TPAMI.2016.2610425]
  • [82] Ghasemi A, Afonso N, Vetterli M. LCAV-31: a dataset for light field object recognition[C]//Proceedings of SPIE Computational Imaging Ⅻ. San Francisco, California, USA: SPIE, 2014: 902014.[DOI: 10.1117/12.2041097]
  • [83] Wanner S, Meister S, Goldluecke B. Datasets and benchmarks for densely sampled 4D light fields[C]//Proceedings of Annual Workshop on Vision, Modeling and Visualization. Lugano, Switzerland, Goslar: Eurographics Association, 2013: 225-226.[DOI: 10.2312/PE.VMV.VMV13.225-226]
  • [84] Honauer K, Johannsen O, Kondermann D, et al. A dataset and evaluation methodology for depth estimation on 4D light fields[C]//Proceedings of the 13th Asian Conference on Computer Vision. Taipei, China: Springer, 2017: 19-34.[DOI: 10.1007/978-3-319-54187-7_2]
  • [85] Řeábek M, Ebrahimi T. New light field image dataset[C]//Proceedings of the 8th International Conference on Quality of Multimedia Experience. Lisbon, Portugal, IEEE, 2016: 1-2.[DOI: 10.5281/zenodo.209499]
  • [86] Synthetic light field archive[DB/OL]. 2013-04-20[2019-02-18]http://web.media.mit.edu/gordonw/SyntheticLightFields.
  • [87] Lerbour R, Mercier B, Meneveaux D, et al. Quality-based improvement of quantization for light field compression[C]//Proceedings of the 2nd International Conference on Computer Graphics Theory and Applications. Barcelona, Spain, [s.n.], 2007: 235-243.[DOI: 10.5220/0002078802350243]
  • [88] Graziosi D B, Alpaslan Z Y, McNeill D A, et al. Content adaptive light field compression: US, 20170142427A1[P]. 2017-05-18.