Print

发布时间: 2022-04-16
摘要点击次数:
全文下载次数:
DOI: 10.11834/jig.200471
2022 | Volume 27 | Number 4




    图像处理和编码    




  <<上一篇 




  下一篇>> 





利用条件生成对抗网络的光场图像重聚焦
expand article info 谢柠宇, 丁宇阳, 李明悦, 刘渊, 律睿慜, 晏涛
江南大学人工智能与计算机学院,无锡 214122

摘要

目的 传统的基于子视点叠加的重聚焦算法混叠现象严重,基于光场图像重构的重聚焦方法计算量太大,性能提升困难。为此,本文借助深度神经网络设计和实现了一种基于条件生成对抗网络的新颖高效的端到端光场图像重聚焦算法。方法 首先以光场图像为输入计算视差图,并从视差图中计算出所需的弥散圆(circle of confusion,COC)图像,然后根据COC图像对光场中心子视点图像进行散焦渲染,最终生成对焦平面和景深与COC图像相对应的重聚焦图像。结果 所提算法在提出的仿真数据集和真实数据集上与相关算法进行评价比较,证明了所提算法能够生成高质量的重聚焦图像。使用峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structural similarity,SSIM)进行定量分析的结果显示,本文算法比传统重聚焦算法平均PSNR提升了1.82 dB,平均SSIM提升了0.02,比同样使用COC图像并借助各向异性滤波的算法平均PSNR提升了7.92 dB, 平均SSIM提升了0.08。结论 本文算法能够依据图像重聚焦和景深控制要求,生成输入光场图像的视差图,进而生成对应的COC图像。所提条件生成对抗神经网络模型能够依据得到的不同COC图像对输入的中心子视点进行散焦渲染,得到与之对应的重聚焦图像,与之前的算法相比,本文算法解决了混叠问题,优化了散焦效果,并显著降低了计算成本。

关键词

光场; 图像重聚焦; 条件生成对抗网络; 弥散圆(COC); 散焦渲染

Light field image re-focusing based on conditional enerative adversarial networks leverage
expand article info Xie Ningyu, Ding Yuyang, Li Mingyue, Liu Yuan, Lyu Ruimin, Yan Tao
School of Artificial Intelligence and Computer Science, Jiangnan University, Wuxi 214122, China
Supported by: Natural Science Foundation of Jiangsu Province, China(BK20170197)

Abstract

Objective Light field images like rich spatial and angular information are widely used in computer vision applications. Light field information application can significantly improve the visual effect based on the focal plane and depth of field of an image. The current methods can be divided into two categories as mentioned below: One of the categories increases the angular resolution of a light field image via light field reconstruction. Since aliasing phenomenon is derived of disparity amongst light-field-images-based of the sub-aperture views. These methods require high computational costs and may introduce color errors or other artifacts. In addition, these methods can just improve the quality of refocusing straightforward under original focus plane and depth of field. Another category illustrates various filters derived of the circle of confusion (COC) map to defocus/render the center sub-aperture view to produce bokeh rendering effect. A rough defocusing visual effect can obtained. This above category has low computational cost and can sort both the focus plane and depth of field out. Deep convolutional neural network (DCNN) has its priority in bokeh rendering. To this end, we facilitate a novel conditional generative adversarial network based (C-GAN-based) for bokeh rendering. Method Our analysis takes a light field image as input. It contains three aspects as following: First, it calculates the COC map with different focal planes and depths of field derived of the disparity map for the input light field image estimation. The obtained COC map and the central sub-view of the light field image are fed into the generator of the conditional GAN. Next, the generator processes two input data each based on two four-layer encoders in order to integrate two-encoders-based features extraction, which add the four consecutive residual modules. At the end, the acquired refocused image is melted into the discriminator to identify that the obtained refocused image corresponding to the COC map. To enhance the high-frequency details of the refocused/rendered image, we adopt a pre-trained Visual Geometry Group 16-layer (VGG-16) network to calculate the style loss and the perceptual loss. L1 loss is used as the loss of the generator, and the discriminator adopts the cross-entropy loss. The Blender is used to adjust the position of focus planes and depths of field and render corresponding light field images. A digital single lens reflex(DSLR) camera plug-in tool of the Blender is used to render the corresponding refocused images as the ground truth. Our network is implemented based on the Keras framework. The input and output sizes of the network are both 512 × 512 × 3. The network is trained on a Titan XP GPU card. The number of epochs for training our targeted neural network is set to 3 500. The initial learning rate is set to 0.000 2. The training process took about 28 hours. Result Our synthetic dataset and the real-world dataset are compared with similar algorithms, including current refocusing algorithms, three different light field reconstruction algorithms, and defocusing algorithm using anisotropic filtering with COC map. Our quantitative analysis uses the peak signal to noise ratio (PSNR) and structural similarity (SSIM) for evaluation. Our proposed network-structure-based qualitative evaluation can obtain refocused images with different focus planes and depths of field in terms of the input COC map analysis. In the process of quantitative analysis, our average PSNR obtained is 1.82 dB. The average SSIM was improved by 0.02. Compared with the methods that use COC map and anisotropic filtering, our average PSNR was improved 7.92 dB and the average SSIM is improved 0.08. The methods had achieved poor PSNR values in the context of reconstruction/super-resolution due to the chromatic aberration of the generated sub-views. Conclusion Our algorithm can generate the disparity-map-based corresponding COC map obtained from the input light field image, refocusing plane and depth of field. To produce the corresponding refocused image, our conditional generative adversarial network demonstration can perform bokeh rendering on the central sub-view image based on differentiate COC map.

Key words

light field; image refocusing; conditional generative adversarial networks; circle of confusion (COC); bokeh rendering

0 引言

散焦是一种非常重要的摄影技术,通过调节光圈的大小以及对焦平面的位置,使图像中的非拍摄主体处于一种模糊状态,从而突出清晰的拍摄主体。为了获取一个较浅的景深,即具有良好散焦效果的图像,必须借助大光圈的镜头,这对相机有较高的要求。较低性能的相机往往无法获取具有理想散焦效果的图像,即使性能很好的单反相机获取的较浅景深的图像,也只能突出某一平面的主体,无法后期调整照片的主体对象和景深大小。

生成对抗网络(Goodfellow等,2014)源于博弈论,包含生成器(generator,G)和判别器(discriminator,D),G用于生成目标数据样本,D用于判断生成数据的真伪,二者互相博弈,最终得到近乎完美的生成图像。Mirza和Osindero(2014)在生成对抗网络的基础上提出了条件生成对抗网络,这是一种带条件约束的生成模型,在生成器G和判别器D中均引入了条件变量用于指导生成目标数据。

光场图像同时具备目标场景的空间与角度信息,其应用在多个计算机视觉领域都取得了可观成果,如图像超分辨率(Tsai等,2020)、图像拼接(Guo等,2016)、光场重聚焦(Liu等,2020)、全景图生成(Overbeck等,2018)、深度估计(王程等,2020)和图像重定向(晏涛等,2019)等。现有的获取光场的方法主要分为两类:1)紧凑型的商业光场相机(Ren等,2005),借助一个主透镜和一系列子透镜捕获场景角度信息。然而,由于传感器的限制,商业光场相机仅能提供一个密集的角度分辨率和较低的空间分辨率。2)相机阵列,借助一系列按矩阵规则排列的相机同时拍摄对象的多个视角。早期的相机阵列庞大,不方便使用,近年来借助小型相机阵列(Lin等,2015)获取光场的技术获得了一定进展,具有广阔前景,使借助相机阵列获取光场图像愈发容易。与全光相机相比,相机阵列具有更高的分辨率和更大的基线,提高了图像质量,提供了更大的视差,为光场重聚焦算法提供了数据支持,同时也放大了传统重聚焦算法的缺陷。

传统重聚焦算法(Vaish等,2005)通过子视点叠加获取重聚焦图像,可以得到粗糙的视觉效果,但在散焦区域存在混叠等现象,这种情况在通过相机阵列获取的具有较大基线的光场图像上尤其明显。近年来,有不少基于光场重构算法用于解决这个问题。Kalantari等人(2016)通过神经网络对原有的子视点进行视点内插,利用合成的全新光场进行重聚焦。Ledig等人(2016)Kalantari等人(2016)基础上引入生成对抗网络以提高生成子视点的质量。Wu等人(2017)为了进一步提高重构光场质量,先使用EPI(epipolar plane image)进行插值放大,然后使用神经网络修复高频细节重构光场。此类方法虽然能通过提高光场的角度分辨率缓解混叠的问题,但需要极高的计算成本,并且由于现有的光场重构算法自身存在的伪影、色差等常见问题,借助重构后的光场图像得到的重聚焦图像往往会产生新的问题。基于散焦渲染(Liu等,2016)的方法提供了一种全新的思路,使用光场图像的视差信息获取中心视点的弥散圆(circle of confusion,COC)图像,并借助各向异性滤波渲染图像,一定程度上降低了计算成本,但是该算法过分依赖COC图像的精度,一旦COC图像出现错误,就会出现同一深度平面同时出现对焦区域和散焦区域的情况,还会出现单一色块的现象,严重影响视觉效果。Ignatov等人(2020)借助深度学习提高散焦效果,虽然显著提升了视觉效果,却仅能聚焦前景,无法对景深进行调控。Busam等人(2020)利用立体匹配图像进行重聚焦操作,可以提供更为准确的深度信息。Dansereau等人(2015)提出一种光场体积重聚焦的方法,相比于传统的平面重聚焦方法,能够获得更大的景深。

本文提出了一种可控景深的光场重聚焦方法,算法流程如图 1所示。本文的贡献主要为以下3个方面:1)首次利用深度学习实现了可控景深的光场重聚焦算法,提高了算法效率。2)提出了一种条件生成对抗神经网络,能够借助光场的中心子视点以及COC图像生成对应的重聚焦图像。3)新建了一个具有光场图像、散焦图像与其对应的COC图像的数据集。

图 1 本文算法总览
Fig. 1 Overview of our method

1 算法原理

本文算法分为两个步骤:1)首先利用光场图像计算出对应的视差图,再借助视差图计算光场子视点图像的中心视点中每个像素的COC。这一步可以调整参数得到不同大小的COC,从而完成对图像的景深的调整。2)以光场中心视点为输入、COC图像为条件输入,构建一个深度神经网络对中心视点进行散焦渲染,得到最终重聚焦后的图像。

1.1 弥散圆COC计算

设定透镜焦距为$f$,则图像中任意一个像素点$P$对应的COC的半径可表示(Liu等,2016)为

$ r=\left|\frac{f^{2}\left(Z_{f}-Z_{p}\right)}{2 F Z_{p}\left(Z_{f}-f\right)}\right| $ (1)

式中,$Z_{f}$$Z_{p}$分别表示对焦平面与$P$点处的深度值,$F$表示所选光圈的光圈值。从光场模型(Wang等,2018)可知,深度$Z=fB/d$,其中$B$为光场图像基线,即光场图像子视点间的轴距,$d$表示视差值。本次实验中的视差图利用Wang等人(2019)的算法计算,最终式(1)整合为

$ r=\left|\frac{f\left(d_{p}-d_{f}\right)}{2 F\left(B-d_{f}\right)}\right| $ (2)

式中,$f$$F$$d_{f}$$B$均为定值,因此,图像中不同像素的COC的半径$r$与该点的视差值和对焦平面的视差值的差值的绝对值成线性关系。设点$K$

$ K=\left|\frac{f}{2 F\left(B-d_{f}\right)}\right| $ (3)

则式(2)最终整合为

$ r=K\left|\left(d_{p}-d_{f}\right)\right| $ (4)

通过选择不同的$d_{f}$可以选择不同的对焦平面,此时对焦平面处的$r$数值为0。由式(4)可知,调整$K$值大小,可以对像素的COC的半径大小进行调整,较大的$K$值提供一个较大的COC的半径,产生一个比较明显的模糊效果,即一个较小的景深。为方便观察,本文对生成的单通道COC图像进行了染色处理,如图 2所示,其中前4幅是合成场景,后两幅是真实场景,图 2(b)右侧标尺数值表示COC的半径大小。

图 2 具有不同焦平面与景深的COC图像
Fig. 2 COC images with different focal planes and depths of field
((a)RGB images; (b)COC images)

1.2 条件生成对抗网络

COC图像体现了各深度平面的对象在成像平面的扩散程度,为了将其与原图像结合生成对应的重聚焦图像,Liu等人(2016)使用滤波器进行散焦渲染,但简单的线性叠加无法完全模拟散焦效果,并且极度依赖视差图的准度(计算出的数值和真实值的差异)。简单的端到端生成对抗网络无法有效控制最终生成的结果图像,即对于相同的输入图像,网络会根据输入的COC图像进行不同的散焦渲染,得到不同的散焦图像。对此,本文提出了一种基于COC图像的条件生成对抗网络模型,采用散焦渲染方法,并使用两个不同的编码器处理输入图像和约束条件,用于学习散焦图像与清晰图像和COC图像之间的映射关系,并在输入端通过添加约束条件的方式对结果进行控制。网络整体结构如图 3所示,图中C表示concatenate操作,T/F意为True/False,即判别器的判别结果。

图 3 本文提出的条件生成对抗网络结构
Fig. 3 Conditional generative adversarial networks structure proposed in this paper

网络生成器的输入为原光场的中心子视点图像(大小为512×512×3)和第1步计算得到的COC图像(大小为512×512×1),生成器的输出再与COC图像一起进入判别器,以保证生成的散焦图像与COC相对应。由于实际应用中往往无法获取精准的COC图像,本文将COC图像与中心视点图像分别输入网络,削弱二者的直接联系,降低不准确的COC图像对重聚焦图像的影响。生成器模型呈Y型结构,分为3段。第1段由两个编码器组成,分别对输入的COC图像和中心子视点图像进行特征提取。编码器分为4层,每层由1个卷积层、1个ReLU激活函数和1个BN(batch normalization)层组成,BN层的输出作为下一层编码器的输入。第2段的输入为第1段两个编码器的输出执行concatenate操作后的结果,由4层残差结构组成,目的是增加网络的深度以及整合两个编码器的输出。第3段是解码器部分,共4层,本文没有使用反卷积操作,而是选择了上采样后接2D卷积层,并添加了与中心视点编码器的跳级连接,最后对连接结果进行卷积核大小为1的卷积操作,解码器每层均添加了ReLU激活函数和BN层。判别器的输入为执行concatenate操作后的中心子视点图像和COC图像,再经过3层编码器(编码器结构与生成器一样),最后通过两层全连接层以及sigmoid激活函数得到判别结果。

本文提出的条件生成对抗网络的损失函数包含两部分,定义为

$ {Loss}_{\text {total }}=\lambda_{0} {Loss}_{\mathrm{D}}+{Loss}_{\mathrm{G}} $ (5)

式中,${Loss}_{\mathrm{D}}$表示判别器损失,在提出的方法中采用交叉熵损失作为判别器损失,${Loss}_{\mathrm{G}}$表示生成器损失,超参数$λ_{0}$在本次实验中设置为10。

生成器损失${Loss}_{\mathrm{G}}$定义为

$ {Loss}_{\mathrm{G}}=\lambda_{0} {Loss}_{\mathrm{L} 1}+\lambda_{2} {Loss}_{\mathrm{per}}+\lambda_{3} {Loss}_{\mathrm{style}} $ (6)

式中,${Loss}_{\mathrm{L1}}$表示L1损失,${Loss}_{\mathrm{per}}$表示感知损失,${Loss}_{\mathrm{style}}$表示风格损失,超参数$λ_{0}$$λ_{1}$$λ_{2}$$λ_{3}$设置为10,0.1,8和6。其中,$λ_{0}$$λ_{1}$取不同数值时的平均峰值信噪比(peak signal to noise ratio,PSNR)和结构相似性(structural similarity,SSIM)的实验结果如表 1所示,其中,S1~S5表示不同的参数设置下的实验结果。

表 1 不同超参数的平均PSNR和SSIM
Table 1 Average PSNR and SSIM under different hyperparameters

下载CSV
参数设置 $λ_{0}$ $λ_{1}$ PSNR/dB SSIM
S1 0.1 1 32.84 0.83
S2 1 1 33.04 0.83
S3 10 1 33.52 0.84
S4 10 0.1 34.38 0.86
S5 10 0.01 32.97 0.84
注:加粗字体表示各列最优结果。

实验表明,本文拟定的参数值可使结果达到一个理想指标。$λ_{2}$$λ_{3}$参考Liu等人(2018)方法中的取值。

L1损失${Loss}_{\mathrm{L1}}$定义为

$ {Loss}_{\mathrm{L} 1}=\left\|\boldsymbol{V}^{\mathrm{gt}}-\boldsymbol{V}^{\mathrm{gen}}\right\|_{1} $ (7)

式中,${\mathit{\boldsymbol{V}}}^\text{gen}$表示生成器的结果,${\mathit{\boldsymbol{V}}}^\text{gt}$表示图像的真值。本文使用预训练的VGG-16(Visual Geometry Group 16-layer network)(Simonyan和Zisserman,2015)网络对生成器的结果和真值进行特征提取,并选择pool1,pool2和pool3网络层计算特征图的损失。

感知损失$L_\text{per}$定义为

$ L_{\text {per }}=\sum\limits_{s=1}^{N}\left\|\boldsymbol{\psi}_{s}^{\mathrm{gt}}-\boldsymbol{\psi}_{s}^{\mathrm{gen}}\right\|_{1} $ (8)

式中,$\boldsymbol{\psi}_{s}^{\text {gen }}$$\boldsymbol{\psi}_{s}^{\mathrm{gt}}$分别表示生成结果和图像真值对应的VGG网络提取的第$S$层特征图。$N$表示特征图的总层数,在本次实验中为3。

风格损失$L_\text{style}$定义为

$ L_{\text {style }}=\sum\limits_{s=1}^{N}\left\|\boldsymbol{G}\left(\boldsymbol{\psi}_{s}^{\mathrm{gt}}\right)-\boldsymbol{G}\left(\boldsymbol{\psi}_{s}^{\mathrm{gen}}\right)\right\|_{1} $ (9)

式中,${\mathit{\boldsymbol{G}}}$代表Gram矩阵。

2 实验结果

条件生成对抗网络的训练需要大量带有条件的数据集,而本研究需要的重聚焦图像和COC图像并无公开的数据集可直接利用,因此本文借助blender仿真软件制作了一个全新的数据集。使用blender仿真软件制作数据集有3个优点:1)可以获取每个光场子视点对应的准确视差,可以计算出最精准的COC图像;2)参数透明可控,可以获取与COC图像对应的重聚焦图像;3)模型容易获取,场景多样,可以快速制作出大量数据集用于训练。该数据集包含10个不同的场景,每个场景选择了多个对焦平面,渲染了多种不同景深的光场图像,并借用了blender中的单反相机插件模拟了其对应的散焦效果。本文数据集共包含210组光场图像和对应的重聚焦图像,并从中随机抽取了180幅光场图像用于神经网络训练, 3幅用于评估模型, 剩下27幅以及5幅真实场景数据用于测试。本文所提算法在TitanX GPU上进行网络训练,训练次数为3 500,初始学习率设为0.000 2,训练完成约需28 h。

2.1 光场重聚焦结果对比

本文与传统重聚焦算法(Vaish等,2004)、基于光场重构优化后的重聚焦算法、包括利用神经网络进行光场重构的重聚焦算法(Kalantari等,2016)、引入对抗网络提高重构光场质量的重聚焦算法(Ledig等,2016)、利用EPI进行光场重构的重聚焦算法(Wu等,2017)以及结合COC图像使用各向异性滤波模拟散焦渲染的算法(Wang等,2019)进行对比。由于传统重聚焦算法和基于光场重构的重聚焦算法都不具备修改对焦平面和景深的功能,因此本文仅与其在单一对焦平面与景深上对比,结果如图 4所示,其中,图 4(b)为真值图像,其对应的COC图像如图 2所示。由于Wang等人(2019)Kalantari等人(2016)Ledig等人(2016)的算法均无法处理图像的边缘,对图像进行了裁剪处理,为方便定性分析,对上述算法结果的边缘进行了简单的填充处理,如图 4(c)(f)(g)所示。

图 4 光场重聚焦实验对比
Fig. 4 Comparison of light field refocusing by different methods
((a)center images; (b)ground truth; (c)Wang et al.(2019); (d)Vaish et al.(2004); (e)Wu et al.(2017); (f)Kalantari et al.(2016); (g)Ledig et al.(2016); (h)ours)

图 4可以看出,传统重聚焦算法在散焦区域存在严重混叠现象,如图 4各算法第1行中的树叶等。基于光场重构的算法通过视点内插提升子视点数量,一定程度上改善了混叠现象。但是,此类算法的最终效果极其依赖于重构的子视点质量,颜色误差、伪影等现象对最终的重聚焦图像质量会产生较大影响,上述对比实验都体现了这个问题。基于各向异性滤波的算法在大范围的散焦区域表现尚可,但存在大量单一色块的现象(图 4(c)第2行),而且在散焦区域和清晰区域交界的地方存在大量错误(图 4(c)第4行)。本文算法能较好地解决上述问题,在散焦区域和清晰区域交错存在的地区也能保证过渡平缓,散焦区域也较为自然,不存在混叠现象, 同时,在与训练集存在较大差异的真实场景中也能得到较好的结果。与仿真数据相比,真实场景计算的COC图像存在较多错误,如位于散焦区域的像素却得到一个较小的COC数值,导致其未能进行正确的散焦渲染,Wang等人(2019)的算法就体现了这个问题。本文算法利用深度学习技术,并采用了Y型结构的生成器,削弱了COC图像与输入的中心子视点图像的直接联系,可以大幅度降低错误的COC图像对散焦渲染效果的影响。同时,本文算法在对焦平面区域存在清晰度不高、细小的纹路和材质无法恢复的问题,这可能是由于本文的网络结构主要功能是对输入的中心视点依照对应的COC图像进行散焦处理,对所有区域都会进行不同程度的模糊。

最后,本文通过平均峰值信噪比(PSNR)和平均结构相似性(SSIM)对不同的算法结果进行定量分析,结果如表 2所示,其中,对Wang等人(2019)Kalantari等人(2016)Ledig等人(2016)的算法仅计算裁剪后区域的数值。定量分析表明,本文算法在大多数场景都优于对比算法,而在对焦平面区域占据图像大部分区域时,Vaish等人(2004)的结果略高于本文算法,这是因为该区域具有极小的视差,传统的重聚焦算法对此不需要进行复杂处理就可以使重聚焦后的图像在该区域与输入仅有微小差距,而本文算法仍需要通过网络对该区域进行散焦渲染。即便如此,本文的结果与其差距仍然很小。值得注意的是,在此类场景中,本文算法的视觉效果明显优于Vaish等人(2004)的结果。而Kalantari等人(2016)Ledig等人(2016)Wu等人(2017)的方法由于重构的光场子视点存在色差、伪影等问题,在数值上表现不佳。

表 2 光场重聚焦结果定量分析
Table 2 Quantitative analysis of the light field refocus results

下载CSV
方法 PSNR/dB SSIM
样例1 样例2 样例3 样例4 样例1 样例2 样例3 样例4
Vaish等人(2004) 32.69 34.98 27.32 38.22 0.81 0.88 0.76 0.97
Wang等人(2019) 23.89 26.39 20.96 27.71 0.71 0.85 0.77 0.89
Kalantari等人(2016) 19.03 20.25 19.34 20.24 0.75 0.79 0.73 0.72
Ledig等人(2016) 20.32 20.58 20.73 20.76 0.75 0.83 0.74 0.72
Wu等人(2017) 21.06 22.86 21.19 22.37 0.81 0.86 0.78 0.81
本文 31.48 35.25 30.66 39.81 0.78 0.89 0.89 0.94
注:加粗字体表示各列最优结果,样例1~4对应图 4

2.2 散焦渲染对比

Ignatov等人(2020)提出了一种利用深度学习的单幅图像散焦渲染算法,可以对输入图像的背景区域进行散焦渲染。本文算法获取了具有与之相同对焦平面与景深大小的实验结果。二者的对比实验结果如图 5所示。实验结果表明,Ignatov等人(2020)的算法可以在背景区域取得较好的散焦效果,但是由于完全依赖神经网络选择散焦渲染的区域,未添加有效的约束,导致前景区域也存在不同程度的模糊。本文算法以COC图像作为约束条件,可以更好地区分散焦区域与对焦区域。同时,除了背景的散焦渲染外,本文算法还提供了调节对焦平面与景深大小的功能。

图 5 Ignatov等人(2020)与本文方法散焦渲染实验对比
Fig. 5 Comparison of bokeh rendering between Ignatov et al.(2020)method and ours
((a)center images; (b)ground truth; (c)Ignatov et al.(2020); (d)ours)

2.3 对焦平面与景深的调节

本文算法首先生成包含不同对焦平面和不同景深信息的COC图像,再通过条件生成对抗网络进行散焦渲染获取对应的重聚焦图像,能够获得单反相机拍摄的图像后期处理难以达到的效果,实验结果如图 6所示。

图 6 对焦平面与景深调节实验结果
Fig. 6 Results of focal plane and depth of field adjusting
((a) refocus images; (b)dyed COC images)

3 结论

本文提出了一种光场图像重聚焦方法。首先输入光场图像、对焦平面与景深参数,得到COC图像,再将其与光场中心视点图像输入条件生成对抗网络,输出最终的重聚焦图像。本文提出的条件生成对抗网络能够根据输入的COC图像,对输入的中心视点图像进行相应的散焦渲染。实验结果表明,提出的方法可以显著地提升图像的视觉效果。

但是,本文提出的条件生成对抗网络模型仍存在一定的不足。在实际应用中,从真实场景的光场图像中计算的COC图像往往存在大量错误,导致对焦平面区域存在一定程度的模糊,尤其是对焦平面位于前景且占据图像大部分区域时,一定程度上影响了图像质量与视觉效果。下一步将通过引入可以同时利用仿真图像和真实光场图像的半监督的领域自适应学习优化模型,并尝试加入其他损失函数进一步弱化错误的COC图像对图像结果的影响,以期在真实场景上获取更好的效果。

参考文献

  • Busam B, Hog M, McDonagh S and Slabaugh G. 2019. SteReFo: efficient image refocusing with stereo vision//Proceedings of 2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW). Seoul, Korea (South): IEEE: 3295-3304[DOI: 10.1109/ICCVW.2019.00411]
  • Dansereau D G, Pizarro O, Williams S B. 2015. Linear volumetric focus for light field cameras. ACM Transactions on Graphics, 34(2): #15 [DOI:10.1145/2665074]
  • Goodfellow I J, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, Courville A and Bengio Y. 2014. Generative adversarial nets[EB/OL]. [2020-08-10]. https://arxiv.org/pdf/1406.2661.pdf
  • Guo X Q, Yu Z, Kang S B, Lin H T, Yu J Y. 2016. Enhancing light fields through ray-space stitching. IEEE Transactions on Visualization and Computer Graphics, 22(7): 1852-1861 [DOI:10.1109/TVCG.2015.2476805]
  • Ignatov A, Patel J and Timofte R. 2020. Rendering natural camera bokeh effect with deep learning//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Seattle, USA: IEEE: 1676-1686[DOI: 10.1109/cvprw50498.2020.00217]
  • Kalantari N K, Wang T C, Ramamoorthi R. 2016. Learning-based view synthesis for light field cameras. ACM Transactions on Graphics, 35(6): #193 [DOI:10.1145/2980179.2980251]
  • Ledig C, Theis L and Huszar F. 2016. Photo-realistic single image super-resolution using a generative adversarial network//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 104-114[DOI: 10.1109/CVPR.2017.19]
  • Lin X, Wu J M, Zheng G A, Dai Q H. 2015. Camera array based light field microscopy. Biomedical Optics Express, 6(9): 3179-3189 [DOI:10.1364/BOE.6.003179]
  • Liu C L, Shih K T, Huang J W, Chen H H. 2020. Light field synthesis by training deep network in the refocused image domain. IEEE Transactions on Image Processing, 29: 6630-6640 [DOI:10.1109/TIP.2020.2992354]
  • Liu D W, Nicolescu R, Klette R. 2016. Stereo-based bokeh effects for photography. Machine Vision and Applications, 27(8): 1325-1337 [DOI:10.1007/s00138-016-0775-5]
  • Liu G L, Reda F A and Shih K J. 2018. Image inpainting for irregular holes using partial convolutions//Proceedings of the 15th European Conference on Computer Vision (ECCV). Munich, Germany: Springer: 89-105[DOI: 10.1007/978-3-030-01252-6_6]
  • Mirza M and Osindero S. 2014. Conditional generative adversarial nets[EB/OL]. [2020-08-10]. https://arxiv.org/pdf/1411.1784.pdf
  • Ren Ng R, Levoy M, Brédif M, Duval G, Horowitz M and Hanrahan P. 2005. Light field photography with a hand-held plenoptic camera. CSTR 2005-02, Stanford University: 1-11
  • Overbeck R S, Erickson D, Evangelakos D, Pharr M, Debevec P. 2018. A system for acquiring, processing, and rendering panoramic light field stills for virtual reality. ACM Transactions on Graphics, 37(6): #197 [DOI:10.1145/3272127.3275031]
  • Simonyan K and Zisserman A. 2015. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2020-08-10]. https://arxiv.org/pdf/1409.1556.pdf
  • Tsai Y J, Liu Y L, Ouhyoung M and Chuang Y Y. 2020. Attention-based view selection networks for light-field disparity estimation//Proceedings of 2020 AAAI Conference on Artificial Intelligence. Palo Alto, USA: AAAI: 12095-12103[DOI: 10.1609/aaai.v34i07.6888]
  • Vaish V, Wilburn B, Joshi N and Levoy M. 2004. Using plane+ parallax for calibrating dense camera arrays//Proceedings of 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, USA: IEEE: #1315006[DOI: 10.1109/CVPR.2004.1315006]
  • Wang C, Zhang J, Gao J. 2020. Anti-specular light-field depth estimation algorithm. Journal of Image and Graphics, 25(12): 2630-2646 (王程, 张骏, 高隽. 2020. 抗高光的光场深度估计方法. 中国图象图形学报, 25(12): 2630-2646) [DOI:10.11834/jig.190526]
  • Wang Y Q, Wang L G, Yang J G, An W, Yu J Y and Guo Y L. 2020. Spatial-angular interaction for light field image super-resolution[EB/OL]. [2020-08-10]. https://arxiv.org/pdf/1912.07849.pdf
  • Wang Y Q, Yang J G, Guo Y L, Xiao C, An W. 2019. Selective light field refocusing for camera arrays using bokeh rendering and Superresolution. IEEE Signal Processing Letters, 26(1): 204-208 [DOI:10.1109/LSP.2018.2885213]
  • Wang Y Q, Yang J G, Mo Y, Xiao C, An W. 2018. Disparity estimation for camera arrays using reliability guided disparity propagation. IEEE Access, 6: 21840-21849 [DOI:10.1109/ACCESS.2018.2827085]
  • Wu G C, Zhao M D, Wang L Y, Dai Q H, Chai T Y and Liu Y B. 2017. Light field reconstruction using deep convolutional network on EPI//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE: 1638-1646[DOI: 10.1109/CVPR.2017.178]
  • Yan T, Xie N Y, Wang J M, Wang S Y, Liu Y. 2019. Baseline editing method for light field images. Journal of Frontiers of Computer Science and Technology, 13(11): 1911-1924 (晏涛, 谢柠宇, 王建明, 王士同, 刘渊. 2019. 光场图像基线编辑方法. 计算机科学与探索, 13(11): 1911-1924) [DOI:10.3778/j.issn.1673-9418.1906035]