0引言随着移动互联网、云计算与智慧通信的日益兴起,基于视觉大数据的移动流媒体时代正在到来(Triki等,2020),预估5G视频流占比将高达80%,如何压缩、传输以及分析视频内容将成为5G应用的关键。移动流媒体的核心之一是视频的编解码与传输,需要克服终端资源约束、信道网络动态随机及信宿异构等问题。基于下行信道或双向信道的移动流媒体技术将继续在高分辨率、高帧频、多维度和沉浸式等方向发展(Barakabitze等,2020)。相对于下行信道,移动流媒体的上行信道呈现出更低的带宽和更大的不稳定性,前端资源往往受到严格限制。基于上行信道的移动流媒体在智能云端进行信号恢复后,将越来越多地进行以机器为中心的自动分析(Unde和Pattathil,2020;Li等,2020a)。1上行流媒体与视频压缩感知1.1上行流媒体的特定含义伴随无人机可视监控、车载视联网和穿戴式可视监控等新兴技术的进展,一类结合前端与智能云端的移动流媒体系统——上行流媒体在军民融合领域展现出日益重要的战略价值。相较于无线视频监控、视频传感器网络等系统概念,上行流媒体具有两个显著的定义特征:1)以传感视频信号为信源目标,流式数据传输主要依托移动互联网的上行信道。2)前端与智能云端极不对称。前端的可移动性导致视频场景内容存在较大变化,面临计算资源有限、信号获取与发送同步进行、流式数据须容错编码等难题。智能云端需要执行面向通用机器视觉的信号恢复,面临难以在线处理与重建质量较低等挑战。通用机器视觉指智能云端获得的重建视频能够广泛用于归类、跟踪、检测、分割和理解等各种机器视觉任务,兼顾一定的人机共判与决策任务。图 1给出了上行流媒体的系统示例,资源受限的前端进行传感视频信号的获取、编码与发送,并通过无线上行信道将视频码流发送到有线网络中的智能云端,由云端集中进行传感视频信号恢复,以利于后续开展对象识别、行为理解、多路分析等视频自动分析任务。由于前端往往采用电池供电,且上行信道频谱资源利用率近年来增长缓慢,因而上行流媒体更加注重前端资源的优化分配和智能云端资源的充分运用。分布式与集中式移动流媒体相互促进,需要以信息为中心的智慧通信理论与技术为鲁棒、高效和低成本的泛在连接提供支撑,如何通过资源受限的前端和实时在线的智能云端提升上行流媒体的关键性能是其中亟待解决的难题。 图1 上行流媒体的系统示例 System example of uplink streaming mediaFig 11.2压缩感知视频流简介当前的移动流媒体系统都遵循传统的奈奎斯特采样定理,采集的数据能够充分表示原始信号,但存在较大冗余,往往导致采集数据泛滥和较高功耗。2006年确立的压缩感知理论为缓解上述压力提供了新途径,该理论表明在信号具有稀疏性或可压缩的条件下,采用低于奈奎斯特采样率进行非规则采样,能以极大的概率从采样值中无失真地重建原始信息,为可压缩信号的获取给出了新的理论指导(柯钧等,2020)。国内外研究机构竞相开展了对压缩感知理论与方法的研究工作,压缩感知已成为信号处理领域继小波分析之后的又一热点(Baraniuk等,2017)。压缩感知契合了传感视频信号潜在的稀疏属性,突破了奈奎斯特采样定理的限制,原理上非常适合上行流媒体应用,压缩感知对于提高信号获取能效、减少前端资源消耗都有重要意义(季向阳,2020)。高文院士(Liu等,2016)提出通过人类视觉系统的视觉通路模型(简称“数字视网膜”)改进智慧城市与云视觉系统,压缩感知将有助于视觉大数据的压缩编码以及紧凑特征抽取,缓解海量数据的信息过载问题。相较于当前数字视网膜系统中视频编码流、特征编码流和模型更新流融合的“端—边—云”协同架构,上行流媒体系统属于更为细分的小众领域,其差异化特点主要包括前端可移动、视频背景不固定、容错感知微弱成像信号、信号恢复与自动分析相互促进。与此同时,计算成像技术日益发展,不同于传统光学成像的直接探测,计算成像采用特殊的编码模板取代传统光学成像的像面,这种编码模板可以加载各种模板函数,对像面进行变换投影与计算恢复,为设计视频压缩感知的观测矩阵提供了有益的思路和基础(Deng等,2021)。计算成像与压缩感知机器学习都是将提升像质转移到后期计算,两者具有相互支撑的原理共性(Liu等,2020a)。压缩感知视频流是源于压缩感知理论的视频流技术体系(Pudlewski和Melodia,2013),核心技术尚未发展到可标准化的程度,主要包含前端的视频观测与智能云端的视频重构。随着上行流媒体生成大量面向通用机器视觉的传感视频信号,压缩感知视频流提供了一种新的信号处理技术体系,能够避免上行流媒体既有技术先获取额外信息再将其丢弃的不足,有望按需理解远端自然场景中的传感视频信号。压缩感知视频流的理论与方法日益成为国际视频处理研究领域内的前沿课题,与稀疏信号获取表示与传输、可观测目标信息的智能感知、压缩感知机器学习和分布式压缩感知等基础理论密切相关,本文工作将有助于厘清相关的概念、方法与理论,揭示压缩感知视频流技术在上行流媒体应用中的瓶颈问题与发展趋势。2国内外研究现状2.1视频观测与视频重构的性能指标压缩感知理论与视频通信技术结合可有效降低前端采集、编码、处理和传输的成本,整块信息的样本表示有利于构造简单有效的抗信道误码方案。Liu等人(2016)提出一种基于压缩采样的图像通信系统,当融入到典型的多描述编解码中时,取得了一定的性能改进。单幅静止图像与连续动态图像的压缩感知技术存在一定的关联性,但也有不少差异(Yuan和Haimi-Cohen,2020),视频观测需要引入并行化的计算成像机制。前端在获取、编码与发送等视频观测过程中,传感视频信号均存在一定的观测失真。相比传统视频编解码的率失真,视频观测的率失真性能仍有较大差距,有必要结合观测复杂度等评价指标加以整体考虑,以突出其相对优势(Leinonen等,2018)。观测效率是一个协同表征率失真与观测复杂度的性能指标,高效率意味着较低的观测失真、码率或复杂度。人类视觉系统历经数亿年的进化已经达到很好的状态,但是在面对大规模并发视频、高动态/抖动视频和微弱成像视频等上行流媒体应用时仍会应接不暇。机器视觉与人类视觉既相通又有别。当前,压缩感知视频流的视频重构优化目标是面向人类视觉最大化像素层面保真度,而不是面向通用机器视觉提升识别平均精度(mean average precision, mAP)等语义层面指标。就保真度而言,现有视频压缩感知系统的重建质量较低。如果视频重构仍以恢复信号的像素细节为目标,重建质量将难以超过基于香农信息论的视频解码质量(Wang等,2019)。上行流媒体在信号恢复后,需要进一步执行各种机器视觉任务,也是提升重建质量的一个突破口。图 2给出了一种现有视频压缩感知系统的模块图(Zheng等,2019),其性能指标仅包括峰值信噪比(peak signal-to-noise ratio, PSNR)与结构相似性(structural similarity, SSIM)等保真度指标,图中$\mathit{\boldsymbol{u}}_{\rm{e}}^{{\rm{key}}}$、${\mathit{\boldsymbol{u}}^{{\rm{key}}}}$、${\mathit{\boldsymbol{u}}^{{\rm{cs}}}}$分别表示测量端恢复的关键帧、重建端恢复的关键帧、重建端恢复的非关键帧,$\mathit{\boldsymbol{H}}$表示多假设候选块集合,该系统采用“单帧测量+ 开环编码+ 保真度导引重构”的传统技术框架,在上行流媒体应用中具有前端功耗低、容错性好等优点,但也面临着观测效率难控、重建质量较低等挑战。面向上行流媒体应用,压缩感知视频流需要为充分展现其独特优势而构建新型技术框架。 图2 一种视频压缩感知系统的模块图(Zheng等,2019) Module diagram of a video compressive sensing system (Zheng et al., 2019)Fig 22.2并行分块计算成像计算成像是近几年迅速发展的一种通用成像技术,可以采用电控镜头变焦的透射式液晶光阀将场景的像面从一个空间投影变换到另一个空间,图像信号相当于像面的光场分布与编码模板的线性组合(马彦鹏等,2017)。因而,计算成像可以使用阵列探测器直接对投影后的图像信号进行曝光编码,在保证高分辨率的同时,使采样信号保持高信噪比。早期计算成像的编码模板大多基于数字微反射镜,优点是可以任意编程控制每一个微镜,便于实现不同编码模板下的场景成像;缺点是由于微镜偏转的角度大小问题,反射式编码模板导致光学成像难以共轴,不利于图像连续采集。基于透射式液晶光阀的编码模板更适合传感视频信号的高速采集(Brites等,2021),面向压缩感知的计算成像需要设计一个高概率满足有限等距性质(restricted isometry property, RIP),且尽可能保存足够有效信息的观测矩阵。医学影像是压缩感知理论较为成功的应用领域,其他应用领域仍在初始阶段。单像素相机在面向压缩感知的计算成像中发展较早,多次测量的成像原理使其较适合处理静止图像,近年来单像素相机在高分辨率图像/视频重构中的问题逐渐凸显,学术界与产业界开始重新重视分块式/并行计算成像在视频压缩感知中的应用。分块压缩感知(block compressive sensing,BCS)对前端的传感或存储资源要求较低,不仅可实现低内存的观测矩阵,并且可逐块或并行观测发送(Fowler等,2012;Trevisi等,2020)。BCS将每帧分成同等尺寸的子块,对每个子块采用观测矩阵进行独立观测,得到相应观测值组成的子块观测向量。图 3是一种分块式并行计算成像阵列的原理图(Jiang等,2020),原始场景通过编码模板分为多个子块,并行观测有利于获取连续图像。 图3 一种分块式并行计算成像阵列的原理图(Jiang等,2020) Schematic design of a parallel block computational imaging array (Jiang et al., 2020)Fig 3Gaussian随机矩阵是满足RIP的常用观测矩阵。随机矩阵与大多数正交基构成的变换矩阵不相关,但这类矩阵的计算复杂度高,所需存储资源大。迭代优化的观测矩阵可以与给定的稀疏基之间的相关性最小,但这类矩阵的普适性较差(李周和崔琛,2018)。结合深度神经网络的观测矩阵拓展了压缩感知的有限等距性质,是目前的研究方向之一。当前的1-bit压缩感知或整幅图像压缩感知均难以实现前端普适的视频观测,需要结合典型场景、空—时—频特性和领域知识工具等因素加以进一步改进。计算成像中的编码模板与压缩感知中的观测矩阵具有一定的相通性,值得进一步研究如何将透射式液晶光阀的编码模板技术应用于视频压缩感知的观测矩阵。高时域分辨率的视频观测依赖于并行化的分块压缩感知。并行分块计算成像会带来重建视频的块效应问题,在机器视觉优化目标下将有别于现有的环路滤波、盲去卷积和恰可察觉隐藏等解决机制。为了防止误差累积传播,视频观测通常先将传感视频信号划分为连续的帧组(group of frames,GOF),再将每个GOF拆分为关键帧和非关键帧。每个GOF含有一个关键帧,其余帧为非关键帧,关键帧的采样率通常高于非关键帧的采样率(郑学炜等,2020)。Gao等人(2016)提出一种基于时域帧分层的视频压缩感知编码架构,获得了较好的重建保真度,但是该架构的GOF仅适用2n帧(n为自然数),复杂度与延迟都较大。GOF与图像集的处理机制具有一定程度的相通性。Zhang等人(2018)提出一种率失真优化图像集压缩的技术体系,可在给定一组相似图像的情况下选择有利于联合压缩的关键帧。在视频观测中,一个GOF内所有子块的集合称为GOF-BCS块阵,通过观测矩阵得到的所有子块观测向量的集合称为块阵观测向量。若GOF-BCS仅在时域或空域上划分,获得的2D块组会损失一定的空—时联合相关性。前端应根据GOF帧数、BCS块尺寸、采样率及场景大小,合理选择观测矩阵,进行观测效率优化的GOF-BCS块阵空—时划分。2.3低复杂度视频编码低复杂度视频编码属于基于香农信息论的上行流媒体既有技术。H.26X系列编码器具有一些编码复杂度较低且率失真性能较好的编码工具。随着深度学习的发展,各种深度学习编码工具也开始出现。Li等人(2018)从网络渐进传输与自适应视频流两方面入手,将传统视频编码的率失真模型(码率—编码失真)扩展为编码延迟—功耗—码率—编码失真4维模型。此外,分布式视频编码(distributed video coding,DVC)具有复杂度低、容错性好等特点,比较适合于上行流媒体应用(Zhou等,2019)。DVC基于Slepian-Wolf理论与Wyner-Ziv理论,对两个或多个独立同分布的信源进行独立编码,然后由单一解码器利用信源之间的相关性对所有编码的信源进行联合解码。目前,信源信道编码的深度融合反而使得DVC技术与主流低复杂度视频编码的性能定量对比变得困难,且DVC技术没有结合视频信号的新型采集与成像机理。复杂度的可控性是实现视频压缩感知的关键技术。通过将可分级编解码与多层次压缩抽样结合起来,实现了一种质量可伸缩的视频压缩感知系统(Li等,2020b),如图 4所示。图 4中,视频序列被表征为1个基础层和L-1个增强层(L≥2),系统通过层次化子空间学习来训练基础层与增强层对应的L种观测矩阵,并为数据驱动的每一个子空间构建出一套超完备表示的结构化稀疏基D,这种质量基础层与质量增强层的渐进式框架可以作为复杂度可控研究的技术支撑。 图4 质量可伸缩的视频压缩感知系统(Li等,2020b) Quality-scalable video compression sensing system (Li et al., 2020b)Fig 4早期压缩感知研究仅考虑实数观测值,而压缩感知视频流需将观测值转换为比特码流进行传输(Hadizadeh和Bajić,2020)。因此,前端需要预测编码、量化和熵编码等环节。视频压缩感知编码作为视频观测的重要组成部分,已不是传统意义上的低复杂度视频编码,而是实数观测值的码流生成过程。观测向量的预测编码最初采用差分脉冲编码调制对空域相邻的子块观测向量进行简单的预测编码,然后进行均匀量化,之后陆续产生了一些面向图像压缩感知的预测编码方法(Chen等,2020c),但过高或难控的复杂度阻碍了这些方法在前端中的应用。因此,有必要面向GOF-BCS块阵深入分析各种压缩域预测技术,寻求轻量级的预测编码方法。深度学习可以对压缩感知的各个功能模块进行端到端的整体优化,利用神经网络离线训练出的编码模式预测模型已经取得一定的码率节省,但泛化能力与可解释性是端到端深度学习不得不面对的重大挑战(Guo等,2019)。此外,不同于传统的码率控制,当前帧的信息无法在观测参数确定之前获得,需要实现采样率和量化深度等观测参数的联合调控,目前缺少相应的码流适配机制。尽管理论上决定了视频压缩感知编码不及现有运动估计视频编码的率失真性能,但两者的理论基础和应用领域并不相同,借鉴一些较低复杂度的编码工具实现视频压缩感知率失真与观测复杂度的平衡可控,仍具有开拓意义。2.4视频重构相对于单幅图像,视频帧间具有极大冗余,从图像压缩感知拓展到视频压缩感知,智能云端的视频重构需要充分利用帧内和帧间的相关性进行稀疏表示建模。图 5给出一种基于内在张量稀疏与高斯组稀疏的视频重构算法(Li等,2019),首先通过视频帧间同一位置的相似性,将3维图像块建模为高斯组稀疏模型,用于得到初始的重建视频,随后通过对相似图像块采用“空—时”张量稀疏惩罚项建立视频信号$\mathit{\boldsymbol{x}}$的张量稀疏模型,交替固定视频信号$\mathit{\boldsymbol{x}}$和稀疏张量${{\mathit{\boldsymbol{L}}}_{{m_d}}}$,迭代地最小化各自的目标函数,从而提高重建视频的PSNR与SSIM。基于已有的压缩感知重构算法,结合“空—时—频”相关性对视频信号进行鲁棒普适的稀疏表示建模仍是压缩感知视频重构算法的核心问题之一。 图5 基于内在张量稀疏与高斯组稀疏的视频重构(Li等,2019) Video reconstruction based on intrinsic tensor sparsity and Gaussian group sparsity (Li et al., 2019)Fig 5组稀疏是最基本的结构化稀疏形式,在稀疏分解过程中,待求变量分布于彼此互不相交的分组,而同一分组中的变量会同时选中或丢弃。基于组稀疏建模与重建帧多假设预测的稀疏残差预测重构是目前具有代表性的视频重构体系,关键帧结合帧内多假设预测进行独立的帧内组稀疏重构,非关键帧利用当前帧和已重构的参考帧进行多假设块匹配,通过帧间组稀疏表示进行再加权的残差稀疏(reweighted residual sparsity,RRS)重构(Zhao等,2017)。Chen等人(2020b)利用视频信号的结构化组稀疏表示,提出基于由粗到细光流估计模型的稀疏残差预测重构算法。现有视频重构算法仅在特殊形式GOF-BCS块阵下取得了较好性能。针对GOF-BCS块阵,如何通过“空—时—频”相关性进行块阵的组稀疏表示与多假设预测,仍是稀疏残差预测重构的关键挑战。互不相交的组稀疏可进一步扩展为相互重叠的分组模式,从而得到稀疏度更高的相似分组,由这种层次化稀疏先验出发,可设计一系列的范式形式,匹配不同的块阵结构(熊红凯等,2020)。分布式压缩感知对每帧单独测量生成多帧观测向量,然后进行多帧聚合重构。作为块阵观测向量的一种简化类型,多帧观测向量通常服从某种联合稀疏模型,根据“空—时”联合信息利用程度的不同,视频重构的质量及资源消耗也不一样(Zhang等,2020;Chen等,2020a)。分布式压缩感知为压缩感知视频流提供了部分理论基础,但其重建质量与稀疏残差预测重构相比仍存在差距。视频重构的目标是获得可接受的重建视频质量,数据驱动深度学习有望充分利用云端资源更好地恢复传感视频信号,并有助于压缩感知机器学习的可解释性。长短期记忆(long short term memory, LSTM)网络作为一种代表性的递归神经网络,能够进行数据驱动的长时间序列建模,基于LSTM网络的机器学习有助于改进重建视频质量(吴飞等,2018)。Palangi等人(2016)将LSTM网络与分布式压缩感知相结合,形成LSTM-CS(compressive sensing using long short-term memory)重构网络,通过压缩感知机器学习提升多帧观测向量的求解性能。Shi等人(2021)将卷积神经网络(convolutional neural network, CNN)与视频压缩感知相结合,形成VCSNet(video compressed sensing network)深度学习网络,通过端到端的训练提升重建视频的保真度,但忽视了设计普适满足RIP的观测矩阵。由于误差累积和放大,在线的多帧残差生成仍是非常困难的任务(Lucas等,2018)。视频信号的稀疏逼近表示方法逐步从正交基发展为自组建完备字典,有望进一步发展为压缩感知机器学习。当前的深度神经网络依赖大量标记样本的强监督学习,所学网络模型的迁移能力较差。在视频重构中,如何将强监督的深度学习转换为自监督、可解释的记忆学习,是有待解决的重大难题(Hyder和Asif,2020)。CNN和LSTM分别在“空—时”超分辨率和时域动态建模方面具有各自的优势,CNN与LSTM相结合的深度神经网络是目前较适合视频重构的网络架构。在基于深度神经网络的视频重构中,在线的多帧残差生成不需要额外的标注信息,从已重建视频中进行记忆学习,即可鲁棒地表示视频残差信号,进一步提升了重建质量。2.5语义质量评价在上行流媒体应用中,传感视频信号经常源自未知场景,前端无法获取原始信号,视频重构在运行过程中也无法获得前端参考信号,难以使用有参考的质量评价。SIFT(scale-invariant feature transform)和MPEG-CDVS(moving picture experts group compact descriptors for visual search)都是代表性的视觉搜索描述子,但并不适于面向通用机器视觉的图像/视频质量评价。无参考质量评价仅依赖图像/视频自身特征进行评分,有助于改善压缩感知视频流的系统性能。近年来,无参考的图像/视频质量评价日趋活跃,科研人员专门构建了用于无参考质量评价的视频数据库(Zhang等,2019)。通过帧差相关统计建模分析失真视频特征变化,基于空—时差异统计特性(video intrinsic integrity and distortion evaluation oracle,VIIDEO)的视频无参考评价准则(Mittal等,2016),无需利用图像质量评价数据库中的图像样本进行训练,从而使得训练图像的获取范围更大、普适性更强。目前,专门针对图像/视频压缩感知的无参考质量评价的研究较少。由于全局特征与局部特征的奇异值分解具有较强的关联性,无参考压缩感知图像质量模型通过提取不同尺度的多模态特征作为衡量重建图像质量的复合测度(Hu等,2017)。在视频重构中,稀疏信号的残差最小化或深度学习中的损失函数往往基于均方误差准则,容易造成视频语义信息损失,无参考质量评价则有助于获取并恢复传感视频信号的语义信息,且利于实现流式数据驱动的学习重构(王程等,2020;Liu等,2020b)。识别精度是一种较为通用的语义层面指标,国际顶级的计算机视觉与模式识别(IEEE Conference on Computer Vision and Pattern Recognition, CVPR)会议UG2(unmanned aerid vehicle, glider, ground)系列挑战赛提供了重建视频的识别精度评测工具与数据(Scheirer等,2021)。近年来,以机器为信宿的上行流媒体展现出了发展潜力,传统的像素级质量评价准则虽然仍可能是基础,但面对纷繁复杂的机器视觉语义层面任务,也迫切需要引入一种介于像素层面保真度与语义层面识别精度之间的无参考质量评价指标——语义质量。重建视频的语义质量评价仍然需要建立“空—时”自然场景统计模型,通过帧内与帧差相关统计模型分析视频特征的紧凑表达与变化情况,利用各种图像/视频质量评价数据库中的视频样本进行回归训练。重建视频包含连续的GOF-BCS重建块阵。图 6给出了一种语义质量评估模型的训练过程,图中fi表示各个语义要素(1≤i≤8)的权重,通过加入识别精度mAP进行支持矢量回归训练,可以建立基础的语义质量评估模型。利用该模型逐一对其他重建块阵打分,可获得重建块阵的语义质量值和重建视频的平均语义质量(mean semantic quality,mSQ)。较大的mSQ值意味着重建视频具有较高的语义质量。如何融合稀疏先验建模与流式数据驱动深度学习,借助语义质量导引重建连续动态图像,目前未见研究成果。 图6 一种语义质量评估模型的训练过程 Training process of a semantic quality assessment modelFig 63压缩感知视频流的解析从上述国内外研究现状的分析可知,面向上行流媒体的压缩感知视频流技术体系主要包括前端的视频观测与智能云端的视频重构,这两方面均存在技术挑战。一方面,现有的视频压缩感知仍然局限于类似成像仪器的本地优化,没有考虑面向上行流媒体应用的码流适配等问题。前端的视频观测需要将现有视频编码的效率延伸为观测失真、码率与功耗协同表征的能效。若压缩感知视频流的任一GOF-BCS块阵含有$\mathit{N}$个子块,能效优化旨在满足实际码率$\mathit{R}$不超过码率阈值${\mathit{R}_{\rm{T}}}$且实际功耗$P$不超过功耗阈值${P_{\rm{T}}}$的情况下,通过选择观测参数组合$\mathit{\boldsymbol{B}}$,最小化当前块阵的观测失真$\mathit{D}$。具体为1$\begin{array}{l}\;\;{\rm{arg}}\;\mathop {{\rm{min}}}\limits_\mathit{\boldsymbol{B}} \;D = \sum\limits_{k = 1}^N {{D_k}\left(\mathit{\boldsymbol{B}} \right)} \\{\rm{s}}.\;{\rm{t}}.\;\;\;\;\;\;R = \sum\limits_{k = 1}^N {{R_k}\left(\mathit{\boldsymbol{B}} \right) \le {R_{\rm{T}}}} \\\;\;\;P = \sum\limits_{k = 1}^N {{P_k}\left(\mathit{\boldsymbol{B}} \right) \le {P_{\rm{T}}}} \end{array}$ 式中,$k$是子块序号,${D_k}\left(\mathit{\boldsymbol{B}} \right)$、${R_k}\left(\mathit{\boldsymbol{B}} \right)$和${P_k}\left(\mathit{\boldsymbol{B}} \right)$分别表示在观测参数组合$\mathit{\boldsymbol{B}}$下第$k$个子块的观测失真、实际码率和实际功耗。上述问题可在拉格朗日加权法或整数规划优化器CPLEX®的基础上进一步探究如何求解。观测失真可以基于类似视频无参考评价VIIDEO(Video Intrinsic Integrity and Distoration Evalution Oracle)准则中的频(压缩)域特征提取机制,通过面向观测向量的无参考评价准则进行计算,以期建立起基于能效优化的“功耗—码率—观测失真”模型。针对场景动态变化的传感视频信号,压缩感知视频流需要在资源受限的前端权衡观测失真、码率与功耗,执行观测参数的反馈控制,进一步提升视频观测的能效。另一方面,现有视频重构依赖于耗时的迭代逼近过程,虽然耗费大量算力,但未能有效提升重建质量。引入语义质量评价与神经网络训练,有助于实现信号处理代价从前端向智能云端的可控转移。智能云端的视频重构需要将以人眼为信宿的像素层面保真度拓展为以通用机器视觉为信宿的语义质量。对于压缩感知视频流的任一GOF-BCS块阵,$\mathit{\boldsymbol{x}}$表示原始块阵,$\mathit{\boldsymbol{ \boldsymbol{\varPhi} }}$表示分块式并行观测矩阵,若观测向量$y$足够稀疏,则重建块阵$\mathit{\boldsymbol{x}}'$可用${\ell _p}$范式简化表示为2$\mathit{\boldsymbol{x}}' = {\rm{arg}}\;\mathop {\min }\limits_x \parallel \mathit{\boldsymbol{ \boldsymbol{\varPhi} x}} - \mathit{\boldsymbol{y}}{\parallel _p} + \lambda \parallel \mathit{\boldsymbol{x}}{\parallel _q}$ 式中,$\lambda $是加权系数,${\ell _p}$范式的损失函数·$\parallel \cdot {\parallel _p}$表示语义质量评价下的迭代或学习逼近,${\ell _q}$范式的先验项$\parallel \cdot {\parallel _q}$表示原始块阵的层次化稀疏约束,可具体化为多种形式。智能云端需要互补地集成先验建模与深度学习等多种重构机制,提升重建块阵的语义质量,更好地服务于通用机器视觉任务。4发展趋势与展望压缩感知视频流属于信息、物理和数学等多学科交叉的研究领域,如果在效率可控“压缩”的基础上,进一步发掘传感视频信号的码流生成与预测推理机制,保留某些结构化或降维特征,提升重建视频“感知”自然场景语义的能力,将大幅提高压缩感知视频流的科学价值及应用前景。压缩感知视频流在上行流媒体应用中具有前端功耗低、容错性好和适用信号广等独特优势,但也面临着观测效率难控、码流适配困难和重建质量较低等技术挑战。前端的观测性能与并行分块计算成像、低复杂度视频编码等核心技术密切相关,通过在采集和发送阶段协同表征观测失真、码率与复杂度,有望对上行流媒体前端的软硬件设计产生潜在的变革影响。智能云端的语义质量评价也是提升传感视频信号重建质量的一个突破口。压缩感知视频流的未来发展方向将重点在以下几个方面:1) 效率优化的GOF-BCS块阵形式。现有的视频压缩感知仅针对单一的GOF帧数、BCS块尺寸和采样率组合,这只是一种特殊形式的GOF-BCS块阵,目前缺少这种特殊形式的合理性证明。因此,有必要对各种各样的块阵形式与“空—时”划分进行比较分析,设计出普适优化的GOF-BCS块阵,以期生成更具“空—时”语义特征并兼顾复杂度的观测向量层次结构,同时有利于视频重构的层次化稀疏建模。2) 传感视频信号的观测效率调控及码流适配。在视频压缩感知编码中,采样率和量化深度之间存在折衷关系,如何构造观测向量分布模型以及自适应调控采样率和量化深度是下一步码流适配的研究重点。在效率优化的GOF-BCS块阵下提升前端的观测效率,适配移动化的编码与传输,通过前端信源信道的动态交互,形成视频观测与码流传输的反馈协同,定量地控制前端的复杂度。3) 基于稀疏先验模型与深度神经网络的语义导引联合重构。通过引入先验约束获得欠定系统的稀疏解一直是视频重构的重要方法。当层次化稀疏模型难以平稳表示观测向量时,基于深度学习的重构机制能够弥补先验建模的不足。在稀疏残差预测重构算法的基础上,构建部分可逆信号的恢复与生成机制,探索基于层次化稀疏模型与深度神经网络的联合重构机理。4) 面向重建块阵的语义质量评估模型。目前的重建视频质量评价仍局限于像素层面保真度,而面向通用机器视觉的视频重构更加依赖语义质量评价。在稀疏残差预测重构的基础上,逐步引入流式数据驱动的深度神经网络,通过融入语义质量评估模型,有望实现结合层次化稀疏模型与深度神经网络的联合重构,赋予智能云端“记忆学习”的视频重构机制。5) 结合高效率观测与语义导引联合重构的新型技术框架。建立前端与智能云端分工协作的压缩感知视频流理论与方法,发展前端的高效率观测与智能云端的语义导引联合重构等关键技术,除了实现复杂度可控的上行前端,有望在面向通用机器视觉的视频重构中展现出较高的语义质量,并增强压缩感知机器学习的可解释性与可迁移性,为发挥压缩感知视频流的独特优势开辟一条定量演进的技术路径。

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读