摘要:生物视觉系统的研究一直是计算机视觉算法的重要灵感来源。有许多计算机视觉算法与生物视觉研究具有不同程度的对应关系,包括从纯粹的功能启发到用于解释生物观察的物理模型的方法。从视觉神经科学向计算机视觉界传达的经典观点是视觉皮层分层层次处理的结构。而人工神经网络设计的灵感来源正是视觉系统中的分层结构设计。深度神经网络在计算机视觉和机器学习等领域都占据主导地位。许多神经科学领域的学者也开始将深度神经网络应用在生物视觉系统的计算建模中。深度神经网络多层的结构设计加上误差的反向传播训练,使得它可以拟合绝大多数函数。因此,深度神经网络在学习视觉刺激与神经元响应的映射关系并取得目前性能最好的模型同时,网络内部的单元甚至学习出生物视觉系统子单元的表达。本文将从视网膜等初级视觉皮层和高级视觉皮层(如,视觉皮层第4区(visual area 4,V4)和下颞叶皮层(inferior temporal,IT))分别介绍基于神经网络的视觉系统编码模型。主要内容包括:1)有关视觉系统模型的概念与定义;2)初级视觉系统的神经网络预测模型;3)任务驱动的高级视觉皮层编码模型。最后本文还将介绍最新有关无监督学习的神经编码模型,并展望基于神经网络的视觉系统编码模型的技术挑战与可能的发展方向。
摘要:视觉神经信息编解码旨在利用功能磁共振成像(functional magnetic resonance imaging,fMRI)等神经影像数据研究视觉刺激与大脑神经活动之间的关系。编码研究可以对神经活动模式进行建模和预测,有助于脑科学与类脑智能的发展;解码研究可以对人的视知觉状态进行解译,能够促进脑机接口领域的发展。因此,基于fMRI的视觉神经信息编解码方法研究具有重要的科学意义和工程价值。本文在总结基于fMRI的视觉神经信息编解码关键技术与研究进展的基础上,分析现有视觉神经信息编解码方法的局限。在视觉神经信息编码方面,详细介绍了基于群体感受野估计方法的发展过程;在视觉神经信息解码方面,首先,按照任务类型将其划分为语义分类、图像辨识和图像重建3个部分,并深入阐述了每个部分的代表性研究工作和所用的方法。特别地,在图像重建部分着重介绍了基于深度生成模型(主要包括变分自编码器和生成对抗网络)的简单图像、人脸图像和复杂自然图像的重建技术。其次,统计整理了该领域常用的10个开源数据集,并对数据集的样本规模、被试个数、刺激类型、研究用途及下载地址进行了详细归纳。最后,详细介绍了视觉神经信息编解码模型常用的度量指标,分析了当前视觉神经信息编码和解码方法的不足,提出可行的改进意见,并对未来发展方向进行展望。
摘要:目的 准确快速的火焰检测技术在早期火灾预警中具有重要的实际应用价值。为了降低伪火类物体引起的误警率以及早期小火焰的漏检率,本文设计了一种结合感受野(receptive field,RF)模块与并联区域建议网络(parallel region proposal network,PRPN)的卷积神经网络(receptive field and parallel region proposal convolutional neural network,R-PRPNet)用于火焰检测。方法 R-PRPNet主要由特征提取模块、并联区域建议网络和分类器3部分组成。特征提取模块在MobileNet卷积层的基础上,通过嵌入感受野RF模块扩大感受野捕获更丰富的上下文信息,从而提取更具鉴别性的火焰特征,降低伪火类物体引起的误警率;并联区域建议网络与特征提取模块后端的多尺度采样层连接,使用3×3和5×5的全卷积进一步拓宽多尺度锚点的感受野宽度,提升PRPN对不同尺度火焰的检测能力,解决火灾发生初期的小火焰漏检问题;分类器由softmax和smooth L1分别实现分类与回归。在R-PRPNet训练过程中,将伪火类物体作为负样本进行负样本微调,以更好区分伪火类物体。结果 在包括室内、建筑物、森林和夜晚等场景火焰数据以及包括灯光、晚霞、火烧云和阳光等伪火类数据的自建数据集上对所提方法进行测试,在火焰检测任务中,准确度为98.07%,误警率为4.2%,漏检率为1.4%。消融实验结果表明,R-PRPNet较基线网络在漏检率和误警率上分别降低了4.9%和21.72%。与传统火焰检测方法相比,R-PRPNet在各项指标上均优于边缘梯度信息和聚类等方法。性能较几种目标检测算法有所提升,其中相较于YOLOX-L,误警率和漏检率分别降低了22.2%和5.2%。此外,本文在不同场景火焰下进行测试,都有较稳定的表现。结论 本文方法有效降低了火焰检测中的误警率和漏检率,并可以满足火焰检测的实时性和准确性需求。
摘要:目的 图表问答是计算机视觉多模态学习的一项重要研究任务,传统关系网络(relation network,RN)模型简单的两两配对方法可以包含所有像素之间的关系,因此取得了不错的结果,但此方法不仅包含冗余信息,而且平方式增长的关系配对的特征数量会给后续的推理网络在计算量和参数量上带来很大的负担。针对这个问题,提出了一种基于融合语义特征提取的引导性权重驱动的重定位关系网络模型来改善不足。方法 首先通过融合场景任务的低级和高级图像特征来提取更丰富的统计图语义信息,同时提出了一种基于注意力机制的文本编码器,实现融合语义的特征提取,然后对引导性权重进行排序进一步重构图像的位置,从而构建了重定位的关系网络模型。结果 在2个数据集上进行实验比较,在FigureQA (an annotated figure dataset for visual reasoning)数据集中,相较于IMG+QUES (image+questions)、RN和ARN (appearance and relation networks),本文方法的整体准确率分别提升了26.4%,8.1%,0.46%,在单一验证集上,相较于LEAF-Net (locate,encode and attend for figure network)和FigureNet,本文方法的准确率提升了2.3%,2.0%;在DVQA (understanding data visualization via question answering)数据集上,对于不使用OCR (optical character recognition)方法,相较于SANDY (san with dynamic encoding model)、ARN和RN,整体准确率分别提升了8.6%,0.12%,2.13%;对于有Oracle版本,相较于SANDY、LEAF-Net和RN,整体准确率分别提升了23.3%,7.09%,4.8%。结论 本文算法围绕图表问答任务,在DVQA和FigureQA两个开源数据集上分别提升了准确率。
摘要:目的 高光谱解混是高光谱遥感数据分析中的热点问题,其难点在于信息不充分导致的问题病态性。基于光谱库的稀疏性解混方法是目前的代表性方法,但是在实际情况中,高光谱数据通常包含高斯、脉冲和死线等噪声,且各波段噪声的强度往往不同,因此常用的稀疏解混方法鲁棒性不够,解混精度有待提高。针对该问题,本文对高光谱图像进行非负稀疏分量分解建模,提出了一种基于非负稀疏分量分析的鲁棒解混方法。方法 首先综合考虑真实高光谱数据的混合噪声及其各波段噪声强度不同的统计特性,在最大后验概率框架下建立非负矩阵稀疏分量分解模型,然后采用l1,1范数刻画噪声的稀疏性,l2,0范数刻画丰度的全局行稀疏性,全变分(total variation,TV)正则项刻画像元的局部同质性和分段平滑性,建立基于非负稀疏分量分析的高光谱鲁棒解混优化模型,最后采用交替方向乘子法(alternating direction method of multipliers,ADMM)设计高效迭代算法。结果 在2组模拟数据集上的实验结果表明,相比于5种对比方法,提出方法在信号与重建误差比(signal to reconstruction error,SRE)指标上比同类最好方法提升了4.11 dB;在不同噪声强度下,提出方法的SRE平均提升6.94 dB;在美国内华达州Cuprite矿区数据的真实数据实验中,提出方法也取得了较好的矿物解混性能。结论 提出方法综合考虑了高斯随机噪声和稀疏性结构噪声对解混精度的影响,具有较好的混合噪声自适应稳健处理能力,解混的精度比现有同类方法更高。