摘要:生物视觉系统的研究一直是计算机视觉算法的重要灵感来源。有许多计算机视觉算法与生物视觉研究具有不同程度的对应关系,包括从纯粹的功能启发到用于解释生物观察的物理模型的方法。从视觉神经科学向计算机视觉界传达的经典观点是视觉皮层分层层次处理的结构。而人工神经网络设计的灵感来源正是视觉系统中的分层结构设计。深度神经网络在计算机视觉和机器学习等领域都占据主导地位。许多神经科学领域的学者也开始将深度神经网络应用在生物视觉系统的计算建模中。深度神经网络多层的结构设计加上误差的反向传播训练,使得它可以拟合绝大多数函数。因此,深度神经网络在学习视觉刺激与神经元响应的映射关系并取得目前性能最好的模型同时,网络内部的单元甚至学习出生物视觉系统子单元的表达。本文将从视网膜等初级视觉皮层和高级视觉皮层(如,视觉皮层第4区(visual area 4,V4)和下颞叶皮层(inferior temporal,IT))分别介绍基于神经网络的视觉系统编码模型。主要内容包括:1)有关视觉系统模型的概念与定义;2)初级视觉系统的神经网络预测模型;3)任务驱动的高级视觉皮层编码模型。最后本文还将介绍最新有关无监督学习的神经编码模型,并展望基于神经网络的视觉系统编码模型的技术挑战与可能的发展方向。
摘要:视觉神经信息编解码旨在利用功能磁共振成像(functional magnetic resonance imaging,fMRI)等神经影像数据研究视觉刺激与大脑神经活动之间的关系。编码研究可以对神经活动模式进行建模和预测,有助于脑科学与类脑智能的发展;解码研究可以对人的视知觉状态进行解译,能够促进脑机接口领域的发展。因此,基于fMRI的视觉神经信息编解码方法研究具有重要的科学意义和工程价值。本文在总结基于fMRI的视觉神经信息编解码关键技术与研究进展的基础上,分析现有视觉神经信息编解码方法的局限。在视觉神经信息编码方面,详细介绍了基于群体感受野估计方法的发展过程;在视觉神经信息解码方面,首先,按照任务类型将其划分为语义分类、图像辨识和图像重建3个部分,并深入阐述了每个部分的代表性研究工作和所用的方法。特别地,在图像重建部分着重介绍了基于深度生成模型(主要包括变分自编码器和生成对抗网络)的简单图像、人脸图像和复杂自然图像的重建技术。其次,统计整理了该领域常用的10个开源数据集,并对数据集的样本规模、被试个数、刺激类型、研究用途及下载地址进行了详细归纳。最后,详细介绍了视觉神经信息编解码模型常用的度量指标,分析了当前视觉神经信息编码和解码方法的不足,提出可行的改进意见,并对未来发展方向进行展望。
摘要:目的准确快速的火焰检测技术在早期火灾预警中具有重要的实际应用价值。为了降低伪火类物体引起的误警率以及早期小火焰的漏检率,本文设计了一种结合感受野(receptive field,RF)模块与并联区域建议网络(parallel region proposal network,PRPN)的卷积神经网络(receptive field and parallel region proposal convolutional neural network,R-PRPNet)用于火焰检测。方法R-PRPNet主要由特征提取模块、并联区域建议网络和分类器3部分组成。特征提取模块在MobileNet卷积层的基础上,通过嵌入感受野RF模块扩大感受野捕获更丰富的上下文信息,从而提取更具鉴别性的火焰特征,降低伪火类物体引起的误警率;并联区域建议网络与特征提取模块后端的多尺度采样层连接,使用3×3和5×5的全卷积进一步拓宽多尺度锚点的感受野宽度,提升PRPN对不同尺度火焰的检测能力,解决火灾发生初期的小火焰漏检问题;分类器由softmax和smooth L1分别实现分类与回归。在R-PRPNet训练过程中,将伪火类物体作为负样本进行负样本微调,以更好区分伪火类物体。结果在包括室内、建筑物、森林和夜晚等场景火焰数据以及包括灯光、晚霞、火烧云和阳光等伪火类数据的自建数据集上对所提方法进行测试,在火焰检测任务中,准确度为98.07%,误警率为4.2%,漏检率为1.4%。消融实验结果表明,R-PRPNet较基线网络在漏检率和误警率上分别降低了4.9%和21.72%。与传统火焰检测方法相比,R-PRPNet在各项指标上均优于边缘梯度信息和聚类等方法。性能较几种目标检测算法有所提升,其中相较于YOLOX-L,误警率和漏检率分别降低了22.2%和5.2%。此外,本文在不同场景火焰下进行测试,都有较稳定的表现。结论本文方法有效降低了火焰检测中的误警率和漏检率,并可以满足火焰检测的实时性和准确性需求。
摘要:目的对旅客行李进行安全检查是维护公共安全的措施之一,安检智能化是未来的发展方向。基于X光图像的安检因不同的安检机成像方式不同,同一类违禁品在不同设备上的X光图像在颜色分布上有很大差异,导致安检图像智能识别算法在训练与测试数据分布不同时,识别性能明显降低,同时X光行李图像中物品的混乱复杂增加了违禁品识别的难度。针对上述问题,本文提出一种区域增强和多特征融合模型。方法首先,通过注意力机制的思想提取一种区域增强特征,消除颜色分布不同的影响,保留图像整体结构并增强违禁品区域信息。然后,采用多特征融合策略丰富特征信息,使模型适用于图像中物品混乱复杂情况。最后,提出一种三元损失函数优化特征融合。结果在公开数据集SIXray数据集上进行整体识别性能和泛化性能的实验分析,即测试本文方法在相同和不同颜色分布样本上的性能。在整体识别性能方面,本文方法在平均精度均值(mean average precision,mAP)上相较于基础模型ResNet18和ResNet34分别提升了4.09%和2.26%,并优于一些其他识别方法。对于单类违禁品,本文方法在枪支和钳子类违禁品上的平均识别精度为94.25%和90.89%,相较于对比方法有明显优势。在泛化性能方面,本文方法在SIXray_last101子数据集上可正确识别26张含违禁品样本,是基础模型能够正确识别数量的4.3倍,表明本文方法在颜色分布不同样本上的有效性。结论本文方法根据X光安检图像颜色差异的特点设计出一种区域增强特征,并与彩色和边缘特征融合,以获取多元化信息,在枪支、刀具、钳子等违禁品的识别任务中表现出较好效果,有效缓解了图像颜色分布差异导致的性能下降问题。
摘要:目的雷达点云语义分割是3维环境感知的重要环节,准确分割雷达点云对象对无人驾驶汽车和自主移动机器人等应用具有重要意义。由于雷达点云数据具有非结构化特征,为提取有效的语义信息,通常将不规则的点云数据投影成结构化的2维图像,但会造成点云数据中几何信息丢失,不能得到高精度分割效果。此外,真实数据集中存在数据分布不均匀问题,导致小样本物体分割效果较差。为解决这些问题,本文提出一种基于稀疏注意力和实例增强的雷达点云分割方法,有效提高了激光雷达点云语义分割精度。方法针对数据集中数据分布不平衡问题,采用实例注入方式增强点云数据。首先,通过提取数据集中的点云实例数据,并在训练中将实例数据注入到每一帧点云中,实现实例增强的效果。由于稀疏卷积网络不能获得较大的感受野,提出Transformer模块扩大网络的感受野。为了提取特征图的关键信息,使用基于稀疏卷积的空间注意力机制,显著提高了网络性能。另外,对不同类别点云对象的边缘,提出新的TVloss用于增强网络的监督能力。结果本文提出的模型在SemanticKITTI和nuScenes数据集上进行测试。在SemanticKITTI数据集上,本文方法在线单帧精度在平均交并比(mean intersection over union,mIoU)指标上为64.6%,在nuScenes数据集上为75.6%。消融实验表明,本文方法的精度在baseline的基础上提高了3.1%。结论实验结果表明,本文提出的基于稀疏注意力和实例增强的雷达点云分割方法在SemanticKITTI和nuScenes数据集上都取得了较好表现,提高了网络对点云细节的分割能力,使点云分割结果更加准确。
摘要:目的图表问答是计算机视觉多模态学习的一项重要研究任务,传统关系网络(relation network,RN)模型简单的两两配对方法可以包含所有像素之间的关系,因此取得了不错的结果,但此方法不仅包含冗余信息,而且平方式增长的关系配对的特征数量会给后续的推理网络在计算量和参数量上带来很大的负担。针对这个问题,提出了一种基于融合语义特征提取的引导性权重驱动的重定位关系网络模型来改善不足。方法首先通过融合场景任务的低级和高级图像特征来提取更丰富的统计图语义信息,同时提出了一种基于注意力机制的文本编码器,实现融合语义的特征提取,然后对引导性权重进行排序进一步重构图像的位置,从而构建了重定位的关系网络模型。结果在2个数据集上进行实验比较,在FigureQA(an annotated figure dataset for visual reasoning)数据集中,相较于IMG+QUES(image+questions)、RN和ARN(appearance and relation networks),本文方法的整体准确率分别提升了26.4%,8.1%,0.46%,在单一验证集上,相较于LEAF-Net(locate,encode and attend for figure network)和FigureNet,本文方法的准确率提升了2.3%,2.0%;在DVQA(understanding data visualization via question answering)数据集上,对于不使用OCR(optical character recognition)方法,相较于SANDY(san with dynamic encoding model)、ARN和RN,整体准确率分别提升了8.6%,0.12%,2.13%;对于有Oracle版本,相较于SANDY、LEAF-Net和RN,整体准确率分别提升了23.3%,7.09%,4.8%。结论本文算法围绕图表问答任务,在DVQA和FigureQA两个开源数据集上分别提升了准确率。
摘要:目的图像检索是计算机视觉领域的一项基础任务,大多采用卷积神经网络和对称式学习策略,导致所需训练数据量大、模型训练时间长、监督信息利用不充分。针对上述问题,本文提出一种Transformer与非对称学习策略相结合的图像检索方法。方法对于查询图像,使用Transformer生成图像的哈希表示,利用哈希损失学习哈希函数,使图像的哈希表示更加真实。对于待检索图像,采用非对称式学习策略,直接得到图像的哈希表示,并将哈希损失与分类损失相结合,充分利用监督信息,提高训练速度。在哈希空间通过计算汉明距离实现相似图像的快速检索。结果在CIFAR-10和NUS-WIDE两个数据集上,将本文方法与主流的5种对称式方法和性能最优的两种非对称式方法进行比较,本文方法的mAP(mean average precision)比当前最优方法分别提升了5.06%和4.17%。结论本文方法利用Transformer提取图像特征,并将哈希损失与分类损失相结合,在不增加训练数据量的前提下,减少了模型训练时间。所提方法性能优于当前同类方法,能够有效完成图像检索任务。
摘要:目的高光谱解混是高光谱遥感数据分析中的热点问题,其难点在于信息不充分导致的问题病态性。基于光谱库的稀疏性解混方法是目前的代表性方法,但是在实际情况中,高光谱数据通常包含高斯、脉冲和死线等噪声,且各波段噪声的强度往往不同,因此常用的稀疏解混方法鲁棒性不够,解混精度有待提高。针对该问题,本文对高光谱图像进行非负稀疏分量分解建模,提出了一种基于非负稀疏分量分析的鲁棒解混方法。方法首先综合考虑真实高光谱数据的混合噪声及其各波段噪声强度不同的统计特性,在最大后验概率框架下建立非负矩阵稀疏分量分解模型,然后采用$\ell_\text{1, 1}$范数刻画噪声的稀疏性,$\ell_\text{2, 0}$范数刻画丰度的全局行稀疏性,全变分(total variation,TV)正则项刻画像元的局部同质性和分段平滑性,建立基于非负稀疏分量分析的高光谱鲁棒解混优化模型,最后采用交替方向乘子法(alternating direction method of multipliers,ADMM)设计高效迭代算法。结果在2组模拟数据集上的实验结果表明,相比于5种对比方法,提出方法在信号与重建误差比(signal to reconstruction error,SRE)指标上比同类最好方法提升了4.11 dB;在不同噪声强度下,提出方法的SRE平均提升6.94 dB;在美国内华达州Cuprite矿区数据的真实数据实验中,提出方法也取得了较好的矿物解混性能。结论提出方法综合考虑了高斯随机噪声和稀疏性结构噪声对解混精度的影响,具有较好的混合噪声自适应稳健处理能力,解混的精度比现有同类方法更高。