摘要:目的针对地月距离上航天器监测手段地基光学与雷达作用限制,提出一种基于无线电被动感知技术的近月空间航天器天地基联合监测方案,无需主动发射无线电信号,仅利用在轨航天器发送的下行无线电信号实现目标监测。方法首先,介绍了无线电被动感知技术的理论方法;然后,设计了一种适用于近月空间航天器的天基、地基与天地基协同监测方案,包括系统架构、工作流程,分析了传感器布局、目标引导、信号接收、TDOA(time difference of arrival)/FDOA(frequency difference of arrival)处理、误差修正、目标定轨与预报等关键技术;最后,通过近月空间在轨航天器无线电被动感知监测实验进行初步验证。结果利用所提方案开展了基于地基测站的近月空间在轨航天器监测实验,有效监测到目标下行信号与多普勒变化运动规律,初步验证了监测方案可行性。结论提出的基于无线电被动感知的近月空间航天器天地基监测方案,可为后续近月空间航天器监测系统设计与实现提供有益的技术参考。
摘要:目的文档智能旨在自动和智能地处理纸质文本信息,包括但不限于表格、表单和发票等,极大便利了信息的电子化管理。然而,传统深度学习方法往往专注于单一任务的优化,限制了它们在处理复杂多变的文档场景时的效能。此外,这些方法需要额外的光学字符识别(optical character recognition,OCR)工具来提取文档中的文字信息,这不仅增加了处理步骤,也可能引入额外的错误。多模态大模型的出现为免去OCR工具统一处理文档信息带来了希望,但是在处理高分辨率的文档图像和应对逐渐增加的视觉标记时,仍然面临着不小的挑战。本文提出一种基于动态分辨率的文档多模态大模型TextLLM,能免OCR工具处理高分辨率的文档图像。方法基于最新的多模态大模型训练了一个能够处理动态分辨率的文档多模态大模型。在动态分辨率的基础上,提出一种动态特征压缩算法,设置动态的可学习压缩率来获得需要保留的特征长度,通过计算特征相似度来得到重要性特征,以此来聚合关键特征。更进一步,利用大语言模型的注意力机制捕捉与提示词相关的视觉特征部分,根据提示词的注意力分布图筛选出最相关的特征,并保留其周围相关特征。结果实验在多个数据集上与6种先进方法进行了比较,TextLLM在多个文档理解基准测试中取得了显著的性能提升。在DocVQA、WTQ、ChartQA和TextVQA等数据集上的表现均优于对比模型,分别获得了82.4、37.6、70.8和65.3的分数。此外,在综合评测数据集OCRBench中,模型得分高达601,证明了其在多样化文本相关任务中的适应能力和整体效果。同时也在多个数据集中进行了消融实验以验证算法的有效性,消融实验验证了提出的动态算法能够改善模型效果。结论本文提出基于动态分辨率的文档大模型TextLLM,并提出动态压缩特征和动态选择的算法来应对多场景的文档。实验结果表明,本文模型优于几种先进的文档大模型,兼具了高效性和准确性。
摘要:目的图表示学习在社交网络、生物信息及推荐系统等领域应用广泛。无监督图对比学习因其无需大量标注数据即可获取高质量节点表示而备受关注,但现有方法普遍存在增强策略单一、对比粒度粗放等问题,影响嵌入表示质量。针对上述问题,提出一种结合局部—全局图增强技术与多重神经网络协同建模的多维度图对比学习模型(local and SVD-based global augmentation with triple network for multi-dimensional graph comparative learning, LAST-MGCL)。方法首先,构建局部增强图神经网络和奇异值分解增强模块,分别从节点邻域信息和整体拓扑模式出发,对原始图数据进行多粒度增强;其次,设计由多头注意力图神经网络构成的三重编码网络,分别处理原始图和增强图,通过跨网络信息交互强化多视图融合表示;最后,提出跨网络对比、跨视图对比与邻居对比相结合的多维度对比损失,协同优化图表示质量。结果在节点分类任务上,LAST-MGCL模型在Cora、Citeseer和PubMed数据集上的平均分类准确率分别达到83.1%、72.6%和81.8%,整体优于当前主流对比学习方法,表现出较好的分类性能与鲁棒性;同时,在可视化任务中,LAST-MGCL生成的节点嵌入表现出更紧密的类内聚合和更清晰的类间边界,进一步验证了模型在表征学习中的有效性。结论本文提出的LAST-MGCL面向无标签图数据场景,对现有图对比学习框架进行了系统性增强,为无监督图表征学习提供了一种有效解决方案。
摘要:状态空间模型(state space model,SSM)在长序列计算效率方面表现优异。2024年基于SSM的具有选择机制和硬件感知状态扩展的Mamba模型问世,状态空间模型成为新的备受瞩目的人工智能架构,其性能可能超过Transformer。为了充分了解状态空间模型在医学图像处理领域的研究和应用,本文进行了全面的调查,首先对状态空间模型的发展历程和各种基于SSM的基础模型进行总结,然后按照图像分割、分类、配准和融合、重建,以及疾病预测、医学图像合成、放射治疗剂量预测任务进行分类研究,探讨了每种任务中SSM模型的改进和应用,最后讨论了状态空间模型面临的挑战和今后的研究方向。本文讨论的研究及其开源实现汇编在GitHub中,地址为https://github.com/wyl32123/ssm-medical-paper/tree/main。
摘要:目的光场图像因其能够捕捉不同深度的场景细节信息,可以有效提升显著性检测的效果。然而,焦点堆栈图像虽然富含深度信息,但不同焦平面中存在的模糊干扰会降低光场显著性检测的性能。此外,现有的大多数方法都仅在显著性预测阶段考虑不同图像特征的交互,导致不同特征的互补性利用不足。为了解决以上问题,提出一种融合多阶段差分特征的光场图像显著性检测网络,旨在提高光场图像中显著物体检测的准确性。方法提出一种基于多阶段自差分特征的焦点堆栈深度感知方法,以连续深度聚焦信息指导显著目标定位。提出一种多模态阶段融合方法,通过多模态差异约束捕获高精度的焦点堆栈聚焦区域,以实现焦点堆栈图像与全聚焦图像的多阶段特征融合,并利用焦点堆栈深度感知方法和多模态阶段融合方法的互补信息增强目标物体的可识别性。将两种方法引入编码阶段,实现特征的早期交互,缓解了特征利用率低的问题。结果实验在被广泛应用的DUTLF-FS(Dalian University of Technology Light Field Focal Stack)、HFUT-Lytro(Hefei University of Technology Lytro)和Lytro Illum数据集上与11种方法进行比较。在DUTLF-FS数据集中,相比FESNet模型,在不额外引入深度图线索的前提下,最大F指标相对提升0.2%;在HFUT-Lytro数据集中,相比FESNet模型,平均绝对误差相对降低12.9%;在Lytro Illum数据集中,相比LFTransNet模型,平均绝对误差相对降低22.2%。消融实验进一步证实了所设计的模块的有效性。结论本文提出的显著性检测模型能有效增强复杂场景中的显著区域特征,并抑制背景区域,能够准确地识别显著目标。
摘要:目的随着视觉大模型的发展,利用多源无标注遥感影像预训练学习全局视觉特征,并在局部目标任务上进行迁移微调,已成为遥感影像领域自适应的一种新范式。然而,现有的全局预训练策略主要聚焦于学习低级的通用视觉特征,难以捕捉复杂、高层次的语义关联。此外,微调过程中使用的少量标注样本往往只反映目标域的特定场景,无法充分激活全局模型中与目标域匹配的领域知识。因此,面对复杂多变的遥感影像跨时空领域偏移,现有方法得到的全局模型与目标任务之间仍然存在巨大的语义鸿沟。为应对这一挑战,本文提出一种语言文本引导的“全局模型预训练—局部模型微调”的领域自适应框架。方法提出框架针对遥感数据的时空异质性特点,借助大型视觉语言助手LLaVA(large language and vision assistant)生成包含季节、地理区域及地物分布等时空信息的遥感影像文本描述。通过语言文本引导的学习帮助全局模型挖掘地物的时空分布规律,增强局部任务微调时相关领域知识的激活。结果在对比判别式、掩码生成式和扩散生成式3种不同全局预训练策略上设置了3组“全局—局部”跨时空领域自适应语义分割实验来验证提出框架的有效性。以全局→局部(长沙)为例,使用语言文本引导相比于无文本引导在3种不同预训练策略上分别提升了8.7%、4.4%和2.9%。同样地,提出框架在全局→局部(湘潭)和全局→局部(武汉)上也都有性能提升。结论证明了语言文本对准确理解跨时空遥感影像中的语义内容具有积极影响。与无文本引导的学习方法相比,提出框架显著提升了模型的迁移性能。