摘要:目的浮游动物是海洋生态系统的关键群体,其变化反映海洋生态健康并服务于赤潮预警、渔业评估和碳循环研究。传统人工镜检效率低且主观性强,难以满足大规模监测需求,自动化识别因此成为必然趋势。然而,图像背景复杂、目标微小等因素导致现有方法精度与鲁棒性不足,亟需更高辨识能力与更强适应性的模型。方法构建了一种融合多尺度空洞卷积与双重注意力机制的ViT-MDFA(vision Transformer based on multi-scale dilated convolution and dual attention fusion architecture )模型。模型基于ViT(vision Transformer)主干,引入多尺度空洞卷积模块增强局部结构感知能力,加入通道—空间注意力机制突出关键区域表达,采用交替插入策略实现局部增强与全局建模协同优化。模型适用于不同分辨率和背景复杂度的数据样本,并在典型生态监测场景开展评估。结果在WHOI-Plankton、ZooScanNet、Kaggle-Plankton和自建Dec-22等4个浮游动物图像数据集上,该模型的分类准确率分别达到了92.27%、93.34%、96.14%和97.46%,在与其他8种方法的对比中均取得最优结果。消融实验表明,多尺度感知与注意力机制均对性能提升具有显著贡献,联合使用效果最佳。可视化分析显示,该模型的注意力热图更稳定地聚焦于目标关键结构,鲁棒性和收敛效率优于对比方法。结论所提出的ViT-MDFA模型在浮游动物图像识别任务中表现优异,适用于图像质量波动大且背景复杂的海洋生态监测场景。模型结构轻量、模块化强,便于部署于流式细胞仪、边缘节点等平台,为构建智能化、自动化的浮游动物识别系统提供了关键支撑。