图像理解和计算机视觉 | 浏览量 : 0 下载量: 203 CSCD: 0
  • 导出

  • 分享

  • 收藏

  • 专辑

    • 视觉语言模型驱动的目标计数

    • Vision-language model driven object counting

    • 大型视觉语言模型在目标计数领域取得进展,但面临类别语义错位与解码器架构局限两大挑战。专家提出跨分支协作对齐网络(CANet),采用双分支解码器架构与视觉—文本类别对齐损失,有效解决上述问题,在多个基准数据集上取得优异性能,为复杂场景下的计数鲁棒性提升提供新思路。
    • 2026年31卷第1期 页码:289-302   

      收稿:2025-04-03

      修回:2025-06-06

      录用:2025-06-18

      纸质出版:2026-01-16

    • DOI: 10.11834/jig.250119     

    移动端阅览

  • 曹锋, 张孝文, 岳子杰, 李莉, 史淼晶. 2026. 视觉语言模型驱动的目标计数. 中国图象图形学报, 31(1):0289-0302 DOI: 10.11834/jig.250119.
    Cao Feng, Zhang Xiaowen, Yue Zijie, Li Li, Shi Miaojing. 2026. Vision-language model driven object counting. Journal of Image and Graphics, 31(1):0289-0302 DOI: 10.11834/jig.250119.
  •  
  •  
文章被引用时,请邮件提醒。
提交

相关文章

暂无数据

相关作者

曹锋 浙江省轨道交通运营管理集团有限公司
张孝文 同济大学电子与信息工程学院,上海 嘉定
岳子杰 同济大学电子与信息工程学院,上海 嘉定
李莉 同济大学电子与信息工程学院,上海 嘉定
史淼晶 同济大学电子与信息工程学院,上海 嘉定

相关机构

同济大学电子与信息工程学院,上海 嘉定
0