视觉语言模型驱动的目标计数

图像理解和计算机视觉 | 浏览量 : 0 下载量: 203 CSCD: 0

视觉语言模型驱动的目标计数
Vision-language model driven object counting
“大型视觉语言模型在目标计数领域取得进展，但面临类别语义错位与解码器架构局限两大挑战。专家提出跨分支协作对齐网络（CANet），采用双分支解码器架构与视觉—文本类别对齐损失，有效解决上述问题，在多个基准数据集上取得优异性能，为复杂场景下的计数鲁棒性提升提供新思路。”
2026年31卷第1期页码：289-302
收稿：2025-04-03，

修回：2025-06-06，

录用：2025-06-18，

纸质出版：2026-01-16
DOI： 10.11834/jig.250119
稿件说明：

移动端阅览

曹锋，张孝文，岳子杰，李莉，史淼晶. 2026. 视觉语言模型驱动的目标计数. 中国图象图形学报， 31(1):0289-0302 DOI： 10.11834/jig.250119.

Cao Feng， Zhang Xiaowen， Yue Zijie， Li Li， Shi Miaojing. 2026. Vision-language model driven object counting. Journal of Image and Graphics， 31(1):0289-0302 DOI： 10.11834/jig.250119.

文章被引用时，请邮件提醒。

提交

暂无数据

相关机构

同济大学电子与信息工程学院，上海嘉定

⁰