图像理解和计算机视觉 | 浏览量 : 0
下载量:
203
CSCD:
0
视觉语言模型驱动的目标计数
Vision-language model driven object counting
- “大型视觉语言模型在目标计数领域取得进展,但面临类别语义错位与解码器架构局限两大挑战。专家提出跨分支协作对齐网络(CANet),采用双分支解码器架构与视觉—文本类别对齐损失,有效解决上述问题,在多个基准数据集上取得优异性能,为复杂场景下的计数鲁棒性提升提供新思路。”
- 2026年31卷第1期 页码:289-302
收稿:2025-04-03,
修回:2025-06-06,
录用:2025-06-18,
纸质出版:2026-01-16
DOI: 10.11834/jig.250119
移动端阅览
