多模态大模型驱动的三维视觉理解技术前沿进展

三维视觉与SLAM | 浏览量 : 0 下载量: 6620 CSCD: 0

PDF
导出
分享
收藏
专辑

多模态大模型驱动的三维视觉理解技术前沿进展
Advancements in 3D vision understanding using multimodal large language models
“三维视觉感知和理解在机器人导航、自动驾驶等领域取得重大进展，多模态大模型融合3D数据展现独特优势，为空间智能领域发展铺平道路。”
2025年30卷第6期页码：1744-1791
收稿：2024-09-29，

修回：2024-12-22，

纸质出版：2025-06-16
DOI： 10.11834/jig.240588
稿件说明：

移动端阅览

冯明涛，沈军豪，武子杰，彭伟星，钟杭，郭裕兰，舒祥波，张辉，董伟生，王耀南. 2025. 多模态大模型驱动的三维视觉理解技术前沿进展. 中国图象图形学报， 30(6):1744-1791 DOI： 10.11834/jig.240588.

Feng Mingtao， Shen Junhao， Wu Zijie， Peng Weixing， Zhong Hang， Guo Yulan， Shu Xiangbo， Zhang Hui， Dong Weisheng， Wang Yaonan. 2025. Advancements in 3D vision understanding using multimodal large language models. Journal of Image and Graphics， 30(6):1744-1791 DOI： 10.11834/jig.240588.

文章被引用时，请邮件提醒。

提交

相关文章

2024年度三维视觉前沿趋势与十大进展

多视角立体匹配三维重建研究综述

Manhattan结构约束神经辐射场在城市遥感图像中的三维重建

相关作者

冯明涛西安电子科技大学

沈军豪西安电子科技大学

武子杰湖南大学

彭伟星湖南大学

钟杭湖南大学

郭裕兰国防科技大学

舒祥波南京理工大学

张辉湖南大学

相关机构

国防科技大学

清华大学自动化系

加州大学圣迭戈分校计算机科学与工程系

中国科学院计算技术研究所

北京大学智能学院

地址：北京市海淀区北四环西路19号中科院电子所主楼223室邮编：100190
联系电话：010-58887035/58887030/58887418 Email：jig@aircas.ac.cn
技术支持由北京北大方正电子有限公司提供京ICP备05080539号-4 京公网安备11010802024621
本系统建议在Chrome、 IE9+ 以上版本浏览器阅读本站内容，360浏览器请切换至极速模式
Cookies帮助我们提供服务并提供个性化体验。使用本网站，即表示您同意我们使用Cookies

⁰