当前位置: 首页 > article >正文

【论文阅读】多模态——PointCLIP

文献基本信息

  • 标题:PointCLIP: Point Cloud Understanding by CLIP
  • 作者:Renrui Zhang、Ziyu Guo、Wei Zhang、Kunchang Li、Xupeng Miao、Bin Cui、Yu Qiao、Peng Gao、Hongsheng Li
  • 单位:上海人工智能实验室、北京大学、香港中文大学
  • 会议/期刊:CVPR
  • 发表时间:2021年12月4日
  • 代码:https://github.com/ZrrSkywalker/PointCLIP

背景与意义

  • 最近,通过对比视觉-语言预训练(CLIP)进行的zero-shotfew-shot学习在2D视觉识别方面表现出鼓舞人心的表现,该方法学习在开放词汇设置中将图像与其对应的文本进行匹配。
  • 然而,通过2D中的大规模图像-文本对预训练的CLIP是否可以推广到3D识别,仍有待探索。

研究方法与创新点&研究结论

回顾CLIP

  • CLIP的全称是Constrative Vison-Language Pre-training,如上图所示,使用图像和文本对训练,用了对比学习的方式。
  • 首先是对$n$对图像文本分别提特征,计算特征余弦相似性,构成一个$n \times n$的矩阵,分别计算图像的分类损失文本的分类损失
  • 分类的时候,以ImageNet为例,构造句子例如“A photo of a {}”,把ImageNet中的类别,以填空的形式填入句子,然后计算每个句子和图像的相似度,找出最高的为最终的类别。

基于CLIP的点云理解

  • PointCLIP的框架和CLIP非常像,核心修改在于如何用视觉编码器给点云图像提取特征

点云特征抽取

  • 采用了投影的方式,把3维的点,朝几个平面投影,变成2维的图像。
  • 点云的坐标可以表示为$\left( {x,y,z} \right)$, 对$z$方向做透视投影(perceptive project)可以把这个点变换为$\left( {\lceil {x/z} \rceil],\lceil {y/z} \rceil} \right)$,这种投影的好处是可以让图片比较接近于自然图像
  • 然后把投影得到的图像复制两次,变成三通道图像,这样CLIP预训练得到的知识就可以应用在点云上了。

zero-shot分类

  • 对象做$M$个视角的投影,通过诗句编码器抽取特征${f_i}$,通过预设的类别和模板“point cloud depth map of a [CLASS].”,抽取文本特征${W_t} \in {\mathbb{R}^{K \times C}}$,再对每个视角的特征分别计算分数,然后加权得到最终的分数。
  • 但是这种方式的结果和有监督相差甚远,毕竟点云投影和真实图像还是有一些差距的,在ModelNet40数据集上的准确率只有20.18%,基本不太可用

视图间adapter

  • zero-shot的方式虽然有一定的效果,但是和有监督方法比起来差太多,于是考虑加个小网络,进行few-shot微调
  • 用一个小网络作为adapter,结构如上图所示。
  • 首先把多视角的特征concat成一维,通过两个全连接得到全局特征${f_{​{\rm{global}}}}$
  • 然后如下式,每个全局特征乘一个矩阵,再和原始的$f_i$做一个残差连接,训练的时候把其余部分固定住,只训练这个adapter,做一个few-shot学习,就得到了最终的adapted特征,之后用这个特征代替$f_i$去和文本特征算相似度。

f_i^a = {f_i} + {\rm{RELU}}\left( {​{f_{​{\rm{global}}}}W_{3i}^t} \right)

  • 靠着视图间adapter,在ModelNet40上的结果从20.18%提升到了87.20%,基本达到了有监督方法的效果,并且只用了全部数据的1/10

模型融合

  • 大概是因为few-shot的效果,还是比PointNet差一点,本文考虑是否可以用模型融合的方式,得到更好的模型。
  • 融合方式比较简单,把不同模型预测的各类别的分数加起来得到最终的分数
  • 实验结果表明,用PointCLIP和别的模型融合,结果有所提升,可以得到新的SOTA,用传统有监督方法得到的结果做融合,却出现了下降
  • 这大概是因为用few-shot的方式,学到的知识和有监督学到的差异比较大,所以做模型融合才会有提升。
  • 具体结果如下图所示。

存在的问题

  1. zero-shot的效果低,准确度仅30%(ModelNet10)、20%(ModelNet40)和15%(ScanObejctNN),能否将zero-shot的效果继续提升?有可能3D点云与预训练好的2D编码器并不是一个好结合
  2. 模型融合之后一般效果都有所提升,但是本文通过实验说明并不是两两模型融合都有提升,而是和PointCLIP融合之后能提升,说明PointCLIP能够用2D信息与3D模型互补,这点存疑。
  3. 本文利用CLIP只做了3D分类任务,其它任务还未探索

启发与思考

  1. 本文是CLIP的又一后续应用,从2D问题拓展到了3D问题,说明这是对现有模型改进工作的思路之一。
  2. 提供了在低资源成本和数据机制下利用CLIP的有效方案。
  3. 模型融合可能是一个实用且便捷的提升性能的方法,有助于弥补模型的内在缺陷。

http://www.kler.cn/a/574337.html

相关文章:

  • 私有云基础架构与运维(一)
  • 宝塔 Linux 计划任务中添加运行项目网站PHP任务-定时任务
  • OpenAI Deep Research
  • 【Spring Boot 接入 MongoDB】
  • AUTOSAR—TM模块介绍及使用概要
  • django中视图作用和视图功能 以及用法
  • AI摄像头行为识别技术解析
  • iOS安全和逆向系列教程 第13篇:iOS动态分析基础
  • 2025年渗透测试面试题总结-字某某动-安全研究实习生(一面)(题目+回答)
  • nvm 让 Node.js 版本切换更灵活
  • 【Unity】搭建基于字典(Dictionary)和泛型列表(List)的音频系统
  • Java+SpringBoot+协同过滤推荐算法的闲置电子产品回收平台(程序+论文+讲解+安装+调试+售后)
  • 在 Docker 中为 ThinkPHP 项目安装 PHP Redis 扩展并解决 500 错误
  • K8S学习之基础十五:k8s中Deployment扩容缩容
  • 北京大学DeepSeek原理与落地应用【附下载链接】
  • slam学习笔记9---ubuntu2004部署interactive_slam踩坑记录
  • C++学习(十三)(构建系统,CMAKE)
  • 通用代码生成器正确的使用方法:电子表格
  • Uniapp 页面返回不刷新?两种方法防止 onShow 触发多次请求!
  • 极狐GitLab 正式发布安全版本17.9.1、17.8.4、17.7.6