【论文阅读】多模态——PointCLIP
文献基本信息
- 标题:PointCLIP: Point Cloud Understanding by CLIP
- 作者:Renrui Zhang、Ziyu Guo、Wei Zhang、Kunchang Li、Xupeng Miao、Bin Cui、Yu Qiao、Peng Gao、Hongsheng Li
- 单位:上海人工智能实验室、北京大学、香港中文大学
- 会议/期刊:CVPR
- 发表时间:2021年12月4日
- 代码:https://github.com/ZrrSkywalker/PointCLIP
背景与意义
- 最近,通过对比视觉-语言预训练(CLIP)进行的zero-shot和few-shot学习在2D视觉识别方面表现出鼓舞人心的表现,该方法学习在开放词汇设置中将图像与其对应的文本进行匹配。
- 然而,通过2D中的大规模图像-文本对预训练的CLIP是否可以推广到3D识别,仍有待探索。
研究方法与创新点&研究结论
回顾CLIP
- CLIP的全称是Constrative Vison-Language Pre-training,如上图所示,使用图像和文本对训练,用了对比学习的方式。
- 首先是对
对图像文本分别提特征,计算特征余弦相似性,构成一个
的矩阵,分别计算图像的分类损失和文本的分类损失。
- 分类的时候,以ImageNet为例,构造句子例如“A photo of a {}”,把ImageNet中的类别,以填空的形式填入句子,然后计算每个句子和图像的相似度,找出最高的为最终的类别。
基于CLIP的点云理解
- PointCLIP的框架和CLIP非常像,核心修改在于如何用视觉编码器给点云图像提取特征。
点云特征抽取
- 采用了投影的方式,把3维的点,朝几个平面投影,变成2维的图像。
- 点云的坐标可以表示为
, 对
方向做透视投影(perceptive project)可以把这个点变换为
,这种投影的好处是可以让图片比较接近于自然图像。
- 然后把投影得到的图像复制两次,变成三通道图像,这样CLIP预训练得到的知识就可以应用在点云上了。
zero-shot分类
- 对象做
个视角的投影,通过诗句编码器抽取特征
,通过预设的类别和模板“point cloud depth map of a [CLASS].”,抽取文本特征
,再对每个视角的特征分别计算分数,然后加权得到最终的分数。
- 但是这种方式的结果和有监督相差甚远,毕竟点云投影和真实图像还是有一些差距的,在ModelNet40数据集上的准确率只有20.18%,基本不太可用。
视图间adapter
- zero-shot的方式虽然有一定的效果,但是和有监督方法比起来差太多,于是考虑加个小网络,进行few-shot微调。
- 用一个小网络作为adapter,结构如上图所示。
- 首先把多视角的特征concat成一维,通过两个全连接得到全局特征
。
- 然后如下式,每个全局特征乘一个矩阵,再和原始的
做一个残差连接,训练的时候把其余部分固定住,只训练这个adapter,做一个few-shot学习,就得到了最终的adapted特征,之后用这个特征代替
去和文本特征算相似度。
- 靠着视图间adapter,在ModelNet40上的结果从20.18%提升到了87.20%,基本达到了有监督方法的效果,并且只用了全部数据的1/10。
模型融合
- 大概是因为few-shot的效果,还是比PointNet差一点,本文考虑是否可以用模型融合的方式,得到更好的模型。
- 融合方式比较简单,把不同模型预测的各类别的分数加起来得到最终的分数。
- 实验结果表明,用PointCLIP和别的模型融合,结果有所提升,可以得到新的SOTA,用传统有监督方法得到的结果做融合,却出现了下降。
- 这大概是因为用few-shot的方式,学到的知识和有监督学到的差异比较大,所以做模型融合才会有提升。
- 具体结果如下图所示。
存在的问题
- zero-shot的效果低,准确度仅30%(ModelNet10)、20%(ModelNet40)和15%(ScanObejctNN),能否将zero-shot的效果继续提升?有可能3D点云与预训练好的2D编码器并不是一个好结合。
- 模型融合之后一般效果都有所提升,但是本文通过实验说明并不是两两模型融合都有提升,而是和PointCLIP融合之后能提升,说明PointCLIP能够用2D信息与3D模型互补,这点存疑。
- 本文利用CLIP只做了3D分类任务,其它任务还未探索。
启发与思考
- 本文是CLIP的又一后续应用,从2D问题拓展到了3D问题,说明这是对现有模型改进工作的思路之一。
- 提供了在低资源成本和数据机制下利用CLIP的有效方案。
- 模型融合可能是一个实用且便捷的提升性能的方法,有助于弥补模型的内在缺陷。