当前位置：首页 > article >正文

【论文阅读】多模态——PointCLIP

article 2025/3/10 11:31:13

文献基本信息

标题：PointCLIP: Point Cloud Understanding by CLIP
作者：Renrui Zhang、Ziyu Guo、Wei Zhang、Kunchang Li、Xupeng Miao、Bin Cui、Yu Qiao、Peng Gao、Hongsheng Li
单位：上海人工智能实验室、北京大学、香港中文大学
会议/期刊：CVPR
发表时间：2021年12月4日
代码：https://github.com/ZrrSkywalker/PointCLIP

背景与意义

最近，通过对比视觉-语言预训练（CLIP）进行的zero-shot和few-shot学习在2D视觉识别方面表现出鼓舞人心的表现，该方法学习在开放词汇设置中将图像与其对应的文本进行匹配。
然而，通过2D中的大规模图像-文本对预训练的CLIP是否可以推广到3D识别，仍有待探索。

研究方法与创新点&研究结论

回顾CLIP

CLIP的全称是Constrative Vison-Language Pre-training，如上图所示，使用图像和文本对训练，用了对比学习的方式。
首先是对 $n$ 对图像文本分别提特征，计算特征余弦相似性，构成一个 $n \times n$ 的矩阵，分别计算图像的分类损失和文本的分类损失。
分类的时候，以ImageNet为例，构造句子例如“A photo of a {}”，把ImageNet中的类别，以填空的形式填入句子，然后计算每个句子和图像的相似度，找出最高的为最终的类别。

基于CLIP的点云理解

PointCLIP的框架和CLIP非常像，核心修改在于如何用视觉编码器给点云图像提取特征。

点云特征抽取

采用了投影的方式，把3维的点，朝几个平面投影，变成2维的图像。
点云的坐标可以表示为 $\left( {x,y,z} \right)$ , 对 $z$ 方向做透视投影（perceptive project）可以把这个点变换为 $\left( {\lceil {x/z} \rceil],\lceil {y/z} \rceil} \right)$ ,这种投影的好处是可以让图片比较接近于自然图像。
然后把投影得到的图像复制两次，变成三通道图像，这样CLIP预训练得到的知识就可以应用在点云上了。

zero-shot分类

对象做 $M$ 个视角的投影，通过诗句编码器抽取特征 ${f_i}$ ，通过预设的类别和模板“point cloud depth map of a [CLASS].”，抽取文本特征 ${W_t} \in {\mathbb{R}^{K \times C}}$ ，再对每个视角的特征分别计算分数，然后加权得到最终的分数。
但是这种方式的结果和有监督相差甚远，毕竟点云投影和真实图像还是有一些差距的，在ModelNet40数据集上的准确率只有20.18%，基本不太可用。

视图间adapter

zero-shot的方式虽然有一定的效果，但是和有监督方法比起来差太多，于是考虑加个小网络，进行few-shot微调。
用一个小网络作为adapter，结构如上图所示。
首先把多视角的特征concat成一维，通过两个全连接得到全局特征 ${f_{{\rm{global}}}}$ 。
然后如下式，每个全局特征乘一个矩阵，再和原始的 $f_i$ 做一个残差连接，训练的时候把其余部分固定住，只训练这个adapter，做一个few-shot学习，就得到了最终的adapted特征，之后用这个特征代替 $f_i$ 去和文本特征算相似度。

$f_i^a = {f_i} + {\rm{RELU}}\left( {{f_{{\rm{global}}}}W_{3i}^t} \right)$

靠着视图间adapter，在ModelNet40上的结果从20.18%提升到了87.20%，基本达到了有监督方法的效果，并且只用了全部数据的1/10。

模型融合

大概是因为few-shot的效果，还是比PointNet差一点，本文考虑是否可以用模型融合的方式，得到更好的模型。
融合方式比较简单，把不同模型预测的各类别的分数加起来得到最终的分数。
实验结果表明，用PointCLIP和别的模型融合，结果有所提升，可以得到新的SOTA，用传统有监督方法得到的结果做融合，却出现了下降。
这大概是因为用few-shot的方式，学到的知识和有监督学到的差异比较大，所以做模型融合才会有提升。
具体结果如下图所示。

存在的问题

zero-shot的效果低，准确度仅30%（ModelNet10）、20%（ModelNet40）和15%（ScanObejctNN），能否将zero-shot的效果继续提升？有可能3D点云与预训练好的2D编码器并不是一个好结合。
模型融合之后一般效果都有所提升，但是本文通过实验说明并不是两两模型融合都有提升，而是和PointCLIP融合之后能提升，说明PointCLIP能够用2D信息与3D模型互补，这点存疑。
本文利用CLIP只做了3D分类任务，其它任务还未探索。

启发与思考

本文是CLIP的又一后续应用，从2D问题拓展到了3D问题，说明这是对现有模型改进工作的思路之一。
提供了在低资源成本和数据机制下利用CLIP的有效方案。
模型融合可能是一个实用且便捷的提升性能的方法，有助于弥补模型的内在缺陷。

http://www.kler.cn/a/574337.html

相关文章：

私有云基础架构与运维（一）

宝塔 Linux 计划任务中添加运行项目网站PHP任务-定时任务

OpenAI Deep Research

【Spring Boot 接入 MongoDB】

AUTOSAR—TM模块介绍及使用概要

django中视图作用和视图功能以及用法

AI摄像头行为识别技术解析

iOS安全和逆向系列教程第13篇：iOS动态分析基础

2025年渗透测试面试题总结-字某某动-安全研究实习生（一面）（题目+回答）

nvm 让 Node.js 版本切换更灵活

【Unity】搭建基于字典（Dictionary）和泛型列表（List）的音频系统

Java+SpringBoot+协同过滤推荐算法的闲置电子产品回收平台（程序+论文+讲解+安装+调试+售后）

在 Docker 中为 ThinkPHP 项目安装 PHP Redis 扩展并解决 500 错误

K8S学习之基础十五：k8s中Deployment扩容缩容

北京大学DeepSeek原理与落地应用【附下载链接】

slam学习笔记9---ubuntu2004部署interactive_slam踩坑记录

C++学习(十三)(构建系统,CMAKE)

通用代码生成器正确的使用方法：电子表格

Uniapp 页面返回不刷新？两种方法防止 onShow 触发多次请求！

极狐GitLab 正式发布安全版本17.9.1、17.8.4、17.7.6