当前位置: 首页 > article >正文

CLIP代码相关问题

首先需要将text转为token,用到CLIPTokenizer,接着是从token得到embedding。可以用CLIPTextModelWithProjection或CLIPTextModel。

CLIPTextModelWithProjection和CLIPTextModel的区别:

CLIPTextModel输出的是pooler_output,CLIPTextModelWithProjection的输出是text_embeds
text_embeds是和image_embeds在同一个space下的,所以如果要和image做相似度比较,需要用到CLIPTextModelWithProjection
但假如说只需要一个text的编码信息,那么用两个都可以(用CLIPTextModel会省一点显存)。
CLIPTextModelWithProjection = CLIPTextModel + 一层Linear
参考:
https://github.com/huggingface/transformers/issues/21465#issuecomment-1419080756

CLIPTextTransform = CLIPTokenizer + CLIPTextModel
CLIPTextWithProjectionTransform = CLIPTokenizer + CLIPTextModelWithProjection


http://www.kler.cn/a/488239.html

相关文章:

  • List ---- 模拟实现LIST功能的发现
  • Spring——自动装配
  • 【Linux】sed编辑器
  • 一块钱的RISC-V 32位芯片
  • 芯片详细讲解,从而区分CPU、MPU、DSP、GPU、FPGA、MCU、SOC、ECU
  • 计算机网络之---MAC协议
  • Python中用Open3D 可视化的点云窗口快捷键
  • 荒腔走板Mac电脑本地部署 LLM
  • MySQL使用C语言连接
  • 使用SPI机制加载实现类
  • 一文流:Maven精讲
  • 深入探索 ScottPlot.WPF:在 Windows 桌面应用中绘制精美图表的利器
  • ASP.NET Core 实现微服务 -- Polly 服务降级熔断
  • 深入浅出负载均衡:理解其原理并选择最适合你的实现方式
  • Node 之 Stream 深度剖析:从原理到项目实战应用场景全解
  • 网络安全有哪些细分方向?零基础学Web安全需要掌握的知识(附系统路线+工具笔记)
  • Vue3+TS+vite项目笔记1
  • 实战设计模式之桥接模式
  • Gin框架中间件原理
  • 24级 秋季学期期末考试安排(专升本)
  • 计算机网络(二)——物理层和数据链路层
  • Lua语言的文件IO
  • Decord - 深度学习视频加载器
  • OpenCV计算机视觉 07 图像的模块匹配
  • 从configure.ac到构建环境:解析Mellanox OFED内核模块构建脚本
  • LeetCode 3042. Count Prefix and Suffix Pairs I