当前位置: 首页 > article >正文

大模型学习笔记------BLIP模型的再思考

大模型学习笔记------BLIP模型的再思考

    • 1、BLIP推理---如何进行“图生文”
    • 2、BLIP推理---如何进行视觉问答(Visual Question Answering, VQA)
    • 3、BLIP推理---如何进行图文检索(Image-text retrieval)任务
    • 4、总结

     上一篇文章上文中讲解了 BLIP(Bootstrapping Language-Image Pretraining)模型的网络结构与相关的训练技巧。本文将再自己其他方面的思考进行讲解。

1、BLIP推理—如何进行“图生文”

    在上篇文章中讲到了BLIP可以完成图像描述生成(Image Caption)任务(“图生文”),那么如何完成这个任务呢?其实完成这个任务只需要BLIP模型中的两个模块即可,即视觉编码器(lmage Encoder)与视觉-文本解码器(image-grounded text decoder),具体如下所示:
在这里插入图片描述

    这也很好理解,“图生文”任务肯定是由图像生成文字,那必然有生成模块和图像编码的过程。而且这需要这两个模块就可以。
    但是这里面还有一个问题,BLIP模块进行“图生文”任务需不需要Prompt,也就是是否需要提示词。我认为可以有也可以没有,因为算法的设计使得模型在理解图像内容的同时,也能够生成对应的文本描述。这种架构的灵活性使得模型能够适应不同的输入方式。虽然在没有 prompt 的情况下模型仍然可以生成文本,但使用 prompt 可以提高生成文本的相关性和准确性。

2、BLIP推理—如何进行视觉问答(Visual Question Answering, VQA)

    如何完成视觉问答(VQA)任务呢?完成这个任务需要BLIP模型中的视觉编码器(lmage Encoder)、视觉-文本编码器(image-grounded text encoder)与视觉-文本解码器(image-grounded text decoder)。通过视觉编码器和视觉-文本编码器建立图像与文本(问题)的关系,将图像与问题融合后的特征输入到视觉-文本解码器中并生成相应的文本。具体如下所示:
在这里插入图片描述

3、BLIP推理—如何进行图文检索(Image-text retrieval)任务

    如何完成图文检索(Image-text retrieval)任务呢?其实这个任务与CLIP几乎一摸一样,其实就是进行图像与文本的相似度计算,如果不明白的话,可以查看在以前文章中对CLIP模型的讲解。具体如下所示
在这里插入图片描述
    其实这个任务或是分类任务完全可以使用CLIP模型,CLIP相对于BLIP模型更加简便,训练难度更低,对硬件的要求也更低。

4、总结

    本文主要是对上一篇文章的补充,如果需要其他讨论的问题可以再评论区进行探讨。同时,如果我的想法有瑕疵也希望各位指教。


http://www.kler.cn/a/393965.html

相关文章:

  • 如何保护 Microsoft 网络免受中间人攻击
  • 开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-tool usage入门-Qwen-Agent深入学习(四)
  • 高效稳定!新加坡服务器托管方案助力企业全球化布局
  • 记录使用documents4j来将word文件转化为pdf文件
  • redis7.x源码分析:(1) sds动态字符串
  • 半导体企业如何利用 Jira 应对复杂商业变局?
  • 1. kafka分布式环境搭建
  • Vue全栈开发旅游网项目(10)-用户管理后端接口开发
  • selenium 控制内嵌table滚动条的方法
  • RabbitMQ-死信队列(golang)
  • CouchdbH2database未授权
  • CSS回顾-长度单位汇总详解
  • 基于大语言模型意图识别和实体提取功能;具体ZK数值例子:加密货币交易验证;
  • Unity学习---IL2CPP打包时可能遇到的问题
  • 视图【MySQL】
  • 深入探究 Linux 系统的快照备份与恢复:TimeShift 实践与原理解析
  • Android 无签名系统 debug 版本APK push到设备引起的开机异常问题分析(zygote进程)
  • 【青牛科技】14W 高保真音频放大电路——D2030
  • 大数据新视界 -- 大数据大厂之 Impala 存储格式转换:从原理到实践,开启大数据性能优化星际之旅(下)(20/30)
  • Linux入门:环境变量与进程地址空间
  • [Linux] Linux信号捕捉
  • PostgreSQL加密连接SSL配置
  • linux安装ansible
  • 微信小程序家政项目小程序
  • sqoop Oracle 导入到hive 日期时间消失
  • unity 玩家和炸弹切线计算方式