当前位置: 首页 > article >正文

[论文笔记] LLaVA

一、LLaVA 论文中的主要工作和实验结果

  1. Existing Gap: 之前的大部分工作都在做模态对齐,做图片的 representation learning,而没有针对 ChatBot(多轮对话,指令理解)这种场景优化。

  2. Contribution: 这篇工作已经在 BLIP-2 之后了,所以 Image 的理解能力不是 LLaVA 希望提升的重点,LLaVA 是想提升多模态模型的 Instruction-Following ability,也就是特定的多轮 QA 场景。

  3. 数据构造:构造了三种 Instruction 的数据,包括多轮对话图片描述复杂推理。其中,图片描述是从多轮对话中选取出来的。分别构造了 58k、23k 和 77k 数据。

  4. <

http://www.kler.cn/a/294888.html

相关文章:

  • 有什么初学算法的书籍推荐?
  • Qwen2 系列大型语言模型
  • JDBC-Dao层模式
  • VSCode可以安装最新版,并且可以对应Node 12和npm 6
  • 【Linux】基础IO及文件描述符相关内容详细梳理
  • 数据分析那些事儿——时间片轮转实验
  • Effective Java学习笔记--39-41条 注解
  • 【LVI-SAM】激光雷达点云处理特征提取LIO-SAM 之FeatureExtraction实现细节
  • 把Django字典格式的数据库配置转成tortoise-orm的URL格式
  • k8s集群版部署
  • 排序算法-std::sort的使用(待学习第一天)
  • llama.cpp demo
  • 【H2O2|全栈】关于HTML(2)HTML基础(一)
  • 数字证书与HTTPS部署
  • 亚马逊云科技 Gen BI 2024-09-04 上海站QuickSight
  • Ajax 解决回调竞争
  • C# System.Linq提供类似SQL语法的高效查询操作
  • 吐血整理 ChatGPT 3.5/4.0 新手使用手册~ 【2024.09.03 更新】
  • 大厂嵌入式数字信号处理器(DSP)面试题及参考答案
  • 电动机制造5G智能工厂工业物联数字孪生平台,推进制造业数字化转型
  • Shell编程:正则表达式(通配符、正则概念、元字符、量词、示例等)
  • 【C++ 面试 - 新特性】每日 3 题(四)
  • 【Unity小技巧】URP管线遮挡高亮效果
  • c++标准库中对文件读写的函数与类
  • arm-linux-gnueabihf-gcc -Wall -nostdlib -c -O2 -o start.o start.s
  • 景联文科技:专业图像采集服务,助力智能图像分析