当前位置：首页 > article >正文

[论文笔记] LLaVA

article 2025/2/21 3:18:45

一、LLaVA 论文中的主要工作和实验结果

Existing Gap: 之前的大部分工作都在做模态对齐，做图片的 representation learning，而没有针对 ChatBot（多轮对话，指令理解）这种场景优化。
Contribution: 这篇工作已经在 BLIP-2 之后了，所以 Image 的理解能力不是 LLaVA 希望提升的重点，LLaVA 是想提升多模态模型的 Instruction-Following ability，也就是特定的多轮 QA 场景。
数据构造：构造了三种 Instruction 的数据，包括多轮对话、图片描述和复杂推理。其中，图片描述是从多轮对话中选取出来的。分别构造了 58k、23k 和 77k 数据。

http://www.kler.cn/a/294888.html

相关文章：

Effective Java学习笔记--39-41条注解

【LVI-SAM】激光雷达点云处理特征提取LIO-SAM 之FeatureExtraction实现细节

把Django字典格式的数据库配置转成tortoise-orm的URL格式

k8s集群版部署

排序算法-std::sort的使用（待学习第一天）

llama.cpp demo

【H2O2|全栈】关于HTML（2）HTML基础（一）

数字证书与HTTPS部署

亚马逊云科技 Gen BI 2024-09-04 上海站QuickSight

Ajax 解决回调竞争

C# System.Linq提供类似SQL语法的高效查询操作

吐血整理 ChatGPT 3.5/4.0 新手使用手册~ 【2024.09.03 更新】

大厂嵌入式数字信号处理器(DSP)面试题及参考答案

电动机制造5G智能工厂工业物联数字孪生平台，推进制造业数字化转型

Shell编程：正则表达式（通配符、正则概念、元字符、量词、示例等）

【C++ 面试 - 新特性】每日 3 题（四）

【Unity小技巧】URP管线遮挡高亮效果

c++标准库中对文件读写的函数与类

arm-linux-gnueabihf-gcc -Wall -nostdlib -c -O2 -o start.o start.s

景联文科技：专业图像采集服务，助力智能图像分析