[论文笔记] LLaVA
一、LLaVA 论文中的主要工作和实验结果
-
Existing Gap: 之前的大部分工作都在做模态对齐,做图片的 representation learning,而没有针对 ChatBot(多轮对话,指令理解)这种场景优化。
-
Contribution: 这篇工作已经在 BLIP-2 之后了,所以 Image 的理解能力不是 LLaVA 希望提升的重点,LLaVA 是想提升多模态模型的 Instruction-Following ability,也就是特定的多轮 QA 场景。
-
数据构造:构造了三种 Instruction 的数据,包括多轮对话、图片描述和复杂推理。其中,图片描述是从多轮对话中选取出来的。分别构造了 58k、23k 和 77k 数据。
<