当前位置：首页 > article >正文

【大模型系列】Video-XL(2024.10)

article 2024/12/26 1:04:07

Paper：https://arxiv.org/pdf/2409.14485
Github：https://github.com/VectorSpaceLab/Video-XL
Huggingface：https://huggingface.co/sy1998/Video_XL
Author：Yan Shu et al. 上交，北京智源人工智能研究院

核心1： 提出了一个Video-XL模型，可以有效地对小时级别的视频进行理解，在A100-80G GPU上可以处理2024帧，大海捞针任务(Needle-in-haystack)中取得100%的准确率；
核心2： 引入一个长视频数据集(2min~10min)VICO(Visual Clue Ordering)

文章目录

1 模型结构
- 1.1 输入的处理
- 1.2 Visual Context Latent Summarization
2 训练策略与数据
- 2.1 训练
- 2.2 VICO(Video Clue Order Dataset)
3 评测结果

1 模型结构

Visual encoder：CLIP-ViT-L
Projector：two-layer MLP
LLM：Qwen2-7B

1.1 输入的处理

单图：分patch，每个patch分辨率为336x336（patch策略：grid=[h // 336, w// 336]，最后再使用2x2 pooling减少token数量）
视频(N-frame)和多图(N-image)：分辨率resize到336x336，直接编码成NXM tokens，M表示每张图的视觉token数量
视频抽帧：
- 短视频(≤128帧)，按1fps抽帧
- 长视频(＞128帧)，均匀抽128帧

1.2 Visual Context Latent Summarization

给定一组视觉编码 $X =\{x_1, x_2, ...,x_n\}$ ,其中n表示token的数量，现在目标是将其压缩以提升效率和减少计算负担，文章中提到的策略如下：

引入特殊的token：VST(visual summarization token) <vs>，在LLM将视觉特征压缩到该token上；
首先将原始视觉编码切分成相同的数量w(默认1440)
$[x_1,x_2,...,x_n] \stackrel{partition}{\longrightarrow} [X_1, X_2, ..., X_{n // w}] \\ X_i = [x_{(i-1)w+1}, x_{(i-1)w+2}, ..., x_{iw}] = [x_1^i, x_2^i, ..., X_w^i]$
对于每个切片 $X_i$ ,设置一个压缩比率 $\alpha_i>1$ （训练过程中随机从2，4，8，12，16中选择，推理时按需选择一个即可），这个压缩比率可以被切片长度w整除，表示每 $\alpha_i$ 个token被压缩到一个VST中，每因在此在该切片中要插入 $k_i = w / \alpha_i$ VST：
$X_i \stackrel{interleave}{\longrightarrow} [x_1^i, ...,x_{\alpha_i}^i, <vs>_1^i, ..., x_{w-\alpha_i+1}^i, ..., x_w^i, <vs>_{k_i}^i]$
LLM依次处理这些切片 $X_i$ ，并在每层引入额外的映射层 $W_Q^v, W_K^v, W_V^v)$ 来处理<vr>标签
在切片 $X_i$ 经过编码后，累加VSTs的编码，表示之前所有视觉的编码
在对切片 $X_{i+1}$ 编码时，直接将切片 $X_i$ 累加的VSTs的编码作为<vr>标签的编码，参与当前切片的运算

2 训练策略与数据

2.1 训练

pre-training：模态对齐，优化projector层
- Laion-2M
fine-tuning：全量微调
- single-image：Bunny-695k，Sharegpt-4o-57K
- multi-image：MMDU-5k
- videos：NExT-QA-32k，Sharegpt-4o-2k，CinePile-10k，11k in-house samples，VICO-10k