大模型——Qwen2-VL OCR能力微调与量化
大模型——Qwen2-VL OCR能力微调与量化
最近,我对 Qwen2-VL-2B 进行了微调,我的目标是使用此模型从车辆铭牌和底盘图像中提取所需的信息 (OCR)。
最近,我对 Qwen2-VL-2B 进行了微调,这是一个多模态 LLM,这意味着它可以分析文本和图像。我的目标是使用此模型从图像中提取所需的信息 (OCR)。本博客将涵盖所有内容,包括我如何创建图像数据集(标记和格式化)、训练模型、对其进行量化以及评估模型。
在这一部分中,我仅专注于准备自定义数据集以微调 Qwen2-VL 模型。
1、为什么选择 Qwen2-VL?
许多文章都介绍了 Qwen2-VL 的深入工作原理,因此我不打算在此处包含这些详细信息。
我选择 Qwen2-VL 进行 OCR 主要是因为其增强的图像理解能力(包括视频理解)和 2B 的参数大小(7B 和 72B 也可用),支持我打算在生产中使用的 Nvidia GPU(稍后会详细介绍)。此外,与其他多模型 LLM 相比