当前位置: 首页 > article >正文

大模型——Qwen2-VL OCR能力微调与量化

大模型——Qwen2-VL OCR能力微调与量化

最近,我对 Qwen2-VL-2B 进行了微调,我的目标是使用此模型从车辆铭牌和底盘图像中提取所需的信息 (OCR)。

Qwen2-VL OCR能力微调与量化

最近,我对 Qwen2-VL-2B 进行了微调,这是一个多模态 LLM,这意味着它可以分析文本和图像。我的目标是使用此模型从图像中提取所需的信息 (OCR)。本博客将涵盖所有内容,包括我如何创建图像数据集(标记和格式化)、训练模型、对其进行量化以及评估模型。

在这一部分中,我仅专注于准备自定义数据集以微调 Qwen2-VL 模型。

1、为什么选择 Qwen2-VL?

许多文章都介绍了 Qwen2-VL 的深入工作原理,因此我不打算在此处包含这些详细信息。

我选择 Qwen2-VL 进行 OCR 主要是因为其增强的图像理解能力(包括视频理解)和 2B 的参数大小(7B 和 72B 也可用),支持我打算在生产中使用的 Nvidia GPU(稍后会详细介绍)。此外,与其他多模型 LLM 相比࿰


http://www.kler.cn/a/586251.html

相关文章:

  • 蓝桥杯2024年第十五届省赛真题-回文数组
  • OpenCV中文路径图片读写终极指南(Python实现)
  • 光伏储能:未来能源的黄金搭档
  • 【品铂科技】在高精度定位行业内的口碑怎么样?
  • 【说下线程本地变量ThreadLocal及其用法】
  • 游戏引擎学习第151天
  • ShadowCracker智能口令破解工具架构
  • 【工具】C#游戏防沉迷小工具
  • 17 | 实现简洁架构的 Biz 层
  • 【无标题】ffmpeg 合并文件夹下所有视频
  • 【从零开始学习计算机科学】数据库系统(三)关系数据库设计
  • Java vs Go:SaaS 系统架构选型解析与最佳实践
  • c#使用redis如何实现数据的分库存储
  • 【含文档+PPT+源码】基于Python的美食数据的设计与实现
  • Bash和Zsh在处理大文件时优化方法
  • 【SpringMVC】常用注解:@RequestBody
  • 前端流式输出实现详解:从原理到实践
  • apt/yum/dnf/dkg命令详细:软件安装
  • 【自动化】Automa网页自动化之路
  • 晨控CK-FR08与汇川H5U系列PLC配置EtherNet/IP通讯连接手册