当前位置: 首页 > article >正文

VLM 系列——MoE-LLaVa——论文解读

一、概述

1、是什么

     moe-Llava 是Llava1.5 的改进 全称《MoE-LLaVA: Mixture of Experts for Large Vision-Language Models》,是一个多模态视觉-文本大语言模型,可以完成:图像描述、视觉问答,潜在可以完成单个目标的视觉定位、名画名人等识别(问答、描述),未知是否能偶根据图片写代码(HTML、JS、CSS)。支持单幅图片输入(可以作为第一个或第二个输入),多轮文本对话。

    整体基于Llava1.5,包括训练数据,主要变化在于LLM换为了更小的几个版本,并且LLM增加了moe模块,进行了三阶段训练(前两个阶段和llava1.5相同,第三阶段训练moe层)。具体结构包含:基于CLIP的视觉编码器,以及多个小语言解码器(添加moe层),使用最简单的两层FC构成MLP映射视觉特征到文本长度。

2、亮点

    论文中作者的总结贡献分为三点:

    *探索了 MoE-tuning,这是一种新的三阶段训练策略,用于将 MoE 适应 LVLM,并防止稀疏引起的模型退化。

    *提出了 MoE-LLAVA,这是一种基于 MoE 的稀疏 LVLM 框架,在保持计算成本的同时显着扩展了参数的数量。

    *广泛的实验表明,MoE-LLAVA 在多模态理解和幻觉抑制方面显示出巨大潜力在多个视觉理解数据集上仅使用


http://www.kler.cn/a/228696.html

相关文章:

  • EasyControl:首个登陆AWS Marketplace的中国MDM先锋
  • VLAN基础理论
  • CamemBERT:一款出色的法语语言模型
  • 解决 Error: Invalid or corrupt jarfile day04_studentManager.jar 报错问题
  • 使用SIPP发起媒体流性能测试详解
  • Vue3 nginx 打包后遇到的问题
  • 《Python 网络爬虫简易速速上手小册》第1章:Python 网络爬虫基础(2024 最新版)
  • Palworld幻兽帕鲁自建服务器32人联机开黑!
  • layui
  • AI专题:海外科技巨头指引,AI主线逻辑依旧坚挺
  • MySQL学习记录——삼 库的操作
  • ES6中新增Array.of()函数的用法详解
  • python Flask 写一个简易的 web 端程序(附demo)
  • Flutter 网络请求之Dio库
  • 【QT+QGIS跨平台编译】之二十五:【geos+Qt跨平台编译】(一套代码、一套框架,跨平台编译)
  • 【机器学习】某闯关类手游用户流失预测
  • 【算法】枚举——蓝桥杯、日期统计、特殊日期(位数之和)、2023、特殊日期(倍数)、跑步锻炼
  • 安科瑞消防设备电源监控系统在杭后旗医院项目的设计与应用
  • VUE3+TS使用OpenSeadragon学习之旅,实现多图片切换效果
  • sklearn实现数据标准化(Standardization)和归一化(Normalization)
  • 通过大疆PSDK,将第三方摄像头的视频流推到M300遥控器显示
  • Android 应用添加系统签名权限的几种方式实现介绍
  • 算法每日一题: 使用循环数组所有元素相等的最少秒数 | 哈希
  • 按时间维度统计次数案例
  • Unity 开发注意事项
  • arping交叉编译