当前位置: 首页 > article >正文

通义视觉推理大模型QVQ-72B-preview重磅上线

Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。

QVQ-72B-Preview在多项基准测试中均取得了优异表现。在多模态大规模多任务理解 (MMMU) 基准测试中,其得分高达 70.3%,展现了 QVQ 在多学科理解和推理方面的强大能力。此外,在 MathVision 上的显著改进凸显了该模型在数学推理任务上的进步。OlympiadBench 也展示了该模型在解决挑战性问题方面的能力增强。

相关链接

  • 试用:face.co/spaces/Qwen/QVQ-72B-preview

  • 模型:https://huggingface.co/Qwen/QVQ-72B-Preview

结果展示

物理题

回答

化学题

数学题

视觉问答

局限性

虽然QVQ-72B-Preview表现出超出预期的良好性能,但也存在几个局限性:

  • 语言混合和代码转换:模型可能偶尔会混合不同的语言或在它们之间意外切换,这可能会影响其响应的清晰度。

  • 递归推理循环: 模型可能陷入递归推理循环,导致冗长的响应甚至无法得出最终答案。

  • 安全和道德考虑:需要采取强有力的安全措施来确保可靠和安全的性能。用户在部署此模型时应谨慎行事。

  • 性能和基准测试限制:尽管视觉推理有所改进,但 QVQ 并不能完全取代 Qwen2-VL-72B 的功能。在多步视觉推理过程中,模型可能会逐渐失去对图像内容的关注,从而导致幻觉。此外,在识别人、动物或植物等基本识别任务中,QVQ 并没有显示出比 Qwen2-VL-72B 有显著的改进。

注:目前模型仅支持单轮对话和图片输出,暂不支持视频输入。


http://www.kler.cn/a/468744.html

相关文章:

  • Mybatis(day09)
  • LInux单机安装Redis
  • 从configure.ac到构建环境:解析Mellanox OFED内核模块构建脚本
  • 详解GPT-信息抽取任务 (GPT-3 FAMILY LARGE LANGUAGE MODELS)
  • 【golang】go errors 处理错误追踪打印堆栈信息
  • SQL中聚类后字段数据串联字符串方法研究
  • 虚拟机安装黑群晖
  • 八大排序的相关内容
  • 《learn_the_architecture_-_generic_interrupt_controller_v3_and_v4__overview》学习笔记
  • 使用 LlamaIndex 构建智能文档查询系统
  • 如何在 PC/无 PC 上从 Android 手机 SD 卡恢复已删除的文件
  • 商业领域 - 竞标极简理解
  • 音视频入门基础:MPEG2-PS专题(3)——MPEG2-PS格式简介
  • 如何在 Spring Cloud Gateway 中创建全局过滤器、局部过滤器和自定义条件过滤器
  • 【办公类-47-02】20250103 课题资料快速打印(单个docx转PDF,多个pdf合并一个PDF 打印)
  • springmvc--请求参数的绑定
  • scala基础学习_判断循环
  • PHP伪协议:理解与安全防护
  • 基于 Spring 的自定义注解和请求拦截器实现认证机制
  • Win32汇编学习笔记05
  • 直接插入排序、折半插入排序、2路插入排序、希尔排序
  • C++软件设计模式之备忘录模式
  • “智能筛查新助手:AI智能筛查分析软件系统如何改变我们的生活
  • 实习第一周笔记
  • Scala 访问修饰符
  • Qt之FFmpeg播放器设计(十七)