当前位置: 首页 > article >正文

阿里推出QVQ 视觉推理模型,解锁视觉智能新维度

年末将至,大家有没有收到跨年礼物呢,最近,小编发现AI领域倒是送出了很多年终大礼,前几天OpenAI宣布推出o3模型,这不,阿里也送上了今年最后一份礼物 —“眼睛”模型QVQ。

【图片来源于网络,侵删】

是不是很形象?这可能是全球第一个用于视觉推理的开源权重模型,其中的“V”代表视觉。它只需读取一张图像和一条指令,就能开始思考,在需要时进行反思,持续推理,最后得出有把握的预测!

QVQ能干嘛?

样样精通的文理全能学霸!

先来看一下视觉数学问题解决的一个例子:

【视频来源于网络,侵删】

不仅能答题,还能读图数鸭子:

【视频来源于网络,侵删】

从性能表现上看,他们在四个数据集中评估了QVQ-72B-Preview,包括MMMU、MathVista、MathVision、OlympiadBench。

值得一提的是, QVQ-72B-Preview 在 MMMU 基准测试中取得了令人印象深刻的 70.3 分,远远超过其前身 Qwen2-VL-72B-Instruct。

此外,在其余三个针对数学和科学问题的基准测试中, QVQ-72B-Preview表现也很不错,缩小了与o1 模型的差距。

【图片来源于网络,侵删】

这里科普下这次的四个数据集:

1. MMMU:一所大学级多学科多模态评估数据集,旨在评估模型的视觉相关的综合理解和推理能力。

2. MathVista:以数学为中心的视觉推理测试集,使用谜题测试图形评估逻辑推理、使用函数图评估代数推理、使用学术论文图形评估科学推理等能力。

3. MathVision:源自真实数学竞赛的高质量多模态数学推理测试集,与 MathVista 相比具有更大的问题多样性和主题广度。

4. OlympiadBench:奥林匹克竞赛级双语多模态科学基准测试集,包含 8,476 道奥林匹克数学和物理竞赛题,包括中国高考。每道题都附有专家级注释,详细说明了分步推理过程。

尽管QVQ展示了令人惊叹的能力,但目前该模型还处于实验研究阶段,仍有一些局限性:

1. 语言混合与切换:模型可能会在不同语言间切换,影响表达的清晰度;

2. 递归推理问题:在某些情况下,模型可能陷入循环逻辑,导致冗长却无结论的回答;

3. 安全与伦理问题:模型需要更高的安全性保障,用户在部署时需格外谨慎;

4. 性能与基准限制:在多步视觉推理中,模型可能逐渐失去对图像内容的关注,产生“幻觉”结果。

据官方透露,他们的愿景是开发一个全方位的智能模型,使其具有基于视觉信息的深度思考和推理的高级功能,从而能够应对复杂的挑战并参与科学探索。

不得不说,2024年的AI领域真是惊喜不断。 不论是Sora 年末的 AI 视频带来的惊喜,还是o3破解最难数学题成为AI推理新起点带来的震撼,都在告示着AI正成为新的科技坐标,也在定义着下一个时代的科技。

小编也有一种预感:AGI这座大山,我们越来越接近。到那时,随着算力的使用门槛越来越低,AI或许能以最自然的方式进入我们的日常生活。

对于这次阿里推出的QVQ模型,大家有什么看法呢?欢迎在评论区留言~


http://www.kler.cn/a/453591.html

相关文章:

  • pytorch MoE(专家混合网络)的简单实现。
  • 300多种复古手工裁剪拼贴艺术时尚字母、数字、符号海报封面Vlog视频MOV+PNG素材
  • 5.近实时数仓数据更新和ID 管理上的优化方案
  • linux下各文件类型与作用
  • stm32基础(keil创建、Proteus仿真、点亮LED灯,7段数码管)
  • 查看php已安装扩展命令
  • day17-18-进程管理和系统资源管理
  • GPT-O3:简单介绍
  • 【Ubuntu学习】另一个程序已锁定文件的一部分,进程无法访问
  • 从零开始C++棋牌游戏开发之第三篇:游戏的界面布局设计
  • Android Https和WebView
  • 命令行之巅:Linux Shell编程的至高艺术(上)
  • 链游破局之路:如何打破边缘化,获得更好的发展
  • [Unity Shader]【图形渲染】 Shader数学基础13-模型空间,世界空间和观察空间的转换
  • GPIO+TIM(无PWM)实现呼吸灯功能
  • Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
  • mysql三种读取模式(普通、流式、游标)
  • node.js web框架koa的使用
  • Sealos Devbox 基础教程:使用 Cursor 从零开发一个 One API 替代品
  • ip-协议
  • OpenAI 12天发布会:AI革命的里程碑@附35页PDF文件下载
  • C语言练习-if语句
  • 【JavaEE】网络(6)
  • vulnhub靶场【shuriken】之node
  • 如何永久解决Apache Struts文件上传漏洞
  • Matrix-Breakout 2 Morpheus(找到第一个flag)