当前位置：首页 > article >正文

阿里推出QVQ 视觉推理模型，解锁视觉智能新维度

article 2025/3/2 4:17:11

年末将至，大家有没有收到跨年礼物呢，最近，小编发现AI领域倒是送出了很多年终大礼，前几天OpenAI宣布推出o3模型，这不，阿里也送上了今年最后一份礼物 —“眼睛”模型QVQ。

【图片来源于网络，侵删】

是不是很形象？这可能是全球第一个用于视觉推理的开源权重模型，其中的“V”代表视觉。它只需读取一张图像和一条指令，就能开始思考，在需要时进行反思，持续推理，最后得出有把握的预测！

QVQ能干嘛?

样样精通的文理全能学霸！

先来看一下视觉数学问题解决的一个例子：

【视频来源于网络，侵删】

不仅能答题，还能读图数鸭子：

【视频来源于网络，侵删】

从性能表现上看，他们在四个数据集中评估了QVQ-72B-Preview，包括MMMU、MathVista、MathVision、OlympiadBench。

值得一提的是， QVQ-72B-Preview 在 MMMU 基准测试中取得了令人印象深刻的 70.3 分，远远超过其前身 Qwen2-VL-72B-Instruct。

此外，在其余三个针对数学和科学问题的基准测试中， QVQ-72B-Preview表现也很不错，缩小了与o1 模型的差距。

【图片来源于网络，侵删】

这里科普下这次的四个数据集：

1. MMMU：一所大学级多学科多模态评估数据集，旨在评估模型的视觉相关的综合理解和推理能力。

2. MathVista：以数学为中心的视觉推理测试集，使用谜题测试图形评估逻辑推理、使用函数图评估代数推理、使用学术论文图形评估科学推理等能力。

3. MathVision：源自真实数学竞赛的高质量多模态数学推理测试集，与 MathVista 相比具有更大的问题多样性和主题广度。

4. OlympiadBench：奥林匹克竞赛级双语多模态科学基准测试集，包含 8,476 道奥林匹克数学和物理竞赛题，包括中国高考。每道题都附有专家级注释，详细说明了分步推理过程。

尽管QVQ展示了令人惊叹的能力，但目前该模型还处于实验研究阶段，仍有一些局限性：

1. 语言混合与切换：模型可能会在不同语言间切换，影响表达的清晰度；

2. 递归推理问题：在某些情况下，模型可能陷入循环逻辑，导致冗长却无结论的回答；

3. 安全与伦理问题：模型需要更高的安全性保障，用户在部署时需格外谨慎；

4. 性能与基准限制：在多步视觉推理中，模型可能逐渐失去对图像内容的关注，产生“幻觉”结果。

据官方透露，他们的愿景是开发一个全方位的智能模型，使其具有基于视觉信息的深度思考和推理的高级功能，从而能够应对复杂的挑战并参与科学探索。

不得不说，2024年的AI领域真是惊喜不断。不论是Sora 年末的 AI 视频带来的惊喜，还是o3破解最难数学题成为AI推理新起点带来的震撼，都在告示着AI正成为新的科技坐标，也在定义着下一个时代的科技。

小编也有一种预感：AGI这座大山，我们越来越接近。到那时，随着算力的使用门槛越来越低，AI或许能以最自然的方式进入我们的日常生活。

对于这次阿里推出的QVQ模型，大家有什么看法呢？欢迎在评论区留言~

查看全文

http://www.kler.cn/a/453591.html

day17-18-进程管理和系统资源管理

GPT-O3：简单介绍

【Ubuntu学习】另一个程序已锁定文件的一部分，进程无法访问

从零开始C++棋牌游戏开发之第三篇：游戏的界面布局设计

Android Https和WebView

命令行之巅：Linux Shell编程的至高艺术（上）

链游破局之路：如何打破边缘化，获得更好的发展

[Unity Shader]【图形渲染】 Shader数学基础13-模型空间，世界空间和观察空间的转换

GPIO+TIM(无PWM)实现呼吸灯功能

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

mysql三种读取模式（普通、流式、游标）

node.js web框架koa的使用

Sealos Devbox 基础教程：使用 Cursor 从零开发一个 One API 替代品

ip-协议

OpenAI 12天发布会：AI革命的里程碑@附35页PDF文件下载

C语言练习-if语句

【JavaEE】网络（6）

vulnhub靶场【shuriken】之node

如何永久解决Apache Struts文件上传漏洞

Matrix-Breakout 2 Morpheus(找到第一个flag)

相关文章：