阿里推出QVQ 视觉推理模型,解锁视觉智能新维度
年末将至,大家有没有收到跨年礼物呢,最近,小编发现AI领域倒是送出了很多年终大礼,前几天OpenAI宣布推出o3模型,这不,阿里也送上了今年最后一份礼物 —“眼睛”模型QVQ。
【图片来源于网络,侵删】
是不是很形象?这可能是全球第一个用于视觉推理的开源权重模型,其中的“V”代表视觉。它只需读取一张图像和一条指令,就能开始思考,在需要时进行反思,持续推理,最后得出有把握的预测!
QVQ能干嘛?
样样精通的文理全能学霸!
先来看一下视觉数学问题解决的一个例子:
【视频来源于网络,侵删】
不仅能答题,还能读图数鸭子:
【视频来源于网络,侵删】
从性能表现上看,他们在四个数据集中评估了QVQ-72B-Preview,包括MMMU、MathVista、MathVision、OlympiadBench。
值得一提的是, QVQ-72B-Preview 在 MMMU 基准测试中取得了令人印象深刻的 70.3 分,远远超过其前身 Qwen2-VL-72B-Instruct。
此外,在其余三个针对数学和科学问题的基准测试中, QVQ-72B-Preview表现也很不错,缩小了与o1 模型的差距。
【图片来源于网络,侵删】
这里科普下这次的四个数据集:
1. MMMU:一所大学级多学科多模态评估数据集,旨在评估模型的视觉相关的综合理解和推理能力。
2. MathVista:以数学为中心的视觉推理测试集,使用谜题测试图形评估逻辑推理、使用函数图评估代数推理、使用学术论文图形评估科学推理等能力。
3. MathVision:源自真实数学竞赛的高质量多模态数学推理测试集,与 MathVista 相比具有更大的问题多样性和主题广度。
4. OlympiadBench:奥林匹克竞赛级双语多模态科学基准测试集,包含 8,476 道奥林匹克数学和物理竞赛题,包括中国高考。每道题都附有专家级注释,详细说明了分步推理过程。
尽管QVQ展示了令人惊叹的能力,但目前该模型还处于实验研究阶段,仍有一些局限性:
1. 语言混合与切换:模型可能会在不同语言间切换,影响表达的清晰度;
2. 递归推理问题:在某些情况下,模型可能陷入循环逻辑,导致冗长却无结论的回答;
3. 安全与伦理问题:模型需要更高的安全性保障,用户在部署时需格外谨慎;
4. 性能与基准限制:在多步视觉推理中,模型可能逐渐失去对图像内容的关注,产生“幻觉”结果。
据官方透露,他们的愿景是开发一个全方位的智能模型,使其具有基于视觉信息的深度思考和推理的高级功能,从而能够应对复杂的挑战并参与科学探索。
不得不说,2024年的AI领域真是惊喜不断。 不论是Sora 年末的 AI 视频带来的惊喜,还是o3破解最难数学题成为AI推理新起点带来的震撼,都在告示着AI正成为新的科技坐标,也在定义着下一个时代的科技。
小编也有一种预感:AGI这座大山,我们越来越接近。到那时,随着算力的使用门槛越来越低,AI或许能以最自然的方式进入我们的日常生活。
对于这次阿里推出的QVQ模型,大家有什么看法呢?欢迎在评论区留言~