通义视觉推理大模型QVQ-72B-preview重磅上线
Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。
QVQ-72B-Preview在多项基准测试中均取得了优异表现。在多模态大规模多任务理解 (MMMU) 基准测试中,其得分高达 70.3%,展现了 QVQ 在多学科理解和推理方面的强大能力。此外,在 MathVision 上的显著改进凸显了该模型在数学推理任务上的进步。OlympiadBench 也展示了该模型在解决挑战性问题方面的能力增强。
相关链接
-
试用:face.co/spaces/Qwen/QVQ-72B-preview
-
模型:https://huggingface.co/Qwen/QVQ-72B-Preview
结果展示
物理题
回答:
化学题
数学题
视觉问答
局限性
虽然QVQ-72B-Preview表现出超出预期的良好性能,但也存在几个局限性:
-
语言混合和代码转换:模型可能偶尔会混合不同的语言或在它们之间意外切换,这可能会影响其响应的清晰度。
-
递归推理循环: 模型可能陷入递归推理循环,导致冗长的响应甚至无法得出最终答案。
-
安全和道德考虑:需要采取强有力的安全措施来确保可靠和安全的性能。用户在部署此模型时应谨慎行事。
-
性能和基准测试限制:尽管视觉推理有所改进,但 QVQ 并不能完全取代 Qwen2-VL-72B 的功能。在多步视觉推理过程中,模型可能会逐渐失去对图像内容的关注,从而导致幻觉。此外,在识别人、动物或植物等基本识别任务中,QVQ 并没有显示出比 Qwen2-VL-72B 有显著的改进。
注:目前模型仅支持单轮对话和图片输出,暂不支持视频输入。