阿里巴巴对deepseek回应
行业背景与发布契机
当杭州的DeepSeek在相关领域展现实力时,阿里巴巴为了在技术竞争中占据一席之地,推出新的视觉 - 语言模型,试图吸引行业关注。
Qwen2.5 - VL系列模型发布详情
-
模型介绍:阿里巴巴发布Qwen2.5 - VL系列视觉 - 语言模型,该系列有三个不同参数规模的版本,分别为30亿、70亿和720亿参数。模型可接收图像和文本作为输入,并输出文本。
-
下载与使用许可:三个版本模型权重均可在Hugging Face下载,但许可协议不同。Qwen2.5 - VL - 3B仅非商业用途免费;Qwen2.5 - VL - 7B基于Apache 2.0许可,商业与非商业用途都免费;Qwen2.5 - VL - 72B针对月活少于1亿的开发者免费。同时,用户可在阿里巴巴模型工作室限时免费试用,720亿参数版本还能在通义千问聊天界面通过模型选择器使用。这些不同的许可策略有助于满足不同用户群体的需求,扩大模型的应用范围。
Qwen2.5 - VL模型工作原理
-
输入输出限制:依据开发者参考文档,模型输入令牌上限为129,024个(但其他来源数据有冲突),输出令牌上限为8,192个。输入输出令牌数量的限制会影响模型处理信息的规模和生成内容的长度。
-
模型架构与功能:由视觉编码器和大语言模型构成,具备解析视频、图像、文本以及操控计算机(桌面和移动设备)的能力。这种架构设计使得模型能够处理多种类型的数据,并实现与外部设备的交互,拓展了模型的应用场景。
-
视觉编码器优化:视觉编码器可处理不同尺寸图像,用不同数量令牌表示。例如不同图像可能分别用8个或1125个令牌表示,这有助于模型理解图像比例和物体坐标。同时,团队通过将注意力机制替换为窗口注意力机制,并仅在四层使用全注意力机制,减少视觉编码器计算量,提升训练和推理速度。这些优化措施在提升模型效率方面起到关键作用,使模型在处理图像相关任务时更加高效。
Qwen2.5 - VL - 72B性能测试结果
-
多领域测试表现:阿里巴巴公布了Qwen2.5 - VL - 72B在图像和文本问题、文档解析、视频理解及与计算机程序交互等多领域性能。在21项基准测试中,在可对比的情况下,13项击败微软Gemini 2.0 Flash、OpenAI的GPT - 4o、Anthropic的Claude 3.5 Sonnet及其他开源竞品。这表明该模型在多个关键领域具有较强的竞争力,性能表现出色。
-
具体测试示例:
-
在MathVista中回答图像相关数学问题,Qwen2.5 - VL - 72B准确率达74.8%,Gemini 2.0 Flash为73.1%。
-
在Video - MME测试(评估回答视频相关问题能力)中,Qwen 2.5 VL准确率73.3%,GPT - 4o为71.9%,InternVL2.5为72.1%。
-
在智能体工作流控制安卓设备和桌面UI导航时,Qwen2.5 - VL - 72B表现优于Claude 3.5 Sonnet,但在部分测试中仅次于其他开源视觉 - 语言模型。这些具体数据直观地展示了模型在不同类型任务中的优势与不足,帮助用户更清晰地了解模型性能特点。
-
阿里巴巴更多模型介绍
-
Qwen2.5 - Max:混合专家模型,在GPQA - Diamond的研究生水平科学问题测试以及Arena - Hard、LiveBench和LiveCodeBench等定期更新基准测试中,表现优于GPT - 4o和DeepSeek - V3,但不如GPT - 1和DeepSeek - R1。这说明该模型在特定领域和测试场景下具有一定优势,但在与部分顶尖模型对比时仍有提升空间。
-
Qwen2.5 - 1M:包含70亿和140亿参数的较小语言模型系列,可接受多达100万个输入上下文令牌。该系列模型针对特定需求,如处理大规模输入上下文的场景,为开发者提供了更多选择。
Qwen2.5系列模型的重要意义
-
技术发展趋势:视觉 - 语言模型功能日益强大和多样化,从过去只能回答图文混合图表问题,发展到如今能与智能体结合控制计算机和智能手机。这反映了该领域技术的快速发展,以及模型应用场景的不断拓展。
-
模型优势:Qwen2.5 - VL系列模型在不同程度上超越开源和闭源竞争对手,且具有一定开放性(尽管数据未公开),为开发者提供了多种高性能选择。这不仅推动了技术的进步,也为行业发展提供了更多可能性,促进了相关领域的创新和应用。
外界对阿里巴巴模型发布的思考
-
许可协议看法:外界对阿里巴巴发布商业使用限制较宽松的视觉 - 语言模型表示欢迎,但希望所有规模模型都遵循标准开源权重许可,这样能进一步促进模型的广泛应用和技术共享。
-
技术报告期待:期待看到阿里巴巴公布训练和微调方法的技术报告,这有助于其他研究者深入了解模型构建过程,推动整个行业的技术交流与发展。