当前位置：首页 > article >正文

阿里最新发布Qwen2-VL：看视频的AI到底能干些什么惊人的事？

article 2024/11/15 22:59:39

68747470733a2f2f7169616e77656e2d7265732e6f73732d616363656c65726174652d6f766572736561732e616c6979756e63732e636f6d2f5177656e322d564c2f7177656e32564c5f6c6f676f2e706e67.png

Qwen2-VL

阿里云最新推出的 Qwen2-VL 模型，就像是给 AI 装上了一双火眼金睛，不仅能看懂图片，还能理解长达20分钟的视频！从官方给出的数据来看 Qwen2-VL 的参数还能比肩 GPT-4o，那么 Qwen2-VL 到底强在哪些地方呢？本文继续带你了解。

Qwen2-VL

视觉语言模型 Qwen2-VL

想象一下，有一个 AI 助手，它不仅能和你聊天，还能"看"懂你给它的任何图片和视频。这不是科幻电影里的场景，而是阿里云刚刚推出的 Qwen2-VL 模型带来的现实。作为新一代视觉语言模型，Qwen2-VL在图像理解、视频分析和多语言处理方面都展现出了惊人的能力。

Qwen2-VL 目前一共三个版本：

Qwen2-VL-72B：这是家族中的大哥，拥有720亿参数，是真正的 AI 巨人。它在各项测试中表现出色，甚至在某些任务上超越了 GPT-4o 和Claude3.5-Sonnet等知名闭源模型。

Qwen2-VL-7B：这是中庸之选，有70亿参数。它保留了对图像、多图和视频的处理能力，在性能和成本之间找到了绝佳平衡点。

Qwen2-VL-2B：这是家族中的小弟，仅有20亿参数。别小看它，这个"袖珍版"是为移动设备量身打造的，在图像、视频和多语言理解方面表现出色。

Qwen2-VL架构组成

Qwen2-VL 的模组架构

与以前不同，Qwen2-VL 可以处理任意图像分辨率，将它们映射到动态数量的视觉标记中，从而提供更接近人类的视觉处理体验。多模态旋转位置嵌入会将位置嵌入分解到零件中，以捕获 1D 文本、2D 视觉和 3D 视频位置信息，从而增强其多模态处理能力。

Qwen2-VL 的主要功能有：

1 :SoTA对各种分辨率和比例的图像的理解：Qwen2-VL 在视觉理解基准上达到了最先进的性能，包括MathVista、DocVQA、RealWorldQA、MTVQA 等。

2 :理解 20min+ 视频：Qwen2-VL 具备在线推流功能，通过高质量的视频问答、对话、内容创作等方式，可以理解 20 分钟以上的视频。

3：可以操作您的手机、机器人等的代理：Qwen2-VL 具有复杂的推理和决策能力，可以与手机、机器人等设备集成，根据视觉环境和文本指令进行自动操作。

4：多语言支持：为了服务全球用户，除了英文和中文外，Qwen2-VL 现在还支持理解图像中不同语言的文本，包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

性能对比

Qwen2-VL 官方性能对比展示

Qwen2-VL 在多项权威测试中都展现出了惊人的实力。在 MathVista、DocVQA、RealWorldQA和MTVQA等视觉理解基准测试中，Qwen2-VL 都取得了全球领先的成绩。

特别值得一提的是，在72B版本的测试中，Qwen2-VL 在多项指标上甚至超越了 GPT-4o 这样的 AI 巨头。虽然在综合性的大学题目上还有一定差距，但在文档理解等特定任务上，Qwen2-VL 展现出了明显优势。

即使是参数较少的7B版本，其性能也达到了同等规模模型中的顶尖水平。特别是在文档理解和多语言文字理解方面，它的表现尤为出色。

实操表现

Qwen2-VL 实操展示

Qwen2-VL 在实际应用中的表现同样令人印象深刻。在文档理解方面，它能准确提取复杂表格中的信息，甚至能理解手写笔记。

在视频分析方面，Qwen2-VL 的表现也非常的不错。外网目前有一个火爆了的视频，视频中的 Qwen2-VL 可以实时反应这个视频中的内容，包括物品识别、计算视频中的数学题等等。

外网对 Qwen2-VL 的测试

目前外网很多用户都在对Qwen2-VL进行测试，基本上是一致的好评，感觉Qwen2-VL还有更多的玩法等待用户们去挖掘，从这也能看出Qwen2-VL的发布是十分成功的。不知道你们觉得Qwen2-VL所带来的效果如何呢？

有关厚德云

厚德云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用，就在厚德云。

查看全文

http://www.kler.cn/a/282856.html

【数据结构】AVL树

Flink中自定义Source和Sink的使用

Docker 的安装与使用

datastage在升级版本到11.7之后，部分在11.3上正常执行的SP报错SQLSTATE = 22007: 本机错误代码 = -180

【Excel】ToRow超级查找函数

mysql 配置文件 my.cnf 增加 lower_case_table_names = 1 服务启动不了的原因

gui.js可视化插件的使用

前端需调用后端数据作为判断条件

spring揭秘14-JdbcTemplate概述与使用操作对象访问数据

CSS 嵌套元素的隐藏规则

Spring Boot DevTools：简化开发，实现热部署

棱镜七彩参编的又一国家标准正式发布！

探索音视频SDK在软件集成与私有化部署中的技术难题与解决策略

JAVA基础：文件字符流

C#高效异步文件监控与日志记录工具

Apache RocketMQ 中文社区全新升级丨阿里云云原生 7 月产品月报

解决IDEA 控制台中文乱码及无法输入中文

MacOS通过Docker部署MySQL数据库,以及Docker Desktop进行管理

C++ 快速输入的优化与缓冲区管理(竞赛必用)

使用requests库发起post请求处理json的两种方式

ROS 2 Jazzy和QT组合开发教程

音频PCM的能量dB计算

一个符合软件开发工程师认知的思考框架简单了解下

1899. 最满意的方案

盛元广通高等级生物安全实验室管理系统2.0

【私有云场景案例分享②】批量装包与冒烟测试的自动化实现

Qwen2-VL

Qwen2-VL架构组成

性能对比

实操表现

相关文章：