当前位置: 首页 > article >正文

阿里最新发布Qwen2-VL:看视频的AI到底能干些什么惊人的事?

68747470733a2f2f7169616e77656e2d7265732e6f73732d616363656c65726174652d6f766572736561732e616c6979756e63732e636f6d2f5177656e322d564c2f7177656e32564c5f6c6f676f2e706e67.png

Qwen2-VL

阿里云最新推出的 Qwen2-VL 模型,就像是给 AI 装上了一双火眼金睛,不仅能看懂图片,还能理解长达20分钟的视频!从官方给出的数据来看 Qwen2-VL 的参数还能比肩 GPT-4o,那么 Qwen2-VL 到底强在哪些地方呢?本文继续带你了解。

Qwen2-VL

image.png

视觉语言模型 Qwen2-VL

想象一下,有一个 AI 助手,它不仅能和你聊天,还能"看"懂你给它的任何图片和视频。这不是科幻电影里的场景,而是阿里云刚刚推出的 Qwen2-VL 模型带来的现实。作为新一代视觉语言模型,Qwen2-VL在图像理解、视频分析和多语言处理方面都展现出了惊人的能力。

Qwen2-VL 目前一共三个版本:

Qwen2-VL-72B:这是家族中的大哥,拥有720亿参数,是真正的 AI 巨人。它在各项测试中表现出色,甚至在某些任务上超越了 GPT-4o 和Claude3.5-Sonnet等知名闭源模型。

Qwen2-VL-7B:这是中庸之选,有70亿参数。它保留了对图像、多图和视频的处理能力,在性能和成本之间找到了绝佳平衡点。

Qwen2-VL-2B:这是家族中的小弟,仅有20亿参数。别小看它,这个"袖珍版"是为移动设备量身打造的,在图像、视频和多语言理解方面表现出色。

Qwen2-VL架构组成

image.png

Qwen2-VL 的模组架构

与以前不同,Qwen2-VL 可以处理任意图像分辨率,将它们映射到动态数量的视觉标记中,从而提供更接近人类的视觉处理体验。多模态旋转位置嵌入会将位置嵌入分解到零件中,以捕获 1D 文本、2D 视觉和 3D 视频位置信息,从而增强其多模态处理能力。

Qwen2-VL 的主要功能有:

1 :SoTA对各种分辨率和比例的图像的理解:Qwen2-VL 在视觉理解基准上达到了最先进的性能,包括MathVista、DocVQA、RealWorldQA、MTVQA 等。

2 :理解 20min+ 视频:Qwen2-VL 具备在线推流功能,通过高质量的视频问答、对话、内容创作等方式,可以理解 20 分钟以上的视频。

3:可以操作您的手机、机器人等的代理:Qwen2-VL 具有复杂的推理和决策能力,可以与手机、机器人等设备集成,根据视觉环境和文本指令进行自动操作。

4:多语言支持:为了服务全球用户,除了英文和中文外,Qwen2-VL 现在还支持理解图像中不同语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

性能对比

image.png

Qwen2-VL 官方性能对比展示

Qwen2-VL 在多项权威测试中都展现出了惊人的实力。在 MathVista、DocVQA、RealWorldQA和MTVQA等视觉理解基准测试中,Qwen2-VL  都取得了全球领先的成绩。

特别值得一提的是,在72B版本的测试中,Qwen2-VL 在多项指标上甚至超越了 GPT-4o 这样的 AI 巨头。虽然在综合性的大学题目上还有一定差距,但在文档理解等特定任务上,Qwen2-VL 展现出了明显优势。

即使是参数较少的7B版本,其性能也达到了同等规模模型中的顶尖水平。特别是在文档理解和多语言文字理解方面,它的表现尤为出色。

实操表现

image.png

Qwen2-VL 实操展示

Qwen2-VL 在实际应用中的表现同样令人印象深刻。在文档理解方面,它能准确提取复杂表格中的信息,甚至能理解手写笔记。

在视频分析方面,Qwen2-VL 的表现也非常的不错。外网目前有一个火爆了的视频,视频中的 Qwen2-VL 可以实时反应这个视频中的内容,包括物品识别、计算视频中的数学题等等。

image.png

外网对 Qwen2-VL 的测试

目前外网很多用户都在对Qwen2-VL进行测试,基本上是一致的好评,感觉Qwen2-VL还有更多的玩法等待用户们去挖掘,从这也能看出Qwen2-VL的发布是十分成功的。不知道你们觉得Qwen2-VL所带来的效果如何呢?

 有关厚德云

厚德云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在厚德云。


http://www.kler.cn/a/282856.html

相关文章:

  • 【数据结构】AVL树
  • Flink中自定义Source和Sink的使用
  • Docker 的安装与使用
  • datastage在升级版本到11.7之后,部分在11.3上正常执行的SP报错SQLSTATE = 22007: 本机错误代码 = -180
  • 【Excel】ToRow超级查找函数
  • mysql 配置文件 my.cnf 增加 lower_case_table_names = 1 服务启动不了的原因
  • gui.js可视化插件的使用
  • 前端需调用后端数据作为判断条件
  • spring揭秘14-JdbcTemplate概述与使用操作对象访问数据
  • CSS 嵌套元素的隐藏规则
  • Spring Boot DevTools:简化开发,实现热部署
  • 棱镜七彩参编的又一国家标准正式发布!
  • 探索音视频SDK在软件集成与私有化部署中的技术难题与解决策略
  • JAVA基础:文件字符流
  • C#高效异步文件监控与日志记录工具
  • Apache RocketMQ 中文社区全新升级丨阿里云云原生 7 月产品月报
  • 解决IDEA 控制台中文乱码及无法输入中文
  • MacOS通过Docker部署MySQL数据库,以及Docker Desktop进行管理
  • C++ 快速输入的优化与缓冲区管理(竞赛必用)
  • 使用requests库发起post请求处理json的两种方式
  • ROS 2 Jazzy和QT组合开发教程
  • 音频PCM的能量dB计算
  • 一个符合软件开发工程师认知的思考框架简单了解下
  • 1899. 最满意的方案
  • 盛元广通高等级生物安全实验室管理系统2.0
  • 【私有云场景案例分享②】批量装包与冒烟测试的自动化实现