国产开源最强?Qwen2-VL强势发布,效果实测!
大家好,趁着周末赶紧看下本周最新发布的多模态大语言模型Qwen2-VL。因为Qwen2比Qwen提升很大,而且Qwen2-VL还将开源大参数量的模型
Qwen2比Qwen强在哪里:
https://www.zhihu.com/question/658307301
Qwen2系列模型大幅提升了代码、数学、推理、指令遵循、多语言理解等能力,性能不仅超过美国最强的开源模型 Llama3-70B,也超过文心 4.0、豆包pro、混元 pro 等闭源大模型
在十几个数据集上的测试指标都超越了 Llama3-70B ,具体查看:https://modelscope.cn/models/qwen/Qwen2-72B-Instruct
和 Llama3.1 对比:https://ai.meta.com/blog/meta-llama-3-1/ 依然有一战之力
Qwen2-VL 升级
Qwen2-VL比Qwen-VL又有哪些方面提升
先看权威榜单测试排名:(来源:https://qwenlm.github.io/blog/qwen2-vl/)
从六个关键维度评估模型的视觉能力:复杂的大学水平问题解决、数学能力、文档和表格理解、多语言文本图像理解、一般场景问答、视频理解和基于代理的交互。总体而言72B 模型在大多数指标上都展示了顶级性能,甚至经常超越 GPT-4o 和 Claude 3.5-Sonnet 等闭源模型。值得注意的是,它在文档理解方面表现出了显着的优势。(等下好好测试下)
与Qwen-VL相比,Qwen2-VL具有以下能力:
1、SoTA 理解各种分辨率和比例的图像:
2、理解20分钟以上的视频:
3、可以操作手机、机器人等的智能体
4、多语言支持
Qwen2-VL 模型能力和结构:
1、识别能力增强
Qwen2-VL 改进的对象识别能力,可以理解场景中多个对象之间的复杂关系。同时提高了模型识别手写文本和图像中多种语言的能力
2、视觉推理:解决现实世界的问题
显着增强了 Qwen2-VL 的数学和编码能力。不仅能够通过分析图片来解决问题,还能够通过图表分析来解释和解决复杂的数学问题。纵横比极度扭曲的图像也可以被正确解释。
3、视频理解和实时聊天
VITA 和 Intern2VL 团队也将发布,可关注下后续开源情况
腾讯开源VITA!全方位对标GPT4o,全能多模态交互大模型!
https://github.com/OpenGVLab/InternVL
4、视觉Agent能力:函数调用和视觉交互
值得期待
官方测试案例,基于航班截图,自动调用插件查询天气情况:
模型结构:
Qwen2-VL继续采用 Qwen-VL 架构,Qwen-VL 架构结合了 Vision Transformer (ViT) 和 Qwen2 语言模型,拥有约6亿参数。Qwen2-VL 引入了 Naive Dynamic Resolution,能处理任意分辨率图像,映射到动态视觉标记,模拟人类视觉感知,处理各种清晰度图像。
另一个关键的架构增强是多模式旋转位置嵌入 (M-ROPE)的创新。通过将原始旋转嵌入解构为表示时间和空间(高度和宽度)信息的三个部分,M-ROPE 使LLM能够同时捕获和集成 1D 文本、2D 视觉和 3D 视频位置信息。
Qwen2-VL 文档理解能力实测:
这里将基于Qwen2-VL官方的72B和InternVL2-26B在线demo对发票和体检报告的OCR、关键信息抽取和结构化输出等能力做一个简单的测评
Qwen2-VL 72B:
1)https://huggingface.co/spaces/Qwen/Qwen2-VL
2)https://modelscope.cn/studios/qwen/Qwen2-VL
InternVL2-26B:
InternVL2:https://internvl.opengvlab.com/(26B)
1、以发票识别为例:
结构相对比较复杂,结构化识别难度大
相同的prompt:将上面的信息结构化输出,输出格式要求以json的结构输出
Qwen2-VL(两个网站上都测试了,都存在类似的错误):
识别结果(删除一些不重要的信息-都对的):
{ "发票代码": "051001800211",
"发票号码": "65281307",
"开票日期": "2019年02月23日",
"校验码": "02259002865525349387",
"购买方": {
"名称": "西华大学",
"纳税人识别号": "12510000450717578X",
"地址、电话": "",
"开户行及账号": ""
},
"货物或应税劳务、服务名称": "印刷品*项目经济性分析与评价",
"规格型号": "",
"单位": "套",
"数量": 1,
"单价": "35.50000",
"金额": "35.50",
"税率": "免税",
"税额": "",
"价税合计": "79.80",
InternVL2:https://internvl.opengvlab.com/(26B)
识别结果:
{
"发票代码": "051001800211",
"发票号码": "65281307",
"开票日期": "2019年02月23日",
"校验码": "02259 00286 55253 49387",
"购买方": {
"名称": "西华大学",
"纳税人识别号": "12510000450717578Y",
"地址、电话": "",
"开户行及账号": ""
},
"货物或应税劳务、服务名称": [
{
"名称": "印刷品*项目经济性分析与评价",
"规格型号": "",
"单位": "套",
"数量": 1,
"单价": "35.5000",
"金额": "35.50"
},
{
"名称": "印刷品*投资项目可行性分析——理论精要与案例解析(第3版)",
"规格型号": "",
"单位": "套",
"数量": 1,
"单价": "44.3000",
"金额": "44.30"
}
],
"价税合计": {
"小写": "¥79.80",
"大写": "柒拾玖元捌角"
}
识别结果对比(单从上面的例子来看):
1、OCR识别的能力:InternVL2 - 26B的效果稍微优于Qwen2-VL 72B
理由:购买方的"纳税人识别号": "12510000450717578Y"的 Y 被QWen2-VL识别错误为X,而InternVL2正确识别
2、关键信息提取能力:InternVL2 - 26B的效果明显优于Qwen2-VL 72B
对于票据中间的多项内容的信息提取和结构化,Qwen2-VL基本上只提取了一项,对于整体结构理解还是差了点
2、以体检识别为例:
以下识别结果中删除一些不重要的信息-都对的,便于观察
Qwen2-VL识别结果:
{
"医院": "应城市人民医院",
"标本号": "2",
"姓名": "XXX",
"性别": "男",
"年龄": "31岁",
"病历号": "0000636103",
"科室": "体检保健科",
"床号": "",
"病人类型": "门诊",
"标本类型": "全血",
"送检日期": "2014/07/01",
"临床诊断": "",
"检验日期": "2014/07/01",
"报告日期": "2014/07/01 07:53",
"检验师": "张艳红",
"审核者": "龚军",
"备注": "",
"检验结果": [
{
"项目": "WBC 白细胞",
"结果": "10.43↑",
"参考值": "4--10 10^9/L"
},
{
"项目": "RBC 红细胞",
"结果": "4.76",
"参考值": "4--5.5 10^12/L"
},
InternVL2识别结果:
{
"检验报告单": {
"医院名称": "应城市人民医院",
"标本号": "2",
"临床血液": {
"姓名": "[redacted]",
"性别": "男",
"年龄": "31岁",
"病历号": "0000636103",
"科室": "体检保健科",
"床号": "",
"病人类型": "门诊",
"样本类型": "全血",
"送检日期": "2014/07/01",
"临床诊断": "",
"医生": "龚军",
"检验师": "张艳红",
"审核者": "[signature]"
},
"检验结果": {
"WBC": {"结果": "10.43", "参考值": "4--10 10^9/L", "状态": "↑"},
"RBC": {"结果": "4.76", "参考值": "4--5.5 10^12/L"},
识别结果对比(单从上面的例子来看):
1、OCR识别的能力:基本差不多
2、关键信息提取:InternVL2 略胜一筹
理由:在医生、审核者关联上,Qwen2-VL 出错,而 InternVL2 虽未合并“送检医生”信息,但整体识别更佳。体检项目代号与项目名的整合上,Qwen2-VL 表现更好。
总体上,个人感觉在这两个测试案例上,InternVL2还是要优秀一些。
最后,看到这里的小伙伴多帮忙转发、分享、点赞。后续为大家分析更多最近的成果,感谢
项目地址:
代码:https://github.com/QwenLM/Qwen2-VL/
博客:https://qwenlm.github.io/blog/qwen2-vl/
其他参考链接:
Qwen2:https://www.zhihu.com/question/658307301
Qwen2:https://modelscope.cn/models/qwen/Qwen2-72B-Instruct
llama-3-1:https://ai.meta.com/blog/meta-llama-3-1/
Qwen2-VL:https://modelscope.cn/studios/qwen/Qwen2-VL
InternVL2:https://internvl.opengvlab.com/
推荐
微信交流群现已有2000+从业人员交流群,欢迎进群交流学习(nvshenj125)
请备注:方向+姓名+学校/公司名称!一定要根据格式申请,拉你进群。
B站最新成果demo分享地址:https://space.bilibili.com/288489574
顶会工作整理Github repo:https://github.com/DWCTOD/CVPR2023-Papers-with-Code-Demo