当前位置：首页 > article >正文

智源推出小时级超长视频理解大模型Video-XL

article 2025/1/26 15:42:04

北京智源人工智能研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等高校推出了一款名为Video-XL的超长视频理解大模型。这款模型是多模态大模型核心能力的重要展示，也是向通用人工智能（AGI）迈进的关键步骤。与现有多模态大模型相比，Video-XL在处理超过10分钟的长视频时，展现了更优的性能和效率。

在这里插入图片描述
Video-XL利用语言模型（LLM）的原生能力，对长视觉序列进行压缩，保留了短视频理解的能力，并在长视频理解上显示出了卓越的泛化能力。该模型在多个主流长视频理解基准评测的多项任务中均排名第一。Video-XL在效率与性能之间实现了良好平衡，仅需一块80G显存的显卡即可处理2048帧输入，对小时级长度视频进行采样，并在视频“海中捞针”任务中取得了接近95%的准确率。

在这里插入图片描述
Video-XL有望在电影摘要、视频异常检测、广告植入检测等应用场景中展现广泛的应用价值，成为长视频理解的得力助手。该模型的推出，标志着长视频理解技术在效率和准确性上迈出了重要一步，为未来长视频内容的自动化处理和分析提供了强有力的技术支持。

目前，Video-XL的模型代码已经开源，以促进全球多模态视频理解研究社区的合作和技术共享。

论文标题:Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding

论文链接:https://arxiv.org/abs/2409.14485

模型链接:https://huggingface.co/sy1998/Video_XL

项目链接:https://github.com/VectorSpaceLab/Video-XL

http://www.kler.cn/a/378223.html

相关文章：

C++ —— 智能指针 unique_ptr （上）

Pandas基础02（DataFrame创建/索引/切片/属性/方法/层次化索引）

蓝桥杯之c++入门（一）【第一个c++程序】

C语言精粹：深入探索字符串函数

基于C语言的数组从入门到精通

OFD、PDF 电子签章系统处理流程

MVC（Model-View-Controller）模式概述

【WPF】深入理解并发、并行、单线程、多线程、同步、异步概念

__attribute__ ((__packed__))

计算机网络：网络层 —— 路由信息协议 RIP

智驭模板引擎管理系统（SmartTemplate Manager）

k8s环境下rabbitmq安装社区插件:rabbitmq_delayed_message_exchange

施耐德EcoStruxure Machine SCADA Expert（EMSE）ModbusTcp通讯（二十二）

Linux系统安全配置

Javaweb梳理8——数据库设计

Servlet 3.0 新特性全解

数据库作业5

轻量数据持久化 shelve | sqlite3

AI风险及数据合规问题

js 期约到底是什么？

Ubuntu 系统Python环境管理（全、简）

Java项目实战II基于Spring Boot的文理医院预约挂号系统的设计与实现（开发文档+数据库+源码）

全球首个国家级别的数据库CAB又在上海召开了！

C++之多态的深度剖析（2）

砥砺十年风雨路，向新而行创新程丨怿星科技十周年庆典回顾

【MySQL】存储引擎