当前位置: 首页 > article >正文

MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

图片

CogVideoX的体验地址:https://bigmodel.cn/console/trialcenter?modelCode=cogvideox

     自2021年起,智谱 AI 技术团队便开始着手布局包括 text-2-img、text-2-video、img-2-text、video-2-text 在内的多模态模型,并陆续研发并开源了CogView、CogVideo、Relay Diffusion、CogVLM、CogVLM-Video等多个先进模型。近期,智谱 AI 正式开源新一代视频大模型——CogVideoX。

一、CogVideoX的核心技术特点如下:

       针对内容连贯性问题,智谱AI自主研发了一套高效的三维变分自编码器结构(3D VAE)。该结构能够将原始视频数据压缩至原始大小的2%,显著降低了视频扩散生成模型的训练成本和难度。结合3D RoPE位置编码模块,该技术有效提升了在时间维度上对帧间关系的捕捉能力,从而建立了视频中的长期依赖关系。

      在可控性方面,智谱AI打造了一款端到端的视频理解模型,该模型能够为大量视频数据生成精确且内容相关的描述。这一创新增强了模型对文本的理解和对指令的遵循能力,确保生成的视频更加符合用户的输入需求,并能够处理超长且复杂的prompt指令。

      模型采纳了一种将文本、时间、空间三维一体融合的transformer架构。该架构摒弃了传统的cross attention模块,创新性地设计了Expert Block以实现文本与视频两种不同模态空间的对齐,并通过Full Attention机制优化模态间的交互效果。

      CogVideoX 模型目前已在bigmodel.cn平台上线了,基于CogVideoX的产品「清影」(Ying)上线PC端,免费体验AI文本生成视频和图像生成视频的服务。

二、下面是使用bigmodel开放平台的体验示例:

2.1、图生视频

1)Prompt:城市中湖边上有一对情侣在缓慢散步

图片如下所示:

图片

生成的视频如下:

请参见:MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

生成的效果不错,非常高清。

2.2、文生视频

1)Prompt:一位头发苍白的老人(主体)站在海边(环境描述)看日落(动作)

生成的视频如下:

 请参见:MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

2)Prompt:特写镜头(镜头描述),清晨的微光(光线运用),两只鸳鸯在海面上嬉戏,鸳鸯是彩色羽毛(主体描述),背景国贸大厦(环境描述)。

 请参见:MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

3)Prompt:小狗在空地上画画

 请参见:MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

三、使用API生成视频

首先,需要在官网申请API Key,申请地址:https://bigmodel.cn

然后,使用如下脚本生成视频

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 请填写您自己的APIKey

response = client.videos.generations(
    model="cogvideox",
    prompt="小狗在空地上画画。"
)
print(response)

生成VideoObject对象,其中id为视频唯一识别号。

VideoObject(id='636617217207461558911210927746488763', model='cogvideox', video_result=None, task_status='PROCESSING', request_id='8911210927746488759')

接下来,使用上述生成的视频id抽取视频内容。

from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 请填写您自己的APIKey

response = client.videos.retrieve_videos_result(
    id="636617217207461558911210927746488763"
)
print(response)

抽取视频内容后,会生成视频的url和其中一帧图片的url,具体如下所示:

VideoObject(id=None, model='cogvideox', video_result=[VideoResult(url='https://sfile.chatglm.cn/testpath/video/f0048f7d-e6ed-5cf9-810d-38f14631f9de_0.mp4', cover_image_url='https://sfile.chatglm.cn/testpath/video_cover/f0048f7d-e6ed-5cf9-810d-38f14631f9de_cover_0.png')], task_status='SUCCESS', request_id='8911210927746488759')

生成的视频,如下所示:

 请参见:MLLM(一)| 文/图生视频任务大升级,BigModel 开源了视频模型CogVideoX

生成的图片,如下图所示:

图片

总结:

       从图生视频和文生视频的效果来看,主体和主要动作都完美的生成了,而且非常高清。

       使用API调用的最大感受是响应速度非常快,几乎感觉不到延时,给智谱点赞👍。


http://www.kler.cn/a/292835.html

相关文章:

  • Diffusion Policy——斯坦福机器人UMI所用的扩散策略:从原理到其编码实现(含Diff-Control、ControlNet详解)
  • 2024 年 Apifox 和 Postman 对比介绍详细版
  • 新版 idea 编写 idea 插件时,启动出现 ClassNotFound
  • MybatisPlus入门(十)MybatisPlus-逻辑删除和多记录操作
  • FatLab:我的编程课程系列
  • vue3+element-plus==> el-form输入响应式失效踩坑!!!!!!!!!!
  • mysql开启远程访问
  • TCP/IP网络编程:第18章聊天室
  • 面向GPU计算平台的归约算法的性能优化研究
  • Rust 中 `madvise` 和 `posix_fadvise`的区别
  • python文件自动化(4)
  • 了解一下HTTP 与 HTTPS 的区别
  • FP7195:非同步升压恒流LED区动IC
  • C#实战|大乐透选号器[3]:动态生成大乐透蓝球区选择球及实现拖动窗体功能
  • Flask+LayUI开发手记(六):树型表格的增删改查
  • 网络编程 0905作业
  • 在ABAP开发中,BSEG和BKPF的数据如何做关联查询?
  • Unity(2022.3.41LTS) - UI详细介绍-TMP
  • WordPress的安装与简单开发教程
  • springboot 配置ssl支持https
  • 软通动力子公司鸿湖万联重磅发布SwanLinkOS 5,擘画开源鸿蒙AI PC新篇章
  • 七、装饰器模式
  • 薄膜制造革新-平扫式自动风环测厚仪
  • 基于 Python 的 LIF 模型:探索神经元同步与小世界网络
  • Ubuntu20上的Qt程序连接Windows上的mssql服务器
  • Tableau 社区项目 | 参与 Data+TV 挑战,洞悉全球电视剧集数据的精彩故事!