当前位置: 首页 > article >正文

Ruyi-Mini-7B:开源的图像生成视频模型

Ruyi-Mini-7B 是由 CreateAI 开发的一款开源图像生成视频模型,可将输入图像转化为短视频。该模型支持从 360p 到 720p 的多种分辨率、灵活的长宽比,生成视频的最大时长为 5 秒。凭借运动与摄像机控制功能,Ruyi 为视频生成带来了更高的创造性与灵活性。该模型采用宽松的 Apache 2.0 许可协议发布,允许社区广泛使用与二次开发。

核心功能概述

图像到视频:以静态图像为输入,生成动态视频。
多分辨率支持:支持 360p 至 720p 的分辨率以及各种宽高比。
灵活时长:可生成最多 5 秒的视频内容。
高级控制:内置运动和摄像机控制,增强用户对视频动态的操控能力。

模型架构

Ruyi-Mini-7B 拥有 71 亿参数,其架构在 EasyAnimate V4 的基础上优化改进,核心组件包括:

Casual VAE 模块
负责视频的压缩与解压。
空间分辨率降低至 1/8,时间分辨率降低至 1/4。
每个潜在像素使用 16 通道的 BF16 进行表示。
扩散变换器模块 (Diffusion Transformer Module)
使用 3D 全注意力机制生成压缩视频数据。
空间维度采用 2D Normalized-RoPE 方法;时间维度使用正弦-余弦位置嵌入。
训练过程基于 DDPM(去噪扩散概率模型)。
CLIP 引导特性
提取输入图像的语义特征,用于指导视频生成过程。
特征通过交叉注意力机制引入变换器模块。

训练数据与方法

Ruyi-Mini-7B 的训练分为以下四个阶段,覆盖从预训练到高质量视频生成的全流程:

阶段 1:从零开始的预训练
数据量:约 2 亿视频片段 + 3000 万张图像
分辨率:256
批量大小:4096
迭代次数:350,000 次

阶段 2:多分辨率微调
数据量:约 6000 万视频片段
分辨率:384–512
批量大小:1024
迭代次数:60,000 次

阶段 3:高质量微调
数据量:约 2000 万视频片段 + 800 万张图像
分辨率:384–1024
动态批量大小,基于显存分配
迭代次数:10,000 次

阶段 4:最终高质量视频训练
数据量:约 1000 万高质量视频片段
批量大小:1024
迭代次数:10,000 次

使用说明

安装

git clone https://github.com/IamCreateAI/Ruyi-Models
cd Ruyi-Models
pip install -r requirements.txt

运行
使用 Python 脚本运行:

python3 predict_i2v.py

使用 GitHub 提供的 ComfyUI 包装器。

硬件需求

运行 Ruyi-Mini-7B 所需的显存大小取决于视频的分辨率和时长。以下是单张 A100 测试下的典型显存消耗:
在这里插入图片描述

总结

Ruyi-Mini-7B 是一个强大的图像生成视频模型,结合了先进的架构设计和高质量的训练数据。无论是科研用途还是实际创意场景,它都为用户提供了强大的视频生成能力。凭借开源的特性与详细的文档支持,Ruyi-Mini-7B 让每位用户都能轻松体验视频生成的乐趣与创造力。

附一个AI编写投标文件工具

在这里插入图片描述


http://www.kler.cn/a/441530.html

相关文章:

  • 利用SpringAOP的返回通知处理数据加密返回
  • vulnhub靶场【DriftingBlues】之5
  • 12.16【net】[debug]SOCKET_RAW无法在热点局域网下传递,悬而未决
  • Android-Glide详解二
  • git如何撤销最近一个或几个提交
  • Redisson常用方法
  • 如何解决手机,电脑等工作室同ip关联问题
  • Springboot3.x配置类(Configuration)和单元测试
  • MySQL--》解析事务从隔离级别到死锁处理
  • Redis在库存里的应用
  • Python中工具脚本在本地共享给不同项目
  • 【C++】小乐乐求和问题的高效求解与算法对比分析
  • 深入探讨HTML页面中CSS的加载顺序
  • 大数据-179 Elasticsearch - 原理剖析 倒排索引与读写流程
  • 远程控制电脑技术让我们的生活更加简化
  • 期末复习-计算机网络应用题
  • ElementUI中el-dropdown-item点击事件无效
  • 《Vue进阶教程》第十四课:改进桶结构
  • 基于微信小程序的小区疫情防控ssm+论文源码调试讲解
  • 【RK3588 Linux 5.x 内核编程】-内核中断与SoftIRQ