阶跃星辰开源300亿参数视频模型Step-Video-TI2V:运动可控+102帧长视频生成
阶跃星辰(StepFun)正式开源其新一代图生视频模型 Step-Video-TI2V ,该模型基于300亿参数的Step-Video-T2V训练,支持文本与图像联合驱动生成长达102帧的高质量视频,在运动控制与场景适配性上实现突破。
核心亮点
1、超长视频生成与运动控制
支持生成 102帧视频 (约4秒@24fps),覆盖更长时序内容创作需求。
首创 运动幅度可控 与 镜头运动可控 双机制,用户可通过参数调节动态效果,平衡画面流畅性与戏剧张力。
2、多模态输入与风格适配
同时接受文本和图像输入,精准融合语义描述与视觉风格,尤其在 动漫风格视频生成 中表现优异,适用于动画制作与创意短片。
基于 深度压缩变分自编码器(Video-VAE) ,实现16×16空间压缩与8×时间压缩,显著提升训练与推理效率。
3、开源生态与硬件兼容
模型已开源(GitHub地址:stepfun-ai/Step-Video-TI2V ),支持开发者快速部署。
适配华为昇腾计算平台,推动国产化AI硬件生态发展。
技术突破与行业价值
1、参数规模领先 :作为当前开源社区最大的TI2V(Text/Image-to-Video)模型之一,300亿参数量支撑复杂场景建模能力。
2、应用前景广阔 :可服务于影视特效、广告创意、短视频内容生产等领域,降低高质量视频制作门槛。
3、研究意义显著 :开源后将加速图生视频技术迭代,为学术界提供高性价比的多模态研究基座。
与其他领先开源模型的比较
将 Step-Video-TI2V 与最近发布的领先开源模型进行比较,下表中的详细结果突出了该模型优于这些模型的性能。展示了 Step-Video-TI2V 的两个结果,运动分别设置为 5 和 10。正如预期的那样,这种机制有效地平衡了生成视频的运动动态和稳定性(或一致性)。此外,在 VBench-I2V的 排行榜,Step-Video-TI2V 获得了最高排名。
Step-Video-TI2V 的应用领域与场景
基于其运动可控性 、长视频生成能力 (102帧/5秒)及 多模态输入支持 ,Step-Video-TI2V 可广泛应用于以下领域,结合技术特性与知识库信息分析如下:
1. 影视与广告制作
特效预演与生成 :支持生成具有动态效果的视频片段(如爆炸、光影变化),可作为电影或广告特效的低成本预演工具。
短视频广告创作 :通过文本与图像联合驱动,快速生成符合品牌调性的创意短片,提升广告制作效率。
2. 动漫与短视频创作
动画制作 :在动漫风格任务中表现突出,可生成高质量角色动作与场景过渡,缩短传统动画制作周期。
竖屏内容生产 :支持多尺寸生成(横屏/竖屏),适配抖音、Instagram等平台的短视频需求。
3. 教育与体育训练
动作教学视频 :生成复杂动态场景(如舞蹈、武术动作分解),辅助在线教育或健身课程开发。
科学可视化 :模拟物理实验或生物过程(如流体运动、分子结构动态展示),提升教学直观性。
4. 游戏与虚拟内容开发
游戏过场动画 :通过可控镜头运动生成游戏内过场动画,降低开发成本。
虚拟主播/数字人 :结合图像输入生成虚拟角色的动态视频,用于直播或互动内容。
5. 工业与医疗模拟
工业设计验证 :生成机械运动或产品使用场景的模拟视频,辅助设计验证。
医疗培训 :模拟手术操作或解剖过程,提供高精度动态教学素材。
6. 社交媒体与UGC内容
个性化内容生成 :用户上传图片并输入文本描述,快速生成定制化视频(如旅行Vlog、产品评测)。
特效滤镜增强 :集成至社交平台工具链,提供动态滤镜或AR效果生成。
7. 多模态艺术与创意实验
艺术风格迁移 :将静态艺术作品(如油画、插画)转化为动态视频,探索跨媒介艺术表达。
AI生成电影短片 :通过长视频生成能力创作实验性短片,推动AI在艺术领域的边界。
8. 科研与国产化生态
AI模型研究 :开源特性为学术界提供高参数量多模态研究基座,推动视频生成技术迭代。
国产硬件适配 :支持华为昇腾平台,助力国产AI芯片在视频生成领域的落地应用。
Step-Video-TI2V凭借大参数量、运动控制创新与开源策略,为视频生成领域树立新标杆,有望推动AIGC从“短片段创作”迈向“长视频工业化生产”时代。
模型网址:https://github.com/stepfun-ai/Step-Video-TI2V