当前位置：首页 > article >正文

阶跃星辰开源300亿参数视频模型Step-Video-TI2V：运动可控+102帧长视频生成

article 2025/3/24 2:23:47

阶跃星辰（StepFun）正式开源其新一代图生视频模型 Step-Video-TI2V ，该模型基于300亿参数的Step-Video-T2V训练，支持文本与图像联合驱动生成长达102帧的高质量视频，在运动控制与场景适配性上实现突破。

核心亮点
1、超长视频生成与运动控制
支持生成 102帧视频（约4秒@24fps），覆盖更长时序内容创作需求。
首创运动幅度可控与镜头运动可控双机制，用户可通过参数调节动态效果，平衡画面流畅性与戏剧张力。

2、多模态输入与风格适配
同时接受文本和图像输入，精准融合语义描述与视觉风格，尤其在动漫风格视频生成中表现优异，适用于动画制作与创意短片。
基于深度压缩变分自编码器（Video-VAE），实现16×16空间压缩与8×时间压缩，显著提升训练与推理效率。

3、开源生态与硬件兼容
模型已开源（GitHub地址：stepfun-ai/Step-Video-TI2V ），支持开发者快速部署。
适配华为昇腾计算平台，推动国产化AI硬件生态发展。

技术突破与行业价值
1、参数规模领先：作为当前开源社区最大的TI2V（Text/Image-to-Video）模型之一，300亿参数量支撑复杂场景建模能力。
2、应用前景广阔：可服务于影视特效、广告创意、短视频内容生产等领域，降低高质量视频制作门槛。
3、研究意义显著：开源后将加速图生视频技术迭代，为学术界提供高性价比的多模态研究基座。

与其他领先开源模型的比较
将 Step-Video-TI2V 与最近发布的领先开源模型进行比较，下表中的详细结果突出了该模型优于这些模型的性能。展示了 Step-Video-TI2V 的两个结果，运动分别设置为 5 和 10。正如预期的那样，这种机制有效地平衡了生成视频的运动动态和稳定性（或一致性）。此外，在 VBench-I2V的排行榜，Step-Video-TI2V 获得了最高排名。

Step-Video-TI2V 的应用领域与场景
基于其运动可控性、长视频生成能力（102帧/5秒）及多模态输入支持，Step-Video-TI2V 可广泛应用于以下领域，结合技术特性与知识库信息分析如下：

1. 影视与广告制作
特效预演与生成：支持生成具有动态效果的视频片段（如爆炸、光影变化），可作为电影或广告特效的低成本预演工具。
短视频广告创作：通过文本与图像联合驱动，快速生成符合品牌调性的创意短片，提升广告制作效率。

2. 动漫与短视频创作
动画制作：在动漫风格任务中表现突出，可生成高质量角色动作与场景过渡，缩短传统动画制作周期。
竖屏内容生产：支持多尺寸生成（横屏/竖屏），适配抖音、Instagram等平台的短视频需求。

3. 教育与体育训练
动作教学视频：生成复杂动态场景（如舞蹈、武术动作分解），辅助在线教育或健身课程开发。
科学可视化：模拟物理实验或生物过程（如流体运动、分子结构动态展示），提升教学直观性。

4. 游戏与虚拟内容开发
游戏过场动画：通过可控镜头运动生成游戏内过场动画，降低开发成本。
虚拟主播/数字人：结合图像输入生成虚拟角色的动态视频，用于直播或互动内容。

5. 工业与医疗模拟
工业设计验证：生成机械运动或产品使用场景的模拟视频，辅助设计验证。
医疗培训：模拟手术操作或解剖过程，提供高精度动态教学素材。

6. 社交媒体与UGC内容
个性化内容生成：用户上传图片并输入文本描述，快速生成定制化视频（如旅行Vlog、产品评测）。
特效滤镜增强：集成至社交平台工具链，提供动态滤镜或AR效果生成。

7. 多模态艺术与创意实验
艺术风格迁移：将静态艺术作品（如油画、插画）转化为动态视频，探索跨媒介艺术表达。
AI生成电影短片：通过长视频生成能力创作实验性短片，推动AI在艺术领域的边界。

8. 科研与国产化生态
AI模型研究：开源特性为学术界提供高参数量多模态研究基座，推动视频生成技术迭代。
国产硬件适配：支持华为昇腾平台，助力国产AI芯片在视频生成领域的落地应用。

Step-Video-TI2V凭借大参数量、运动控制创新与开源策略，为视频生成领域树立新标杆，有望推动AIGC从“短片段创作”迈向“长视频工业化生产”时代。

模型网址：https://github.com/stepfun-ai/Step-Video-TI2V

查看全文

http://www.kler.cn/a/596143.html

量化研究---可转债量化交易系统上线快速服务器

003-掌控命令行-CLI11-C++开源库108杰

Spring Boot 中的 @ConditionalOnBean 注解详解

第一次烧录51单片机的烧录不了的问题

验证码设计与前端安全：实现方式、挑战与未来发展趋势深度分析

架构师面试（十九）：IM 架构

[leetcode]864. 获取所有钥匙的最短路径(状态压缩bitmask+bfs)

从两层 C/S 到 B/S 架构演进分析：技术驱动与业务需求的辩证关系

归并排序的思路与实现

卷积神经网络Batch Normalization的作用

体育直播视频源格式解析：M3U8 vs FLV

LeetCode215. 数组中的第K个最大元素

Redis Lua脚本实现令牌桶限流算法

常用的 MyBatis 标签及其作用

第5节：AWK环境准备

dedecms织梦【php网站】-----获取webshell攻略

Trae初使用心得(Java后端)

Qt搭配CLion：Mac电脑M芯片Qt开发环境

OpenCV专利收费免费模块介绍

虚拟机 | Ubuntu操作系统：su和sudo理解及如何处理忘记root密码

相关文章：