当前位置：首页 > article >正文

青稞Talk预告！面向自动驾驶与物理世界对齐的视频生成模型

article 2025/3/1 0:20:42

为何现有视频生成模型难以理解物理世界，无法生成运动合理的视频结果？基于认知心理学研究，我们重新审视现有视频生成模型，认为生成运动合理的视频其实是和生成高视觉质量视频同样困难的任务，而现有一阶段建模方式更关注视觉质量，缺少对运动的关注。

为此，香港科技大学（广州）的研究者提出了两阶段模型 Motion Dreamer，通过生成中间运动表示，将运动和视觉质量进行解耦，从而生成运动合理且高视觉质量的视频。

Abs:https://arxiv.org/pdf/2412.00547

1月14日19:00，青稞Talk 第37期，香港科技大学（广州）博士生许添硕，将直播分享《Motion Dreamer：面向自动驾驶与物理世界对齐的视频生成模型》。

许添硕，香港科技大学（广州）博士生，导师为陈颖聪教授，研究兴趣是自动驾驶、视频生成。

PY_11_07

Qt学习笔记第81到90讲

SpringBoot日常：集成Kafka

【深度学习】数据预处理

vue3的v-for 与 v-if

React setState详细使用总结

C语言gdb调试

14.C语言Union详解：节省内存的利器

GaussDB分布式数据倾斜处理

Day04-后端Web基础(Maven基础)

如何修改 Go 结构体的私有字段

netty请求行超出长度

Rust语言的循环实现