当前位置: 首页 > article >正文

青稞Talk预告!面向自动驾驶与物理世界对齐的视频生成模型

青稞Talk预告!面向自动驾驶与物理世界对齐的视频生成模型

为何现有视频生成模型难以理解物理世界,无法生成运动合理的视频结果?基于认知心理学研究,我们重新审视现有视频生成模型,认为生成运动合理的视频其实是和生成高视觉质量视频同样困难的任务,而现有一阶段建模方式更关注视觉质量,缺少对运动的关注。

图片

为此,香港科技大学(广州)的研究者提出了两阶段模型 Motion Dreamer,通过生成中间运动表示,将运动和视觉质量进行解耦,从而生成运动合理且高视觉质量的视频。

图片

Abs:https://arxiv.org/pdf/2412.00547

图片

1月14日19:00,青稞Talk 第37期,香港科技大学(广州)博士生许添硕,将直播分享《Motion Dreamer:面向自动驾驶与物理世界对齐的视频生成模型》。


许添硕,香港科技大学(广州)博士生,导师为陈颖聪教授,研究兴趣是自动驾驶、视频生成。


http://www.kler.cn/a/499900.html

相关文章:

  • IP 地址与蜜罐技术
  • PY_11_07
  • 深入详解自然语言处理(NLP)中的语言模型:BERT、GPT及其他预训练模型的原理与应用
  • Qt学习笔记第81到90讲
  • SpringBoot日常:集成Kafka
  • 【深度学习】数据预处理
  • vue3的v-for 与 v-if
  • React setState详细使用总结
  • Bytebase 3.1.0 - 通过 Google / GitHub SSO 功能开放给专业版
  • C语言gdb调试
  • 14.C语言Union详解:节省内存的利器
  • GaussDB分布式数据倾斜处理
  • 2021 年 3 月青少年软编等考 C 语言五级真题解析
  • 如何使用MVC模式设计和实现校园自助点餐系统的微信小程序
  • Day04-后端Web基础(Maven基础)
  • uniApp通过xgplayer(西瓜播放器)接入视频实时监控
  • 如何修改 Go 结构体的私有字段
  • 关于解决线上问题ES内存直接打满的问题
  • 深度学习每周学习总结R3(LSTM-火灾温度预测)
  • netty请求行超出长度
  • Rust语言的循环实现