当前位置: 首页 > article >正文

hunyuan 混元学习

使用了5个subset,也是用了text-image和text-video进行训练的

也是进行了复杂的视频选择。同movie gen.

也进行了模型切断,用拉普拉斯算子找到最清晰的一帧作为训练的起始

训练了不同的模型去选择数据,比如用Dover去选择美观度比较好的数据,用其他模型去选择清晰度高的模型等。判断motion大小(比如静止的)把不合适的视频去掉。用OCR模型把带有很多字的视频拿掉。用YOLOX把一些敏感信息拿掉。虽然拿掉了很多数据,但是数据多样性高也好,所以用个小模型去测试那个去掉视频的操作好。图4

最后的finetune数据又是人工标注,大概一百万。用的JSON保存信息

加强版的dense description

background\style等关键词,还用了dropout设置多样性更多的captions使得描述格式不会太固定。

数据对于machine learning很重要


http://www.kler.cn/a/524863.html

相关文章:

  • 解决Oracle SQL语句性能问题(10.5)——常用Hint及语法(7)(其他Hint)
  • PostgreSQL 数据备份与恢复:掌握 pg_dump 和 pg_restore 的最佳实践
  • Greenplum临时表未清除导致库龄过高处理
  • CTF-web: Python YAML反序列化利用
  • 【Python】第五弹---深入理解函数:从基础到进阶的全面解析
  • 戴尔电脑设置u盘启动_戴尔电脑设置u盘启动多种方法
  • Codeforces Round 990 (Div. 2) 题解 A ~ D
  • PySalsa:灵活强大的Python库,专为网络数据分析设计
  • 租车骑绿岛
  • 【解决方案】VMware虚拟机adb连接宿主机夜神模拟器
  • 006 LocalStorage和SessionStorage
  • 1.五子棋对弈python解法——2024年省赛蓝桥杯真题
  • 春晚舞台上的人形机器人:科技与文化的奇妙融合
  • Elasticsearch有哪些应用场景?
  • P4681 [THUSC 2015] 平方运算 Solution
  • 2025_1_29 C语言学习中关于指针
  • 前端拖拽相关功能详解,一篇文章总结前端关于拖拽的应用场景和实现方式(含源码)
  • 【AI论文】Omni-RGPT:通过标记令牌统一图像和视频的区域级理解
  • 单机伪分布Hadoop详细配置
  • 萌新学 Python 之数值处理函数 round 四舍五入、abs 绝对值、pow 幂次方、divmod 元组商和余数
  • 利用飞书机器人进行 - ArXiv自动化检索推荐
  • Java基础知识总结(二十六)--Arrays
  • SpringBoot中@Valid与@Validated使用场景详解
  • 生成模型:扩散模型(DDPM, DDIM, 条件生成)
  • 2025年01月29日Github流行趋势
  • 【hot100】刷题记录(6)-轮转数组