当前位置: 首页 > article >正文

Dit架构 diffusion范式分类+应用

1.ping 网址

2.ssh nscc/l20

3.crtl+,打开vscode的setting

4.win 10修改ssh配置文件及其密钥权限为600 - 晴云孤魂 - 博客园

整体来看:

    使用transformer作为其主干网络,代替了原先的UNet
    在latent space进行训练,通过transformer处理潜在的patch
    输入的条件(timestep 和 text/label )的四种处理方法:
        In-context conditioning: 将condition和input embedding合并成一个tokens(concat),不增加额外计算量
        Cross-attention block:在transformer中插入cross attention,将condition当作是K、V,input当作是Q
        Adaptive layer norm (adaLN) block:将timestep和 text/label相加,通过MLP去回归参数scale和shift,也不增加计算量。并且在每一次残差相加时,回归一个gate系数。
        adaLN-Zero block:参数初始化为0,那么在训练开始时,残差模块当于identical function。
    整体流程:patchify -> Transfomer Block -> Linear -> Unpatchify。 注意最后输出的维度是原来维度的2倍,分别输出noise和方差。

由下图可见,adaLN-Zero最好。然后就是探索各种调参效果,此处略。


http://www.kler.cn/news/336210.html

相关文章:

  • python数据分析与可视化介绍
  • 基于SpringBoot+Vue+MySQL的在线酷听音乐系统
  • VMware桥接模式无法连接网络
  • 【超级详细解释】力扣每日一题 134.加油站 48. 旋转图像
  • Stable Diffusion绘画 | 插件-Deforum:动态视频生成(终篇)
  • Jax(Random、Numpy)常用函数
  • cmake如何在编译时区分-std=c++17和-std=gnu++17?检查宏
  • Elasticsearch从入门到精通
  • k8s 中的金丝雀发布(灰度发布)
  • OpenAI o1 与 GPT-4o:前沿AI全面比较下你更倾向哪一款
  • 论文笔记:Anytime Continual Learning for Open Vocabulary Classification
  • react-问卷星项目(7)
  • 【Ubuntu】使用阿里云apt源来更新apt源
  • 8位单片机与32位单片机
  • 软考系统分析师知识点三:应用数学
  • 探索《文明发展模拟器》:从零开始构建文明的进化之路
  • ElementUI 2.x 输入框回车后在调用接口进行远程搜索功能
  • [Linux] 进程创建、退出和等待
  • Python知识点:如何应用Python工具,使用NLTK进行语言模型构建
  • 每日英语听力 Day13