当前位置: 首页 > article >正文

AI视频编码器(3.2) 《Swin Transformer V2: Scaling Up Capacity and Resolution》

  • arxiv链接
  • 自监督训练用到了SimMIM 论文链接。我觉得,SimMIM与MAE的区别在于,前者只是一个1-layer的prediction head,而后者是多层transformer结构的decoder。
  • 可参考Swin Transformer V2(CVPR 2022)论文与代码解读。

总结


图中展示了三个创新,从左到右有三处红色结构,分别代表: 1. Continuous relative position bias和Log-spaced coordinates,2. Scaled cosine attention,3. Post normalization。

本文的主要创新如下:

  • 针对"3.2. Scaling Up Model Capacity"的需求,本文提出两个改进:Post normalization和Scaled cosine attention。
  • 针对"3.3. Scaling Up Window Resolu

http://www.kler.cn/a/530832.html

相关文章:

  • 【PyTorch】7.自动微分模块:开启神经网络 “进化之门” 的魔法钥匙
  • 在C#中,什么是多态如何实现
  • C# 语言基础全面解析
  • vue入门到实战 三
  • SpringCloud篇 微服务架构
  • 自然语言处理(NLP)入门:基础概念与应用场景
  • potplayer字幕
  • Leetcode—1427. 字符串的左右移【简单】Plus
  • Kubernetes学习之包管理工具(Helm)
  • 联想拯救者Y9000P IRX8 2023 (82WK) 原厂Win11 家庭中文版系统 带一键还原功能 安装教程
  • 大语言模型的个性化综述 ——《Personalization of Large Language Models: A Survey》
  • 【算法】回溯算法专题③ ——排列型回溯 python
  • [MRCTF2020]Ez_bypass1(md5绕过)
  • 04树 + 堆 + 优先队列 + 图(D1_树(D10_决策树))
  • Rust中的结构体(Struct):数据组织的基石
  • 蓝桥杯备考:高精度算法之除法
  • 基于构件的软件开发方法
  • LeetCode - #197 Swift 实现找出温度更高的日期
  • Rust枚举(Enum)完全指南:用类型安全表达多样性
  • 前端力扣刷题 | 6:hot100之 矩阵
  • linux下ollama更换模型路径
  • 【腾讯前端面试】纯css画图形
  • WebSocket 实时通信详解:原理、应用与实践
  • 即梦(Dreamina)技术浅析(四):生成对抗网络
  • Vue指令v-html
  • Windows程序设计12:获取磁盘分区信息