当前位置: 首页 > article >正文

【视频笔记】基于PyTorch从零构建多模态(视觉)大模型 by Umar Jamil【持续更新】

视频链接:
基于PyTorch从零构建多模态(视觉)大模型 by Umar Jamil
从头编写一个视觉语言模型:PloyGamma,是谷歌的一个模型
在这里插入图片描述
1:原始图像
2:视觉编码器(本文是viT),通过对比学习进行训练。这个对比学习最开始是CLIP,后来被谷歌改成了SigLIP
3:线性投影层
4:如何将图像tokens的嵌入与文本token的嵌入结合起来
5:文本提示
6:Tokenizer
7:语言模型本身,基于transformer
8:如何利用条件生成输出

接下来的内容:
1)Vision Transformer
2)对比学习(CLIP、SigLip)
3)多模态语言模型(Gemma):如何把视觉和文本结合起来
4)KV-cache:希望这个模型用于推理,希望以优化的方式来实现,最佳方法就是使用KV-cache
5࿰


http://www.kler.cn/a/465052.html

相关文章:

  • CM3/CM4时钟系统
  • STM32-笔记28-蓝牙模块
  • SQL 总结
  • 125个Docker的常用命令
  • 数据库-MySQL-limit优化(全面 易理解)
  • 小米15震撼发布:手机吊起一人一椅,创新极限测试
  • 基于微信小程序的面部动作检测
  • 百度二面,MySQL 怎么做权重搜索?
  • SQL 中的 EXISTS
  • 开源自荐 - NoteGen 一款专注于记录和写作的跨端 AI 笔记
  • Web3的核心理念:去中心化如何改变互联网结构
  • Linux和ROS(Robot Operating System)在底层实现上的差异
  • 记一次 dockerfile 的循环依赖错误
  • 【three.js】场景搭建
  • [极客大挑战 2019]Secret File
  • 小程序组件 —— 22 组件案例 - 轮播区域绘制
  • Ansible Jinja2 语法简介及使用
  • Oracle 数据库使用SPM固定执行计划
  • 在Ubuntu系统中生成授信域名https证件文件
  • 利用Python爬虫获取店铺所有商品:技术实践与应用指南