当前位置：首页 > article >正文

【视频笔记】基于PyTorch从零构建多模态（视觉）大模型 by Umar Jamil【持续更新】

article 2025/3/1 10:17:45

视频链接：
基于PyTorch从零构建多模态（视觉）大模型 by Umar Jamil
从头编写一个视觉语言模型：PloyGamma，是谷歌的一个模型
在这里插入图片描述
1：原始图像
2：视觉编码器（本文是viT），通过对比学习进行训练。这个对比学习最开始是CLIP，后来被谷歌改成了SigLIP
3：线性投影层
4：如何将图像tokens的嵌入与文本token的嵌入结合起来
5：文本提示
6：Tokenizer
7：语言模型本身，基于transformer
8：如何利用条件生成输出

接下来的内容：
1）Vision Transformer
2）对比学习（CLIP、SigLip）
3）多模态语言模型（Gemma）：如何把视觉和文本结合起来
4）KV-cache：希望这个模型用于推理，希望以优化的方式来实现，最佳方法就是使用KV-cache
5࿰

http://www.kler.cn/a/465052.html

相关文章：

CM3/CM4时钟系统

STM32-笔记28-蓝牙模块

SQL 总结

125个Docker的常用命令

数据库-MySQL-limit优化（全面易理解）

小米15震撼发布：手机吊起一人一椅，创新极限测试

基于微信小程序的面部动作检测

百度二面，MySQL 怎么做权重搜索？

SQL 中的 EXISTS

开源自荐 - NoteGen 一款专注于记录和写作的跨端 AI 笔记

Web3的核心理念：去中心化如何改变互联网结构

Linux和ROS（Robot Operating System）在底层实现上的差异

记一次 dockerfile 的循环依赖错误

【three.js】场景搭建

[极客大挑战 2019]Secret File

小程序组件 —— 22 组件案例 - 轮播区域绘制

Ansible Jinja2 语法简介及使用

Oracle 数据库使用SPM固定执行计划

在Ubuntu系统中生成授信域名https证件文件

利用Python爬虫获取店铺所有商品：技术实践与应用指南