深度学习大模型补充知识点
文章目录
- VIT
- 用途
- 处理方法
- 与CNN区别
- 多模态
- LLM:大语言模型
- 预训练
- 指令微调
- 强化学习
- 总结
VIT
ViT(Vision Transformer) 首次将 Transformer架构成功应用于计算机视觉领域(尤其是图像分类任务)。传统视觉任务主要依赖卷积神经网络(CNN),而ViT通过将图像视为序列化的图像块(Patch),利用Transformer的全局注意力机制捕捉图像的长距离依赖关系,突破了CNN的局部感受野限制。
用途
处理方法
将图片划分为多个patch,转换为离散的向量,作为encoder输入,进行交互提取特征然后经过分类头输出。
与CNN区别
`
多模态
transformer架构天然为多模态而生。
Bert就常用于多模态训练:无论输入是文字,图片,还是声音,都让他们进入self_attention进行交互。
如:ViltBert就是一个多模态模型,用于从图片和文字中提取特征
LLM:大语言模型
基于transformer架构的大模型
以gpt为例,only-decoder架构的大模型
预训练
gpt采用自回归预训练,通过预测下一个字的生成,与翻译任务不同,预训练采用的是teach force.
指令微调
SFT 是 Supervised Fine-Tuning(监督微调)的缩写,是大语言模型(LLM)训练流程中的一个关键阶段。它的核心思想是:通过人工标注的高质量数据,进一步调整预训练模型的参数,使其更符合特定任务的需求(例如对话生成、指令遵循等)
强化学习
PPO 近端策略优化,选择某个操作如果正确奖励就越高,梯度就越大,朝着越好的方向更新,选择正确操作的概率越大。
总结
了解大语言模型的预训练,指令微调,强化学习的概念和典型例子。
以及大模型的不同架构实例,分为only-encoder,only-decoder,encoder-decoder;
原文地址:https://blog.csdn.net/qq_52482640/article/details/146259141
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/586952.html 如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/586952.html 如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!