当前位置：首页 > article >正文

深度学习大模型补充知识点

article 2025/3/17 13:55:28

文章目录

VIT
- 用途
- 处理方法
- 与CNN区别
多模态
LLM：大语言模型
- - 预训练
  - 指令微调
  - 强化学习
- 总结

VIT

ViT（Vision Transformer）首次将 Transformer架构成功应用于计算机视觉领域（尤其是图像分类任务）。传统视觉任务主要依赖卷积神经网络（CNN），而ViT通过将图像视为序列化的图像块（Patch），利用Transformer的全局注意力机制捕捉图像的长距离依赖关系，突破了CNN的局部感受野限制。

用途

在这里插入图片描述

处理方法

在这里插入图片描述
将图片划分为多个patch，转换为离散的向量，作为encoder输入,进行交互提取特征然后经过分类头输出。

与CNN区别

在这里插入图片描述

`

多模态

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。
在这里插入图片描述
transformer架构天然为多模态而生。
Bert就常用于多模态训练：无论输入是文字，图片，还是声音，都让他们进入self_attention进行交互。
如：ViltBert就是一个多模态模型，用于从图片和文字中提取特征

LLM：大语言模型

基于transformer架构的大模型
在这里插入图片描述

在这里插入图片描述

以gpt为例，only-decoder架构的大模型

预训练

gpt采用自回归预训练，通过预测下一个字的生成，与翻译任务不同，预训练采用的是teach force.
在这里插入图片描述

指令微调

在这里插入图片描述
SFT 是 Supervised Fine-Tuning（监督微调）的缩写，是大语言模型（LLM）训练流程中的一个关键阶段。它的核心思想是：通过人工标注的高质量数据，进一步调整预训练模型的参数，使其更符合特定任务的需求（例如对话生成、指令遵循等）

强化学习

在这里插入图片描述

PPO 近端策略优化，选择某个操作如果正确奖励就越高，梯度就越大，朝着越好的方向更新，选择正确操作的概率越大。

总结

了解大语言模型的预训练，指令微调，强化学习的概念和典型例子。
以及大模型的不同架构实例，分为only-encoder,only-decoder,encoder-decoder；

http://www.kler.cn/a/586952.html

相关文章：

JAVA面试_进阶部分_dubbo负载均衡策略

在1688平台上如何实现铺货和上传商品的自动化？

浅谈AI落地之-加速训练

模型蒸馏系列——开源项目

Mininet树形拓扑解析

条件运算符

洛谷 P1357 花园

c语言zixue

Java基础编程练习第31题-String类和StringBuffer类

【八股文】ArrayList和LinkedList的区别

【Python 语法】排序算法

个人博客系统测试报告

C++程序设计语言笔记——抽象机制：模板

eclipse-mosquitt之docker部署安装与使用

现在有分段、句子数量可能不一致的中英文文本，如何用python实现中英文对照翻译（即每行英文对应相应的中文）

MySQL事务及索引复习笔记

Qt从入门到入土（十) -数据库操作--SQLITE

JAVA EE(10)——线程安全——synchronized JUC(java.util.concurrent) 的常见类线程安全的集合类

机器学习编译器(二)

Java中的访问修饰符有哪些