当前位置: 首页 > article >正文

AIGC学习笔记(2)——AI大模型开发工程师

文章目录

  • AI大模型开发工程师
    • 001 AI 大模型应用开发基础
      • 1 AI 大模型应用开发基础准备
        • 网络环境
        • 开发环境
        • 资源准备
        • 如何租赁云服务器?
      • 2 大白话解释 AI 大模型原理
        • 成语接龙和暴力穷举
        • 大模型如何理解人类语言
        • 如何存储数据?
        • 如何存储图像?
        • 如何让电脑知道存的是什么?
        • 向量化
        • 为什么需要向量化?
        • 调整位置
        • 科学的方式
        • Word2vec算法
        • 信息压缩与特征提取
        • 谷歌论文-自注意力机制
        • TransFormer算法演进
        • 通用人工智能模型
        • 百模大战
      • 3 手推Transformer网络架构
        • Transformer 网络架构
        • 独热编码(one-hot编码)
        • word2vec
        • ELMo模型
        • Multi-head Self Attention
      • 4 Transformer 网络架构源码剖析
        • 从代码层面理解 Transformer
        • 输入向量化 Input Embedding
        • 位置编码 Positional Encoding
        • 多头自注意力机制 Multi-Head Attention
        • 防退化&标准化 Add&Norm
        • 前馈网络 Feed Forward
        • 编码器
        • 解码器
        • 输出概率
        • 整体 Transformer
      • 5 OpenAI GPT 不同版本对比
        • 各大模型
        • GPT系列对比

AI大模型开发工程师

001 AI 大模型应用开发基础

1 AI 大模型应用开发基础准备

网络环境
  • 需要科学上网
  • OpenAI账户
开发环境
  • 语言:Python3(建议Python3.10及以上)
  • 开发工具:Pycharm,Visual Studio Code都行,喜欢什么用什么就行
  • 课程演示:Jypter Notebook
资源准备

image.png

如何租赁云服务器?
  • 云平台地址:https://www.autodl.com/

image.png

2 大白话解释 AI 大模型原理

成语接龙和暴力穷举

image.png

大模型如何理解人类语言
  • 计算机底层:二进制
  • 将 现实问题 转化为 数学问题

image.png

如何存储数据?

image.png

如何存储图像?

image.png

如何让电脑知道存的是什么?

image.png

image.png

向量化
  • 将 东西 与 数字组合,比如 [0, 180, 75, 35] 分别表示 [性别, 身高, 体重, 年龄]
  • 更多维度:
    • 【性别,年龄,身高,体重,胸围,肤色,腰围,体脂率,爱好,语言,城市,收入等】
    • 【0,22,170,170,170,11,22,33,65, 345,67,8888】
为什么需要向量化?
  • 方便电脑处理
  • 寻找规律

image.png

  • 每个字都是用数字代替
    • 床【0,11,2,33,44,54,66,75,89,12】
    • 大【0,11,2.234,…】
    • 美【0,11,2.222,…】
  • 向量可以计算
    • 相加、相减、相乘

image.png

出现了难题

  • 坐标要多少维度?
  • 每个维度代表什么?
调整位置
  • 通过计算距离,不断调整位置

image.png

科学的方式

image.png

Word2vec算法

image.png

信息压缩与特征提取

image.png

问题

image.png

谷歌论文-自注意力机制
  • 解决了自然语言特征提取的问题

image.png

  • 解决问题的思路

image.png

TransFormer算法演进

image.png

通用人工智能模型
  • 在此之前,都是一些细分领域:围棋、玩游戏、图像识别、设计模型、标注数据等

image.png

  • 而通用人工智能,是利用自然语言,理解整个文明成果的能力,和人类无缝交流的能力

发展分支

image.png

  • 涌现智能

image.png

image.png

百模大战

image.png

3 手推Transformer网络架构

Transformer 网络架构

image.png

  • Add:防止梯度退化
  • Norm:归一化
  • Feed Forward:全链接前馈网络
独热编码(one-hot编码)

image.png

word2vec
  • Q 矩阵,对于任何一个独热编码的词向量都可以通过 Q 矩阵得到新的词向量

image.png

缺点:多义词

ELMo模型

image.png

Multi-head Self Attention

image.png

4 Transformer 网络架构源码剖析

从代码层面理解 Transformer

image.png

  • 举一个简单的案例

用到的技术:Python、Pytorch(用于开发机器学习和深度学习的框架)

image.png

输入向量化 Input Embedding

image.png

位置编码 Positional Encoding

image.png

多头自注意力机制 Multi-Head Attention
  • 自注意力实现

image.png

mask:是否做掩码

dropout:为了防止过拟合

  • 多头注意力实现

image.png

防退化&标准化 Add&Norm

image.png

前馈网络 Feed Forward

image.png

relu:激活函数

编码器

image.png

clone_module_to_modulelist:克隆出多层

self.attn:自注意力

解码器

image.png

输出概率

image.png

整体 Transformer

image.png

5 OpenAI GPT 不同版本对比

image.png

  • 虽然使用的都是 Transformer 网络架构,但是各个模型训练数据不一样、训练目标不一样、训练时间也不一样,因此表现出的特性和性能也不一样。
各大模型
  • 在线大模型:GPT、GLM、Gemini、Claude3
  • 开源大模型:Llama、Qwen、baichuan、ChatGLM3
GPT系列对比

image.png


http://www.kler.cn/a/369827.html

相关文章:

  • Java 大视界 -- Java 大数据中的隐私增强技术全景解析(64)
  • 【Flask】在Flask应用中使用Flask-Limiter进行简单CC攻击防御
  • 面向程序员的Lean 4教程(2) - 数组和列表
  • Ansible入门学习之基础元素介绍
  • ray.rllib-入门实践-12:自定义多智能体强化学习
  • 【pytorch 】miniconda python3.11 环境安装pytorch
  • React 组件 API
  • Python测试框架—pytest详解
  • TensorFlow面试整理-给定一个任务(如图像分类、文本分类),如何从头构建一个TensorFlow模型?
  • 工厂方法模式 — 设计模式
  • 【云计算】KVM虚拟化部署
  • Redis和MySQL如何保证数据一致性
  • SQLAlchemy 连接 dm
  • 基于Multisim的单双声道音频功率放大电路设计与仿真
  • 哈希及其封装实现unordermap和set
  • PSI-BLAST位点特异性矩阵PSSM和ProteinMPNN中氨基酸顺序映射
  • 华为OD机试真题---字符串摘要
  • 【含开题报告+文档+PPT+源码】基于SSM的旅游与自然保护平台开发与实现
  • 重工业数字化转型创新实践:某国家特大型钢铁企业如何快速落地基于实时数仓的数据分析平台
  • 开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama(一)
  • 【最新华为OD机试E卷-支持在线评测】机器人活动区域(200分)多语言题解-(Python/C/JavaScript/Java/Cpp)
  • 如何通过自动化有效地简化 Active Directory 操作?
  • Java基于微信小程序的童装商城的设计与实现,附源码+文档
  • 使用语言模型进行文本摘要的五个级别(llm)
  • 51单片机 复位电路
  • 解决Redis缓存穿透(缓存空对象、布隆过滤器)