当前位置: 首页 > article >正文

【llm对话系统】大模型 Llama、Qwen 和 ChatGLM 的网络结构和训练方法对比

1. 引言

近年来,大型语言模型 (LLM) 取得了令人瞩目的进展,其中 Llama、Qwen 和 ChatGLM 是三个备受关注的开源模型。它们都在 Transformer 架构的基础上进行了改进和优化,并在各种 NLP 任务上取得了优异的性能。

本文将深入分析 Llama、Qwen 和 ChatGLM 的网络结构和训练方法,比较它们的异同以及各自的优势。

2. 模型结构对比

特性 Llama Qwen ChatGLM
基础架构 Decoder-only Decoder-only Encoder-Decoder (GLM架构,非传统意义)
预训练目标 Causal Language Modeling Causal Language Modeling Autoregressive Blank Infilling (自回归空格填充)
位置编码 Rotary Positional Embedding (RoPE) Rotary Positional Embedding (RoPE) 2D RoPE (二维位置编码,类似transformer-xl)
归一化 RMS Norm RMS Norm Layer Norm (Pre-Normalization)
激活函数 SwiGLU SwiGLU GeGLU
注意力机制 GQA (Grouped-Query Attention) GQA (Grouped-Query Attention), FlashAttention Multi-head Attention, FlashAttention (可选)
分词器 SentencePiece (BPE) Tiktoken (GPT-4 同款) SentencePiece (BPE)
最大序列长度 4k (Llama2), 可外推 32k (Qwen-72B), 可外推 2k (ChatGLM-6B), 8k (ChatGLM2-6B), 可外推
参数量 7B, 13B, 34B, 70B 1.8B, 7B, 14B, 72B 6B, 12B
特色 开源且性能强大 支持更长的上下文和多语言; 微调代码丰富 双语支持,针对中文优化,推理性能强

2.1 基础架构:Decoder-only vs. Encoder-Decoder (GLM)

  • Llama 和 Qwen 都采用了 Decoder-only 架构,这意味着它们只使用 Transformer 的解码器部分。Decoder-only 架构的模型擅长生成文本,因为它们在训练过程中只看到前面的 token,这与生成任务的自回归特性相符。
  • ChatGLM 基于 GLM (Gen

http://www.kler.cn/a/529227.html

相关文章:

  • MYSQL--一条SQL执行的流程,分析MYSQL的架构
  • 【数据结构】_以单链表为例分析各种方法实现的特殊情况考虑思路
  • JVM方法区
  • 【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】1.27 线性代数王国:矩阵分解实战指南
  • 87.(3)攻防世界 web simple_php
  • 电气相关知识
  • 1.4 Go 数组
  • MySQL知识点总结(十七)
  • 计算机网络之物理层通信基础(奈奎斯特定理与香农定理)
  • UE 导入sbsar插件
  • 【大模型LLM面试合集】大语言模型架构_MHA_MQA_GQA
  • 使用C# 如何获取本机连接的WIFI名称[C# ---1]
  • InnoSetup使用教程笔记
  • Anaconda 全面解析:从入门到精通的操作教程
  • MiniMind——跑通项目
  • Java知识速记 == 与equals
  • 截止到2025年2月1日,Linux的Wayland还有哪些问题是需要解决的?
  • 群晖搭建Gitea教程(使用系统自带的postgresql)
  • 用 JavaScript 打造交互式表格:添加与删除行功能
  • Linux文件类型
  • 台账思维和GIS思维在资产管理中的不同模式
  • 深度学习推理的整数量化:原理与实证评估
  • 知识管理系统推动企业知识创新与人才培养的有效途径分析
  • 【玩转全栈】--创建一个自己的vue项目
  • 海外问卷调查之渠道查,企业经营的指南针
  • C语言指针专题五 -- void和const指针