当前位置: 首页 > article >正文

llaMa模型的创新

LLaMa介绍

LLaMa是基于transformer encoder的生成式模型。

目前有:LLAMA, LLAMA2, LLAMA3 三个大的版本

论文

LLAMA 2: Open Foundation and Fine-Tuned Chat Models: https://arxiv.org/pdf/2307.09288

LLAMA 3: The Llama 3 Herd of Models https://arxiv.org/pdf/2407.21783

模型:

主要创新

  • Pre-Normalization(Pre-Norm,层前归一化)

  • RMSNorm(Root Mean Square Layer Normalization,均方根层归一化):

  • 旋转位置编码(RoPE)

  • 稀疏注意力(Sparse Attention)

  • SwiGLU激活函数:

  • grouped-query attention (GQA)

  • 长上下文:

训练

LLAMA 7B训练18万+小时


http://www.kler.cn/a/562598.html

相关文章:

  • Mobaxterm服务器常用命令(持续更新)
  • 6.3 - UART串口数据发送之中断
  • Snapshot Compressed Imaging:打破传统成像的新视界
  • 接口测试-计算机网络基础扫盲
  • Linux | man 手册使用详解
  • 关于远程连接工具不能用hostname而只能用ip连接上的问题
  • flowable-ui 的会签功能实现
  • Hutool - Http:基于 HttpUrlConnection 的 Http 客户端封装
  • Vscode编辑器获取更新远程最新分支
  • DeepSeek 开源周:DeepEP 项目详解,GPU 压榨计划启动!
  • DeepSeek开源周首日:发布大模型加速核心技术可变长度高效FlashMLA 加持H800算力解码性能狂飙升至3000GB/s
  • 扩增子测序|R包microeco妙用之零模型计算群落确定性和随机性过程(NST,pNST,βNTI,RCbray生态过程计算)
  • 基于springboot的学习社区博客
  • DeepSeek回答:AI时代Go语言学习路线
  • 在 C++23 中使用智能指针进行现代内存管理 — 第 2 部分:共享指针
  • Windows 上源码安装 FastGPT
  • Java 数学函数库
  • 精美登录注册UI,登录页面设计模板
  • SOME/IP-SD -- 协议英文原文讲解2
  • 解决后端跨域问题