当前位置：首页 > article >正文

llaMa模型的创新

article 2025/2/27 3:25:15

LLaMa介绍

LLaMa是基于transformer encoder的生成式模型。

目前有：LLAMA, LLAMA2, LLAMA3 三个大的版本

论文

LLAMA 2: Open Foundation and Fine-Tuned Chat Models： https://arxiv.org/pdf/2307.09288

LLAMA 3: The Llama 3 Herd of Models https://arxiv.org/pdf/2407.21783

模型：

主要创新

Pre-Normalization（Pre-Norm，层前归一化）
RMSNorm（Root Mean Square Layer Normalization，均方根层归一化）：
旋转位置编码（RoPE）
稀疏注意力（Sparse Attention）
SwiGLU激活函数：
grouped-query attention (GQA)
长上下文：

训练

LLAMA 7B训练18万+小时

http://www.kler.cn/a/562598.html

相关文章：

Mobaxterm服务器常用命令（持续更新）

6.3 - UART串口数据发送之中断

Snapshot Compressed Imaging：打破传统成像的新视界

接口测试-计算机网络基础扫盲

Linux | man 手册使用详解

关于远程连接工具不能用hostname而只能用ip连接上的问题

flowable-ui 的会签功能实现

Hutool - Http：基于 HttpUrlConnection 的 Http 客户端封装

Vscode编辑器获取更新远程最新分支

DeepSeek 开源周：DeepEP 项目详解，GPU 压榨计划启动！

DeepSeek开源周首日：发布大模型加速核心技术可变长度高效FlashMLA 加持H800算力解码性能狂飙升至3000GB/s

扩增子测序|R包microeco妙用之零模型计算群落确定性和随机性过程（NST,pNST,βNTI，RCbray生态过程计算）

基于springboot的学习社区博客

DeepSeek回答：AI时代Go语言学习路线

在 C++23 中使用智能指针进行现代内存管理 — 第 2 部分：共享指针

Windows 上源码安装 FastGPT

Java 数学函数库

精美登录注册UI，登录页面设计模板

SOME/IP-SD -- 协议英文原文讲解2

解决后端跨域问题