当前位置：首页 > article >正文

使用 LLaMA-Factory 微调大模型

article 2025/2/28 20:16:19

本文将介绍如下内容：

一、搭建 Docker Container 环境
二、配置大模型训练环境
三、构建、配置数据集
四、训练大模型

一、搭建 Docker Container 环境

笔者此前多篇文章说明，此处不再赘述，可参考：NGC容器中快速搭建Jupyter环境
Eg： NGC 版本为 24.09

二、配置大模型训练环境

1、下载代码

git clone https://github.com/hiyouga/LLaMA-Factory.git

# 切换到此次案例的版本
git checkout c3fda5046d835ba4542d525b8d89cd12838e9f4c

2、配置训练环境

cd LLaMA-Factory
pip install -e ".[torch,metrics]"
pip install deepspeed==0.15.4

三、构建、配置数据集

1、构建数据集

将数据构造为如下格式的json文件：

[
  {
    "instruction": "识别并解释给定列表中的两个科学理论：细胞理论和日心说。",
    "input": "",
    "output": "细胞理论是生物科学的一个理论，它认为所有生命体都是由微小的基本单元——细胞所构成。"
  },
  [
  {
    "instruction": "识别并解释给定列表中的两个科学理论：细胞理论和日心说。",
    "input": "",
    "output": "细胞理论是生物科学的一个理论，它认为所有生命体都是由微小的基本单元——细胞所构成。这是生物学的一个基础理论，认为细胞是所有生物的基本结构和功能单位，所有的生物都是由一个或>多个细胞组成，细胞只能通过细胞分裂产生新的细胞。这一理论由薛定谔、施瓦内和雪莱于1839年首次提出。\n\n日心说是指太阳是太阳系的中心，也就是说，行星围绕太阳旋转的理论。这个理论打破了传统的
地心说观点，认为地球并不是宇宙的中心。日心说的提出者是尼古拉·哥白尼，他在16世纪初发表了他的著作《天体运行论》，阐述了太阳系行星围绕太阳运行的模型，为天文学的发展做出了巨大贡献。"
  },
]

2、配置数据集

vim LLaMA-Factory/data/dataset_info.json

{
  "dataset_merged": {
    "file_name": "dataset_merged.json"
  },
  "identity": {
    "file_name": "identity.json"
  },
}

四、训练大模型

1、torchrun 命令详细

--nnodes: 总共的节点（机器）数量。
--nproc_per_node: 每个节点上要使用的进程数，通常等于该节点所使用的 GPU 数。
--node_rank: 当前节点的编号，从 0 开始计数。
--master_addr: 主节点（node_rank=0）的 IP 地址或主机名。
--master_port: 用于通信的端口，确保这个端口在主节点是空闲、未被占用的。

2 、单机多卡案例

在单机多卡的场景下，nnodes 设置为 1，node_rank 为 0，master_addr 通常设为 localhost 或者 127.0.0.1，master_port 选择一个未被占用的端口（例如 12355）。

#!/bin/bash

# 分布式训练参数
DISTRIBUTED_ARGS="
    --nnodes=1 \
    --node_rank=0 \
    --nproc_per_node=3 \
    --master_addr=127.0.0.1 \
    --master_port=12355 \
"

# 设置可见的 GPU 设备，这里选择 GPU 0, 2, 3
CUDA_VISIBLE_DEVICES=0,2,3 torchrun $DISTRIBUTED_ARGS src/train.py \
    --stage sft \
    --do_train \
    --deepspeed /data/njh/generate-medical-record/LLaMA-Factory/examples/deepspeed/ds_z2_config_self.json \
    --use_fast_tokenizer \
    --flash_attn auto \
    --model_name_or_path /nasdata/zhanjie/models/Qwen2.5-7B-Instruct \
    --dataset dataset_merged \
    --template qwen \
    --finetuning_type full  \
    --lora_dropout 0.2 \
    --lora_target lora \
    --output_dir saves/qwen2.5-7B-Instruct/epoch3_dropout2_rank4 \
    --overwrite_cache \
    --overwrite_output_dir \
    --warmup_steps 100 \
    --weight_decay 0.1 \
    --per_device_train_batch_size 1 \
    --gradient_accumulation_steps 4 \
    --ddp_timeout 9000 \
    --learning_rate 1e-5 \
    --lr_scheduler_type cosine \
    --logging_steps 1 \
    --cutoff_len 6000 \
    --save_steps 100 \
    --plot_loss \
    --num_train_epochs 1 \
    --bf16 True \
    --optim adamw_torch \
    --lora_rank 4 \
    --lora_alpha 8

说明：

--nnodes=1：表示总共有1个节点（机器）。
--node_rank=0：当前节点编号为0（唯一的节点）。
--nproc_per_node=3：每个节点上启动3个进程，对应3个GPU（GPU 0, 2, 3）。
--master_addr=127.0.0.1：主节点地址为本机。
--master_port=12355：主节点通信端口。

3、多机多卡案例

在多机多卡的场景下，假设有两台机器（节点），每台机器有3个GPU。需要在每台机器上分别运行相应的 torchrun 命令，并确保主节点的 master_addr 和 master_port 在所有节点上保持一致。

主节点（Node 0）

#!/bin/bash

# 分布式训练参数
DISTRIBUTED_ARGS="
    --nnodes=2 \
    --node_rank=0 \
    --nproc_per_node=3 \
    --master_addr=192.168.1.1 \
    --master_port=12355 \
"

# 设置可见的 GPU 设备，这里选择 GPU 0, 2, 3
CUDA_VISIBLE_DEVICES=0,2,3 torchrun $DISTRIBUTED_ARGS src/train.py \
    --your_other_args

说明：

–nnodes=2：总共有2个节点。
–node_rank=0：当前节点为主节点（编号为0）。
–master_addr=192.168.1.1：主节点的IP地址（需替换为实际主节点IP）。
其他参数同单机多卡。

从节点（Node 1）

#!/bin/bash

# 分布式训练参数
DISTRIBUTED_ARGS="
    --nnodes=2 \
    --node_rank=1 \
    --nproc_per_node=3 \
    --master_addr=192.168.1.1 \
    --master_port=12355 \
"

# 设置可见的 GPU 设备，这里选择 GPU 0, 2, 3
CUDA_VISIBLE_DEVICES=0,2,3 torchrun $DISTRIBUTED_ARGS src/train.py \
    --stage sft \
    --do_train \
    --deepspeed /data/njh/generate-medical-record/LLaMA-Factory/examples/deepspeed/ds_z2_config_self.json \
    --use_fast_tokenizer \
    --flash_attn auto \
    --model_name_or_path /nasdata/zhanjie/models/Qwen2.5-7B-Instruct \
    --dataset dataset_merged \
    --template qwen \
    --finetuning_type full  \
    --lora_dropout 0.2 \
    --lora_target lora \
    --output_dir saves/qwen2.5-7B-Instruct/epoch3_dropout2_rank4 \
    --overwrite_cache \
    --overwrite_output_dir \
    --warmup_steps 100 \
    --weight_decay 0.1 \
    --per_device_train_batch_size 1 \
    --gradient_accumulation_steps 4 \
    --ddp_timeout 9000 \
    --learning_rate 1e-5 \
    --lr_scheduler_type cosine \
    --logging_steps 1 \
    --cutoff_len 6000 \
    --save_steps 100 \
    --plot_loss \
    --num_train_epochs 1 \
    --bf16 True \
    --optim adamw_torch \
    --lora_rank 4 \
    --lora_alpha 8