(LLaMa Factory)大模型训练方法--准备模型(Qwen2-0.5B)
1、准备训练框架
LLaMA Factory
是一款开源低代码大模型微调框架,集成了业界最广泛使用的微调技术,支持通过Web UI界面零代码微调大模型,目前已经成为开源社区内最受欢迎的微调框架。
2、运行环境要求
-
硬件:
-
GPU:推荐使用24GB显存的显卡或者更高配置
-
-
软件:
-
python:3.10
-
pytorch:2.1.2 + cuda12.1
-
操作系统:Ubuntu 22.04
-
3、准备训练模型
在开展大模型训练之前,由于我们不能从零开始训练一个大模型(时间及资源都不允许!),所以我们需要选择一个已经训练好的模型,作为基础模型进行训练。在ModelScope平台,我们选择Qwen2-0.5B
模型作为底座模型。
#下载模型至LLaMA-Factory下的models目录
git clone https://www.modelscope.cn/qwen/Qwen2-0.5B.git /mnt/workspace/LLaMA-Factory/
模型位置如下:
LLaMA-Factory/
|-models/
|-Qwen2-0.5B/
4、验证模型
4.1 在LLaMA-Factory
的WebUI界面,进行相关配置。
-
Model name:
Qwen2-0.5B
-
Model path:
models/Qwen2-0.5B
4.2 切换Tab为 Chat
, 点击 Load model
按钮。
4.3 在Chat的对话框中,输入简单信息验证模型能否使用。(由于当前加载的Qwen2-0.5B
是一个基础模型,所以其对话能力会非常弱,这里我们主要是验证模型加载的整体流程是否通顺。)