当前位置: 首页 > article >正文

(LLaMa Factory)大模型训练方法--准备模型(Qwen2-0.5B)

1、准备训练框架

LLaMA Factory是一款开源低代码大模型微调框架,集成了业界最广泛使用的微调技术,支持通过Web UI界面零代码微调大模型,目前已经成为开源社区内最受欢迎的微调框架。

 

2、运行环境要求
  • 硬件:

    •  GPU:推荐使用24GB显存的显卡或者更高配置

  •  软件:

    •  python:3.10

    •  pytorch:2.1.2 + cuda12.1

    •  操作系统:Ubuntu 22.04

 3、准备训练模型

在开展大模型训练之前,由于我们不能从零开始训练一个大模型(时间及资源都不允许!),所以我们需要选择一个已经训练好的模型,作为基础模型进行训练。在ModelScope平台,我们选择Qwen2-0.5B模型作为底座模型。

#下载模型至LLaMA-Factory下的models目录
git clone https://www.modelscope.cn/qwen/Qwen2-0.5B.git /mnt/workspace/LLaMA-Factory/

模型位置如下:
LLaMA-Factory/
|-models/
    |-Qwen2-0.5B/

4、验证模型

4.1  在LLaMA-Factory的WebUI界面,进行相关配置。

  • Model name: Qwen2-0.5B

  • Model path: models/Qwen2-0.5B

4.2  切换Tab为 Chat , 点击 Load model按钮。

4.3  在Chat的对话框中,输入简单信息验证模型能否使用。(由于当前加载的Qwen2-0.5B是一个基础模型,所以其对话能力会非常弱,这里我们主要是验证模型加载的整体流程是否通顺。)

 

 


http://www.kler.cn/a/547534.html

相关文章:

  • 基于若依开发的工程项目管系统开源免费,用于工程项目投标、进度及成本管理的OA 办公开源系统,非常出色!
  • Jmeter+Jenkins接口压力测试持续集成
  • Unity序列化多态数组
  • 当Ollama遇上划词翻译:我的Windows本地AI服务搭建日记
  • AI知识库 - Cherry Studio
  • C++基础知识(三)之结构体、共同体、枚举、引用、函数重载
  • 答题考试系统php+uniapp
  • 天童美语:观察你的生活
  • Windows 常用程序名
  • 知识蒸馏中的“温度系数“调控策略:如何让小模型继承大模型智慧?
  • 第六天:requests库的用法
  • 【前端进阶】「全面优化前端开发流程」:利用规范化与自动化工具实现高效构建、部署与团队协作
  • java枚举类型的查找
  • 沃德校园助手系统php+uniapp
  • 【16届蓝桥杯寒假刷题营】第1期DAY4
  • HTTP的“对话”逻辑:请求与响应如何构建数据桥梁?
  • 【Linux】:网络通信
  • SpringBoot3使用Swagger3
  • C++效率掌握之STL库:string底层剖析
  • Java-数据结构-(TreeMap TreeSet)