当前位置: 首页 > article >正文

【ms-swift 大模型微调实战】

安装环境

  • pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
  • pip install modelscope vllm ‘ms-swift[llm]’ -U

下载模型

  • modelscope download --model Qwen/Qwen2.5-7B-Instruct --local_dir ./Qwen2.5-7B-Instruct

微调

  • 实验环境:4 * A100# 显存占用:4 * 70GB
    NPROC_PER_NODE=4 CUDA_VISIBLE_DEVICES=0,1,2,3 swift sft \
        --model_type qwen2_5-72b-instruct \
        --model_id_or_path Qwen2.5-72B-Instruct \
        --dataset qwen2-pro-en#500 qwen2-pro-zh#500 self-cognition#500 \
        --logging_steps 5 \
        --learning_rate 1e-4 \
        --output_dir output \ 
        --lora_target_modules ALL \
        --model_name 小黄 'Xiao Huang' \
        --model_author 魔搭 ModelScope \
        --deepspeed default-zero3
  • 单卡A10/3090可运行的例子 (Qwen2.5-7B-Instruct)# 显存占用:24GB
  	CUDA_VISIBLE_DEVICES=0 swift sft \
    --model_type qwen2_5-7b-instruct \
    --model_id_or_path Qwen2.5-7B-Instruct \
    --dataset qwen2-pro-en#500 qwen2-pro-zh#500 self-cognition#500 \
    --logging_steps 5 \
    --max_length 2048 \
    --learning_rate 1e-4 \
    --output_dir output \
    --lora_target_modules ALL \
    --model_name 小黄 'Xiao Huang' \
    --model_author 魔搭 ModelScope

融合lora

CUDA_VISIBLE_DEVICES=0,1 swift export \    
        --ckpt_dir output/qwen2_5-72b-instruct/vx-xxx/checkpoint-xxx \    
        --merge_lora true

vLLM部署

vllm serve xxxxx-checkpoint-merged [opentional args]

参考

  • Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
  • https://github.com/modelscope/ms-swift
  • 自定义数据集
  • 微调文档
  • 推理文档

http://www.kler.cn/a/371446.html

相关文章:

  • 从零开始的 vue项目部署到服务器详细步骤(vue项目build打包+nginx部署+配置ssl证书)
  • doris 表结构批量导出
  • 使用Python和OpenCV实现火焰检测
  • 大语言模型数据处理方法(基于llama模型)
  • stm32使用SIM900A模块实现MQTT对接远程服务器
  • MobileNetv2网络详解
  • 自动化机器学习(AutoML)详解
  • 【Spring】IocDI
  • 端到端自动驾驶模型SparseDrive论文阅读笔记
  • HarmonyOS:@Watch装饰器:状态变量更改通知
  • webAssembly初探
  • Python BeautifulSoup 实战案例:抓取网页并提取数据
  • 【C++】智能指针:解决内存泄漏、悬空指针等问题
  • 【Unity基础】初识UI Toolkit - 编辑器UI
  • 简记 Vue3(一)—— setup、ref、reactive、toRefs、toRef
  • PyTorch模块介绍
  • 【IC每日一题】
  • 【架构-36】常见的各类锁的特点
  • C++学习:类和对象(二)
  • [ 问题解决篇 ] 解决远程桌面安全登录框的问题
  • 3个模型的交互式多模型IMM,基于EKF的目标跟踪实例(附MATLAB代码)
  • java web调试时清理当前网址的缓存
  • 3.1.3 虚存页面的映射
  • Java学习笔记(九)
  • 云原生后端:现代应用架构的核心力量
  • JavaWeb——Web入门(2/9)-SpringBootWeb:快速入门(入门程序需求、开发步骤、项目相关文件说明、小结)