当前位置: 首页 > article >正文

用DeepSeek-R1-Distill-data-110k蒸馏中文数据集 微调Qwen2.5-7B-Instruct!

  1. 下载模型与数据

    模型下载:
    huggingface:
    Qwen/Qwen2.5-7B-Instruct · HF MirrorWe’re on a journey to advance and democratize artificial intelligence through open source and open science.https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct
    魔搭:
    魔搭社区汇聚各领域最先进的机器学习模型,提供模型探索体验、推理、训练、部署和应用的一站式服务。https://www.modelscope.cn/models/Qwen/Qwen2.5-7B-Instruct
    数据下载:
    https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110khttps://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k
     

  2. 安装swift

    使用 pip 安装:

    pip install ms-swift -U

    从源安装:

    # pip install git+https://github.com/modelscope/ms-swift.git
    
    git clone https://github.com/modelscope/ms-swift.git
    cd ms-swift
    pip install -e .
  3. 微调

    CUDA_VISIBLE_DEVICES=0,1 \
    swift sft \
        --model /home/models/pretrained_models/llm/Qwen2.5-7B-Instruct \ 
        --train_type lora \
        --dataset  /home/data/Chinese-DeepSeek-R1-Distill-data-110k-SFT/new_distill_r1_110k_sft.json \
        --torch_dtype bfloat16 \
        --num_train_epochs 6 \
        --per_device_train_batch_size 1 \
        --per_device_eval_batch_size 1 \
        --learning_rate 1e-4 \
        --lora_rank 8 \
        --lora_alpha 32 \
        --target_modules all-linear \
        --gradient_accumulation_steps 16 \
        --eval_steps 50 \
        --save_steps 50 \
        --save_total_limit 5 \
        --logging_steps 5 \
        --output_dir output \
        --system 'You are a deep thinking assistant.' \
        --warmup_ratio 0.05 \
        --dataloader_num_workers 4 \
        --model_author Q \                                 
        --model_name Q-AILab-Qwen2.5-7B-Instruct-R1-Distill
  4. 训练过程

     2张A800,训练时长5天,共训练6轮。

  5. 推理效果

    推理:

    CUDA_VISIBLE_DEVICES=0,1 \
    swift infer \
        --adapters /home/model/swift/output/v6-20250217-075043/checkpoint-50 \
        --stream true \
        --temperature 0 \
        --max_new_tokens 8192

    推理测试:




    Qwen2.5-7B-Instruct-DeepSeek-R1-Distill-data-110K 训练完成!

  6. 后续合并Loar、断点训练、推送模型、可参考Swift github项目地址:

        https://github.com/modelscope/ms-swifthttps://github.com/modelscope/ms-swift
 


http://www.kler.cn/a/572411.html

相关文章:

  • 【leetcode】实现Tire(前缀树)
  • FastGPT 源码:基于 LLM 实现 Rerank (含Prompt)
  • android_viewtracker 原理
  • 【cuda学习日记】5.4 常量内存
  • leetcode383 赎金信
  • 【详解 | 辨析】“单跳多跳,单天线多天线,单信道多信道” 之间的对比
  • Git-cherry pick
  • 迷你世界脚本世界UI接口:UI
  • c++面试常见问题:虚表指针存在于内存哪个分区
  • Node.js学习分享(上)
  • python爬虫数据库概述
  • 【Java】IO流
  • Linux·数据库INSERT优化
  • PyTorch 与 NVIDIA GPU 的适配版本及安装
  • NO.23十六届蓝桥杯备战|二维数组|创建|初始化|遍历|memset(C++)
  • Kconfig与CMake初步模块化工程3
  • 刷题日记——部分二分算法题目分享
  • 我如何从 Java 和 Python 转向 Golang 的脚本和 GUI 工具开发
  • ThreadLocal解析
  • CTF 中的 XSS 攻击:原理、技巧与实战案例