当前位置：首页 > article >正文

浅谈人工智能之基于LLaMA-Factory进行Qwen2微调：医疗大模型

article 2025/2/22 2:36:58

浅谈人工智能之基于LLaMA-Factory进行Qwen2微调：医疗大模型

引言

近年来，大规模预训练语言模型（如LLaMA）在自然语言处理任务中取得了显著的成功。LLaMA-Factory是一个针对LLaMA模型的微调工具，旨在简化和优化模型微调的过程。本文将详细探讨如何使用LLaMA-Factory对Llama3进行微调，以解决特定的下游任务。

LLaMA-Factory简介

LLaMA-Factory是一个开源框架，专门设计用于高效地微调LLaMA模型。它提供了灵活的接口和多个预配置的训练任务，用户可以根据自己的需求进行修改和扩展。该工具不仅支持单个GPU的训练，还可以在分布式环境中部署，具备良好的可扩展性。

微调Qwen2的准备工作

在开始微调之前，确保已完成以下准备工作：
第一步：使用conda进入llama_factory工作（假设我们已经安装完成conda和llama-factory工具），如果不清楚如何安装可以参考之前微调Llama3的相关文档。

conda activate llama_factory

下载Qwen2模型

我们下载对应的大模型，操作如下
第一步：在/mnt/workspace路径下创建存放模型的文件夹并进入

mkdir models
cd models

第二步：我们使用阿里魔塔存放的精选，所以按照modelscope依赖

pip install modelscope

第三步：模型克隆

git clone https://www.modelscope.cn/Qwen/Qwen2-VL-7B-Instruct.git

至此我们的准备工作做完。

lora微调

准备工作完成以后，我们就可以进行模型微调。
第一步：下载微调数据集，我们进入/mnt/workspace/LLaMA-Factory/data文件夹下，克隆数据集

git clone https://www.modelscope.cn/datasets/maple77/Chinese-medical-dialogue.git

第二步：克隆下来以后，，我们可以看到Chinese-medical-dialogue文件夹下有如下文件
在这里插入图片描述
第三步：我们将train_0001_of_0001.json的数据集拷贝至上一目录，即/mnt/workspace/LLaMA-Factory/data

为了便于文件区分，我们将文件名称修改成如下Chinese-medical-dialogue.json
第第四步：我们打开/mnt/workspace/LLaMA-Factory/data的dataset_info.json文件，我们是通过Linux vim命令进行打开，因为直接界面上修改会有问题，建议跟我一样。
我们在文件中找到如下内容

"alpaca_gpt4_zh": {
   
    "hf_hub_url": "llamafactory/alpaca_gpt4_zh",
    "ms_hub_url": "llamafactory/alpaca_gpt4_zh",
    "om_hub_url": "State_Cloud/alpaca-gpt4-data-zh"
  }