通义Qwen实战(1): 环境安装及微调实战
文章目录
-
- 1. 环境安装
-
- 1. 1 环境安装
- 1. 2 示例运行
- 1. 3 显存占比
- 2. Qwen的微调
-
- 2.1 qwen案例介绍
- 2.2 qwen 微调实战
-
- 2.2.1 提示词工程
- 2.2.2 训练样本生成
- 2.2.3 qwen 微调
- 2.2.4 推理效果
本文介绍一下大模型的用法及微调,体验下大模型的用法。使用阿里开源的通义千问大模型,模型可以从阿里的魔塔社( modelscope)区下载, modelscope类似于国外的huggingface。
搜索千问,可以找到通义千问各个版本的模型。我们选择一个最小版本的模型也就是1.8B。它还有7B,14B,72B,200B等更大版本的模型,我们使用的1.8B的大模型,它占用的显存会比较小,可以在个人电脑上进行训练及推理。选择1.8B也是因为训练资源比较有限,它的显存占用比较低。
可以看到千问1.8可以找到好几个版本:
- (1)
通义千问-1_8B-预训练
:预训练的版本模型,基于大量网上语料训练得到的,它主要是实现续写的功能,即根据一句话,预测下一句话。 - (2)
通义千问-1_8B-Chat
: 这种带Chat
它是聊天专用的模型,它基于通义1_8B-预训练模型进行训练得到,训练的时候使用QA(问