当前位置: 首页 > article >正文

通义Qwen实战(1): 环境安装及微调实战

文章目录

    • 1. 环境安装
      • 1. 1 环境安装
      • 1. 2 示例运行
      • 1. 3 显存占比
    • 2. Qwen的微调
      • 2.1 qwen案例介绍
      • 2.2 qwen 微调实战
        • 2.2.1 提示词工程
        • 2.2.2 训练样本生成
        • 2.2.3 qwen 微调
        • 2.2.4 推理效果

本文介绍一下大模型的用法及微调,体验下大模型的用法。使用阿里开源的通义千问大模型,模型可以从阿里的魔塔社( modelscope)区下载, modelscope类似于国外的huggingface。

在这里插入图片描述
搜索千问,可以找到通义千问各个版本的模型。我们选择一个最小版本的模型也就是1.8B。它还有7B,14B,72B,200B等更大版本的模型,我们使用的1.8B的大模型,它占用的显存会比较小,可以在个人电脑上进行训练及推理。选择1.8B也是因为训练资源比较有限,它的显存占用比较低。

可以看到千问1.8可以找到好几个版本:

  • (1) 通义千问-1_8B-预训练:预训练的版本模型,基于大量网上语料训练得到的,它主要是实现续写的功能,即根据一句话,预测下一句话。
  • (2) 通义千问-1_8B-Chat: 这种带Chat它是聊天专用的模型,它基于通义1_8B-预训练模型进行训练得到,训练的时候使用QA(问

http://www.kler.cn/a/588003.html

相关文章:

  • 用pyqt做个日期输入控件,实现公农历转换及干支纪时功能
  • Implementing SAP BPC Embedded - 2nd Edition
  • 暨南大学MEM复试资料
  • 奇安信面试题
  • 蓝桥杯 阶乘约数
  • 字符串 数字 相互转化
  • IMX6ULL_Pro开发板的串口应用程序实例(利用TTY子系统去使用串口)
  • 蓝桥与力扣刷题(蓝桥 字符统计)
  • linux (centos) 的 nodejs 安装全局包后使用命令无效
  • UE5 RVT 制作场景交互 - 遮罩
  • 安装配置Anaconda
  • es6初步学习
  • k8s serviceaccount在集群内指定apiserver时验证错误的问题
  • 计算机视觉中的MIP算法全解析
  • 使用VSCode开发STM32补充(Debug调试)
  • AI+视觉测试:如何提升前端测试质量?
  • 五大基础算法——模拟算法
  • MySQL -- 基本函数
  • 【Linux进程通信】————匿名管道命名管道
  • Matlab 风力发电机磁悬浮轴承模型pid控制