当前位置: 首页 > article >正文

如何基于transformers库通过训练Qwen/DeepSeek模型的传统分类能力实现文本分类任务

文章目录

    • 模型与环境准备
    • 文档分析
    • 源码解读
    • 模型训练及推理方式
    • 进阶:CPU与显存的切换
    • 进阶:多卡数据并行训练
      • 🔑 DDP 训练过程核心步骤
      • 🚫 DDP 不适用于模型并行
      • ⚖️ DDP vs. Model Parallelism
      • ⚙️ 解决大模型训练的推荐方法


🎉进入大模型应用与实战专栏 | 🚀查看更多专栏内容


在这里插入图片描述

模型与环境准备

首先从huggingface上下载Qwen2或者Qwen2.5模型到本地,我这里选择的是0.5或是1.5b大小的模型。DeepSeek开源的其他模型都太大了,只有基于Qwen蒸馏得到的模型较小可以用来训练。所以虽然说的是Qwen/DeepSeek模型,本质上都是Qwen模型。

在这里插入图片描述

注意虽然这些模型都是生成式模型,但是由于它们都是基于transformer架构,所以本质上和Bert等模型一样,是可以训练它们用来做传统的文本分类的。

我们


http://www.kler.cn/a/555972.html

相关文章:

  • matlab 专家pid和普通pid控制对比
  • DuodooBMS源码解读之 mrp_management模块
  • 有关MyBatis(轻量级数据持久化框架)
  • iOS 获取设备占用内存
  • [GESP202312 六级] 闯关游戏
  • 一些知识点
  • Typora软件(Markdown编辑器)详细安装教程(附补丁包)2025最详细图文教程安装手册
  • 一篇文章读懂AI Agent
  • vmvare kali如何配置桥接模式进行上网
  • iOS 中的圆角与平滑圆角:从新特性到老项目适配
  • 火语言RPA--Excel插入空行
  • 原函数存在定理
  • Ollama 快速入门
  • python小项目编程-中级(1、图像处理)
  • 服务搭建 ollama + Deepseek + Open WebUI + 硅基流动API
  • Cursor和Trae使用的感受
  • 在工作中PostgreSQL常用的SQL命令
  • 网络安全评估指南 网络安全评价体系
  • pikachu之CSRF防御:给你的请求加上“网络身份证”
  • VUE3+TS+element-plus项目从0开始入门 - 创建项目、认识基本结构