当前位置: 首页 > article >正文

政安晨的AI大模型训练实践四:准备一个合适的模型微调,先试一下,比如:DeepSeek-R1-14B-Distill

政安晨的个人主页:政安晨

欢迎 👍点赞✍评论⭐收藏

希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正!

我们尝试使用 DeepSeek-R1-14B-Distill这个DeepSeek R1 14B的蒸馏模型来微调。

微调一个有一定参数规模的大模型比如14B的DeepSeek-R1大概准备200G以上的空间。

参照我前面的文章所示,激活虚拟环境,设置魔塔社区下载模型,启动webui界面:

conda activate xxx_llamafactory

export USE_MODELSCOPE_HUB=1
llamafactory-cli webui

我们点击Chat标签页中的加载模型,从命令行控制台中可以看出加载过程:

其实从上图可以看出来,模型文件还是很大的,所以,要准备好足够的存储空间。

下载完成:

加载模型后,可以先进行推理测试:

模型可以正常使用后,接下来就可以SFT微调了。

其实,刚开始尝试大模型微调的时候,建议使用参数相对较少的模型进行,参数太多比较吃显存,太慢,不太好直接观察。

回到训练选项卡中:

选择一个数据集并且可以预览它:

把输出路径填一下,使用默认参数先试一把:

中间可能会出现因为显存不足而失败的情况,就像这样:

重新启动一下,训练的时候不要先去Chat预览,那样会吃掉显存。

如果还是显存不够,说明你的服务器还不能支撑这个规模的模型训练,找一个云上的吧。


先用起来再学习是个比较好的思路。


http://www.kler.cn/a/540198.html

相关文章:

  • 内存飚⾼问题定位
  • Go语言构建微服务:从入门到实战
  • Spring统一修改RequestBody
  • 日志2025.2.9
  • TAPEX:通过神经SQL执行器学习的表格预训练
  • 等级保护2.0|网络安全服务
  • JS逆向实战二:建筑平台js逆向Error: Malformed UTF-8 data报错处理
  • 深入学习日志及MVCC
  • BUUCTF_XSS-Lab
  • Sealos的k8s高可用集群搭建
  • Java面试题--设计模式
  • 2025嵌入式高频面试题解析
  • 示例代码:C# MQTTS双向认证(客户端)(服务器EMQX)
  • Linux之Http协议分析以及cookie和session
  • 数据结构与算法之排序算法-插入排序
  • 【合集】Java进阶——Java深入学习的笔记汇总 amp; 再论面向对象、数据结构和算法、JVM底层、多线程
  • ZooKeeper选举机制详解
  • C++20新特性
  • Spring Boot中使用Thymeleaf的详细指南
  • 安卓开发,底部导航栏
  • 解决windows wsl2+Ubuntu中没有网络问题
  • HarmonyOS:时间日期国际化
  • 组件库选择:ElementUI 还是 Ant Design
  • STC51 P0 口 与P1 口输出
  • Linux TCP 编程详解与实例
  • json转typescript在线工具