【大模型-驯化】成功解决载cuda-11.8配置下搭建swift框架
【大模型-驯化】成功解决载cuda-11.8配置下搭建swift框架
本次修炼方法请往下查看
🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 相关内容文档获取 微信公众号
🎇 相关内容视频讲解 B站
🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验。
🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100% 。
📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。
🌵文章目录🌵
- 🎯 1.问题介绍
- 💡 2. 问题分析
- 💡 3. 解决方法
下滑查看解决方法
🎯 1.问题介绍
当前训练大模型的框架有很多,诸如:llava-factory、swift、原始微调脚本等,各个微调方法各有优缺点,对于llava-fatory来说相对来说比较复杂,而且不怎么好用,这边从实操的角度来分析,建议大家使用swift框架来训练大模型,对于swift来说需要搭建来说如果你的cuda是12以上,相对来说比较好支持各个模型的训练,如果是cuda-11.8版本的,如果直接安装swift虽然不会报错误,但是当安装完pytroch之后会报如下错误:
💡 2. 问题分析
对于上述问题,排查后发现,如果直接通过swift上面的官网下面的命令进行安装:
最终会自动下载cuda12版本的pytroch以及相关的包,具体如下所示:
所以当通过python的环境执行运行导入troch环境包时会报上述相关的问题
💡 3. 解决方法
对于上述的问题,我们需要在安装swift之前先安装cuda11.8对应的pytroch,在安装完pytroch对应的cuda11.8版本后再安装swift,这样才能正常的安装swift,具体的操作如下所示:
1. 第一步先安装最新的pytroch版本,具体的命令如下所示:
# CUDA 11.8
conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 pytorch-cuda=11.8 -c pytorch -c nvidia
2. 在安装swift,具体的命令如下所示:
# Full capabilities
pip install 'ms-swift[all]' -U