使用LLaMA Factory踩坑记录
前置条件:电脑显卡RTX 4080
问题:LLaMA-Factory在运行的时候,弹出未检测到CUDA的报错信息
结论:出现了以上的报错,主要可以归结于以下两个方面:
1、没有安装GPU版本的pytorch,下载的是CPU版本的pytorch;
2、安装的CUDA和安装的pytorch的版本不相互对应。
这里要注意,python的版本对应者pytorch的版本,pytorch的版本又对应着CUDA的版本。
可以参考这个博文:Torch not compiled with CUDA enabled问题解决过程记录-CSDN博客
问题解决过程:
我本机出现这个报错时的CUDA环境是这样的:
最高支持12.6,我装了12.2版本的cuda。python版本为3.11。
为解决问题所进行的操作:
1.看到llamaFactory的python版本推荐,于是将python的版本降到了3.10。没能解决。
2.安装了Anaconda,和问题的解决没有关系。
3.既然是环境问题,那应该是安装的pytorch版本有问题,于是使用 pip list 来查看在该环境下安装了哪些
依赖项。如果像图中这种torch的版本号的后面没有cu,就说明安装的是CPU版本的,需要重装GPU版本。
如果像图中这种torch的版本号的后面时候加上了cu,就说明安装的是GPU版本,这是我安装更新后的版本截图。
于是去pytorch官网下载GPU版本的。
Start Locally | PyTorch Start Locallyhttps://pytorch.org/get-started/locally/https://pytorch.org/get-started/locally/
因为本机的cuda是12.2的,本来想尝试安装11.8版本的,但是安装失败,于是尝试安装12.4版本的,才安装成功。
使用python进行环境检测:
import torch
print(torch.cuda.is_available()) # 是否可以用gpu False不能,True可以
print(torch.cuda.device_count()) # gpu数量, 0就是没有,1就是检测到了
print(torch.__version__) #结果X.X.X+cpu不行
重新运行LLaMA-Factory,不在报错。