Paddle分布式训练报NCCL错
应该是没有装NCCL,但是通过NVIDIA官网方式用apt安装报错,说nccl签名有问题
打开官网查找对应版本的nccl:https://developer.nvidia.com/nccl/nccl-legacy-downloads
这里不下载local Ubuntu选项,下载O/S agnostic local installer这个选项
下载到本地后上传到服务器中,目录自己选
然后解压
tar -xvf nccl-xxxx.tar
解压完进入文件夹,把nccl复制过去
sudo cp include/* /usr/local/cuda/include
sudo cp lib/* /usr/local/cuda/lib64
然后把路径追加到环境变量中就可以了
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:你自己上边解压的路径在哪就写什么
例如:export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/nccl_2.22.3-1+cuda10.0_ppc64le/lib
参考:https://blog.csdn.net/qq_41475067/article/details/123086190?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~default-0-123086190-blog-143115894.235v43pc_blog_bottom_relevance_base9&spm=1001.2101.3001.4242.1&utm_relevant_index=3