当前位置: 首页 > article >正文

AI 平台 GPU 节点上运行基于 PyTorch 的深度学习任务

要在 AI 平台 GPU 节点上运行基于 PyTorch 的深度学习任务,可按以下步骤进行操作:

1. 环境准备

首先,确保的环境中已经安装了 PyTorch 及其依赖项。如果尚未安装,可以通过以下步骤进行安装:

  • 安装 Anaconda(如果尚未安装):

    wget https://repo.anaconda.com/archive/Anaconda3-2023.07-1-Linux-x86_64.sh
    bash Anaconda3-2023.07-1-Linux-x86_64.sh
    

    在安装过程中,接受协议并指定安装目录(例如 /share/home/yourname/apps/anaconda3).

  • 创建并激活 Conda 环境

    conda create -n pytorch_env python=3.8
    conda activate pytorch_env
    
  • 安装 PyTorch

    conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch
    

    确保 cudatoolkit 的版本与集群中 CUDA 的版本兼容(根据集群的 CUDA 版本选择合适的版本).

2. 编写提交脚本

创建一个脚本来提交的 PyTorch 训练作业。以下是一个基本的提交脚本示例:

#!/bin/bash
#BSUB -q gpu_v100 # 指定使用 gpu_v100 队列
#BSUB -J pytorch_job # 定义作业名
#BSUB -gpu "num=1" # 定义使用 1 块 GPU
#BSUB -n 4 # 定义任务数(例如使用 4 个 CPU 核心)
#BSUB -o %J.out # 定义输出文件名
#BSUB -e %J.err # 定义错误输出文件名

# 加载环境变量
module load cuda/10.0
source /share/home/yourname/apps/anaconda3/bin/activate pytorch_env

# 运行 PyTorch 训练脚本
python /path/to/your/training_script.py

3. 提交作业

将上述脚本保存为一个文件,例如 submit_pytorch.sh,然后使用 bsub 命令提交作业:

bsub < submit_pytorch.sh

4. 监控作业

可以使用以下命令来监控作业的状态:

  • 查看作业队列:

    bjobs
    
  • 查看作业的详细信息:

    bpeek <job_id>
    

http://www.kler.cn/a/472352.html

相关文章:

  • 机器学习基础-机器学习的常用学习方法
  • 机器学习免费使用的数据集及网站链接
  • Linux存储管理之核心秘密(The Core Secret of Linux Storage Management)
  • git撤回提交、删除远端某版本、合并指定版本的更改
  • 年会抽奖Html
  • Vue3 + Vite + Electron + Ts 项目快速创建
  • Mac中配置vscode(第一期:python开发)
  • 【Linux】UOS统信服务器本地yum源搭建实践
  • 1/7 C++
  • [SeaTunnel] [MySql CDC] Generate Splits for table db.table error
  • 【LangGraph Agent架构篇—多智能体系统1】【多智能体网络】
  • go 1.23.4安装
  • 常用的数据引擎及其特点
  • 高阶知识库搭建实战五、(向量数据库Milvus安装)
  • 虚幻(UE)资源网站
  • gaussdb怎么查询一个表所在的表空间的总大小和可用大小,用GB为单位表示?
  • 【每日学点鸿蒙知识】关于热修复、图片预览、多个@State刷新性能问题等
  • 【网络安全技术与应用】(选修)实验2 用Wireshark分析典型TCP/IP体系中的协议
  • Web前端ui框架
  • LLM 训练中存储哪些矩阵:权重矩阵,梯度矩阵,优化器状态
  • javaCV音频剪切
  • 我的AI工具箱Tauri版-ZoomImageFlux图像缩放
  • 【网络安全 | 漏洞挖掘】HubSpot 全账户接管(万字详析)
  • Linux 安装 Mosquitto 及 SpringBoot 整合
  • 用JAVA编写一个简单的小游戏
  • pdf在页面中预览的方法