当前位置: 首页 > article >正文

深度学习常用训练命令解释

深度学习项目的训练命令通常是是根据训练文件(train.py)设定来接收参数

举例参考

CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node 4 --master_port 12345 train.py --dataset rrsisd --model_id RMSIN --epochs 40 --img_size 480 2>&1 | tee ./output

命令解释

1.CUDA_VISIBLE_DEVICES=0,1,2,3:

  • 这个环境变量用于指定哪些 GPU 可用。在这里,设备 0 到 3 被设置为可用 GPU,这意味着你的程序将会使用这些 GPU 进行训练。

  • 单个GPU训练命令

CUDA_VISIBLE_DEVICES=0 python train.py --dataset rrsisd --model_id RMSIN --epochs 40 --img_size 480 2>&1 | tee ./output
  1. python -m torch.distributed.launch:

    • 这是 PyTorch 的分布式训练模块。使用 -m 选项可以让 Python 作为模块运行,torch.distributed.launch 会负责启动多个进程。
  2. --nproc_per_node 4:

    • 指定每个节点(通常是每个机器)要启动的进程数。在这个例子中,指定为 4,这意味着会启动 4 个训练进程,分别使用前面指定的 4 个 GPU。
  3. --master_port 12345:

    • 这是用于进程间通信的主端口号。所有进程将通过这个端口进行通信。
  4. train.py:

    • 这是你的训练脚本文件,包含了模型训练的代码。
  5. --dataset rrsisd:

    • 指定要使用的数据集名称为 rrsisd。你需要确保在代码中相应地处理这个数据集。
  6. --model_id RMSIN:

    • 这是指定模型 ID 的参数。具体使用时需要在 train.py 中处理这个参数。
  7. --epochs 40:

    • 指定训练的轮数(epochs),在这个例子中为 40 轮。
  8. --img_size 480:

    • 指定输入图像的尺寸为 480(假设是正方形图像)。
  9. 2>&1 | tee ./output:

  • 2>&1 将标准错误输出(stderr)重定向到标准输出(stdout),确保所有输出都被捕获。
  • | tee ./output 将输出同时写入到 output 文件中,并在终端中显示。这样你可以在运行时查看日志,同时保留日志文件。

http://www.kler.cn/a/420703.html

相关文章:

  • 【娱乐项目】基于cnchar库与JavaScript的汉字查询工具
  • jmeter 压测常用静默参数解释应用
  • Linux下,用ufw实现端口关闭、流量控制(二)
  • 电脑关机的趣味小游戏——system函数、strcmp函数、goto语句的使用
  • 【Docker】Docker 容器日志过大导致磁盘爆满
  • 【鸿蒙NEXT】arrayBuffer和base64字符串互相转换
  • 在线家具商城基于 SpringBoot:设计模式与实现方法探究
  • vue中v-for的细节
  • 02appdesigner学习记录
  • Kafka怎么发送JAVA对象并在消费者端解析出JAVA对象--示例
  • Flutter的文字高度及行高简单计算
  • 智能探针技术:实现可视、可知、可诊的主动网络运维策略
  • 基于SSM超市商品管理系统JAVA|VUE|Springboot计算机毕业设计源代码+数据库+LW文档+开题报告+答辩稿+部署教+代码讲解
  • 如何运用Python爬虫快速获得1688商品详情数据
  • Spring MVC接收前台信息,并在页面返回
  • 人工智能-深度学习-BP算法
  • 【计算机网络】实验3:集线器和交换器的区别及交换器的自学习算法
  • mysql之慢查询设置及日志分析
  • Paper -- 建筑物高度估计 -- 使用街景图像、深度学习、轮廓处理和地理空间数据的建筑高度估计
  • React.memo 和useMemo 的区别
  • Python 调用 Umi-OCR API 批量识别图片/PDF文档数据
  • 【前端】小程序实现预览pdf并导出
  • Argon2-cffi:Python中的密码学哈希库
  • AI 计算基础设施的战略转折点分析
  • C++ 变量和常量:开启程序构建之门的关键锁钥与永恒灯塔
  • Go-MediatR:Go语言中的中介者模式