当前位置: 首页 > article >正文

【记录】并行运行olmocr把服务器跑崩

目录

  • 一、背景
  • 二、尝试
  • 三、后续

一、背景


之前有一篇博客讲的并行脚本来处理,但发现这个olmocr光多GPU运行不管用,因为只开了一个30024端口,这些8个GPU仍然要争抢一个端口,其实质上还是串行的,那修改的思路就是,我开8个端口,每个端口对应一张卡,那是不是就能够彻底地并行运行了。

二、尝试


对olmocr的源码进行了修改,原先源码中端口是一个全局变量在最开始初始化定义了30024的端口,现在把他给改成可以接受命令行传过来的参数。

在这里插入图片描述
从我们的执行命令中传过去一个端口参数
在这里插入图片描述
执行Python的系统脚本每个GPU的端口是30024+GPUID,同时开8个端口
刚跑起来,发现全部爆满,而且CPU也拉满了,MAX。各项指标都到MAX,感觉到不对劲了,这阵仗我第一次见
在这里插入图片描述
几秒之后就自己断开连接了
在这里插入图片描述
然后我去机房看了一眼,害怕会不会着火,跑的时候我已经闻到焦味了。好吧都是自己吓自己,不过到机房的时候,服务器确实卡死机了,我给他强制关机然后重新启动了。

三、后续

感觉是8个端口,CPU调度资源调不过来了,然后我就减少端口。8个卡两个端口,还是跑不成功
在这里插入图片描述


http://www.kler.cn/a/597448.html

相关文章:

  • curl库+openssl库windows编译
  • Web3 环境下用户数据隐私保护的技术方案分析
  • Android Studio 中出现的 org.codehaus.groovy.GroovyBugError 错误版本兼容性修复
  • 【Linux】如何在 Linux 上查找占用空间较大的文件和文件夹
  • Ubuntu 20.04 安装并使用Cursor
  • 能不能解释一下 ,什么是React 的错误边界?
  • 用tensorboard支持pytorch训练可视化
  • 【视频】m3u8相关操作
  • 笔记:代码随想录算法训练营day59:110.字符串接龙 、105.有向图的完全可达性、106.岛屿的周长
  • ubuntu系统/run目录不能执行脚本问题解决
  • LabVIEW发电平台数据采集系统
  • 15:视图
  • 如何使用TortoiseGit将master最新的合并到本地的子分支
  • 关于JESD204B 接口的调试
  • 基于ssm的会员积分管理系统(全套)
  • 强化学习课程:stanford_cs234 学习笔记(1)introduction to RL
  • 软考-软件设计师-计算机网络
  • Maya基本操作
  • VMware虚拟机配置Linux网络
  • 遨游三防 | IP68热成像三防平板,助力电力智慧巡检