【记录】并行运行olmocr把服务器跑崩
目录
- 一、背景
- 二、尝试
- 三、后续
一、背景
之前有一篇博客讲的并行脚本来处理,但发现这个olmocr光多GPU运行不管用,因为只开了一个30024端口,这些8个GPU仍然要争抢一个端口,其实质上还是串行的,那修改的思路就是,我开8个端口,每个端口对应一张卡,那是不是就能够彻底地并行运行了。
二、尝试
对olmocr的源码进行了修改,原先源码中端口是一个全局变量在最开始初始化定义了30024的端口,现在把他给改成可以接受命令行传过来的参数。
从我们的执行命令中传过去一个端口参数
执行Python的系统脚本每个GPU的端口是30024+GPUID,同时开8个端口
刚跑起来,发现全部爆满,而且CPU也拉满了,MAX。各项指标都到MAX,感觉到不对劲了,这阵仗我第一次见
几秒之后就自己断开连接了
然后我去机房看了一眼,害怕会不会着火,跑的时候我已经闻到焦味了。好吧都是自己吓自己,不过到机房的时候,服务器确实卡死机了,我给他强制关机然后重新启动了。
三、后续
感觉是8个端口,CPU调度资源调不过来了,然后我就减少端口。8个卡两个端口,还是跑不成功