当前位置: 首页 > article >正文

随机种子定不死找bug

记录一次debug的心路历程

在运行别人的开源项目时遇到了随机种子定不死的情况, 运行一开始会有1e-5次方左右的误差, 后面误差会越来越大。
一开始以为是随机种子没有定死, 使用的以下代码固定的随机种子:

    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)  # if you are using multi-GPU,为所有GPU设置随机种子
    np.random.seed(seed)
    random.seed(seed)
    torch.backends.cudnn.benchmark = False
    torch.backends.cudnn.deterministic = True

发现结果依然随机, 其表现形式为:训练时训练数据第一次经过模型产生的输出与loss完全相同, 但是, 经过一次backward之后第二个循环就会产生区别。这时的区别在1e-5左右,如果放任不管,第一个epoch训练完成产生的结果差异巨大。
一开始认为是网络的问题,存在某些网络层会引入随机性,但是,将第一次循环后的optimizer中的网络梯度打印出来,发现绝大多数的网络层会有1e-6左右的误差。
其次是怀疑整个网络使用了 getattr(torchvision.models, name)( replace_stride_with_dilation=[False, False, dilation], pretrained=False, norm_layer=FrozenBatchNorm2d) 引入的随机性, 但是将这个模块提出来单独测试后也排除了问题。
陷入了僵局,在确保输入完全相同,网络结构也无随机性的情况下,将目光看向了loss函数上,经过了一些简单的小测试(对于所有的预测结果不做任何后处理,全改成MSE loss),发现并无随机性,将问题定位到了loss的后处理上。
最后经过逐行定位,发现问题出现在torch.gather中。并且发现往上也有类似的贴子在说这个问题
https://discuss.pytorch.org/t/torch-gather-uncontrollable-randomness-quirky/63631
其他也可能引入随机性的操作: os.listdir(), set() - set()
还需要注意一个问题, 那就是多卡时打印顺序的问题,如下2次实验结果相同, 但是打印的顺序不同!此时得到的效果也是稳定可复现的。
在这里插入图片描述在这里插入图片描述


http://www.kler.cn/a/465724.html

相关文章:

  • Fabric部署-docker安装
  • CSS3——3. 书写格式二
  • 瑞吉外卖项目学习笔记(十)修改套餐、删除套餐、起售和停售套餐
  • 一文大白话讲清楚TCP连接的三次握手和断开连接的四次挥手的原理
  • IEEE PDF eXpress遇到Font TimesNewRomanPSMT is not embedded的解决方案
  • 掌握RabbitMQ:全面知识点汇总与实践指南
  • python 字符串算法
  • CTFshow—远程命令执行
  • 区块链方向学习路线
  • 音视频-----RTSP协议 音视频编解码
  • 国产数据库AntDB插件pg_profile安装说明
  • xdoj isbn号码
  • echarts 饼图超过9种颜色就重复了,如何自定义颜色
  • 【vue项目中漏洞修复】
  • Spring源码分析之事件机制——观察者模式(一)
  • 硬件-射频-PCB-常见天线分类-ESP32实例
  • 855. 考场就座
  • 线性代数自学资源推荐我的个人学习心得
  • Java 代码审计入门-07】SQL关键字
  • HTML5新特性|05 CSS3边框CSS3背景
  • 每天40分玩转Django:Django性能优化
  • wpf 国际化 try catch comboBox
  • C# 设计模式(结构型模式):享元模式
  • 如何在iOS 11 中禁用高效图像格式 (HEIF)
  • 【Vim Masterclass 笔记01】Section 1:Course Overview + Section 2:Vim Quickstart
  • 适用不同业务场景的6种销售预测模型