【系统稳定性】1.5 黑屏(二)
写在前面
上一篇对常见的黑屏现象和类型做了简单的描述,其实大多数情况根据这些描述就可以大概地定位出哪一部分的问题,这对我们进行下一步的分析有很大的帮助,否则路走偏了,只会距离目标越来越远,耽误自己的时间不说,想想KPI,想想年终的那仨瓜儿俩枣。如果要找到rootcause,还是需要更多证据链的支撑,比如日志。对于做系统稳定性研发的同学来说,名下的bug分析到最后大多是需要某一路神仙过来领走的,遇到喜欢扯皮的领主,你需要拿出铁证出来。
话又说回来,有些问题,即便给了我们完整的日志,我也是无法给出分析结论。毕竟日志是我们在开发过程中为了我们调查问题而进行埋桩的结果,总有你监控不到的节点。那么我们需要借助一些debug工具或者测试程序进行现场排查,或者向寄存器发送debug指令来根据反馈出来的信息进行分析。总之,系统稳定性问题永远不会百分之一百消灭掉,我们要做的就是做好监控,做好workround,降低概率。就像系统优化一样,没有最优,只有更优。
这个系列的博文其实是面向qnx+la的座舱系统的,只有la部分对android系列的产品才有所帮助。
本篇基于同一个SOC或同一个HOST来展开。
一,现象法黑屏排查
无论是座舱,还是手机或其他智能产品都有多屏的产品(同一个SOC或即同一个OS)。座舱就不用说了,毕竟在车内会面向前后排多个用户,前排主副驾等。手机也有前后屏,比如8848等一些产品。
那么针对黑屏问题首先要根据现象来判断。
- 观察是否全黑 如果全黑,有可能软件也有可能是硬件