当前位置: 首页 > article >正文

第8章硬件维护-8.2 可维护性和可靠性验收

8.2 可维护性和可靠性验收

可维护性和可靠性验收非常重要,硬件维护工程师在后端发现问题后,总结成可维护性和可靠性需求,在产品立项的时候与新特性一起进行需求分析,然后经过设计、开发和测试环节,在产品中落地。这些需求最终实现的效果是否和需求提出人想要达到的效果一致,需要硬件维护工程师进行验收。硬件维护工程师越早参与,效果越好。如果等到转维审查的时候才参与验收,发现偏差需要修改和测试,相当于需求要重新开发一次。推荐硬件维护工程师在需求分解的时候就参与,然后在开发和测试的时候再进行一次审视。可维护性和可靠性验收流程如图8.1所示。
在这里插入图片描述
有一个典型的案例,某款主力发货的款型,框架如图8.2所示,主用主控通过FE通道对线卡进行管理。线卡到主用主控有两条通道,通道1:通过主用FE到主用主控的LSW,然后再到主用主控的CPU,即图8.2中的实线通道;通道2:通过备用FE到备用主控的LSW,然后再到主用主控的CPU,即图8.2中的虚线通道。
在这里插入图片描述
当时出现一个特别奇怪的现象,每天到固定的时间点,线卡板就开始复位,复位后线卡板无法注册。进一步定位,发现线卡板到主用主控的FE通道有错包,造成管理报文丢包。由于主用和备用FE通道的切换机制没有做好(可靠性需求实现有偏差),主用主控在切换FE通道之前就认为线卡板发生问题,从而将线卡板复位。线卡板复位后,仍然通过主用FE通道与主用主控协商,FE通道丢包造成协商失败,线卡板无法注册。

顺着错包往下排查,发现错包发生在主用主控的LSW芯片。单板返回实验室测试,发现丢包发生在固定的温度区间。当环境温度在25℃左右时发生丢包,低于20℃或高于30℃都不会丢包。通过交叉芯片进行排查,最后发现丢包是由晶振引起的。在环境温度25℃左右时(晶振表面温度50℃),125 M晶振会发生跳频。晶振的规格是125M±10ppm,在环境温度25℃时,晶振的频偏达到了20ppm,超出规格1倍。晶振频率和温度测试曲线如图8.3所示。
在这里插入图片描述
这个问题是一个典型的可靠性问题,有以下几点可以改进:
(1)主控的FE通道切换机制改进,当其中一条FE通道故障时,优先进行通道切换。
(2)故障定界优化,当主用主控到多个线卡板的FE通道都出现故障时,判断为主用主控故障,优先进行主备倒换,把业务切换到备用主控,而不是复位线卡板。
(3)FE通道记录错包日志,错包每增加一定数量,记录一条日志。
(4)主控发现线卡异常时,先上报告警。有业务备份通道的,切换业务后再复位线卡;没业务备份通道的,只告警,不复位线卡。


http://www.kler.cn/a/401485.html

相关文章:

  • vscode 快捷键生成代码
  • macOS 的目录结构
  • opencascade源码学习之HLRAlgo包 -HLRAlgo_Projector
  • More Effective C++ Item 7:区别使用()和{}创建对象
  • 【Pythonr入门第二讲】你好,世界
  • 【Qt】QTreeWidget的简单使用
  • 抽象java入门1.5.3.2——类的进阶(中)
  • 嵌入式C语言
  • 填写工单流程
  • CTF练习4
  • TDSQL 免密码登录
  • Openstack15--块存储服务(Cinder)安装
  • SpringCloud详解
  • 阿里云SSL证书每三个月过期续期方法 —— 使用httpsok工具轻松自动续期
  • 机器学习笔记 // 天气预报、股票价格以及历史轨迹(如摩尔定律)// 时间序列的常见属性
  • 如何在Linux系统实现屏幕旋转?触觉智能RK3568鸿蒙开发板演示
  • JavaSE(十四)——文件操作和IO
  • Jmeter数据库压测之达梦数据库的配置方法
  • Flutter 生成二维码
  • React中 setState 是同步的还是异步的?调和阶段 setState 干了什么?
  • 【图像处理识别】数据集合集!
  • 11.15 HTML
  • TCP、IP协议中,ARP与TCP之详解(TCP, Detailed Explanation of ARP and TCP in IP Protocol)
  • ISP是什么?
  • 2024年人工智能技术赋能网络安全应用测试:广东盈世在钓鱼邮件识别场景荣获第三名!
  • Centos使用Mysql