由一个话题进入DFMEA(设计失效模式及影响分析)
前言
最近看到了知乎的一个话题“为啥撞车后总是看到雨刮器在摆动?”,联想到产品设计中的一些功能安全设计,也借此机会学习DFMEA,讨论一下我个人对于DFMEA的理解。
有纰漏请指出,转载请说明。
学习交流请发邮件 1280253714@qq.com
为啥撞车后总是看到雨刮器在摆动?
一把大刀的回答 - 知乎
部分车辆撞车时雨刮器运行是因为ISO26262的功能安全设计,这个设计的核心思想就是在系统有损坏时不能使后果更糟,影响范围不能更广。
常规设计思路是:
驾驶员打开雨刮运行开关-->雨刷开关发出“开始运行“信号-->域控制器转发“开始运行“信号-->雨刷控制器收到“开始运行”信号-->雨刷开始运行
这条链路上任意一个器件线缆损坏,都会导致雨刷无法运行,最坏结果是大雨天无法安全行车
功能安全的设计思路是:
驾驶员打开雨刮运行开关->雨刷开关发出“停止抑制“信号->域控制器停止对雨刷发送”抑制运行“信号->雨刷控制器在指定间隔没有收到”抑制运行“信号-->雨刷开始运行
这样,链路上任意一个器件损坏,最坏结果是雨刷一直在运行无法停止
两种设计下,相同的一个故障会导致不同的后果,大雨天无法安全行车远远要比一个车辆点火就会自己运行的雨刷更危险。
说回车祸这个问题,很多事故车辆的雨刷就是因为撞坏了车内网络,导致无法下电且控制信号丢失,雨刷与司令部失去联系的情况下,按预案开始尽责,让你看到了雨刷在动作。
但是危险警报灯的设计会复杂一些,ABS、EPS、急刹车、碰撞等都有可能把危险警报灯点亮,最终达成设计目的”车祸时危险警报灯启动“就可以。
DFMEA 的本质
DFMEA(Design Failure Mode and Effects Analysis,设计失效模式与影响分析)
DFMEA 是一种系统化的设计分析方法,其核心逻辑是:
- 识别潜在失效模式(如线缆损坏、器件故障等);
- 评估失效对系统的影响(如安全性、功能丧失等);
- 设计改进措施以降低风险(如采用冗余设计、故障-安全逻辑等)。
在雨刮器的案例中:
- 常规设计的失效模式是“链路损坏 → 雨刮停止”,其影响是“大雨天视线受阻,增加事故风险”;
- 功能安全设计通过逻辑反转(从“主动控制运行”改为“抑制停止”),将失效模式的影响转化为“雨刮持续运行”,虽然可能无法关闭,但确保了基本安全功能(清理视线)的可用性。
这种设计改进正是通过 DFMEA 的分析得出的,即主动识别高风险失效模式并优化设计方案。
类似的DFMEA例子
生活中的例子
举一个生活中的例子,小朋友第一次独自出门,父母不放心,跟小朋友说,如果你遇到了坏人,要打手表电话给我们。那我会觉得这种策略不够好,应该改为每隔十分钟主动联系父母。这背后的逻辑是:依赖孩子主动报告可能在紧急情况下不可靠,因为孩子可能害怕或无法操作设备。而定期主动联系可以降低风险,因为即使孩子遇到问题,父母也能及时发现。
接下来,我们将这个例子与DFMEA框架对应起来。DFMEA包括几个步骤:识别失效模式、分析影响、评估风险、制定改进措施。
- 失效模式:孩子遇到坏人但无法打电话(可能因为害怕、设备故障、忘记等)。
- 影响分析:无法及时通知父母,导致危险情况无法及时处理。
- 风险评估:高风险,涉及孩子的人身安全。
- 改进措施:改为孩子定期主动联系,父母监控联系情况,若超时未联系则主动介入。
策略 | 失效模式 | 风险等级 | 改进逻辑(DFMEA核心) |
---|---|---|---|
孩子主动报告 | 无法操作、恐惧、设备故障 | 高风险 | 依赖单一触发条件,缺乏冗余和监控 |
定期联系+父母监控 | 未按时联系、异常行为、设备故障 | 中低风险 | 主动监控+冗余设计+暗号机制,覆盖更多失效模式 |
电源产品热管理设计
在一个电源产品中,通常需要风扇来对其进行降温,但在轻载、不发热的情况下,一般不开启风扇,是为了减小噪声、降低功耗、延长风扇寿命。但是假如系统检测到温度传感器失效,无法获取当前温度,按照DFEMA设计,控制风扇的回路需要强行打开风扇;或者是电路设计为通电时在没有控制器的介入下无条件打开风扇,控制器可以关闭风扇。因为在这种情况下,相比于电源因为过热而引发的整机失效、甚至引发火灾而言,噪声、功耗、风扇寿命的问题已经不值一提了
带有刷电机的小家电产品
例如绞肉机,假如只用一个MOS管控制电机是否打开,当MOS管异常击穿时,此时电机会转动,可能在转动的铰刀会误伤使用者。按照DFMEA的思想,此时可以用两个MOS管进行串联控制,而且两个MOS管的栅极需要独立控制信号驱动,避免共因失效。
失效传播地图与故障树分析
在汽车及复杂系统的可靠性工程中,失效传播地图(Failure Propagation Map) 和 FTA(故障树分析,Fault Tree Analysis) 是两种关键的风险分析工具,它们从不同角度揭示系统失效的路径与逻辑。
失效传播地图
失效传播地图是一种系统级失效路径的可视化模型,用于追踪单个组件或子系统的故障如何通过系统交互关系逐步扩散,最终导致整体功能失效。其核心价值在于揭示“蝴蝶效应”式的连锁风险。
还是以电源热管理系统为例,电源系统会检测风扇是否因为堵转、短路而引起过流。常规设计模式下,此时异常需要报警并不让电源输出。但是,某些关键设备可能需要持续运行,即使风扇故障,也不能立即断电,否则可能导致更严重的后果。比如服务器机房的散热系统,如果风扇故障导致过流,立即断电可能导致服务器过热,数据丢失。按照DFMEA的思想,此时最好是报警的同时对数据进行保存备份,电源系统保持正常工作,等检测到温度过高,才进行强制关闭输出。其核心目的就是:辅助功能的失效,不能影响核心功能的正常发挥。
我们可以列出其失效传播地图及其优化设计方法:
- 风扇堵转/短路 → 过流 → 电源系统检测到过流 → 触发响应措施。
- 常规设计的响应措施是立即断电 → 服务器断电 → 散热停止 → 温度上升 → 数据丢失/硬件损坏。
- 优化设计的响应措施是报警、备份数据、持续供电 → 监测温度 → 温度过高时强制断电 → 数据已备份,硬件保护。
故障树分析
FTA(Fault Tree Analysis)是一种系统化的可靠性分析方法,通过逻辑演绎识别导致系统故障的潜在原因组合。其核心是通过布尔逻辑门构建从顶层故障事件到底层根本原因的树状结构,广泛应用于航空航天、核能、汽车等高可靠性领域。
以"服务器硬件损坏/数据丢失"为顶层事件,其失效路径由两大核心分支构成:
1.散热系统失效:主风扇故障(堵转/短路)与备用风扇故障(控制信号丢失/轴承卡死),任意单一故障即可触发散热失效。
2.紧急保护失效:包含立即断电策略缺陷(无分级响应机制和数据备份缺失)与温度监控失效(传感器漂移及算法误判)的双重风险,需同时发生才会导致保护功能崩溃。
从“故障后修复”转向“故障前预防”
DFMEA不仅是质量工具,更是设计思维的革命——从“故障后修复”转向“故障前预防”。在汽车等高风险领域,其系统性分析方法已成为保障产品可靠性、合规性和用户安全的基石。
像汽车这种高度复杂且关乎用户生命安全的工业产品,其设计过程中的每一个细节都至关重要。
传统设计关注“解决问题”,而DFMEA教会我们在问题发生前构建防线。如汽车雨刮器的“抑制解除”逻辑,正是通过失效模式预判,将单点故障的后果从“功能丧失”转化为“可控异常”。
汽车电子架构的复杂性(如域控制器、CAN网络)要求我们打破模块边界。一个ECU的失效可能引发连锁反应,这需要建立“失效传播地图”(如FTA与DFMEA联动分析)。
DFMEA的核心价值不仅在于其系统化的分析方法和工具,更在于它将风险预防的思维融入产品设计的每一个环节。通过在产品设计初期就全面识别潜在失效模式、分析其原因及后果,并制定有效的预防措施,DFMEA帮助我们在产品生命周期的早期阶段就降低风险、提升可靠性,从而避免后期高昂的改造成本和潜在的安全事故。