SmartX 超融合硬盘健康检测机制升级(附故障模拟性能实测)
SmartX 超融合自 4.0.x 版本起即可支持一系列硬盘健康检测机制,帮助运维人员识别潜在硬盘故障风险,对故障物理盘进行高效处理,尽可能保障业务连续性。我们在《一文了解 SmartX 超融合硬盘健康检测机制与运维实践》中,介绍了 SmartX 超融合硬盘健康检测的 3 种实现方式和 2 类异常硬盘处理方案。随着 SMTX OS 6.1 的发布,SmartX 超融合进一步完善了硬盘故障处理机制,新增了针对 I/O 阻塞和软件 RAID 故障场景的检测与处理方案,为企业关键业务提供了更可靠的连续性保障。

更多 SmartX 超融合运维与管理支持特性,欢迎点击链接下载《超融合技术原理与特性解析合集》三册电子书!
《超融合技术原理与特性解析合集(一)虚拟化与存储》https://mobile.smartx.com/p/e8ed2《超融合技术原理与特性解析合集(二)管理与运维》
https://mobile.smartx.com/p/c499d
超融合技术原理与特性解析合集(三)全栈能力https://mobile.smartx.com/p/78e71
I/O 阻塞场景的物理盘处理
SMTX OS 6.1 版本之前,SmartX 超融合可通过 S.M.A.R.T. 检测、自研检测工具 disk-health 和超融合集群数据巡检功能,识别集群中的不健康盘、亚健康盘、S.M.A.R.T. 检测不通过盘和寿命不足的硬盘,并触发相应的告警和/或隔离机制。不过除了以上这些硬盘故障场景,一些用户也会遇到因单盘故障而导致的节点 I/O 阻塞的问题:故障盘不断产生新的异常 I/O,引发 HBA/RAID 卡上处理异常 I/O 队列的线程(eh thread)不断重置,形成 I/O 阻塞,导致该 HBA/RAID 卡管理下的所有物理盘上的 I/O 发生持续的中断,直至手动删除故障盘。
对此,自 SMTX OS 6.1 版本起,增加了针对 I/O 阻塞的判断和处理机制。
判断条件
kernel 层面检测到以下任一情况时,会判断为 I/O 阻塞情况,并触发硬盘下线:
- 硬盘出现 10s 及以上的超时累计 50 次或者 8次 / 120s
- 硬盘出现 abort command 累计 50 次或者 8次 / 120s
- 硬盘有 I/O 进入异常 I/O 队列
处理机制
I/O 阻塞时系统会主动对故障盘进行下线处理,阻止该盘继续处理 I/O,快速解除阻塞状态以恢复节点的整体 I/O,将 I/O 中断时长缩短至分钟级别(一般 3 min 内)。
- 为保证系统和数据安全,同集群同一时间只允许一个盘被下线
- 报警:告知物理盘下线
- 物理盘状态:异常盘·需处理
- 物理盘详情:提示联系售后,并由 SmartX 售后工程师协助进行处理(检查存储数据状态和物理盘状态,根据不同情况选择重置物理盘的健康状态或更换物理盘)

软件 RAID 故障场景的物理盘处理
此外,自 SMTX OS 6.0 版本开始,也增加了针对软件 RAID 故障场景的识别与处理机制,进一步方便运维人员和 SmartX 售后工程师定位问题。
当组成软件 RAID 的系统盘读写出现错误或者高延迟时,会被软件 RAID 标记为 faulty。此时该物理盘将不再承载操作系统分区和元数据分区数据的读写,操作系统分区和元数据分区数据的读写由软件 RAID 中的另一块物理盘承载,且触发系统分区冗余度不足的报警。因物理盘硬件问题而引起软件 RAID 故障,需卸载物理盘并对其进行修复或更换;因 kernel bug 引起软件 RAID 故障,物理盘无实际故障,则需通过后端命令行手动恢复挂载且恢复 RAID。

硬盘故障场景性能实测
为了帮助用户进一步了解硬盘故障场景对 SmartX 超融合集群的性能与稳定性影响,我们进行了模拟测试,并与另一超融合厂商进行了对比。
测试细节
- 分别对 SmartX 超融合和厂商 A 超融合产品进行硬盘故障模拟测试,两组测试均使用相同的硬件服务器以及相同的虚拟机配置和客户端操作系统。
- 在 3 节点超融合集群中的每个节点启动一台虚拟机,并运行 FIO 压力测试。
- 在 FIO 压力测试开始一段时间后,选择其中一个节点拔出一块硬盘,模拟硬盘故障场景。
- 收集整个测试过程中 FIO 性能数据,观察硬盘故障对集群整体 I/O 性能的影响。

- 硬盘故障发生当下产生的性能抖动:SMTX OS 集群中虚拟机性能抖动幅度小,最低 IOPS 也接近 8 万,持续时间大约 2 分 30 秒;相同情况下,厂商 A 超融合集群中所有虚拟机性能均发生剧烈抖动,发生多次 I/O 跌至零( I/O 中断)的情况,只要数据恢复不开始,一直有剧烈抖动的情况发生。
- 硬盘故障所在节点虚拟机性能恢复情况:SMTX OS 在发生故障后 2 分钟左右性能恢复稳定(原有性能的 86%),15 分钟内完成数据恢复并 100% 恢复性能;厂商 A 的超融合节点在故障发生后 13 分钟(其中数据恢复触发时间为 10 分钟)左右,性能抖动减轻,但始终无法完全恢复到原来的性能(只有原来的 69%) 。
总结
结合 SmartX 超融合完善的硬盘故障处理机制与多重性能优化技术,SmartX 超融合可针对多种硬盘故障场景进行快速识别与应急处理,同时保证故障期间节点和集群性能抖动少、恢复快,为用户的关键业务连续性提供更可靠的保障,并方便运维人员快速进行故障定位与处理。
更多 SmartX 超融合运维与管理支持特性,欢迎下载《超融合技术原理与特性解析合集》三册电子书!
《超融合技术原理与特性解析合集(一)虚拟化与存储》https://mobile.smartx.com/p/e8ed2《超融合技术原理与特性解析合集(二)管理与运维》
https://mobile.smartx.com/p/c499d
《超融合技术原理与特性解析合集(三)全栈能力》https://mobile.smartx.com/p/78e71