信息系统运行管理员教程3--信息系统设施运维
第3章 信息系统设施运维
信息系统设施是支撑信息系统业务活动的信息系统软硬件资产及环境。
第1节 信息系统设施运维的管理体系
信息系统设施运维的范围包含信息系统涉及的所有设备及环境,主要包括基础环境、硬件设备、网络设备、基础软件等。
信息系统设施运维的对象: 基础环境、硬件、网络、基础软件等。
基础环境:主要包括信息系统运行环境中的空调系统、供配电系统、通信应急设备系统、防护设备系统等,能维持系统安全正常运转,确保机房环境满足信息系统运行要求的各类基础设施。
网络:主要包括通信线路、通信服务、网络设备及网络软件。
硬件:主要包括服务器、安全设备、存储备份设备、音视频设备、终端设备及其他相关设备等。
基础软件:主要包括操作系统、数据库系统、中间件及其他支撑系统。
信息系统设施运维的内容: 主要包括信息系统设施的例行操作运维、响应支持运维、优化改善运维和咨询评估运维等内容。
信息系统设施运维的制度:
按照运维对象主要有机房管理制度、网络基础设置管理制度、子网管理制度、数据存储设施管理制度、基础软件管理制度等;
按照运维过程管理主要有设施运维人员和岗位职责管理制度、外来维护人员管理制度、运维记录管理制度、设备巡检、维护作业计划管理制度等。
信息系统设施运维的人员: 包括管理人员、技术支持人员和具体操作人员。
第2节 信息系统设施运维的环境管理
1.计算机机房设计
计算机机房的选址要求:
地理位置一般应选择水源充足,电力比较稳定可靠,交通通信方便、自然环境清洁;远离粉尘、油烟、有害气体以及生产或贮存具有腐蚀性、易燃、易爆物品的工厂、仓库、堆场等;远离强振源和强噪声源;避开强电磁场干扰,远离强电强磁设施,如无法避开,应采取有效的电磁屏蔽措施。
机房应选择坚固、宽敞、洁净、通风、有防雷击设施等条件较好的房间。应经可能选用除顶层和底层以外的房间。面积最少不低于60平方米。
计算机机房的布局要求:
一般应该由主机房、基本工作间、第一类辅助房间、第二类辅助房间、第三类服务房间等组成。
系统的各种设备宜采用分区布置,一般可分为主机区、存储器区、数据输入区、数据输出区、通信区和监控调度区等。
主机房内通道与设备间的距离应符合下列规定:两相对机柜正面之间的距离不应小于1.5米;机柜侧面或不用面距墙不应小于0.5米,当需要维修测试时,则距墙不应小于1.2米;走到净宽不应小于1.2米。
计算机机房的建筑要求:
电子计算机机房的建筑平面和空间布局应具有适当的灵活性,主机房的主体结构宜采用大开间大跨度的柱网,内隔墙宜具有一定的可变性。机房各门的尺寸均应保证设备运输方便。
电子计算机机房宜设单独出入口,通道净宽不应小于1.5米。
电子计算机机房的耐火等级应符合现行国家标准的规定。
计算机机房的室内装饰要求:
主机房室内装饰应选用气密性好、不起尘、易清洁,并在温、湿度变化作用下变形小的材料,并应符合下列要求:墙壁和顶棚表面应平整,减少积灰面,并应避免眩光;应铺设活动地板,活动地板应符合现行国家标准;活动地板下的地面和四壁装饰,可采用水泥砂浆抹灰;吊顶宜选用不起尘的吸声材料。
机房应远离噪声源,当不能避免时,应采取消声和隔声措施。
2.计算机机房的环境条件
温度、湿度、照明、防尘、防静电、防磁、防雷、防强光、防有害气体、防水、防鼠。
3.电气系统
电气系统基本要求: 保证计算机系统运行的可靠性、保证计算机系统的设计寿命、保证信息安全的要求、保证计算机操作人员的工作环境。
供配电系统:
计算机机房设计时计算机电源应该使用专用的线路,不要与其他大功率电器一起使用。供配电系统应考虑系统扩展、升级的可能,并应预留备用容量。
供配电系统设计应该注意以下事项:机房容量较大时,应设置专用电力变压器,容量较小时,可采用专用低压馈电线路供电;电子计算机电源设备应靠近主机房设置;机房内其他电器的电力负荷不得由计算机主机电源和UPS供电,主机房内为计算机设备宜设置专用动力配电箱,与其他负荷应分别供电;单相负荷应均匀地分配在三相上,三相负荷不平衡度应小于20%;计算机电源系统应限制接入非线性负荷,以保持电源的正弦性。
设备选型:
计算机设备的供配电特性,应注意以下几点:专用配电箱内保护和控制电器的选型应满足规范和设备的要求;专用配电箱应有充足的备用回路,用以计算机系统的扩容;专用配电箱进线断路器应设置分离脱扣器,以保证紧急情况下,切断所有用电设备电源;专用配电箱设置电流、电压表以监测三相不平衡度;专用配电箱设置足够的中线和接地端子。
综合布线:
综合布线时应该注意以下几点:电子计算机机房的电源进线应按照规范采取过点压保护措施;主机房活动地板下部的低压配电线路宜采用铜芯屏蔽导线或铜芯屏蔽电缆;主机房活动地板下部的电源线应尽可能地远离计算机信号线,避免并排敷设,应采取相应的屏蔽措施;照明配线宜穿镀锌薄壁铜管保护。
接地系统:
电子计算机机房接地方式概括来讲,可以分为两类,一类是系统接地,一类是屏蔽接地。
接地方法主要有两种:一是接地棒法;二是埋设铜板。
4.空调系统
主机房必须维持一定的正压。主机房与其他房间、走廊间的压差不应小于4.9Pa,与室外静压差不应小于9.8pa。
空调系统的新风量应取下列3项中的最大值:室内总送风量的5%;按工作人员每人400/h;维持室内正压所需风量。
空调设备的选择应该符合运行可靠、经济和节能的原则。
5.消防与安全系统
计算机机房设计时可以根据消防防火级别来确定机房的设计方案,建筑物内首先应具备常规的消防栓、消防通道等,按机房面积和设备分布装设烟雾、温度检测装置、自动报警警铃和指示灯、自动/手动灭火设备和器材。
6.系统支撑环境的参照标准
在进行信息系统支撑环境的构建过程中,可以部分参考下列标准进行:国家标准、建筑部分参照标准、电力保障部分参照标准、综合布线部分参照标准。
第3节 信息系统设施运维的内容
信息系统设施运维的内容可分为例行操作运维、响应支持运维、优化改善运维和咨询评估运维。
1.例行操作运维
例行操作运维是指设施运维人员通过预定的例行服务、以及时获取运维对象状态、发现并处理潜在的故障隐患、保证信息系统设施的稳定运行。
例行操作作业包括: 设施监控、预防性检查和常规操作三种类型。
设施监控: 设施监控是指通过各类工具和技术,对设备的运行状态进行记录和分析,从而及时发现故障,以便于进行故障的诊断与恢复。设施监控包括:基础设施的监控、网络设施的监控、硬件设施的监控、基础软件的监控。
预防性检查:预防性检查是在信息系统设施监控的基础上,为保证信息系统设施的持续正常运行,运维部门根据设备的监控记录、运行条件和运行状况进行检查及趋势分析,以便及时发现问题并消除和改进。主要包括性能检查和脆弱性检查。
常规操作:常规操作运维是对信息系统设施进行日常维护、例行操作,主要包括定期保养、配置备份等,以保证设备的稳定运行。
2.响应支持运维
响应支撑运维是运维人员针对服务请求或故障申报而进行的响应性支持服务,包括变更管理、故障管理等。
响应支持作业包括: 事件驱动响应、服务请求响应和应急响应。
事件驱动响应:是指由于不可预测原因导致服务对象整体或部分功能丧失、性能下降,触发将服务对象恢复到正常状态的服务活动。
服务请求响应:是指由于各类服务请求引发的针对服务对象、服务等级做出调整或修改的响应型服务。
应急响应:是指组织为预防、监控、处置和管理运维服务应急事件所采取的措施和行为。应急响应过程包括应急准备、监测与预警、应急处置和总结改进四个主要环节。
3.优化改善运维
优化改善运维是指运维人员通过提供调优改进,达到提高设备性能或管理能力的目的。
优化改善运维包括: 适应性改进、纠正性改进、改善型改进和预防性改进。
适应性改进:是指在已变化或正在变化的环境中可持续运行而事实的改造。
纠正性运维:调整服务器及存储设备不合理的初始容量配置、参数配置等。
改善型运维:是指根据信息系统或相关设备的运行需求或设计缺陷,采取相应改进措施,以增强安全性、可用性和可靠性。
预防性运维:是指监测和纠正系统运行过程中潜在的问题或缺陷,以降低系统风险,满足未来可靠运行的需求。
4.咨询评估运维
咨询评估运维是指运维人员根据系统运行的需求,提供服务器及存储设备的咨询评估服务,并提出存在或潜在的问题和改进建议。
咨询评估作业包括: 被动性咨询服务、主动性咨询服务。
被动性咨询服务:是根据需求,对服务对象进行现状调研和系统评估,识别出服务对象的运行健康状况和弱点,并提出改进建议。
主动性咨询服务:是根据应用系统的特点和运行需求,对服务对象的运行状况、运行环境进行分析和系统评估,提出改进或处理的建议和方案。
第4节 信息系统设施的故障诊断与修复
1.主要故障原因与现象
故障类型:网络链路、配置文件和选项、网络协议、服务故障。
2.故障排除步骤
识别故障现象、对故障现象进行详细描述、列举可能导致错误的原因、缩小搜索范围、定位错误、故障分析。
3.故障诊断方法
排除法:主要是根据所观察到的故障现象,尽可能全面地列举出所有可能导致故障发生的原因,然后逐一分析、诊断和排除。
对比法:就是对比故障设备和非故障设备之间的“软”、“硬”差异,从而找出可能导致故障的原因。
替换法:是使用已知正常的设备或设备部件进行替换,并找出故障的部件进行排障。主要用于设备硬件故障的诊断,是平时维修计算机的一种方法。
4.故障诊断与修复原则
先易后难、先软后硬、先边缘后核心、先链路后设备。
5.故障诊断与恢复注意事项
应故障诊断与修复工作应注意以下两个方面:应保证所有修复操作可恢复;重视记录。
第5节 信息系统设施运维系统与专用工具
1.信息系统设施运维管理系统功能
设施运维管理系统的功能主要包括资源管理、监控管理、故障预警管理功能。
资源管理: 设施快照、设施视图、设备活动及安装软件信息、网络设备端口分布、交换机端口分布。
监控管理: 基础环境监控、网络设备监控、硬件设备监控、基础软件监控。
故障预警管理: 资源预警、网络性能预警、基础软件性能预警。
2.典型信息系统设施运维典型专用工具
信息系统设施运维的专用工具主要包括在准备阶段的运维部署工具、过程中的运维配置工具和运维监控工具,优化改善过程中的日志分析工具及其他辅助专用工具等。
阶段 | 准备阶段 | 过程阶段 | 过程阶段 | 优化改善 |
---|---|---|---|---|
类型 | 部署工具 | 配置工具 | 监控工具 | 日志分析工具 |
工具 | Kickstart Cobbler OpenQRM SpaceWalk | Puppet Func Chef Cfengine Capistrano ControlTiger | Nagios Zabbix Cacti Gandia Hyperic OpenNMS | Splunk Loggly Airbrake Graylog |
第6节 云环境下的信息系统设施运维
1.云环境下信息系统设施运维的优势
设施运维工作更加专业、敏捷;设施运维单机故障影响更小;设施运维成本更低。
2.云环境下信息系统设施运维的挑战及要求
面临的挑战:设施架构复杂度更高;设施故障可能造成更大范围的损失;运维故障处理难度更大。
运维的要求:从体系层面,云环境下的运维应做到自动化、规模化、智能化、数字化。
整体性要求;自动化、规模化要求;数字化要求;智能优化要求。