信息系统运行管理员教程2--信息系统运维的组织与管理
第2章 信息系统运维的组织与管理
第1节 信息系统运维的管理
信息系统运维的管理是指信息系统运维管理主体依据各种管理标准、管理制度和管理规范,利用运维管理系统和工具,实施事件管理、问题管理、配置管理、变更管理、发布管理、知识管理等信息系统运维管理流程,对信息系统运维部门、运维人员、信息系统用户、信息系统软硬件和信息技术基础设施进行综合管理,执行硬件运维、软件运维、网络运维、数据运维和安全运维等信息系统运行的管理职能,以实现信息系统运维标准化和规范化,满足组织信息系统运维的需求。
1.信息系统运维管理体系框架
信息系统运维管理体系框架包括运维管理主体、运维管理对象、运维管理职能、运维管理流程、运维管理制度、运维管理系统与工具等。
信息系统运维管理职能: 根据信息运维管理工作的内在逻辑将信息系统运维划分为设施运维、软件运维、数据运维和安全运维等职能。
信息系统运维管理流程: 包括事件管理、事故管理、问题管理、配置管理、变更管理、发布管理和知识管理。
信息系统运维管理制度: 信息系统硬件管理制度、信息系统软件管理制度、数据资源管理制度等,以保障信息系统运维工作的标准化和规范化。
信息系统运维管理系统与专用工具: 信息系统运维管理系统与专业工具能将所有信息系统运维对象、职能、以及流程通过统一集成的运维系统或一系列运维专业工具进行管理,实现对运维事件的全面采集、及时处理与合理分析。
2.信息系统运维管理主要流程
运维管理流程达到以下目标:标准化、流程化、自动化。
信息系统运维管理的流程主要包括事件管理、事故管理、问题管理、配置管理、变更管理、发布管理、知识管理等。
事件管理: 主要目标是尽快恢复信息系统正常服务并减少对信息系统的不利影响,尽可能保证最好的质量和可用性,同时记录事件并为其他流程提供支持。
事故管理: 包括对引起服务中断或可能导致服务中断、质量下降的事件的管理,包括了用户提交或由监控工具提交的事故。事故管理的主要目标是尽快恢复正常的服务运营,并将对业务的影响降到最低,从而尽可能保证服务质量和可用性要求。
问题管理: 包括诊断事故根本原因和确定问题解决方案所需要的活动,通过相应控制过程,确保解决方案的事实。问题管理流程的目标是通过消除引起事故的深层次根源以预防问题和事故的再次发生,并将未能解决的事故影响降到最低。
配置管理: 包括负责识别、维护服务、系统或产品中的所有组件,以及各组件之间关系的信息,并对其发布和变更进行控制,建立关于服务、资产及基础设施的配置模型。配置管理的目标是对业务和客户的控制目标及需求提供支持;提供正确的配置信息,帮助相关人员在正确的时间做出决策,从而维持高效的服务管理流程。
变更管理: 变更管理负责管理服务生命周期过程中对配置项的变更。变更管理流程的目标包括对客户业务需求的变化做出快速响应,同时确保价值的最大化,尽可能减少突发事件、中断或返工;对业务和IT的变更请求做出响应,使服务与业务需求相吻合。
发布管理: 发布管理负责规划、设计、构建、配置和测试硬件及软件,从而为运行环境创建发布组件的集合。发布管理的目标是交付、分发并追溯发布中的一个或多个变更。
知识管理: 知识管理贯穿于整个服务管理生命周期。知识管理的目标是确保在整个服务管理生命周期中都能获得安全可靠的信息和数据,从而提高组织运维管理决策水平。
3.信息系统运维管理制度
信息系统运维管理制度主要包括网络管理、系统和应用管理、安全管理、存储备份管理、故障管理、技术支持工具管理、人员管理及质量考核等制度。
4.信息系统运维管理系统与专用工具
运维管理系统: 能够将所有设施运维要素进行统一的管控,通过系统掌控全局,对信息系统资源进行智能、关联的综合管理,避免分离式管理所带来的孤立现象。一般包括资产管理、流程管理、监控管理、外包管理、安全管理、综合管理等。
运维专业工具: 一般用于辅助运维人员进行某一项或者几项具体的运维业务。
第2节 信息系统运维的组织
1.信息系统运维的任务
信息系统的日常运行管理: 数据资源管理、软件资源管理、硬件资源管理、系统安全管理、信息服务需求管理。
信息系统运行日志记录: 在完成各项日常管理工作的同时,应该对系统的工作情况进行详细的记录。
系统运行情况的检查与评价:
系统评价一般从以下几个方面考虑:系统是否达到预定目标,目标是否需要修改;系统的适应性、安全性评价;系统的经济效益评价。
2.信息系统运维管理的职责
按照运维流程,可以从时间管理、事故管理、问题管理、配置管理、变更管理、发布管理、和知识管理七个方面,归纳信息系统运维不同人员的职责。
按照运维对象,可以从系统管理、数据、软硬件等方面,归纳信息系统运维期间人员的职责。
3.信息系统运维人员的管理
运维人员管理的内容: 明确各业务人员的任务及职权范围;对于每个岗位的工作要有定期的检查及评价;要在工作中对工作人员进行培训。
运维人员管理的重要性: 在信息系统的管理工作中,首先是人的管理,其次才是设备、软件、数据的管理。
人员的责任及其绩效评价原则:系统主管人员的责任;数据收集人员的责任;数据校验人员的责任;数据录入人员的任务;硬件和软件操作人员的任务;程序员的任务。
运维人员管理的意识: 服务意识、学习意识、创新意识、专业意识、主动意识、安全意识、团队意识。
运维人员的学习培训:信息系统的主管人员,应该鼓励并组织各类人员进行知识更新和技术学习。各类相关人员的知识更新或业务学习,无疑应该围绕工作的需要来进行。
4.信息系统运行管理制度的建立与实施
网络中心管理制度、运行管理制度、日常运行记录制度。
5.信息系统的运维模式
模式 | 定义 | 优点 | 缺点 |
---|---|---|---|
自主运维模式 | 企业自行负责对拥有的所有IT资源的运维工作 | 人员容易管控;可根据需求进行能力培训 | 人员数量有限,对并行的运维工作无法同时提供支撑;培养时间较长,无法满足企业运维工作的要求 |
完全外包运维模式 | 企业通过与其他单位签署运维外包协议,将所拥有的全部IT资源的运维工作外包给其他单位 | 充分利用外部经验,能够快速提供企业所有IT资源的运维能力;运维人数扩充较为容易,易于应对大规模的运维需求 | 外部人员管控难度大;企业信息泄露风险高 |
混合运维模式 | 企业对所拥有的一部分IT资源自行运维;同时,通过与其他单位签署运维外包协议,将所拥有的另一部分IT资源的运维工作外包给其他单位 | 充分发挥自主运维和外包运维的优势 | 增加了运维工作的复杂度,延长了运维流程;也需要充分考虑内外部运维人员的职责划分和人员比例,在合理的运维成本下,既保证运维工作的顺利完成,又确保企业自有运维人员能够得到充分锻炼和提升 |
6.系统运行的文档管理
信息系统运行文档管理的意义:良好的文档管理是系统工作连续进行的保障;良好的文档管理是信息系统维护的保证;良好的文档管理是保证系统内数据信息安全的关键环节;良好的文档管理是系统各种信息得以充分利用,更好地为管理服务的保证。
信息系统运行文档管理的任务:监督、保证按要求生成各种文档;保证各种文档的安全与保密;保证各种文档得到合理、有效的利用。
信息系统运行文档的生成与管理办法:
信息系统运行文档包括计算机打印输出的报告、报表、凭证等,存有数据的磁性介质及其他介质,信息系统开发的全套文档资料。
主要包括关于系统打印输出的文档的生成与管理、关于磁性介质及其他介质的管理、关于信息系统开发的文档资料的管理、信息系统运行文档管理制度。
7.系统运行的故障管理
故障的种类:硬件故障、软件故障、网络故障、人为故障、不可抗力和自然灾害。
故障的预防策略:故障约束、故障检测、故障恢复。
常见故障的处理:
常见软件故障判断与处理方法:系统文件丢失;文件版本不匹配;应用程序非法操作;蓝屏错误信息;系统资源耗尽;计算机病毒破坏。
常见硬件故障判断与处理方法:电源电压不稳定或经常断电引起的故障、部件之间接触不良引起的故障;由CMOS引起的故障;硬件本身的故障。
常见网络故障判断与处理方法:硬件故障、软件设置故障、排除网络故障的一般方法。
服务器磁盘故障的解决方案:磁盘冗余阵列、存储子系统、虚拟存储技术。
服务器系统部件故障的解决方案:采用全硬件冗余的主机硬件系统、采用多机切换系统。
信息系统容灾的解决方案:企业业务数据必须要存储在不同地域、在不同地域之间必须建立稳定、冗余的高速网络连接,以保证其网络的可靠性。
故障的记录与报告: 故障信息收集与记录、故障分析、故障报告。
第3节 信息系统运维的外包
1.运维外包的概念
信息系统运维外包也称信息系统代维,是指信息系统使用单位将全部或一部分的信息系统运维服务工作,按照规定的维护服务要求,外包委托给专业公司管理。
信息系统运维外包可以给组织带来的好处:有利于提高组织竞争力;借助专业公司的管理流程和工具软件降低信息系统运维的成本;提高服务质量、降低故障率;降低业务部门隐性成本。
2.运维外包的模式
信息系统运维外包的模式包括:完全外包模式和部分外包模式。
3.运维外包的内容
信息系统运维外包主要包括桌面支持外包、IT基础架构外包和应用系统外包。
桌面支持外包:具体地说就是办公环境的维护,包括系统初始检查;硬件故障解决;硬件扩容升级;软件系统支持;防病毒系统的支持;网络系统的支持;日常维护管理;咨询服务。
基础设施外包:基础设施即服务(IaaS)是一种基础设施外包服务。包括系统、服务器维护支持;软件、服务调试;网络系统维护;系统迁移;数据库维护支持;数据存储和容灾管理;安全系统的支持;网站支持;咨询服务。
应用系统外包:集中为组织搭建信息化所需要的所有网络基础设施及硬件、软件运行平台,复杂所有前期的实施、后期的维护等一系列服务。
4.运维外包的风险管理
外包风险主要来源:外部环境不确定性;运维外包决策的复杂性;运维外包双方的关系复杂性;运维工作本身的复杂性。
风险分析:组织成本有可能增加;组织对服务商的依赖和外包合同缺乏灵活性可能降低组织的灵活性;可能会泄露组织的商业秘密;对外包商缺乏恰当的监管。
风险规避:核算外包成本,控制额外支出;组织仍需不断学习;选择合适的外包商;签订完整而灵活的外包合同。
第4节 信息系统运维管理标准
运维服务管理是对信息系统整个生命周期的管理,包括信息技术部门内部日常运营管理及面向用户服务的管理。
1.ITIL
ITIL是英国政府中央计算机与电信管理中心在20世纪80年代中期开始开发的一套IT服务管理最佳实践指南。
ITILv3核心架构:ITIL经历的三个主要版本是ITILv1、ITILv2、ITILv3。IT服务从开始到结束的整个过程,就是服务管理的生命周期。
基于服务生命周期主要包括五个方面:服务战略、服务设计、服务转换、服务运营、服务改进。其中服务战略是生命周期运转的轴心;服务设计、服务转换和服务运营是实施阶段;服务改进则在于对服务的定位和基于战略目标对有关的进程和项目的优化改进。
2.COBIT
信息系统和技术控制目标(COBIT)目前已成为国际上公认的IT管理与控制标准。
第5节 信息系统运维管理系统与专用工具
1.信息系统运维管理系统功能框架
信息系统运维管理系统是站在运维管理的整体视角,基于运维流程,以服务为导向的业务服务管理和运维管理支撑平台,提供统一管理门户,最终帮助运维对象实现信息系统管理规范化、流程化和自动化的全局化管理。
运维管理系统的架构一般分为:采集层、基础层(资产管理)、通用服务层(监控管理)、对象服务层(流程管理)、管理分析层和表达层(管理门户)。其产品功能涵盖了资产管理、流程管理、监控管理、外包管理、安全管理、综合管理等。
资产管理: 资产管理实现对网络设备、服务器、PC、打印机、各种配件、软件、备品备件等设备资产信息的维护、统计及资产生命周期管理。
流程管理: 流程管理功能应实现IT运维管理中所要求的管理流程,并对其进行监控,确保运维服务质量。
监控管理: 监控管理包括对信息系统相关设备的监控管理,实现视图管理、配置管理、故障管理、性能管理。
外包管理: 运维管理系统的外包管理功能是面向信息系统管理者,服务的结果控制管理和过程控制管理。
安全管理: 安全管理应包括但不限于通信及操作管理、访问控制、信息安全事件管理及风险评估和等级保护。
综合管理: 运维管理系统应在资产管理、监控管理、安全管理、流程管理和外包管理功能的基础上,实现信息系统整体运维信息统计分析,并支持管理决策。
2.运维管理系统
CA公司的USPSD,是一个综合的、集成的智能服务台解决方案;
HP公司的HP Open View Sercice Desk 运维平台;
北塔的运维管理系统BTIM;
开源运维管理系统Genome。
3.运维管理专用工具
ITIL流程管理平台Remedy;自动化运维操作管理平台Opsware;配置管理系统。
第6节 信息系统运维管理的发展-云运维管理
1.云运维管理概述
在云计算技术体系架构中,运维管理提供IaaS层、PaaS层、SaaS层资源的全生命周期的运维管理,实现物理资源、虚拟资源的统一管理,提供资源管理、统计、监控调度、服务掌控等端到端的综合管理能。
云运维管理与当前传统IT运维管理的不同表现为:集中化和资源池化。
2.云运维管理的功能
自服务门户;身份与访问管理;服务目录管理;服务规则管理;资源调度管理;资源监控管理;服务合规审计;服务运营监控;服务计量管理;服务质量管理;服务交付管理;系统管理;管理集成;管理门户。