电信运营商网络运维方案
随着新一代信息技术加快普及应用,5G、云和人工智能正加速智能社会的到来,三大技术正在重构网络。随着我国5G产业快速推进,中国移动、中国联通、中国电信加快步伐,全业务运营时代已经到来。全业务运营时代的特点是:网络规模大;业务种类将越来越多。越来越多的人开始进入信息通信网络且使用各种娱乐、商务、贸易等信息通信服务,一旦网络安全出现问题,必将带来十分严重的后果。因此,IT运维系统在逐步升级的过程中,除了要支撑多业务、融合计费等需求之外,还要提供高等级的安全保障。
电信运营商网络运维痛点
5G时代的到来,为运营商带来了全新的商业模式,随着运营商业务发展,业务支撑网络和业务系统越来越复杂。网络线路、网络设备、云资源等基础设施的不断增加,使得整个网络结构变得非常庞大而且复杂;同时随着业务系统的增加,业务场景越来越多,业务复杂度越也越来越高。在传统运维管理手段下,对于多段网络、多层架构的应用,在问题发生时,分析定位、排障的速度相对较慢。
具体表现为如下:
-
各电信运营商网络中都存在大量的 IT 基础架构设施、云、虚拟化等,各种设备类型和设备厂家众多,难以统一管理;
-
设备多分布在大大小小很多个机房,运维管理效率低下,且各系统的分散建设,造成重复建设、重复投资,造成资源浪费、能耗无谓增加;
-
随着业务系统逐步上云,电信运营商对云的监控提出更高要求,目前对云环境、容器环境的管控覆盖面及手段尚有不足;
-
电信运营商网络中业务系统众多、网络结构复杂,其中的网络设备、服务器、数据库、中间件、分流设备、交换机、存储、云、虚拟化、应用等发生问题时定位困难;
-
分层、多厂家、异构等多种场景下,问题诊断和分析的复杂度高,故障定位和根因分析困难,排障费时费力;
-
运维监控产品能力参差不齐、运维数据分散,缺乏全面的数据统计和分析,分析问题故障时无法形成有效联动;
-
缺乏对IP地址等网络资产生命周期管理;
-
运维人力外包形式普遍,手工运维+零散工具导致工作量居高不下,缺乏灵活定制和使用的能力,且对运维人员经验依赖较重;
智和信通电信运营商IT运维方案
当前,电信运营商面临着5G、虚拟化、物联网等技术冲击的压力,为推进自身业务数字化,电信运营商建设了大量的IT系统,系统规模呈几何级增长,加之虚拟化微服务架构复杂多变,同时也急需提升效率、优化成本。北京智和信通电信运营商IT运维方案,通过对各类网络场景下的跨域资源整合、数据深度挖掘、异常监测、自动化运维等能力,实现电信运营商IT运维从标准化向自动化、智能化、数字化转型。
-
多网融合架构可视化
运营商多采用多网融合架构,一般来讲,运营商网络包括省际和省内骨干网络,各省内又包含许多城域网,城域网下又有许多用户驻地网通过接入网连接进来。网络架构中软硬件环境涉及的技术复杂,厂商众多。北京智和信通通过网络架构拓扑可视化能力,将网络数据从离线表格转移至平台内,从静态的网络架构数据转化为动态智能拓扑,实现全网设备、资源、链接关系、IP等实时更新、快速定位。
-
核心网络架构可视化
在动态拓扑上展现设备实时状态,通过树形、平面结构联动展示设备间链接关系,按片区、按地域、按层级等多种布局方式划分网络,使用不同颜色、粗细、图标表示被管对象的状态信息,助力运维人员实时了解网络架构及全网运行状态,快速感知资源、链路、流量等异常信息。
-
基站、机房架构可视化
以2.5D管理视图对不同品牌、类型、版本的网络设备、安全设备、存储、主机、中间件、数据库、虚拟化、应用服务、视频监控、动力设备、环境设备等进行统一、全方位、多层次的综合管理,实时分析资源当前性能和运行状态,直观反映资源的动态变化对支撑业务的影响。
-
端到端全链路可视化
从整体维度到局部维度全面展示电信运营商网络内设备链路各项指标,整体可观测、可告警、可分析、可统计,通过实时监控各个端口以及每条线路的通断情况和性能指标,结合专业的流量监控分析能力,对链路容量进行即时监控,并生成流量分析报告,为容量规划提供依据。
-
全网资源监控可视化
本方案实现网络设备信息高频采集,并结合智能算法,实现对整体网络架构、设备运行状态、业务可用状态的实时信息采集和感知。针对电信运营商网络内各类设备、业务系统构建统一、智能监控体系,对业务系统、操作系统、基础设施、主机存储、数据库、中间件、虚拟化、云、数据中心机房等全方位监管。屏蔽厂商、型号差异,全面掌握电信运营商网络整体运行情况和运行效能,能高效、快速、精准进行故障定位诊断。
-
视频设备集中监控
本方案可对不同品牌、不同型号的摄像头进行统一运维,融合网络高清、智能分析、多级管控为一体。支持监管视频监控体系涉及的视频前端设备(摄像头、卡口、编解码器)、传输设备(光纤收发器、EPON 等)、内场设备(网络与安全设备、主机/虚拟机、存储设备)、机房动力环境等统一接入、集中管理。
-
精细化私有云监控
方案基于对私有云中的系统资源、租户资源的监控,实现云资源的生命周期管理,通过可视化运维编排,进行云管理策略预设配置、云策略批量/定时执行、智能监控巡检。支持多云纳管、持续监控,对云的容量进行智能化分析,为容量优化提供依据。
-
设备模型库监管无限制
方案采取用户自定义设备类型及其设备资源的方式,赋予用户自定义适配设备的能力,最大可能地支持对不同设备类型的支持。通过自定义设备类型及其设备资源,最大限度上提高了智和网管平台的管理范围,真正实现了对设备及其资源的全面化管理,达到管控万物的目标。
-
实时故障预警,及时洞察异常信息
方案通过统一的故障管理平台,将各个模块中的监控信息统一采集、分析,实现整个电信运营商网络中各种事件信息、设备故障、网络异常、流量异常等告警,以智能化手段进行标准化的分析、压缩、并归关联等,通过多种方式实时传达告警信息,保证落实到指定人员进行处理,为电信运营商提供主动式的故障解决方案。
全面采集电信运营商所有联网设备,如存储、服务器、路由器、交换机、防火墙、虚拟化、云、PTN等设备、资源、应用、服务等状态信息,通过对告警机制以及阈值的设置,第一时间获取准确的告警信息,快速定位告警设备,提升告警处理效率,降低因设备故障带来的损失。
-
人工运维与故障自愈结合
将人工运维与故障自愈结合,无需针对告警进行手动处置,只需预编排告警处理流程,平台根据场景自动触发,实现故障自愈。
通过实时发现告警,进行预诊断分析,判断告警类型和级别,如果是一般告警,平台进行自动恢复,如果是严重复杂告警则通过告警通知、运维工单等形式通知运维管理人员,进行人工处理。同时,将只能有专家处理的各类操作和判断转化为可存在于平台内的流程,形成可保留可复用的运维知识。
-
IP地址全生命周期监管
对于电信运营商的网络IP资产,采取统一数据标准,对整体网络中的IP和MAC进行梳理和管理,记录MCA和IP的对应关系、IP使用单位并关联合同附件,IP/合同到期后进行提醒。
建立健全IP资产台账,通过自定义多级资产分类,细化资产类别,实现资产分类管控,提高资产精细管理程度。从IP分配、调用、回收等,每一步操作均实现完整记录,支持追溯,通过平台实现IP资产整个生命周期的全流程闭环管理,使得IP资产每一次生命周期变更,都有流程可依、都有迹可循,从而实现全面的IP监管。
-
子网及IP地址信息查看
方案支持端到端规划、部署、管理和监控IP 地址。通过智能IP扫描能力,定义多层次子网,然后扫描其范围内每个IP地址的当前状态,包括IP地址,MAC地址等信息,也可以查看IP段内地址使用详情,便于IP地址分配管理等。
-
IP地址分配与使用
支持通过端口视图及列表视图的形式,展示当前IP地址的使用情况,可查看某个子网的IP现网详情信息,如IP、掩码、主机名、设备类型、现网MAC、现网接入设备、现网接入端口、规划MAC、规划接入设备、使用人等,可批量分配IP地址。
-
IP地址异常追踪
方案支持通过追踪IP地址的历史关联MAC、接入设备/端口变更记录等与规划绑定MAC、规划接入设备/端口进行对比分析,当与规划不一致时生成一条异常记录,从而审核IP/MAC是否正确使用。
-
IP-MAC绑定
对全网MAC和IP进行配对绑定,并周期性对MAC-IP进行检测。自动将规划表中的IP-MAC设置为绑定关系,自动扫描在线终端,当MAC-IP的绑定关系发生冲突时产生告警,保证入网终端安全可信。
-
全覆盖IT资源自动巡检
传统的人工巡检,尤其是应用巡检,缺乏统一的规范、标准,导致巡检的范围和深度都存在一定的局限性,并且是基于人工的手工统计,工作效率比较低,同时耗费较大的人力资源。
本方案依托平台将以前依赖手工进行的日常巡检转换为自动化、定时执行的巡检策略。制定统一的巡检指标、巡检方式、巡检频度等,保证巡检标准化、巡检范围、巡检深度;通过设计巡检作业、数据采集方式、自动化作业调度等实现日常巡检的自动化,代替手工工作,提高效率的同时,解放管理人员,释放管理人员更多的精力,使更多的精力处理更重要的事项。
-
业务可用性管理
电信运营商业务系统流程从终端用户侧的柜面、手机APP、官网、CRM系统、在线客服系统,到在线计费系统,再到后端核心系统,每个环节互相关联影响。本方案以保障业务可用性为基础,通过对承载业务的IT基础设施构建真实的业务模型。直观呈现面向服务的业务系统体系架构;准确反映设备异常对核心业务、用户造成的影响和威胁,快速查明导致业务中断的故障源,帮助运维人员做出及时响应,保障业务连续性。
-
业务可用性拨测分析
针对业务应用性能与用户体验进行检测分析,无需安装插件即可提供开箱即用的主动拨测试业务监测。直观、便捷地帮助运维人员对电信运营商内办公系统、支付系统、在线客服系统、在线计费系统、CRM系统、官网、手机APP系统等进行监控,掌握业务的运行状态和健康水平,了解业务动态变化趋势,快速定位故障源,降低运营风险。
-
业务依赖关系可视展示
方案通过构建包含各业务整体流程的调用依赖关系图谱,展示业务部署中网络设备间多维度关系拓扑。对从业务的前台受理到真正完成的整个业务流程所依赖的业务应用、服务器、中间件、数据库、操作系统等进行实时监控分析,通过可视化的方式呈现业务健康状况,联动设备监控,快速定位导致业务健康指数波动的原因,保障核心业务流程稳定、高效。
-
全网带宽、流量监控与回溯分析
方案基于海量流量数据的存储挖掘,实现对网络流量的侦测分析。通过网络流量分析技术,采集、分析、存储所有网络流量,回溯分析数据包特征、异常网络行为,以多维数据分析和深度挖掘为手段,实现数据包层面的流量追踪,发现潜伏于网络中的未知攻击。
提供设备、接口、IP、服务、应用、会话等层级的带宽监控,实时监控带宽使用趋势与带宽占用分布,并通过图表展示,快速识别网络带宽滥用,分析高带宽使用情况,识别带宽消耗较大的应用程序、服务、协议或 IP 地址,避免网络容量过载,并提升最终用户网络体验。
-
无人值守的设备远程配置
网络承载的业务经常发生变更,面对业务的变更运维工程师往往要对大量设备进行操作,此时如果依靠工程师逐一登录设备进行命令下发、策略配置,将产生大量重复性的工作,不但导致运维效率低下,也不可避免地产生人为配置错误。
通过批量作业并行处理能力,实现多设备并发批处理操作。通过自动化流程,将简单的设备控制操作在大批量设备进行执行,并对执行过程进行监督,对执行结果进行检查。在安全合规的前提下,将运维人员从整体的变更流程及变更内容的准备中解脱出来,实现网络变更、设备配置自动化。
针对不同类型的设备,支持进行各种控制、配置操作。
-
对服务器/主机/虚拟化,支持一键开关机、进程管理、应用管理、容量管理等
-
对交换机/路由器,支持ACL、QoS、流量策略、端口策略等
-
对安全设备,支持防护管理、认证管理、NAT管理、VPN管理、内容控制等
-
对数据库/中间件,支持空间管理、池管理、会话管理、连接控制等
-
对传输设备,支持终端管理、链路管理、信号控制、功率配置等
-
对其他设备,支持结合用户实际场景,通过拖拽流程的方式实现自定义管控策略
支持不同厂商,如Cisco、HP、Nortel、Juniper、3Com、D-link、Foundry、Dell、Proxim、NetScreen、华为、H3C、锐捷、中兴等多家厂商的网络设备。
-
全场景自动化运维
方案将电信运营商网络运维中涉及的服务、命令、操作、执行组件化、策略化,将需要进行的运维服务、操作等以组件、策略的形式托管至平台中进行维护和管理,通过简单灵活地编排能力,使用者可以选择业务场景所需地测,通过可视化拖拽的编排方式进行组合,即可完成应用场景端到端的图形化编排,最后以多种方式触发执行即可完成期望的运维变更任务,从而实现高效、稳定、安全的智能运维。
-
可视化数据分析
利用图形、图表、图表等易于理解的形式,提取和分析大量复杂的电信运营商网络中各类运维数据,呈现分析结果,从而帮助运维人员在短时间内更好地理解和获得更多的信息,帮助运维部门能够实时了解业务和其所依赖IT资源的运行状况,以及提供系统运维和优化的指示和依据。
适配各种应用场景,二十四小时不间断监控,细粒度可达网络中每个设备、资源和链路。所有的网络故障都一目了然地呈现,大大降低了管理成本,同时也提高了运维人员处理故障的能力,节省的故障处理时间,为运维人员管理网络提供了可靠的保证。
-
快速建设运维工单体系
通过方案实现运维工单“无纸化”,支持于设备和故障管理页面快速创建工单,把控故障处理进度,通过工单平台简化故障处理流程,形成自动化故障处理机制,并在每个处理流程的节点上责任到人,实现在快速响应故障的同时,实现兼顾运维流程管控。
-
业务工单示意图
结合电信运营商开户、销户、彩铃、如装机、 拆机、 加三方通话、减增新业务等业务需求场景,自定义工单模板内的字段,并对字段排序进行调整,使工单根据业务的不同更加贴合用户实际使用情况,提供为不同工单模板设置不同状态的能力。
自主研发安全可控 全面适配国产信创环境
信创产业包含了从IT底层的基础软硬件到上层应用软件的全产业链的安全可控,涵盖了应用软件、信息安全、IT基础设置、基础软件四个领域。其中,基础软件是信息系统最核心的部件,是保障信息系统安全的重要阵地和最后一道防线,其创新应用与自主可控关系到国家安全和利益,也是产业自主发展的基础。
本方案支持部署运行在中标麒麟、银河麒麟、红旗Linux等国产操作系统,支持在达梦、金仓、神州等国产数据库进行数据存储,通过东方通等国产中间件提供对外服务[8],支持龙芯、申威等国产CPU架构,并实现对国产化CPU、服务器、数据库、中间件等IT软硬件设备的综合监控与运维管理。
方案应用价值
通过部署智和信通电信运营商IT运维方案,构建了自动、自优、自愈、自治的智能运维模式,助力运营商达到统一标准、统一运营、统一管控、统一规划管理。
实现对所有IT设施不同层次、不同维度的拓扑可视化及性能指标智能分析;建立面向宿主机、虚拟机、容器、5G网元的多维度网络监测视图,通过跨硬件层、虚拟层、网元层的统一可视化监控运维能力,降低各技术专业运维难度;实现跨层的可视化,解决了故障快速定界、定责的难题,快速定位故障源,提升排障时效。
标杆案例
智和信通电信运营商IT运维方案成果,其可靠性在电信运营商大规模、高复杂的网环境下得到了验证,并得到用户的充分认可。
-
中国移动集中统一运维
项目背景
中国移动是我国三大移动运营商之一,公司主要经营移动通信业务,国内、国际固定电话网络与设施,语音、数据、图像及多媒体通信与信息服务,电信增值业务,IP电话业务等国家批准的其他业务,以及与通信及信息业务相关的系统集成等业务。
2010年中国移动通信集团在全国建设了不良信息过滤系统,此系统由不良信息过滤软件、Windows 服务器、Linux 服务器、数据库、分流设备、交换机、存储服务器等构成。
核心需求
中国移动需要一套集中的OMC(操作维护中心)监控软件,对不良信息过滤系统的所有的设施进行监控,包括过滤软件、Windows 服务器、Linux 服务器、数据库、分流设备、交换机、存储服务器等。具体需求如下:
-
集中部署OMC,分域管理:各省市管理人员从Internet登录到OMC系统,对本省的设备进行监控;
-
穿透私网:要管理的设备分散在各省公司下不同城市的机房中, 网管服务器无法直接访问各省设备;在北京的中心机房,可以监控到其他机房的设备运行情况;
-
严格的故障处理机制:故障发生、故障通知、故障清除、故障确认、故障恢复,需要符合中国移动的运维管理规定;
-
时效性要高:发现故障的时间,平均不能低于30秒,最大不能超过1分钟;每台设备 10—20个需要监控的故障/性能指标,监控周期为10秒钟;
-
统一监控:所有的服务器、网络设备、软件系统在同一界面中统一监控;
-
7*24 小时的监控画面:主监控屏幕需要7*24小时不间断展示告警和警报。
智和信通解决方案
智和网管平台已实现包括设备拓扑、故障管理、性能管理、配置管理以及安全管理等在内的超过1000种基础网管功能,且支持功能扩展。针对中国移动的具体需求,智和信通提出以下解决方案:
-
智和网管平台利用WebService技术采用集中式部署运维平台,分布式部署的网管采集代理,实现中心、片区的层级监测,片区独立运行,中心可以集中管理分部的监测数据;
-
配置代理服务器的IP和端口,做到采集服务端的代理模式,可以做到监控私有网段下的设备;
-
具备主动的故障监控功能,能从众多的事件和状态中,系统将零散的状态信息,总结成为当前工作状态,并产生告警,可以用声音、邮件、短信及时提醒网管人员;
-
采用JAVA多线程任务并发技术,把监测频率提升到秒级,以保证监测数据的实时性和精确性,监控周期最低可以设置为5秒;
-
智和网管平台采用了设备统一模型,可以统一管理Windows 服务器、Linux 服务器、数据库、分流设备、交换机等各种设备类型;
-
客户端与服务端之间网络故障恢复后,网管客户端无需重启,自动恢复,数据库停机/故障恢复后,网管系统客户端、服务端无需重启,自动恢复,支持双机热备功能。
方案成果
智和运维平台凭借着优秀的秒级故障监控能力、直观的拓扑图界面展示、特有的分省Proxy SNMP网关技术、稳固的故障提示和警报提示,最终在中国移动不良信息过滤系统的北方区域:北京、天津、黑龙江、吉林、辽宁、山东、山西、甘肃、青海、西藏、河南、宁夏共13个省公司 全面上线使用,并通过了极为严格的功能验收和性能验收。
-
北京联通IPTV网络运维
项目背景
中国联通是我国三大移动运营商之一,公司主要经营移动通信业务,国内、国际固定电话网络与设施,语音、数据、图像及多媒体通信与信息服务,电信增值业务,IP电话业务等国家批准的其他业务,以及与通信及信息业务相关的系统集成等业务。
IPTV业务管理平台提供统一业务监控模块,实现对华为能力平台(华为S9306、S5352、S930、华为E1000防火墙)、中兴能力平台(中兴2826、4507、8905交换机)、播控网关、IPTV盒端管理平台、IPTV业务管理平台等平台的统一业务监控,监控内容包括网络、主机、存储、应用、业务数据等。
核心需求
最终用户IPTV统一网管负责对IPTV系统涉及的所有网元(包括服务器、交换机、防火墙、存储设备)及系统和应用的故障告警、日志、性能、拓扑、历史数据(保留一年的历史数据)等信息进行集中管理和展现,并能够按时、日、月进行统计和输出报表。
-
网元数据要求
对于网络中的节点要求获取的信息包括但不局限于设备基本信息(IP、类型、名称等)、设备网卡、网卡流量、CPU内存、CDN信息、存储信息、设备性能等参数。
-
故障告警的要求
提供多种告警通知(声音、短信、邮件等),多种告警分类,登录失败应产生告警通知管理员,告警阈值可调节,可以分权分区域进行告警。
-
日志管理的要求
除了记录基本的操作外,系统中的各设备都需要建立自己的日志文件,定期传递给系统的日志管理,进行集中收集、分析和故障告警。
-
性能管理的要求
实时监控设备和网络的状态,获取有关CDN 网络运行的信息及统计数据;并能在所收集的数据的基础上,提供网络的性能统计。
-
集中展现管理
对所管理区域CDN 及EPG全网设备提供网络拓扑结构,提供分级的网络拓扑图像及其相关信息,并根据实际运行情况展现维护和管理网络资源,包括各网元设备。支持资源的查询以及统计功能,并且可以实现资源的自动更新。
智和信通解决方案
针对北京联通IPTV项目的实际需求,智和信通提出了基于智和网管平台定制开发的解决方案。通过开发扩展,让智和网管平台支持各平台通过SNMP、SNMP Trap、FTP、WebServer等协议接口方式进行数据上报的采集监控的采集方式,使平台监控模块可直接采集被监控设备信息。
-
支持SSH协议监控主机、CLI、SMI协议监控存储,JDBC协议监控数据库、HTTP/JMX协议监控中间件;
-
通过SNMP协议,自动发现设备上的资源,如网络接口、内存、CPU与磁盘等信息,通过TCP可以发现设备上存在的软件服务;
-
平台通过SNMP 、SNMP Trap、FTP、WebServer等协议接口方式进行数据上报,平台监控模块直接采集被监控设备信息;
-
智和网管平台具备主动的故障监控功能,能从众多的事件和状态中,系统将零散的状态信息,总结成为当前工作状态,并产生告警,可以用声音、邮件、短信及时提醒网管人员;
-
提供了多项已定义好的数据对象,用于从设备上采集系统信息、网络信息、交换信息、软件信息、磁盘CPU资源、流量信息,可以通过曲线图、趋势图等展示性能指标,可以按天、星期、月 、任意时间段查看性能指标变化。
方案成果
联通IPTV网管部署上线后,管理员可以通过IPTV网管对网络下的所有网元设备(包括服务器、交换机、防火墙、存储设备)及系统和应用的故障告警、日志、性能、拓扑、历史数据等信息进行集中管理和展现,并能够按时、日、月进行统计和输出报表,方便了管理员对系统的管理,提高了管理的效率。