中文

Fintech实践|南天故障画像平台大幅提升数据中心排障效率

2024/01/04 520

南天故障画像平台是基于数据模型的面向IT智能运维领域的智能故障分析平台。它针对以金融行业为代表的大中型数据中心的故障分析场景,解决数据中心在复杂架构下因素众多、分析定位不正确、排障困难等问题,可实现运维数据变化时复杂环境下的故障推理定位、故障影响分析和多维度画像等功能,支持IT人员快速定位和处置系统问题,提高故障处置效率;同时,可结合自动化能力进行故障处置推荐和一键式抢修,大幅提升数据中心的故障排查效率和运营效率,降低运营成本。


业务痛点 

数据中心的大型化、高密化、集群化发展趋势让各种管理问题凸显,运维管理者单纯凭借基于人工经验的管理手段,面对复杂的环境和海量的数据已显得无所适从。中国信通院《数据中心智能化运维发展研究报告(2023年)》显示,在故障场景告警速度方面,目前仅有不到20%的数据中心可以实现20秒内完成告警,有效降低运行风险。大型数据中心在故障运维管理方面的主要有以下痛点:
         

一是故障定位慢,人工数据收集和诊断复杂,不能满足数据中心30分钟解决问题的要求。
         

二是故障难分析,跨技术领域(包括网络、系统、应用和动力环境等)的故障定位及影响难以分析和确定。
        

三是缺乏一站式故障可视化工具,所有运维数据包括日志、告警、状态指标、流量分析等分散在各个平台,不能集中展示,同时缺乏从应用、系统、网络到数据中心全领域的故障拓扑。
        

四是故障抢修自动化水平不高,缺乏基于场景的一键式抢修工具。

 

南天故障画像平台

 

 

南天故障画像平台整体架构

 

南天故障画像平台以CMDB(配置管理数据库)中配置模型为核心,各类配置项对应的告警(包括应用、系统、网络、动力环境等)触发故障画像,并组织告警、指标、日志、流量、ITIL过程数据、自动化操作、人工操作等运维数据,形成跨应用、系统、网络、动力环境等多个技术领域的实时的统一的运维数字模型(运维知识图谱)。运维数据模型是运维对象的360度画像、运维分析的基础、运维知识体系的前提。


       以数据库告警为例,在CMDB中,与该配置项相关的配置项及关系(关系包括数据库关联应用、应用关联交易、数据库部署于OS、OS运行于物理服务器等),构成了整个故障的完整画像。


       平台提供多角度的拓扑模型展示,支持业务交易、应用、逻辑组件、物理设备等复杂模型下的标签化画像功能。

 

故障定位

平台通过建立故障推理规则库,将专家经验配置到规则引擎,以统一运维数字模型中的各类数据和关系为参数,执行规则,实现故障定位。随着专家经验的不断补充和更新,故障定位也更快速、精准。同时,故障推理规则库中的历史故障画像定位结论,也为智能学习算法模型提供训练数据和测试数据,进而进行辅助定位。

 

故障追踪

故障追踪功能是在故障发生后,分析事件的发展趋势、故障状态,用于故障处理期间的信息交流,并最终形成故障发生到处置完成期间的事件追踪记录。例如:发生交易超时后,分析交易日志,是否继续发生交易超时,并通过指标输出该事件是否持续增长;分析网络、系统状态报告,应用层是否有异常,输出各环境是否影响交易;当超时不再发生,结合交易日志、告警数据等推断故障是否恢复。

 

自动化工具箱

发生故障期间,相关运维人员可通过工具箱快速执行自动化故障处置工具,如巡检工具和应急预先设定的脚本。

 

故障知识库

平台整合告警序列、故障、定位规则、事件单、问题单、变更单、自动化工具箱和方案等故障处置过程数据,形成故障知识库。在故障发生后,故障知识库通过规则和算法推荐相关的处置建议。

 

南天故障画像平台可以通过PC端、移动端进行故障可视化展示,还可以通过地图模式展示。


        目前,南天故障画像平台已经应用到某股份制商业银行,当故障发生时帮助运维人员快速找到故障根源,快速实现跨领域故障定位,形成影响分析,跟踪故障发展过程,直到完成故障处置修复。

线上展厅
获取方案
返回顶部