400-166-0296
400-166-0296
400-166-0296
新 闻
蒙帕视角:故障预防实践与技术解析
. | 蒙帕Moonpac | 日期:2025-01-07 | 201 次浏览 | 分享到:


一、背景





蒙帕基于多年故障预防实践及经验,在进行障碍预防配置时,权重范围由轻到重、宽泛设置判断条件指标、通过多个综合指标去定义一个可能发生的潜在故障,从而帮助用户提前预防故障发生。



二、故障预防核心流程





2.1


故障预防主流程图







2.2


创建障碍配置




障碍配置,是障碍预防创建的过程,满足判断条件后触发,生成障碍信息。





2.3


障碍配置列表




障碍列表是用户根据实际情况把可能会发生的障碍按照不同场景进行创建,以模块样式展现已创建的障碍模块,一种障碍对应一个模块。


通过不同类型模块可查看已配置创建障碍预防的场景,对障碍列表中的障碍模块可进行查询、新增、修改、删除。障碍配置通过卡片列表方式进行展示,卡片上会展示出该配置触发次数和准确率。






三、关键技术


3.1


异常检测算法流程




DeepAnT(Deep Learning Approach for Unsupervised Anomaly Detection in Time Series)是一种基于深度学习的无监督时间序列异常检测算法,详情可参考《DeepAnT——智能运维场景下的系统监控数据异常检测算法》


3.2


指标管理




指标管理模块主要负责对采集到的监控指标进行统一管理,支持用户对指标的查询、展示、管理、以及设置阈值规则。该模块旨在帮助用户通过可视化的方式查看系统状态并设置自动化告警阈值,从而及时处理异常情况。


3.2.1 指标查询与展示




● 多维度查询:允许用户根据不同的维度(如资源类型、时间范围、地理位置等)进行综合查询,以获得更精确的指标数据。


● 交互式可视化:提供拖拽式的仪表板,用户可以自定义添加或移除图表、趋势线等可视化组件,实现个性化的数据展示。


● 实时数据流:实现实时数据流的可视化,让用户能够看到指标的动态变化,及时发现异常。


● 历史趋势对比:支持将实时数据与历史数据进行对比,帮助用户识别趋势变化和周期性模式。


3.2.2 阈值规则设置




 动态阈值建议:基于机器学习算法,根据历史数据自动生成阈值建议,减少人为设定的偏差。


● 阈值模板库:提供行业标准的阈值模板库,用户可以快速应用或自定义修改,以适应特定的业务场景。


● 阈值影响分析:在设置或修改阈值时,系统提供影响分析,预测阈值变化可能对告警系统的影响。


● 阈值版本控制:实现阈值的版本控制,记录每次变更的历史,方便回滚和审计。


3.2.3 指标异常检测




● 多级告警机制:设置多级告警机制,根据异常的严重程度和紧急性,采取不同的告警策略。


● 告警抑制和合并:对于频繁发生的低级别告警,系统可以自动抑制或合并,减少告警疲劳。



四、障碍信息管理与分析





4.1


障碍查看


通过满足障碍配置中判断条件、达到影响范围后触发,生成一条障碍信息。


4.1.1 障碍信息查看


障碍名称、障碍产生时间、故障判断依据、影响资源类型、影响数量、确认结果(客户在障碍分析详情页确认)、操作(查看故障详情)。





4.2


障碍详情


障碍详情,针对所选资源类型产生的障碍进行风险评估分析。


4.2.1 风险识别


● 异常名称:通过判断条件识别出障碍,根据资源类型给出障碍异常定义(异常名称)。


● 异常发生时间:年/月/日/小时/分/秒。


● 预计影响范围:受影响的资源对象统计、明细信息(资源对象的配置信息,从资源管理获取)。





4.2.2 风险分析


障碍预防下判断依据,分别判断分别给出风险评估分析,分析详情页分页展示不同判断依据风险评估分析详情。


● 分析过程展示:针对当前障碍下满足判断条件中的指标进行风险分析,例如针对数据存储,判断条件中第一个指标定义存储使用率大于80%,第一条分析就是针对于存储使用率的分析过程展示。


● 风险对象数量:是指满足判断条件达到风险资源对象数量。


● 分析对象明细查看:是指当前指标触发时前后15分钟所有资源对象整个趋势的展现。图表只取3个对象展示,选取规则为取随机生成时间前三的对象。


● 判断条件执行规则:按顺序执行,执行第二个判断条件前提必须先执行完第一个判断条件。





4.2.3 处理建议


处理建议,根据当前障碍预防的资源类型对应知识库知识分类,知识名称对应知识名称,关联原因对应知识关键字,例如当前障碍为数据存储,按规范创建知识内容,进行映射关联。


点击知识内容跳转至知识库查看知识详情。当前知识内容以知识库更新为准。





4.2.4 风险确认


风险评估准确性确认,用户通过风险评估分析内容结合实际情况进行确认操作。确认(预测准确),丢弃(预测不准确)。障碍统计故障信息中的确认结果来源于这里。


4.2.5 风险告警


障碍信息生成后进行障碍抑制,然后根据用户在障碍配置时候选择的通知方式发送告警通知。



五、总结




故障预防模块需要根据多个指标来综合判断对应的资源是否存在潜在故障,其中针对选择的资源指标可以支持设定指标阈值来判断对应的指标异常。指标阈值依赖的是经验值,需要专业的运维人员和历史的故障经验才能够进行设置。


因此,蒙帕通过增加针对故障预防支持的指标通过算法来识别单个指标值是否存在异常,结合算法判断出的结果进行评估是否存在潜在故障,达到故障预防的目的。



————————————————————————————————————————————————————————————————————————————————————