发布信息

一种调度自动化系统运维异常指标推荐方法及系统与流程 专利技术说明

作者:admin      2023-06-28 23:05:25     759



计算;推算;计数设备的制造及其应用技术1.本发明属于电力系统自动化技术领域,尤其是一种调度自动化系统运维异常指标推荐方法及系统。背景技术:2.随着调度自动化系统架构的变化,以及大量云计算,大数据,人工智能等新技术的应用,目前的调度自动化系统内部复杂度越来越高,这也导致了运维工作的难度越来越大。传统的人工运维已经难以支撑动辄上百台服务器的运维需求。因此,调度自动化系统的智能运维是一个迫切需要解决的任务。而运维指标异常检测是调度自动化系统智能运维的一个重要方向。智能化的运维指标异常检测就是要通过算法,自动、实时、准确地从监控数据中发现异常,为后续的系统诊断与自愈提供基础。3.由于运维数据异常标注难以及对运维数据异常实时性快速检测的需求,目前工业界对系统运维指标还是以无监督异常检测算法为主。运维指标的无监督异常检测是对系统内每个机器的每个运维指标的最近数据点进行异常检测。通过对数据进行分析计算,识别出最新的数据点相对于之前的点而言是否为孤立的点,把这些孤立的点视为异常点。无监督异常检测会给出被检测数据点的异常排名或者异常分值,依据基于样本之间的距离或样本点所在的密度来判别是否为异常。然而调度自动化系统的运维数据含有大量的数据的抖动和毛刺,这很容易让无监督异常检测产生大量误报。而过高的误报率会给运维人员带来过多的干扰,最后导致智能运维不可用,并且产生大量的告警信息,使得告警人员无法准确定位故障位置。技术实现要素:4.本发明的目的在于提供一种调度自动化系统运维异常指标推荐方法及系统,解决现有单指标无监督异常检测方法误报高的问题,降低误报率,保障电网调度自动化系统安全稳定运行。5.为达到上述目的,本发明采用的技术方案如下:6.本发明提供一种调度自动化系统运维异常指标推荐方法,包括:7.获取调度自动化系统各服务器节点中,以当前时刻为基准的预设时间长度的各运维指标数据序列;8.分别对所述预设时间长度的各运维指标数据序列进行拆分,得到各运维指标的子序列;9.分别对所述各运维指标的子序列进行异常检测,识别出当前时刻的运维异常指标;10.基于当前时刻调度自动化系统运维指标相关性矩阵计算当前时刻的运维异常指标的异常得分;11.基于所述当前时刻的运维异常指标的异常得分进行当前时刻异常指标推荐。12.进一步的,所述各服务器节点的运维指标包括运维指标类别:服务器节点负载、cpu、磁盘、内存、文件句柄和网络;每个运维指标类别包含多个该类别下的运维指标。13.进一步的,所述运维指标的采样间隔为1分钟。14.进一步的,所述获取调度自动化系统各服务器节点中,以当前时刻为基准的预设时间长度的各运维指标数据序列,包括:15.从调度自动化系统信息管理大区的时序库中抽取当前时刻各服务器节点的各运维指标数据;16.对各服务器节点,选取以当前时刻为基准,往前时间窗口t2分钟内的运维指标数据,构成运维指标数据序列。17.进一步的,所述时间窗口t2取值为30分钟。18.进一步的,分别对所述预设时间长度的各运维指标数据序列进行拆分,得到各运维指标的子序列,包括:19.选取运维指标数据序列的最新三个时刻数据mt,mt-1,mt-2,20.将运维指标数据序列去除最新三个时刻数据的剩余数据分别与三个时刻数据组合,形成三个子序列,表示如下:[0021][0022][0023][0024]其中,sm1、sm2和sm3分别表示三个子序列,mt表示当前时刻t的运维指标数据,mt-j表示当前时刻前j个时刻的运维指标数据,j=1,2,……t2。[0025]进一步的,得到各运维指标的子序列后,还包括:[0026]对每个子序列进行一阶差分计算,并使用min-max归一化将运维指标数据映射到[0,1]区间,得到预处理后的子序列。[0027]进一步的,分别对所述各运维指标的子序列进行异常检测,识别出当前时刻的运维异常指标,包括:[0028]同时采用拉依达准则和局部异常因子算法两种方式对各子序列进行异常检测,如果两种方式均检测出一子序列的最后一个数据为异常点,则该子序列异常;[0029]如果一运维指标的三个子序列都检测为异常,则判断当前时刻的该运维指标发生异常,为运维异常指标。[0030]进一步的,所述基于当前时刻调度自动化系统运维指标相关性矩阵计算当前时刻的运维异常指标的异常得分,包括:[0031]根据各服务器节点的所有运维指标分别构建各服务器节点的运维指标矩阵;[0032]根据各服务器节点的运维指标矩阵分别构建各服务器节点的运维指标相关性矩阵;[0033]根据各服务器节点的运维指标相关性矩阵构建调度自动化系统的运维指标相关性矩阵;[0034]根据调度自动化系统的运维指标相关性矩阵计算各运维异常指标的异常得分如下:[0035][0036]其中,scorem表示运维异常指标mt的异常得分,n表示运维异常指标mt的相关运维指标个数,mi′表示第i个相关的运维指标,sgn(mi′)表示符号函数,当mi′为运维异常指标时为1,否则为0,nmi(m,mi′)表示运维指标m与运维异常指标mi′之间的相关性值,相关性值从所属子系统的运维指标相关性矩阵中获取。[0037]进一步的,所述根据各服务器节点的所有运维指标分别构建各服务器节点的运维指标矩阵,包括:[0038]以同一运维指标类别下的运维指标为列向量,构建各服务器节点的运维指标矩阵,其中,对于单个运维指标,取从当前时刻开始往前时间窗口t1分钟内的数据作为作为列向量。[0039]进一步的,所述根据各服务器节点的运维指标矩阵分别构建各服务器节点的运维指标相关性矩阵,包括:[0040]计算各服务器节点的运维指标矩阵中两两指标间的归一化互信息,得到各服务器节点的运维指标相关性矩阵。[0041]进一步的,所述根据各服务器节点的运维指标相关性矩阵构建调度自动化系统的运维指标相关性矩阵,包括:[0042]对调度自动化系统内的各服务器节点计算得到的运维指标相关性矩阵进行求和取平均,得到调度自动化系统的运维指标相关性矩阵。[0043]进一步的,得到调度自动化系统的运维指标相关性矩阵后,还包括,[0044]对于调度自动化系统的运维指标相关性矩阵中低于设置值a的相关性值,置为0。[0045]进一步的,所述设置值a取值为0.8。[0046]进一步的,基于所述当前时刻的运维异常指标的异常得分进行当前时刻异常指标推荐,包括:[0047]选取异常得分高于得分预设阈值的运维异常指标,并按照异常得分从高到低进行排序,作为当前时刻异常指标推荐。[0048]进一步的,所述得分预设阈值选取为0.5。[0049]本发明还提供一种调度自动化系统运维异常指标推荐系统,用于实现前述的调度自动化系统运维异常指标推荐方法,所述系统包括:[0050]数据获取模块,用于获取调度自动化系统各服务器节点中,以当前时刻为基准的预设时间长度的各运维指标数据序列;[0051]序列拆分模块,用于分别对所述预设时间长度的各运维指标数据序列进行拆分,得到各运维指标的子序列;[0052]异常检测模块,用于分别对所述各运维指标的子序列进行异常检测,识别出当前时刻的运维异常指标;[0053]异常得分计算模块,用于基于当前时刻调度自动化系统运维指标相关性矩阵计算当前时刻的运维异常指标的异常得分;[0054]异常指标推荐模块,用于基于所述当前时刻的运维异常指标的异常得分进行当前时刻异常指标推荐。[0077]“value”:4096[0078]}[0079]其中,category描述了此运维指标的指标类别。cmdb_id描述了该运维指标的服务器节点名称,sub_system描述了该服务器节点的所属子系统标识,domain描述了该服务器节点的所属分区标识,name描述了运维指标名称,unit描述了运维指标单位,descrpition描述了运维指标含义,value描述了运维指标值。[0080]本发明的一个实施例中,获取调度自动化系统的单服务器节点中,以当前时刻为基准的预设时间长度的各运维指标数据序列,具体实现过程为:[0081]从信息管理大区的时序库中抽取当前时刻单服务器节点的各运维指标数据;[0082]选取以当前时刻为基准,往前时间窗口t2分钟内的运维指标数据,构成运维指标数据序列。[0083]设当前时刻单服务器节点的单运维指标数据为mt,取当前时刻开始往前时间窗口t2分钟内的运维指标数据构成运维指标数据序列sm,表示如下:[0084][0085]获取当前时刻该服务器节点的所有运维指标的运维指标数据序列。[0086]作为一种优选的实施方式,t2=30分钟。[0087]本发明的一个实施例中,分别对所获取的预设时间长度的各运维指标数据序列进行拆分,得到各运维指标的子序列,具体实现过程为:[0088]选取运维指标数据序列的最新三个时刻数据mt,mt-1,mt-2,[0089]将运维指标数据序列sm去除最新三个时刻数据的剩余数据分别与三个时刻数据组合,形成三个子序列,表示如下:[0090][0091][0092][0093]本发明的一个实施例中,还包括,[0094]对得到的每一个运维指标子序列,进行一阶差分计算,并且使用min-max归一化将数据映射到[0,1]区间,得到预处理后的子序列。[0095]本发明的一个实施例中,分别对各运维指标的子序列进行异常检测,识别出当前时刻的运维异常指标,具体实现过程为,[0096]同时采用拉依达准则(3σ准则)和局部异常因子算法(local outlier factor,lof)两种方式对各子序列进行异常检测,如果两种方式均检测出一子序列的最后一个点为异常点,则该子序列异常;[0097]如果一运维指标的三个子序列都检测为异常,则判断当前时刻的该运维指标发生异常,为运维异常指标。[0098]分别对各服务器节点下的所有运维指标的子序列进行异常检测,识别出当前时刻的所有运维异常指标。[0099]本发明的一个实施例中,基于当前时刻调度自动化系统运维指标相关性矩阵计算当前时刻的运维异常指标的异常得分,具体实现过程为,[0100]根据各服务器节点的所有运维指标分别构建各服务器节点的运维指标矩阵;[0101]根据各服务器节点的运维指标矩阵分别构建各服务器节点的运维指标相关性矩阵;[0102]根据各服务器节点的运维指标相关性矩阵构建调度自动化系统的运维指标相关性矩阵;[0103]根据调度自动化系统的运维指标相关性矩阵计算各运维异常指标的异常得分如下:[0104][0105]其中,scorem表示运维异常指标mt的异常得分,n表示运维异常指标mt的相关运维指标个数,mi′表示第i个相关的运维指标,sgn(mi′)表示符号函数,当mi′为运维异常指标时为1,否则为0,nmi(m,mi′)表示运维指标m与运维异常指标mi′之间的相关性值,该值从调度自动化系统的运维指标相关性矩阵中获取。[0106]本发明的一个实施例中,选取异常得分高于得分预设阈值的运维异常指标,并按照异常得分从高到低进行排序,作为当前时刻异常指标推荐。[0107]本实施例中,根据各服务器节点的所有运维指标分别构建各服务器节点的运维指标矩阵,包括:[0108]各服务器节点中,以同一运维指标类别下的运维指标为列向量,构建运维指标矩阵。[0109]针对单个运维指标mt,取从当前时刻开始往前时间窗口t1分钟内的数据作为相关性矩阵计算数据,即时间范围为[t-t1,t]。本实施例中,取t1=1440分钟。[0110]本实施例中,根据各服务器节点的运维指标矩阵分别构建各服务器节点的运维指标相关性矩阵,包括:[0111]计算各服务器节点的运维指标矩阵中两两指标间的归一化互信息,得到各服务器节点的运维指标相关性矩阵。[0112]本实施例中,根据各服务器节点的运维指标相关性矩阵构建调度自动化系的运维指标相关性矩阵,包括:[0113]对调度自动化系统内的每个服务器节点计算得到的运维指标相关性矩阵进行求和取平均,得到调度自动化系统的运维指标相关性矩阵。[0114]本实施例中,还包括,[0115]设定阈值a,a∈(0,1);[0116]对于调度自动化系统运维指标相关性矩阵中低于a的值,认为对应的两个运维指标并不相关,将对应的值设置为0。[0117]作为一种优选的实施方式,a取值为0.8。[0118]作为一种优选的实施方式,得分预设阈值选取为0.5。[0119]基于相同的发明构思,本发明还提供一种调度自动化系统运维异常指标推荐系统,用于实现上述的调度自动化系统运维异常指标推荐方法,该系统包括:[0120]数据获取模块,用于获取调度自动化系统各服务器节点中,以当前时刻为基准的预设时间长度的各运维指标数据序列;[0121]序列拆分模块,用于分别对所述预设时间长度的各运维指标数据序列进行拆分,得到各运维指标的子序列;[0122]异常检测模块,用于分别对所述各运维指标的子序列进行异常检测,识别出当前时刻的运维异常指标;[0123]异常得分计算模块,用于基于当前时刻调度自动化系统运维指标相关性矩阵计算当前时刻的运维异常指标的异常得分;[0124]异常指标推荐模块,用于基于所述当前时刻的运维异常指标的异常得分进行当前时刻异常指标推荐。[0125]值得指出的是,该系统实施例是与上述方法实施例对应的,上述方法实施例的实现方式均适用于该系统实施例中,并能达到相同或相似的技术效果,故不在此赘述。[0126]本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。[0127]本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。[0128]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。[0129]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。[0130]最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部