发布信息

一种中央处理器故障信息获取方法和装置与流程 专利技术说明

作者:admin      2023-06-29 08:36:11     499



计算;推算;计数设备的制造及其应用技术1.本技术涉及服务器技术领域,特别是涉及一种中央处理器故障信息获取方法和装置。背景技术:2.服务器是一种提供计算服务的设备。随着服务器需求的日益增加,服务器健康监控和管理成为了实际工作中的重点;一旦服务器的中央处理器发生故障,则会导致整个服务器发生宕机无法使用。3.现有技术中,常规的解决方法是通过技术人员接收到相关的语音报警信息,然后技术人员基于语音报警信息获取基本情况,基于当下的告警信息、服务器实时运行信息以及自身的工作经验对故障信息进行收集。但是这种故障信息收集方法实时性较低,且对技术人员的专业性要求很高,其可复制性和可拓展性较差。4.因此,急需提出一种解决上述技术问题的中央处理器故障信息获取方法和装置。技术实现要素:5.基于此,有必要针对上述技术问题,提供一种能够高效快速中央处理器故障信息的中央处理器故障信息获取方法和装置。6.一方面,提供一种中央处理器故障信息获取方法,所述方法包括:7.建立所述中央处理器与所述中央处理器所在服务器的控制器单元的通信链路;8.所述控制单元响应于所述中央处理器的故障触发信号,写入故障状态值至其寄存器;9.所述服务器的基板管理控制器响应于所述故障状态值写入信号,获取所述中央处理器故障信息。10.在其中一个实施例中,所述服务器的基板管理控制器响应于所述故障状态值写入信号后,所述方法还包括:所述基板管理控制器检测所述服务器的开机状态,和/或,所述服务器的基本输入输出系统的上电自检状态;所述基板管理控制器响应于所述服务器的开机完成状态,和/或,所述服务器的基板输入输出系统的上电自检完成状态,获取所述中央处理器故障信息。11.在其中一个实施例中,获取所述中央处理器故障信息,包括:所述基板管理控制器获取所述中央处理器的寄存器的作业状态;当所述基板管理控制器检测到所述中央处理器的寄存器的作业状态异常时,则所述基板管理控制器基于其边带接口从所述中央处理器的异常处理寄存器中获取所述中央处理器故障信息。12.在其中一个实施例中,所述基板管理控制器基于其边带接口从所述中央处理器的异常处理寄存器中获取所述中央处理器故障信息后,所述方法还包括:获取用于分析所述中央处理器故障信息的预设故障信息分析模型的属性信息;基于所述预设故障信息分析模型的属性信息,将所述中央处理器故障信息打包生成所述预设故障信息分析模型可识别的打包数据。13.在其中一个实施例中,建立所述中央处理器与所述中央处理器所在服务器的控制器单元的通信链路,包括:连接所述中央处理器的故障触发信号的信号端口至所述中央处理器所在服务器的控制单元。14.在其中一个实施例中,所述控制单元包括基板管理控制器;连接所述中央处理器的故障指示信号端口至所述中央处理器所在服务器的控制单元,包括:连接所述中央处理器的故障指示端口至所述基板管理控制器的管脚;设置所述基板管理控制器的管脚的模式为中断模式。15.在其中一个实施例中,所述控制单元包括复杂可编程逻辑器件;建立所述中央处理器与所述中央处理器所在服务器的控制器单元的通信链路,包括:连接所述中央处理器的故障触发信号的信号端口至所述复杂可编程逻辑器件的管脚;设置所述复杂可编程逻辑器件的管脚的模式为中断模式。16.在其中一个实施例中,连接所述中央处理器的故障触发信号的信号端口至所述复杂可编程逻辑器件的管脚后,所述方法还包括:连接基板管理控制器至所述复杂可编程逻辑器件,以读取写入所述复杂可编程逻辑器件的寄存器中的故障状态值;连接基板管理控制器至所述中央处理器,以获取所述中央处理器故障信息。17.另一方面,提供了一种中央处理器故障信息获取装置,所述装置包括链路建立模块,响应模块和获取模块;18.所述链路建立模块,以用于建立所述中央处理器与所述中央处理器所在服务器的控制器单元的通信链路;19.所述响应模块,所述响应模块设置于所述控制单元内,以用于响应于所述中央处理器的故障触发信号,写入故障状态值至其寄存器;20.所述获取模块,所述获取模块设置于基板管理控制器内,以用于所述服务器的基板管理控制器响应于所述故障状态值写入信号,获取所述中央处理器故障信息。21.再一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:22.建立所述中央处理器与所述中央处理器所在服务器的控制器单元的通信链路;23.所述控制单元响应于所述中央处理器的故障触发信号,写入故障状态值至其寄存器;24.所述服务器的基板管理控制器响应于所述故障状态值写入信号,获取所述中央处理器故障信息。25.又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:26.建立所述中央处理器与所述中央处理器所在服务器的控制器单元的通信链路;27.所述控制单元响应于所述中央处理器的故障触发信号,写入故障状态值至其寄存器;28.所述服务器的基板管理控制器响应于所述故障状态值写入信号,获取所述中央处理器故障信息。29.上述中央处理器故障信息获取方法和装置,所述方法包括:建立所述中央处理器与所述中央处理器所在服务器的控制器单元的通信链路;所述控制单元响应于所述中央处理器的故障触发信号,写入故障状态值至其寄存器;所述服务器的基板管理控制器响应于所述故障状态值写入信号,获取所述中央处理器故障信息。基于上述方法,通过建立中央处理器与控制单元的通信链路,以使得当中央处理器发生故障时,控制单元可以立刻感知,进一步地使得中央处理器所在服务器的基板管理控制器可以及时、高效且准确地读取得到中央处理器故障信息,而无需人为介入;一方面,降低了人力成本,另一方面,大大提升了故障响应的及时性以及故障获取的高效性。附图说明30.图1为一个实施例中中央处理器故障信息获取方法的流程示意图;31.图2为一个实施例中中央处理器故障信息获取方法的流程示意图;32.图3为一个实施例中中央处理器故障信息获取方法的流程示意图;33.图4为一个实施例中中央处理器故障信息获取装置的结构框图;34.图5为一个实施例中计算机设备的内部结构图。具体实施方式35.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。36.实施例一37.在一个实施例中,本技术提出一种中央处理器故障信息获取方法,所述方法基于amd平台实现,所述方法包括:38.将服务器的中央处理器(cpu)的两个alert_l信号连接到复杂可编程逻辑器件(cpld)的管脚(pin脚)并设置为中断模式,当amd平台的cpu发生uce故障时,会拉低alert_l信号,cpld收到alert_l信号的中断后,会将此low信号写入cpld的0x21地址的寄存器中,bmc持续轮询cpld 0x21寄存器信息,当检测到寄存器信息为低信号后,触发cpu故障信息收集动作。39.在其中一个实施例中,复杂可编程逻辑器件中断处理机制,包括:复杂可编程逻辑器件将alert_l信号设置为中断模式;复杂可编程逻辑器件响应于alert_l信号中断,将alert_l信号信号量写入到复杂可编程逻辑器件的0x21地址寄存器中。40.在其中一个实施例中,基板管理控制器收集中央处理器故障信息,包括:基板管理控制器检测其所在服务器的开机状态以及基本输入输出系统的上电自检状态(bios post complete信号);当确认服务器处于开机状态以及基本输入输出系统的上电自检状态完成时,基板管理控制器持续轮询复杂可编程逻辑器件的0x21地址寄存器状态;当发现0x21寄存器信息为低信号时,基板管理控制器检测中央处理器的0x02寄存器信号(ras状态);当检测到所述中央处理器的0x02寄存器信号为高时,基板管理控制器通过其边带接口从中央处理器的异常处理寄存器中获取中央处理器故障信息。其中,ras即为reliability(可靠性)、availability(可用性)及serviceability(安全性)。41.在其中一个实施例中,基板管理控制器通过其边带接口从中央处理器的异常处理寄存器中获取中央处理器故障信息,包括:将异常处理寄存器块(mca bank)中的数据作为裸数据(raw data),加入ras header,header中包含revision(修订版)、section count(区段计数)、creatorid(创建号)、platform(平台)、length(长度)、timestamp(时间戳)等信息,最终打包形成.cper格式的文件。bmc将.cper格式文件存入日志文件中,通过一键日志功能收集出来后,将.cper格式文件导入amd analysis tool(故障信息分析工作)中进行分析。42.实施例二43.在一个实施例中,如图1所示,提供了一种中央处理器故障信息获取方法,包括以下步骤:44.建立所述中央处理器与所述中央处理器所在服务器的控制器单元的通信链路;45.所述控制单元响应于所述中央处理器的故障触发信号,写入故障状态值至其寄存器;46.所述服务器的基板管理控制器响应于所述故障状态值写入信号,获取所述中央处理器故障信息。47.在其中一个实施例中,如图2所示,所述服务器的基板管理控制器响应于所述故障状态值写入信号后,所述方法还包括:所述基板管理控制器检测所述服务器的开机状态,和/或,所述服务器的基本输入输出系统的上电自检状态;所述基板管理控制器响应于所述服务器的开机完成状态,和/或,所述服务器的基板输入输出系统的上电自检完成状态,获取所述中央处理器故障信息。48.在其中一个实施例中,如图3所示,获取所述中央处理器故障信息,包括:所述基板管理控制器获取所述中央处理器的寄存器的作业状态;当所述基板管理控制器检测到所述中央处理器的寄存器的作业状态异常时,则所述基板管理控制器基于其边带接口从所述中央处理器的异常处理寄存器中获取所述中央处理器故障信息。49.在其中一个实施例中,如图3所示,所述基板管理控制器基于其边带接口从所述中央处理器的异常处理寄存器中获取所述中央处理器故障信息后,所述方法还包括:获取用于分析所述中央处理器故障信息的预设故障信息分析模型的属性信息;基于所述预设故障信息分析模型的属性信息,将所述中央处理器故障信息打包生成所述预设故障信息分析模型可识别的打包数据。50.在其中一个实施例中,建立所述中央处理器与所述中央处理器所在服务器的控制器单元的通信链路,包括:连接所述中央处理器的故障触发信号的信号端口至所述中央处理器所在服务器的控制单元。51.在其中一个实施例中,所述控制单元包括基板管理控制器;连接所述中央处理器的故障指示信号端口至所述中央处理器所在服务器的控制单元,包括:连接所述中央处理器的故障指示端口至所述基板管理控制器的管脚;设置所述基板管理控制器的管脚的模式为中断模式。52.在其中一个实施例中,所述控制单元包括复杂可编程逻辑器件;建立所述中央处理器与所述中央处理器所在服务器的控制器单元的通信链路,包括:连接所述中央处理器的故障触发信号的信号端口至所述复杂可编程逻辑器件的管脚;设置所述复杂可编程逻辑器件的管脚的模式为中断模式。53.在其中一个实施例中,连接所述中央处理器的故障触发信号的信号端口至所述复杂可编程逻辑器件的管脚后,所述方法还包括:连接基板管理控制器至所述复杂可编程逻辑器件,以读取写入所述复杂可编程逻辑器件的寄存器中的故障状态值;连接基板管理控制器至所述中央处理器,以获取所述中央处理器故障信息。54.应该理解的是,虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。55.实施例三56.在一个实施例中,如图4所示,提供了一种中央处理器故障获取装置,包括:链路建立模块,响应模块和获取模块;57.所述链路建立模块,以用于建立所述中央处理器与所述中央处理器所在服务器的控制器单元的通信链路;58.所述响应模块,所述响应模块设置于所述控制单元内,以用于响应于所述中央处理器的故障触发信号,写入故障状态值至其寄存器;59.所述获取模块,所述获取模块设置于基板管理控制器内,以用于所述服务器的基板管理控制器响应于所述故障状态值写入信号,获取所述中央处理器故障信息。60.在其中一个实施例中,所述装置还包括检测单元,所述监测单元设置于基板管理控制器内;所述检测单元,以用于所述基板管理控制器检测所述服务器的开机状态,和/或,所述服务器的基本输入输出系统的上电自检状态;所述响应模块,以用于所述基板管理控制器响应于所述服务器的开机完成状态,和/或,所述服务器的基板输入输出系统的上电自检完成状态;所述获取模块,以用于获取所述中央处理器故障信息。61.在其中一个实施例中,所述获取模块,以用于所述基板管理控制器获取所述中央处理器的寄存器的作业状态;还用于当所述基板管理控制器检测到所述中央处理器的寄存器的作业状态异常时,则所述基板管理控制器基于其边带接口从所述中央处理器的异常处理寄存器中获取所述中央处理器故障信息。62.在其中一个实施例中,所述装置还包括数据打包单元;所述获取模块,以用于获取用于分析所述中央处理器故障信息的预设故障信息分析模型的属性信息;所述数据打包单元,以用于基于所述预设故障信息分析模型的属性信息,将所述中央处理器故障信息打包生成所述预设故障信息分析模型可识别的打包数据。63.在其中一个实施例中,所述装置还包括连接单元,以用于连接所述中央处理器的故障触发信号的信号端口至所述中央处理器所在服务器的控制单元。64.在其中一个实施例中,所述装置还包括设置单元;所述连接单元,以用于连接所述中央处理器的故障指示端口至所述基板管理控制器的管脚;所述设置单元,以用于设置所述基板管理控制器的管脚的模式为中断模式。65.在其中一个实施例中,所述连接单元,以用于连接所述中央处理器的故障触发信号的信号端口至所述复杂可编程逻辑器件的管脚;所述设置单元,以用于设置所述复杂可编程逻辑器件的管脚的模式为中断模式。66.在其中一个实施例中,所述连接单元,以用于连接基板管理控制器至所述复杂可编程逻辑器件,以读取写入所述复杂可编程逻辑器件的寄存器中的故障状态值;所述连接单元,还用于连接基板管理控制器至所述中央处理器,以获取所述中央处理器故障信息。67.关于中央处理器故障信息获取装置的具体限定可以参见上文中对于中央处理器故障信息获取方法的限定,在此不再赘述。上述中央处理器故障信息获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。68.实施例四69.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种中央处理器故障信息获取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。70.本领域技术人员可以理解,图5中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。71.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:72.建立所述中央处理器与所述中央处理器所在服务器的控制器单元的通信链路;73.所述控制单元响应于所述中央处理器的故障触发信号,写入故障状态值至其寄存器;74.所述服务器的基板管理控制器响应于所述故障状态值写入信号,获取所述中央处理器故障信息。75.在一个实施例中,处理器执行计算机程序时还实现以下步骤:76.所述基板管理控制器检测所述服务器的开机状态,和/或,所述服务器的基本输入输出系统的上电自检状态;所述基板管理控制器响应于所述服务器的开机完成状态,和/或,所述服务器的基板输入输出系统的上电自检完成状态,获取所述中央处理器故障信息。77.在一个实施例中,处理器执行计算机程序时还实现以下步骤:78.所述基板管理控制器获取所述中央处理器的寄存器的作业状态;当所述基板管理控制器检测到所述中央处理器的寄存器的作业状态异常时,则所述基板管理控制器基于其边带接口从所述中央处理器的异常处理寄存器中获取所述中央处理器故障信息。79.在一个实施例中,处理器执行计算机程序时还实现以下步骤:80.获取用于分析所述中央处理器故障信息的预设故障信息分析模型的属性信息;基于所述预设故障信息分析模型的属性信息,将所述中央处理器故障信息打包生成所述预设故障信息分析模型可识别的打包数据。81.在一个实施例中,处理器执行计算机程序时还实现以下步骤:82.连接所述中央处理器的故障触发信号的信号端口至所述中央处理器所在服务器的控制单元。83.在一个实施例中,处理器执行计算机程序时还实现以下步骤:84.连接所述中央处理器的故障指示端口至所述基板管理控制器的管脚;设置所述基板管理控制器的管脚的模式为中断模式。85.在一个实施例中,处理器执行计算机程序时还实现以下步骤:86.连接所述中央处理器的故障触发信号的信号端口至所述复杂可编程逻辑器件的管脚;设置所述复杂可编程逻辑器件的管脚的模式为中断模式。87.在一个实施例中,处理器执行计算机程序时还实现以下步骤:88.连接基板管理控制器至所述复杂可编程逻辑器件,以读取写入所述复杂可编程逻辑器件的寄存器中的故障状态值;连接基板管理控制器至所述中央处理器,以获取所述中央处理器故障信息。89.实施例五90.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:91.建立所述中央处理器与所述中央处理器所在服务器的控制器单元的通信链路;92.所述控制单元响应于所述中央处理器的故障触发信号,写入故障状态值至其寄存器;93.所述服务器的基板管理控制器响应于所述故障状态值写入信号,获取所述中央处理器故障信息。94.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:95.所述基板管理控制器检测所述服务器的开机状态,和/或,所述服务器的基本输入输出系统的上电自检状态;所述基板管理控制器响应于所述服务器的开机完成状态,和/或,所述服务器的基板输入输出系统的上电自检完成状态,获取所述中央处理器故障信息。96.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:97.所述基板管理控制器获取所述中央处理器的寄存器的作业状态;当所述基板管理控制器检测到所述中央处理器的寄存器的作业状态异常时,则所述基板管理控制器基于其边带接口从所述中央处理器的异常处理寄存器中获取所述中央处理器故障信息。98.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:99.获取用于分析所述中央处理器故障信息的预设故障信息分析模型的属性信息;基于所述预设故障信息分析模型的属性信息,将所述中央处理器故障信息打包生成所述预设故障信息分析模型可识别的打包数据。100.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:101.连接所述中央处理器的故障触发信号的信号端口至所述中央处理器所在服务器的控制单元。102.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:103.连接所述中央处理器的故障指示端口至所述基板管理控制器的管脚;设置所述基板管理控制器的管脚的模式为中断模式。104.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:105.连接所述中央处理器的故障触发信号的信号端口至所述复杂可编程逻辑器件的管脚;设置所述复杂可编程逻辑器件的管脚的模式为中断模式。106.在一个实施例中,计算机程序被处理器执行时还实现以下步骤:107.连接基板管理控制器至所述复杂可编程逻辑器件,以读取写入所述复杂可编程逻辑器件的寄存器中的故障状态值;连接基板管理控制器至所述中央处理器,以获取所述中央处理器故障信息。108.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。109.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。110.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。









图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!




内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,发布内容不收取任何费用也不接任何广告!




免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本文部分文字与图片资源来自于网络,部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们,情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

相关内容 查看全部