CN102428447B - 故障的根本原因解析结果显示方法、装置以及系统 - Google Patents

故障的根本原因解析结果显示方法、装置以及系统 Download PDF

Info

Publication number
CN102428447B
CN102428447B CN200980159268.7A CN200980159268A CN102428447B CN 102428447 B CN102428447 B CN 102428447B CN 200980159268 A CN200980159268 A CN 200980159268A CN 102428447 B CN102428447 B CN 102428447B
Authority
CN
China
Prior art keywords
analysis result
information
result information
aggregate objects
cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200980159268.7A
Other languages
English (en)
Other versions
CN102428447A (zh
Inventor
森村知弘
菅内公德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN102428447A publication Critical patent/CN102428447A/zh
Application granted granted Critical
Publication of CN102428447B publication Critical patent/CN102428447B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Abstract

管理系统至少具有第一解析规则信息和第二解析规则信息,根据检测到的信息处理装置的状态取得第一解析结果和第二解析结果,根据(A)解析结果表示的原因、(B)成为解析结果的依据的解析规则信息的状态条件、或(C)已检测的状态,聚合第一解析结果和第二解析结果并进行显示。

Description

故障的根本原因解析结果显示方法、装置以及系统
技术领域
本发明涉及包含服务器计算机、网络装置、或者/以及存储子系统的计算机系统,以及管理该计算机系统的管理系统、包含该计算机系统以及该管理系统的计算机系统。
背景技术
近年来,计算机系统经由计算机网络(以后简称为网络)相互连接各种信息处理装置,由此变得复杂并且规模增大,与此相伴,在某个信息处理装置中产生的故障经由网络对各种信息处理装置造成影响。作为确定这些故障的场所以及原因的根本原因解析技术,具有使用从信息处理装置通知的表示故障内容的事件信息来解析故障场所以及原因的事件关联(event correlation)技术(例如专利文献1)。事件关联技术使用故障时产生的事件的相关来推测根本原因,以往用于网络系统的故障的诊断。
此外,在非专利文献2中公开了将该技术和故障时的事件的组合与推测的根本原因配对来使其规则化,使用以专家系统为基础的推断引擎迅速地查明根本原因的技术。
现有技术文献
专利文献
专利文献1:美国专利第6249755号
非专利文献
非专利文献1:“Rete:A Fast Algorithm for the Many Pattern/Many ObjectPattern Match Problem”,ARTIFICIAL INTELLIGENCE,Vol.19,no.1,1982,pp.17-37
发明内容
发明要解决的课题
事件关联技术是根据在故障时所通知的事件的组合方式来缩小故障的原因候补范围的有效的技术,但是很多时候多个原因候补与某个事件相关联,事件的组合方式也由于多种多样的信息处理装置、连接关系的多样化、以及故障形式的复杂化、多样化,有时各个输出的原因候补不同时成立、或者冗长。特别是在针对事件的组合使故障的原因候补成为配对,通过if-then形式(以后有时称为条件一结论形式)的规则解析计算机系统的故障原因时,为了应对多种多样的信息处理装置、连接形式、故障形式,需要设计并准备大量规则。
但是,在以规则为单位来显示在发生故障时输出的解析结果时,当存在大量规则时,解析结果的显示数量增多,确认解析结果的管理者的负担增大。
本发明的目的在于减轻使用通过大量规则进行原因分析的管理系统的管理者的负担。
用于解决课题的手段
本发明的管理系统至少具有第一解析规则信息和第二解析规则信息,根据检测到的信息处理装置的状态取得第一解析结果和第二解析结果,根据(A)解析结果表示的原因、(B)成为解析结果的依据的解析规则信息的状态条件、或者(C)已检测的状态,聚合并显示第一解析结果和第二解析结果。
发明效果
根据本发明,能够减轻使用通过大量规则进行原因分析的管理系统的管理者的负担。
附图说明
图1示意地表示计算机系统的全体结构的概要图。
图2表示通过处理器进行故障解析时使用的解析规则信息。
图3表示与文件服务器的公开文件系统故障有关的解析规则信息的例子和与服务器的文件系统故障有关的解析规则信息的例子。
图4表示与存储子系统的FC端口相邻连接的FC开关的拓扑中的存储子系统的FC端口的故障有关的解析规则的例子。
图5表示与存储子系统的FC端口相邻连接的FC开关的拓扑中的FC开关的端口的故障有关的解析规则的例子。
图6表示与存储子系统的控制器的故障有关的解析规则的例子。
图7表示与存储子系统的FC端口的故障有关的解析规则的例子。
图8表示与图3的解析规则对应的解析结果信息的例子。
图9表示与图4和图5的解析规则对应的解析结果信息的例子。
图10表示与图4和图5的解析规则对应的与图9不同的别的解析结果信息的例子。
图11表示与图6和图7的解析规则对应的解析结果信息的例子。
图12表示在画面显示聚合的解析结果时需要的聚合解析结果信息。
图13表示对于解析结果信息,在装置聚合处理中使用的、将原因装置作为关键字(key)存储了解析结果信息的识别信息的表T2。
图14表示对于解析结果信息,在部位聚合处理中使用的、将原因部位作为关键字(key)存储了解析结果信息的识别信息的表T3。
图15表示对于解析结果信息,在上位聚合、排他选择、包含聚合的处理中使用的、存储了解析ID、与解析ID对应的应用条件列表、接收事件列表的表T4。
图16表示对于每个解析规则单位,根据解析结果信息,进行各种聚合处理,在画面上显示聚合后的解析结果的处理的主流程。
图17是生成表T2以及表T3的流程图。
图18是生成表T4的流程图。
图19是用于生成在针对上位聚合、排他选择、包含聚合的聚合处理中使用的图12数据的流程。
图20是根据表T4生成聚合解析结果信息T1的流程图。
图21表示图20的流程内、特别是关于上位聚合的详细流程。
图22表示图20的流程内,特别是关于排他选择的详细流程。
图23表示图20的流程内,特别是关于包含聚合的详细流程。
图24表示用于在画面中显示聚合解析结果的流程。
图25表示聚合解析结果的画面显示数据的例子。
图26表示解析结果信息。
图27表示事件信息。
图28表示管理对象装置组的例子。
图29表示管理对象构成信息。
具体实施方式
以下说明本发明。
在以后的说明中,通过“AAA表”、“AAA列表”、“AAADB”或“AAA队列”等表现来说明本发明的信息,但是这些信息可以通过表、列表、DB或队列等数据结构以外的形式来表示。因此,为了表示不依赖于数据结构,有关“AAA表”、“AAA列表”、“AAADB”以及“AAA队列”等,有时称为“AAA信息”。
此外,在说明各信息的内容时,使用“识别信息”、“识别符”、“名”、“名称”、“ID”以及“编号”这样的表现,但是这些表现不限于装置或部件等物理的存在,还可以是为了区分逻辑的存在而分配的表现,相互可以置换。
在以后的说明中,有时将“程序”作为主语来进行说明,但因为是一边使用存储器以及接口一边进行通过处理器执行程序而决定的处理,所以还可以将处理器作为主语来进行说明。此外,还可以把以程序为主语公开的处理作为由管理服务器等计算机、信息处理装置进行的处理。此外,可以通过专用的硬件实现全部或者部分程序。
此外,可以通过程序分发服务器或存储介质在各计算机中安装各种程序。
实施例1
(1.计算机系统的结构)
图1是表示本发明的第一实施方式的计算机系统的一个结构的概要图。计算机系统0由管理服务器1、用于显示管理服务器1生成的画面输出数据的显示器装置D2、管理对象装置组3构成。管理服务器1将信息处理装置作为管理对象来进行监视、管理,该信息处理装置包含构成管理对象装置组3的计算机、网络开关(NW开关)以及存储子系统。
管理服务器1具备:用于将信息作为电子数据进行存储的区域即存储器10;使用存储器10中存在的电子数据进行在计算机网络上发生的故障的解析处理的处理器11、经由管理对象装置组3和管理用计算机网络N3进行电子数据的收发的网络接口13(有时将接口简略为I/F)、输出用于在显示器装置D2上显示的数据的画面输出接口12。网络接口可以兼具画面输出接口12的功能。
存储器10可以是作为主存储器的半导存储器,还可以包含作为辅助存储器的磁盘装置和外设存储子系统中的任意一方或者双方。
管理用网络N3不需要是关于本地局域(Local Area)进行了限定的网络。管理用网络N3可以是与用于进行信息处理装置之间的通信的网络不同的网络,此外还可以是部分或者完全相同的网络。
在存储器10中存储与在计算机系统0中预先提供给管理服务器1的包含管理对象装置组3有关的装置名、以及用于在计算机网络上进行访问所需要的识别信息以及认证信息的管理对象装置信息103,并且存储以下信息以及程序。
*包含计算机网络N4中的连接状态、以及逻辑的关系信息的管理对象构成信息103。存储器10可以存储多个内容不同的该信息。
*用于通过处理器11进行解析处理的解析规则信息104。存储器10可以存储多个内容不同的该信息。
*用于存储在处理器11中将解析规则信息104作为输入进行解析处理后的结果的解析结果信息102。存储器10可以存储多个内容不同的该信息。
*用于执行本发明的过程的程序、即管理程序105。
*包含与管理对象装置、或在管理对象装置中产生的事件有关的信息的事件管理信息106。存储器10可以存储多个内容不同的该信息。
*作为通过处理器11执行管理程序105的结果而生成的聚合解析结果信息T1。
将在后面通过流程图和信息的图对在存储器10中存储的上述各信息以及程序进行补充说明。
如上所述,管理服务器1可以具有与显示器装置2连接的其他输入输出装置。作为输入输出装置的例子,考虑显示器和键盘以及指点设备,但是还可以为这以外的装置。此外,作为输入输出装置的替代,将串行接口或以太网接口作为输入输出装置,在该接口上连接具有显示器或键盘或指点设备的显示用计算机,向显示用计算机发送显示用信息,或者从显示用计算机接收输入用信息,由此可以通过显示用计算机进行显示或者接收输入,由此替代输入输出装置的输入以及显示。当然,管理服务器1可以内置显示器装置。
以后,有时把对管理对象装置组3进行管理,显示本发明的显示用信息的一个以上的计算机的集合称为管理系统。在管理服务器1显示显示用信息时,管理服务器1是管理系统,管理服务器1与显示用计算机的组合也是管理系统。此外,为了管理处理的高速化和高可靠性化,可以通过多个计算机实现与管理服务器1等同的处理,此时,该多个计算机(在显示用计算机进行显示时还包含显示用计算机)是管理系统。
(1.1.用语定义)
以下记述在本发明中使用的用语的定义。在本部分以外也进行了用语定义。
信息处理装置:是指发送或者接收网络通信的装置(例如服务器装置、存储子系统、打印机、扫描仪、个人计算机、PDA、移动电话等)、对网络通信进行中继的装置(路由器、代理服务器、开关)。服务器装置,例如考虑Web服务器、文件服务器、名称服务器、目录服务器、认证服务器等,但只要是提供某种服务的装置即可。
监视对象信息处理装置:作为管理服务器1的监视对象的信息处理装置。
确信度:表示发生了某个事件的可靠度的值。
(2.计算机系统或管理服务器具有的信息)
对管理服务器1具有的各种信息进行说明。
(2.1.管理对象装置信息)
管理对象构成信息103是包含作为管理服务器1的管理对象的管理对象装置的识别符、装置间的物理以及逻辑的关系(例如连接关系、服务器-客户机的关系、包含关系)的信息。所述识别符,考虑用于与管理对象装置进行通信的识别符,例如IP地址、FQDN(Fully Qualified Domain Name:全称域名)、或主机名等。但是,即使是其他的识别符,只要最终能够与管理对象装置进行通信即可。
图29是针对图28所示的管理对象装置组3的例子生成的管理对象构成信息103的一例。图29以及图30是一个例子,并不限定本申请的权利要求的保护范围。在图29的例子中,关于各个监视对象信息处理装置,在该信息中存储了以下的信息。未必需要以下的全部项目。
*监视对象信息处理装置的类别(例如,存储子系统、开关装置、服务器装置等)和构成该装置的部位的类别。
*构成监视对象信息处理装置的部位的信息以及装置和部位、或者部位和部位的包含关系。
*关于用于进行网络通信的部位,成为连接对象的部位。
*监视对象信息处理装置的设定。
考虑通过以下的处理生成或者更新管理对象构成信息103,但是也可以从其他的处理生成管理对象构成信息103。
*管理程序105根据从监视对象信息处理装置接收到的关于各装置的构成信息以及设定信息,生成或者更新管理对象构成信息103。
*在管理程序105能够进行监视对象信息处理装置的设定时,管理程序在装置中设定经由管理服务器的输入装置接收到的装置设定信息,并且生成或者更新管理对象构成信息103。
(2.2.事件管理信息)
图27表示事件管理信息106。事件管理信息包含以下的信息。
*事件ID。是识别事件管理信息的信息。
*事件检测时间。表示检测到事件的时间。还具有事件检测是监视对象信息处理装置的情况或者是管理系统的情况,在该时间设置基于各个计算机或装置管理的计时器的值。
*发生源装置ID。存储发生了事件的装置的识别符。
*发生源部位ID。存储成为发生事件的理由的装置内的部位的识别符。
*状态。存储由于事件的发生而变化的发生源部位的状态。
事件管理信息106可以包含这些以外的信息。此外,上述的值通过存储间接的信息,可以变为存储直接的值。其例如有时作为“状态”的替代,输入可以明确得知作为“检测到FC端口的电源关闭”等的结果而成为特定的状态的消息。
通过管理程序105的处理,基于监视对象信息处理装置根据事件检测而生成并发送给管理系统的与事件有关的信息(以后称为事件接收信息)的接收,生成事件管理信息106。
(2.3.解析规则信息)
图2表示解析规则信息104。
解析规则信息104包含以下的信息。
*针对解析规则唯一识别的识别信息104-1。
*表示作为应用解析规则的对象的装置以及部位彼此之间的关系的拓扑条件104-21。
*为了确定在管理对象装置组3中发生的故障的原因场所,需要检测的一个以上的事件(能够直接或者间接表示装置或者部位的状态的事件更适当)构成的、用于确定所谓原因场所的条件的集合即条件组合104-22。有时将所述拓扑条件104-21和条件组合104-22合称为条件部分104-2。
*作为if-then形式的规则的结论,由表示故障的原因场所的原因场所信息104-31和针对故障原因的结论的详细信息即结论详细信息104-32构成的结论部分104-3。
构成条件组合104-22的各个条件由用于进一步在规则内识别条件的ID即条件ID C1、表示事件的发生装置部位的装置部位C2、表示该装置部位的状态的状态C3构成。条件ID C1不是必需的。
(2.3.1.解析规则信息的例子)
为了说明本发明,以图28的装置组为例,说明一般规则的例子。
图3的解析规则信息104-R1是以下情况下的解析规则信息的例子。通过规则识别信息“R1”识别的本信息,假设以下的拓扑。
*向网络上的其他计算机公开文件服务器计算机(以后简称为文件服务器)的本地的文件系统。既具有文件系统全部为公开对象的情况,还具有文件系统的一部分为公开对象的情况。
*上述其他计算机把经由网络公开的上述文件系统作为网络驱动器(network drive)来使用。网络驱动器是Microsoft Windows(注册商标)固有的表现,并不是为了使用公开的文件系统而必需网络驱动器。
在假设以上的拓扑时,在条件部分中作为拓扑条件而指定“文件服务器和使用文件服务器公开的文件系统的客户计算机”。条件部分,还作为条件组合而指定以下的内容。
*作为条件R1-21,文件服务器公开的文件系统的状态成为错误。
*作为条件R1-22,客户机的网络驱动器的状态成为错误。
错误状态除了至少包含无法使用装置或者部位的状态之外,一般还可以包含设为错误的状态。关于以后说明的其他的案例,只要没有特别记载,错误状态是上述的含义。
对应于该条件组合,结论部分指定以下的内容。
*原因场所信息是“文件服务器”公开的文件系统。
*详细消息是“文件服务器公开的文件系统的故障是原因”。
作为用于处理服务器的文件系统的故障的解析规则的一例,如下那样表示了图3的解析规则信息104-R2。
*在规则识别信息R2-1中为“R2”,但在条件部分中作为应用目标的拓扑,拓扑条件为“无”,所以至少在全部的管理对象的文件服务器中应用。
*构成条件组合的条件指定“计算机的文件系统”的状态为错误。
并且,作为与该条件组合对应的结论,在结论部分R2-3中指定如下内容。
*原因场所信息是“计算机”的“文件系统”。
*详细消息是“计算机的文件系统的故障是原因”。
图4的解析规则信息104-R3与图5的解析规则信息104-R4是与存储子系统以及经由电缆与存储子系统直接连接的FC开关有关的解析规则的一例。上述直接连接的含义是不经由其他FC开关的意思。
因此,在104-R3和104-R4中,都在条件部分中作为应用目标的拓扑而指定了“在存储子系统的FC端口和FC开关的端口中相邻的端口”。
解析规则信息104-R3的条件组合,由作为条件R3-21存储子系统的FC端口的状态为“错误(Error)”、以及作为条件R3-22FC开关的FC端口的状态变为“连接断开(LinkDown)”这两个条件构成。端口的连接断开状态是指该端口自身为正常状态,但无法与连接目标装置(本次的情况下为存储子系统)通信的状态。
作为此时的结论,在结论部分R3-3中,作为原因场所信息指定了“存储子系统”的“FC端口”,详细消息指定了“存储子系统的FC端口或装置间的电缆中的某一方或者双方的故障为原因”。
图5记载的解析规则信息104-R4的条件组合,由作为条件R4-21存储子系统的FC端口的状态变为“错误”、以及作为条件R4-22FC开关的端口的状态变为“错误”这两个条件构成。
作为此时的结论,在结论部分R4-3中,作为原因场所信息指定了“FC开关”的“端口”,详细消息指定为“FC开关的端口或存储子系统的FC端口或电缆中的至少某一方的故障为原因”。
图6的解析规则信息104-R5是与存储子系统的控制器故障有关的解析规则的一例。条件部分的拓扑条件为“无”,所以表示在全部的存储子系统中应用。条件组合由作为条件R5-1存储子系统的控制器的状态变为“错误”、以及作为条件R5-2存储子系统的控制器附带的FC端口的状态变为“错误”这两个条件构成。作为此时的结论,在结论R5-3中,作为原因场所信息指定了“存储子系统”的“控制器”,详细消息指定为“存储子系统的控制器故障为原因”。
图7的解析规则信息104-R6是与存储子系统的FC端口故障有关的解析规则的一例。条件部分的拓扑条件为“无”,所以表示在全部的存储子系统中应用。条件组合由作为条件R6-1存储子系统的控制器附带的FC端口的状态变为“错误”这一个条件构成。作为此时的结论,在结论R6-3中,作为原因场所信息指定了“存储子系统”的“FC端口”,详细消息指定为“存储子系统的FC端口故障为原因”。
以上是为了说明本实施例的处理而准备的解析规则的例子。
(2.4.解析结果信息)
图26表示解析结果信息102。根据按照适合拓扑条件的一个以上的监视对象信息处理装置的组合的构成或设定以及拓扑条件,使解析规则信息104具体化后的已展开的规则中的某一个,生成解析结果信息102。解析结果信息102包含以下的信息。
*解析ID:是识别解析结果信息的识别符。
*解析时间:是取得解析结果信息所存储的解析结果的时间。
*应用规则ID:是为了取得解析结果而使用的解析规则ID的识别符。
*应用部位ID:是与应用了通过应用规则ID识别的解析规则信息的、一个以上的监视对象信息处理装置或该装置的部位有关的一个以上的识别符。
*原因装置信息:是把通过应用规则ID识别的解析规则信息用于通过应用部位ID指定的监视对象信息处理装置或该装置的部位而得到的、与成为一连串的事件的原因的监视对象信息处理装置有关的类别以及识别符。本栏的类别可以省略。
*原因部位信息:是把通过应用规则ID识别的解析规则信息用于通过应用部位ID指定的监视对象信息处理装置或该装置的部位而得到的、与成为一连串的事件的原因的监视对象信息处理装置的部位有关的类别以及识别符。本栏的类别可以省略。
*接收事件列表:是与成为导出了该解析结果信息中表示的原因的依据的一个以上的事件有关的信息。与各个事件有关的信息,包含作为事件发生源的监视对象信息处理装置的识别符、或对该装置的识别符添加了部位的识别符后的识别符、以及该装置或者部位的状态。
*确信度:表示根据接收事件列表中包含的一个以上的事件,原因装置信息以及/或者原因装置部位为原因场所的可靠度。在本实施例中确信度取0到100的值,在为100时,表示根据管理服务器得到的事件的信息,上述的原因装置信息以及部位确实为原因场所,值越小确实性越低。当然,还可以通过其他的表现方式来表示确信度。
*消息:是用于表示在把通过应用规则ID识别的解析规则信息用于通过应用部位ID指定的监视对象信息处理装置或该装置的部位而得到的原因装置以及原因部位的消息。
通过管理程序105进行以下的处理来生成解析结果信息102。
(步骤A)管理程序105参照解析规则信息104以及管理对象构成信息103,来选择适合于解析规则信息的条件部分的拓扑条件的监视对象信息处理装置。在拓扑条件表示了多个监视对象信息处理装置的关系的情况下,具有选择多个适合于拓扑条件的装置的集合的情况(例如作为拓扑条件设为使用存储子系统的服务器装置,在具有多个存储子系统和服务器装置的情况下,将存储子系统和服务器装置的集合选择多个。)
(步骤B)管理程序105作为针对在步骤A中选择的各个集合的处理,通过参照事件管理信息106选择满足解析规则信息104的条件组合的条件的、所述装置集合为发生源的事件。
(步骤C)管理程序105,当在步骤B中选择的事件为一个以上时,根据在步骤B中的选择结果生成解析结果信息102。解析结果信息102的各项目的值以下那样生成。
*接收事件列表:关于在步骤B中选择的各个事件,存储发生源装置ID以及发生源部位ID以及状态。作为识别事件的信息,可以将事件管理信息的事件ID与上述值一同存储。
*应用规则ID:存储在步骤A的选择中使用的解析规则信息中存储的规则识别信息。
*应用部位ID:存储作为在步骤A中选择的装置集合的、在解析规则信息104的条件部分的原因场所信息中记载的装置以及部位的识别符。
*原因装置信息以及原因部位信息:存储作为在步骤A中选择的装置集合的、在解析规则信息104的条件部分的原因场所信息中记载的装置以及部位的识别符。
*消息:是对在步骤A的选择中使用的解析规则信息中存储的结论详细信息104-32的文本文中追加了原因装置信息以及原因部位信息的信息后的文本文。本项目还可以是文本形式以外的信息。
确信度:存储根据在解析结果信息102的接收事件列表中存储的信息以及解析规则信息104的条件组合的条件计算出的确信度。作为计算方法的一个例子,具有对接收事件列表表示的事件的个数除以上述条件组合的条件的个数所得到的值乘以100的方法。但是,还可以采用其他的方法来计算。
(步骤D)管理程序105把通过步骤C生成的解析结果信息102存储在存储器中。
上述管理程序的处理,可以由管理程序自主地重复执行,也可以根据来自管理者的指示来执行,或者还可以将事件管理信息或解析规则信息的生成、更新作为契机。
(2.4.1.解析结果信息的例子)
图8至图11表示了解析结果信息102的例子。
图8的解析结果信息102-1是针对解析规则信息R1的担任文件服务器的服务器(Server)的Srv01的解析结果信息,表示关于在R1中设定的条件组合的两个条件接收到事件。在该解析结果信息中,表示了原因装置为文件服务器的Srv01,原因部位为文件系统(File System)的“/dev/sdb”,针对该结果的确信度为50%(这是因为R1的解析规则的条件组合由两个条件构成,但在生成解析结果信息102-1的时刻仅接收到其中一个事件)。
图8的解析结果信息102-2是针对解析规则信息R2的服务器(Server)的Srv01的解析结果信息,表示关于在R2中设定的条件组合的一个条件接收到事件。在该解析结果信息中,表示了原因装置为服务器(Server)的Srv01,原因部位为文件系统(File System)的“/dev/sdb”,针对该结果的确信度为100%。
图9的解析结果信息102-3是针对解析规则信息R3的存储子系统的Stg01的解析结果信息,表示关于在R3中设定的条件组合的两个条件中的一个条件接收到事件。在该解析结果信息中,表示了原因装置为存储子系统的Stg01,原因部位为构成FC端口的Ctrl-A的P01端口,针对该结果的确信度为50%。
图9的解析结果信息102-4是针对解析规则信息R4的FC开关的FCSw01的端口P01的解析结果信息,表示关于在R4中设定的条件组合的两个条件中的一个条件接收到事件。在该解析结果信息中,表示了原因装置为FC开关的FCSw01或存储子系统的Stg01,原因部位为FC开关FCSw01的端口P01或存储子系统Stg01的控制器Ctrl-A上的FC端口P01,针对该结果的确信度为50%。
图10的解析结果信息102-5是针对解析规则信息R3的存储子系统的Stg02的解析结果信息,表示关于在R3中设定的条件组合的两个条件中的两个条件接收到事件。在该解析结果信息中,表示了原因装置为存储子系统的Stg02,原因部位为Ctrl-A的FC端口P02,针对该结果的确信度为100%。
图10的解析结果信息102-6是针对解析规则信息R4的FC开关的FCSw01的端口P05的解析结果信息,表示关于在R4中设定的条件组合的两个条件中的一个条件接收到事件。在该解析结果信息中,表示了原因装置为FC开关的FCSw01或存储子系统的Stg02,原因部位为FC开关FCSw01的端口P05或存储子系统Stg02的控制器Ctrl-A上的FC端口P02,针对该结果的确信度为50%。
图11的解析结果信息102-7是针对解析规则信息R5的存储子系统的Stg03的解析结果信息,表示关于在R5中设定的条件组合的两个条件中的两个条件接收到事件。在该解析结果信息中,表示了原因装置为存储子系统的Stg03,原因部位为控制器的Ctrl-A,针对该结果的确信度为100%。
图11的解析结果信息102-8是针对解析规则信息R6的存储子系统的Stg03的解析结果信息,表示关于在R6中设定的条件组合的一个条件接收到事件。在该解析结果信息中,表示了原因装置为存储子系统的Stg03,原因部位为控制器Ctrl-A的FC端口P01,针对该结果的确信度为100%。
以上是为了说明本实施例的处理而准备的解析结果信息的例子。
(2.5.聚合解析结果信息)
图12表示用于画面显示聚合后的解析结果的显示用信息、即聚合解析结果信息T1。
聚合解析结果信息T1,作为内容,由聚合类别C4、C5、原因场所列表C6、以及解析信息列表C7构成,聚合类别C4是对表示通过怎样的方法进行聚合的聚合类别进行存储的列,C5是存储针对聚合的解析结果的确信度的列,原因场所列表C6将聚合的结果中的原因场所作为要素,解析信息列表C7是存储用于唯一识别聚合的基础的解析结果信息的识别符。在图24中已经详细记述了使用这些信息具体如何显示画面的步骤,在此重新涉及。
作为C4的聚合类别,可以指定以下5个聚合类别。
(A)装置聚合:把表示是相同原因装置的解析结果信息聚合为一个。在为该聚合时,管理程序105汇总显示在多个解析结果信息中的各个解析结果信息中记载的接收事件列表,并且显示聚合对象的多个解析结果信息的确信度的最高值,由此,管理者可以容易地理解由于同一原因装置的故障发生了较多事件。在针对各个解析规则显示包含确信度的解析结果时,采用在聚合对象的多个解析结果信息中最高的值,将聚合对象的其他的解析结果信息的确信度也修正为该高的值。
(B)部位聚合:把表示是相同原因部位的解析结果信息聚合为一个。在为该聚合时,管理程序105汇总显示在多个解析结果信息中记载的接收事件列表,并且显示聚合对象的多个解析结果信息的确信度的最高值,由此,管理者可以容易地理解由于同一原因装置的故障发生了较多事件。在针对各个解析规则显示包含确信度的解析结果时,确信度采用在聚合对象的多个解析结果信息中最高的值,将聚合对象的其他的解析结果信息的确信度也修正为该高的值。
(C)上位聚合:把针对同一应用装置以及部位的集合应用多个解析规则而得到的多个解析结果信息作为聚合对象,在成为依据的多个解析规则之间不同的条件为共同的预定的装置或部位的状态下,将作为聚合对象的多个解析结果信息聚合为一个。但是,在通过事件接收未得到上述共同的预定的装置或部位的状态的情况下应用该聚合。在为该聚合时,管理程序105汇总显示在聚合对象的多个解析结果信息中的各个解析结果信息中记载的原因装置信息或原因部位信息或消息,并且作为聚合后的确信度,显示聚合对象的多个解析结果信息的各自的确信度的合计值。
(D)排他选择:把通过对于同一应用装置以及部位的集合应用多个解析规则而得到的多个解析结果信息作为聚合对象,在成为依据的多个解析规则之间不同的条件为共同的预定的装置或部位的状态时,从作为聚合对象的多个解析结果信息中选择一个,进行对于剩余的解析结果信息显示在故障监视方面没有意义的解析结果的显示处理。在通过事件接收得到上述共同的预定的装置或部位的状态的情况下,并且对于可以明确得知该状态在某一瞬间排他性地仅为一个状态的部位应用该聚合。此外,选择的解析结果信息选择确信度高的信息。确信度更高的解析结果信息,成为基于满足与上述共同的预定的装置或部位的状态有关的条件的解析规则的解析结果信息。作为此时没有被选择的解析结果信息的显示处理,具有使确信度为零的情况,还具有抑制解析结果的显示,降低显示时的强调度等例子。
(E)包含聚合:关于成为聚合对象的多个解析结果信息的依据的多个解析规则,在作为多个解析规则中的任意一个解析规则的第一解析规则的多个条件的一部分与作为多个解析规则中的第一解析规则以外的一个解析规则的另一解析规则的条件相同时,将作为聚合对象的多个解析结果信息聚合为一个。聚合后的原因装置以及确信度,采用聚合对象的多个解析结果信息中确信度最高的解析结果信息的值。关于该采用处理,结果可以说在接收到满足第一解析规则和第二解析规则的条件差分的事件时,采用基于第一解析规则的解析结果信息的值,在不是这样的情况下,采用基于其他解析规则的解析结果信息的值。
在通过聚合处理使确信度高于各个解析结果信息的值时,显示比上述计算结果小,并且比原来的解析结果信息的值高的值的情况也是本发明的保护范围。
(2.6.画面显示信息)
图25表示在显示器装置D2中显示的画面显示数据的结构。画面显示数据大致区分,由聚合解析结果D21、聚合源解析结果D22、聚合解析拓扑显示D23构成。聚合解析结果D21是显示聚合后的解析结果的摘要的区域,显示与作为聚合后的结果的故障的原因有关的信息。因此,作为聚合后的解析消息,由涉及故障的原因场所的聚合解析消息D211和表示针对聚合解析后的结果的可靠度的确信度D212构成。聚合源解析结果D22和聚合拓扑显示D23不是必需的显示数据。应该按照管理IT系统的管理者的情况,决定是否显示。但是,在想要掌握作为聚合后的解析结果的原始数据的解析结果信息为何时,聚合源解析结果D22那样的显示是有效的。
(2.7.管理程序)
管理程序105是管理监视对象信息处理装置的状态的程序。管理程序105除了到此为止说明的处理以及下面将要说明的处理之外,还管理监视对象信息处理装置的状态(例如,是否发生故障、是否通过该装置进行了设定变更、与性能有关的状态等),并通过显示器装置D2进行显示。因此,该管理程序105例如进行以下处理。
(A)经由网络接口13从监视对象信息处理装置接收管理信息(例如,是否发生故障、存在该装置的设定信息或性能信息等)。
(B)根据接收到的管理信息判断上述状态,向显示器装置D2显示。
管理程序105接收管理服务器1接收到的向监视对象信息处理装置的设定请求,可以进行基于该请求的对监视对象信息处理装置的设定。
(3.管理服务器的处理以及显示)
然后,说明管理服务器1具有的管理程序105。
(3.1.基于管理程序的处理的概要)
以下表示管理服务器1取得某个时间的解析结果信息,将按每个规则输出的解析结果信息,通过(A)装置聚合、(B)部位聚合、(C)上位聚合、(D)排他选择、(E)包含聚合这5个聚合方法对解析结果进行聚合来缩小范围,并且画面上显示的处理。
图16表示管理程序105在任意的时刻,对于某个时间的解析结果信息执行聚合处理,并在画面上显示的过程。可以在管理者指定的时刻进行本过程。以下说明流程。
(步骤S1601)管理程序105选择成为聚合解析的对象的解析结果信息102。选择方法,例如考虑选择通过上次之前的本处理没有成为聚合解析对象的解析结果信息,但也可以是其他的方法。
(步骤S1602、步骤S1606)管理程序105关于在步骤S1中选择的聚合解析对象的解析结果信息102中的各个解析结果信息,进行步骤S3至步骤S5的处理。在以后的说明中,把在步骤S1601中选择的聚合解析对象的解析结果信息102中的一个称为S1601选择解析结果信息。
(步骤S1603)管理程序105从S1601选择解析结果信息中,取得原因装置信息、原因部位信息以及解析规则ID。
(步骤S1604)管理程序105为了求出能够进行装置聚合的解析结果信息,在存储与每个装置有关的解析结果信息的表T2中登录S1601选择解析信息。此外,管理程序105为了求出能够进行部位聚合的解析结果信息,在存储与每个装置以及每个部位有关的解析结果信息的表T3中登录S1601选择解析信息。关于本处理将在后面进行详细的说明。
(步骤S1605)管理程序105为了求出能够进行上位聚合、排他聚合、或者包含聚合的解析结果信息102,在表T4中登录解析结果信息102。关于本处理将在后面进行详细的说明。
(步骤S1607)管理程序105把表T2中登录的信息中的、两个以上的解析结果信息与相同的原因装置相关联的行作为装置聚合,登录在聚合解析结果信息T1中。具体的登录如以下那样。
*聚合类别:存储表示装置聚合的值。
*聚合确信度:存储步骤S7的相应行的关联解析ID列表表示的多个解析结果信息中的最高的值。
*原因场所列表:存储步骤S7的相应行的原因装置信息。
*解析结果列表:存储步骤S7的相应行的关联解析ID。
(步骤S1608)管理程序105把在表T3中记录的信息中的、两个以上的解析结果信息与相同的原因装置和原因部位相关联的行作为部位聚合,登录在聚合解析结果信息T1中。具体的登录如下那样。
*聚合类别:存储表示部位聚合的值。
*聚合确信度:存储步骤S8的相应行的关联解析ID列表表示的多个解析结果信息中的最高的值。
*原因场所列表:存储步骤S8的相应行的原因装置信息以及原因场所信息。
*解析结果列表:存储步骤S8的相应行的关联解析ID列表。
(步骤S1609)管理程序105根据表T4,对于聚合类别能够应用排他选择或上位聚合或包含聚合的解析规则,生成/更新聚合解析结果信息T1。关于本处理将在后面进行详细的说明。
(步骤S1610)管理程序105使用聚合解析结果信息T1、事件管理信息106、解析规则信息104、管理对象构成信息103、以及解析结果信息102,在显示器装置D1中画面描绘/输出聚合解析结果。在此,关于根据怎样的数据显示在图25中表示的聚合解析结果的画面显示的画面构成,将通过后面的画面输出处理过程进行说明。
可以把聚合后的聚合解析结果作为新的输入,进一步进行聚合处理。
(3.2.管理程序生成的其他的信息)
以下,说明在上述处理中使用的表T2至表T4。
(3.2.1.表T2)
图13表示表T2。T2针对在原因装置栏C201中记载的每个原因装置,在栏C202中存储该装置为原因装置的解析结果信息102的识别符。表T2可以在执行程序的过程中生成,在生成聚合解析结果信息T1之后删除。
在表T2中例示的L201是针对图8的解析结果信息102-1以及102-2的步骤S1604的处理结果,因为这些解析结果信息的原因装置为同一“Srv01”,所以如图13的L201那样,在关联解析ID列表中登录“A-01、A-02”。
(3.2.2.表T3)
图14表示表T3。表T3针对在原因装置/原因部位信息栏C301中记载的每个原因装置以及部位,在栏C303中登录该装置的部位为原因部位的解析结果信息102的识别符。表T2可以在执行程序的过程中生成,在生成聚合解析结果信息T1后删除。
在表T3中例示的L301是针对图8的解析结果信息102-1以及102-2的步骤S1064的处理结果,因为这些解析结果信息的原因部位是同一“Srv01./dev/sdb”,所以如图14的L301那样,在关联解析ID列表中登录“A-01、A-02”。
(3.2.3.表T4)
图15是表示表T4的图。表T4针对每个解析结果信息,存储为了通过100的确信度取得解析结果信息记载的原因而需要接收的事件的列表(应用条件列表C402)、以及在计算出解析结果信息的确信度的时刻使用的(或者接收到的)事件的列表(接收事件列表C403)。表T4可以在执行程序的过程中生成,在生成聚合解析结果信息T1后删除。
在表T4中例示的L401是针对图8的解析结果信息102-1的步骤S1605的处理结果,作为应用条件C402,存储通过对解析结果信息102-1的应用部位ID中记载的装置以及部位,应用针对应用部位ID中记载的装置以及部位应用由规则ID表示的解析规则信息R1的条件组合而生成的“Srv01./dev/sdb.Error,Srv05.NetworkDrive-D.Error”。此外,作为接收事件列表C403,存储解析结果信息102-1的接收事件列表的信息,即“Srv01./dev/sdb.Error”。
(3.3.1.表T2以及T3生成处理)
然后,说明用于装置聚合以及部位聚合的表T2以及T3的生成处理。图17是表示图16的步骤S1604的详细情况的流程。
(步骤S1701)管理程序105检索具有从在图16的步骤S1603取得的S1601选择解析结果信息中取出的原因装置信息的表T2的行,在不存在时生成将取出的原因装置信息作为栏C201的行。然后,管理程序105在具有取得的原因装置信息的表T2的行中追加S1601选择解析结果信息的解析ID。
(步骤S1702)管理程序105检索具有从在图16的步骤S1603取得的S1601选择解析结果信息中取出的原因装置信息以及原因部位信息的表T3的行,在不存在时生成将取出的原因装置信息作为栏C301的行。然后,管理程序105在具有所取出的原因装置信息的表T3的行中追加S1601选择解析结果信息的解析ID。
(3.3.2.表T4的生成处理)
然后说明用于上位聚合、排他选择、以及包含聚合的表T4的生成处理。图18是表示图16的步骤S1605的详细情况的流程。
(步骤S1801)管理程序105在表T4中登录在图16的步骤S1603中取得的S1601选择解析结果信息。更具体地说,表T4的各栏存储以下的值。
*解析ID C401:存储S1601选择解析结果信息的解析ID。
*应用条件列表C402:存储针对S1601选择解析结果信息的应用部位ID表示的监视对象装置或部位应用由应用规则ID表示的解析规则信息的条件而得到的监视对象装置以及部位和条件的集合。
*接收事件列表C403:存储S1601选择解析结果信息的接收事件列表的值。
(3.3.2.聚合解析结果信息T1的生成处理)
然后说明使图16中的步骤S1609的针对上位聚合、排他选择、以及包含聚合的聚合处理过程变得详细的图19。
(步骤S1901、步骤S1905)管理程序105把表T4中包含的各行(以后称为S1901对象T4行)作为对象,执行步骤S1902至步骤S1904的处理。
(步骤S1902、步骤S1904)管理程序105把作为表T4中包含的各行的除去S1901对象T4行以外的各行(以后称为S1902对象T4行)作为对象,执行步骤S1903的处理。
(步骤S1903)管理程序105根据S1901对象T4行以及S1902对象T4行进行聚合解析。
图20是记载了图19的步骤S1903的详细情况的流程。
(步骤S2000)管理程序105将S1901对象T4行的应用条件列表C402的条件与S1902对象T4行的应用条件列表C402的条件进行比较,由此,取得S1901对象T4行和S1902对象T4行中共同的条件、仅S1901对象T4行具有的条件(有时称为S1901对象T4行固有条件)、以及仅S1902对象T4行具有的条件(有时称为S1902对象T4行固有条件)。
(步骤S2001)管理程序105,当在S1901对象T4行固有条件和S1902对象T4行固有条件是与同一监视对象信息处理装置的部位有关的条件,仅状态条件不同的情况下,执行步骤S2002,否则执行S2006。
(步骤S2002)管理程序105,在即使接收到一个与S1901对象T4行固有条件和S1902对象T4行固有条件有关的事件时执行步骤S2004,在完全没有接收到时执行步骤S2003。
(步骤S2003)管理程序105使聚合类别为上位聚合,把S1901对象T4行以及S1902对象T4行登录在聚合解析结果信息T1中,并返回图19的处理。将在后面详细说明本处理。
(步骤S2004)管理程序105使聚合类别为排他选择,把S1901对象T4行和S1902对象T4行登录在聚合解析结果信息T1中,并返回图19的处理。将在后面详细说明本处理。
(步骤S2005)管理程序105确认S1901对象T4行固有条件或S1902对象T4行固有条件中的任意一个是否具有条件。换句话说,本处理为确认单方的对象T4行的应用条件列表C402的全部条件是否包含在另一单方的对象T4行的应用条件列表C402的条件中。当单方的固有条件不具有条件时,执行步骤S2007,否则返回到图19的处理。
(步骤S2006)管理程序105使聚合类别为包含聚合,把S1901对象T4行和S1902对象T4行登录在聚合解析结果信息T1中,并返回图19的处理。将在后面详细说明本处理。
然后,说明使图20的步骤S2003中的针对上位聚合的向T1的数据登录处理变得详细的图21的处理过程。以下说明流程。
(步骤S2101)管理程序105根据S1901对象T4行和S1902对象T4行的解析ID分别取得解析结果信息102。
(步骤S2102)管理程序105在T1中追加聚合类别为上位聚合的行(为了容易理解说明,将聚合解析结果信息T1的行称为T1行)。追加的T1行的各列的值如下那样。
*聚合确信度:存储仅在图20的步骤S2000中取得的共同的条件下评价的确信度。
*原因场所列表:在对所取得的两个解析结果信息102分别求出组合了原因装置信息和原因部位信息的原因场所信息后,存储加入了求出的信息的列表。
*在解析结果列表中存储S1901对象T4行的解析ID、S1902对象T4行的解析ID。
通过以上的过程,针对上位聚合的向T1的数据登录完成。
当以解析结果信息A-03和A-04为例子时,分别对应的解析规则信息R-3、R-4的条件组合内的、仅状态部位不同的FC开关的端口的状态的“错误”和“连接断开”表示管理程序105无法接收与直接连接在存储子系统的“Stg01”上的FC开关有关的事件。管理程序105无法接收与FC开关有关的事件的情况,如果还在FC开关的任意端口中具有错误或连接断开以外的状态,则可能具有由于FC开关与管理服务器1的通信故障而无法接收事件的状态下无法接收表示错误或连接断开中的某一方的事件的情况的双方。
在上述状况下,关于A-03以及A-04的聚合确信度,仅把除去了针对FC开关的条件即R3-22以及R4-22后的R3以及R4共同具有的条件、即存储子系统的“Stg01”的“FC端口”的“错误”作为条件来计算确信度。因此,在聚合解析结果信息T1中如L103那样进行登录。由此,通过提高了确信度的影响把解析粒度聚合成聚合了多个规则的粗的粒度,但是可以汇总地显示针对类似原因的解析结果。
然后,说明使图20的步骤S2004中的、针对排他选择的向T1的数据登录处理变得详细的图22的处理过程。以下说明流程。
(步骤S2201)管理程序105根据S1901对象T4行和S1902对象T4行的解析ID取得解析结果信息102。然后,管理程序105将S1901对象T4行的解析结果信息102的确信度与S1902对象T4行的解析结果信息102的确信度进行比较,选择具有高确信度的解析结果信息。
(步骤S2202)管理程序105在T1中追加聚合类别为排他选择的T1行。追加的T1行的各列的值如下那样。
*聚合确信度:存储具有步骤S2201的高确信度的解析结果信息102的确信度。
*原因场所列表:存储组合了具有步骤S2201的高确信度的解析结果信息102的原因装置信息和原因部位信息的原因场所信息。
*解析结果列表:先存储具有高确信度的解析结果信息的解析ID,然后存储不是高确信度的S1901对象T4行或S1902对象T4行中的某一个的解析ID。
通过以上的过程,针对排他聚合的向T1的数据登录完成。
当以解析结果信息A-5和A-6为例子时,分别对应的解析规则信息R-3、R-4的条件组合内的、仅状态部位不同的FC开关的端口的状态为“连接断开”,表示接收到事件的情况。
在上述状况下,关于A-05以及A-06的聚合确信度,选择解析结果信息内的确信度变高的A-5,将其作为聚合确信度,关于原因场所列表,采用A-5的结果。因此,在聚合解析结果信息T1中如L104那样进行登录。由此,能够过滤冗长的解析结果,能够选择更加准确的精度高的解析结果来显示。
然后,说明使图20的步骤S2006中的针对包含聚合的向T1的数据登录处理变得详细的图23的处理过程。以下说明流程。
(步骤S2300)管理程序105选择在步骤S2000中求出的S1901对象T4行固有条件和S1902对象T4行固有条件中、条件被包含的条件。在以后的说明中把上述选择的条件称为差分条件,把在应用条件列表C402中包含差分条件的S1901对象T4行或S1902对象T4行中的某一个称为父条件的T4行,把不是这样的T4行称为子条件的T4行。当使用该称呼方法时,父条件的T4行的应用条件列表C402成为在子条件的T4行的应用条件列表C402中加入了差分条件的列表。
(步骤S2301)管理程序105确认是否接收到满足至少一个差分条件的事件,在接收到至少一个事件时,选择父条件的T4行,否则选择子条件的T4行。
(步骤S2304)管理程序105根据在步骤S2301中选择的T4行的解析ID取得对应的解析结果信息102。
(步骤S2305)管理程序105在T1中追加聚合类别为包含聚合的行。追加的T1行的各列的值如下那样。
*聚合确信度:存储在步骤S2304中取得的解析结果信息102的确信度。
*原因场所列表:存储组合了在步骤S2304中取得的解析结果信息102的原因装置信息和原因部位信息的原因场所信息。
*解析结果列表:先存储在步骤S2304中取得的解析结果信息102的解析ID,然后存储另一个解析结果信息102的解析ID。
通过以上的过程,针对包含聚合的向T1的数据登录完成。
当以解析结果信息A-07和A-08为例子时,分别对应的解析规则R-5、R-6的条件组合成为R-5的条件组合包含R-6的条件组合的形式。在R-5、R-6中共同的条件是存储子系统的FC端口的错误状态的条件,仅在R5中存在的条件是存储子系统的控制器的错误状态的条件。在此,在控制器的错误的条件成立时,采用、选择并显示R-5的解析结果信息,另一方面,在控制器的错误的条件不成立时,采用、选择并显示R-6的解析结果信息。
因此,在T1中如L4那样进行登录。由此,可以根据能够的信息选择最佳的粒度的解析结果来显示具有包含关系的规则之间的解析结果。
(3.4.显示处理)
然后说明使根据所生成的T4的聚合解析结果信息,如何进行画面显示的处理变得详细的图24。本处理除了作为图16的从解析到显示的一系列处理的一环来进行以外,还可以根据来自管理服务器1的管理者的画面显示请求开始处理。以下说明流程。
(步骤S91)管理程序105根据聚合解析结果信息T1的原因场所列表C103,使用聚合用的共同消息资源生成聚合解析消息D211的显示数据。聚合用共同消息资源,预先准备包含原因场所和原因部位、以及确信度的通用性高的消息。作为例子,准备并使用“原因为装置(XXX)的部位(YYY)的故障。(确信度:ZZ%)”这样的消息。
(步骤S92)管理程序105根据在步骤S91中生成的D211的显示数据,描绘聚合解析消息D211的画面。
(步骤S93)管理程序105从聚合解析结果信息T1的聚合确信度取得确信度D212的显示数据。
(步骤S94)管理程序105根据在步骤S93中取得的显示数据,描绘确信度D212的画面。
(步骤S95)管理程序105从聚合解析结果信息T1的解析信息列表取得聚合源解析结果D22的显示数据。
(步骤S96)管理程序105根据在步骤S95中取得的显示数据,描绘聚合源解析结果D22的画面。
(步骤S97)管理程序105从聚合解析结果信息T1的解析结果列表中取得解析ID,并根据解析ID取得解析结果信息102,从管理装置构成信息103取得关联的装置信息,生成拓扑显示数据。
(步骤S98)管理程序105根据在步骤S97中生成的拓扑显示数据,描绘聚合解析拓扑画面。
通过以上的过程,使用聚合解析结果信息T1能够得到在画面上显示聚合的故障的解析结果信息的画面。
在本实施例中,使用与接收到的事件有关的信息得到监视对象信息处理装置或该装置的部位的状态。但是,作为别的实施方式,管理程序105通过重复询问监视对象信息处理装置来取得上述的状态,把重复得到的状态中的关于同一装置或同一装置的同一部位最后取得的状态存储在事件管理信息(如果存储各装置以及部位的状态,则有时称为装置状态管理信息)中。此时,把没有接收到的事件这样的表现置换为管理程序105无法掌握状态的表现即可。
以上说明了管理系统,该管理系统具有:网络接口,其从所述信息处理装置接收管理信息;处理器,其根据所述管理信息判断所述信息处理装置的状态;存储器,其存储所述信息处理装置的状态、和用于确定所述状态发生的原因即原因装置的多个解析规则信息;以及显示器装置,其显示所述信息处理装置的状态。
此外,还说明了:(A)所述存储器存储多个解析结果信息,该解析结果信息是包含表示所述原因装置的原因的原因信息、用于通过充分条件确定所述原因装置的与所述信息处理装置有关的一个以上的状态条件、表示所述原因信息的可靠度的确信度、以及满足所述一个以上的状态条件的一部分或者全部的一个以上的已检测状态,根据所述解析规则信息而生成的解析结果信息,
(B)所述处理器根据所述解析结果信息中包含的所述原因信息或所述一个以上的状态条件或所述一个以上的已检测状态,从多个所述解析结果信息中选择设为聚合对象的多个解析结果信息,
(C)所述处理器根据设为所述聚合对象的多个解析结果信息中包含的所述原因信息,生成聚合后的原因信息,
(D)所述处理器根据设为所述聚合对象的多个解析结果信息中包含的所述确信度,计算聚合后的确信度,
(E)所述显示装置显示所述聚合后的原因信息和所述聚合后的确信度。
此外,说明了所述信息处理装置的状态是作为所述信息处理装置的逻辑或物理的构成物的部位的状态、或所述信息处理装置的作为装置的状态,所述原因信息是与所述部位有关的信息或所述信息处理装置的作为装置的信息。
此外,说明了设为所述聚合对象的多个解析结果信息包含第一聚合对象解析结果信息和第二聚合对象解析结果信息,所述第一聚合对象解析结果信息的原因信息表示的原因装置或原因部位和所述第二聚合对象解析结果信息的原因信息表示的原因装置或原因部位相同,所述聚合后的确信度是表示可靠度较高的、所述第一聚合对象解析结果信息的确信度或所述第二聚合对象解析结果信息的确信度的某一个。
另外,说明了设为所述聚合对象的多个解析结果信息包含第一聚合对象解析结果信息和第二聚合对象解析结果信息,所述第一聚合对象解析结果信息的一个以上的状态条件和所述第二聚合对象解析结果信息的一个以上的状态条件包含共同的状态条件、以及关于共同的信息处理装置或共同的部位设为条件的状态不同的差异条件,在所述第一聚合对象解析结果信息的一个以上的已检测状态满足所述第一聚合对象解析结果信息的一个以上的状态条件的至少一个差异条件时,所述聚合后的确信度是所述第一聚合对象解析结果信息的确信度,所述聚合后的原因信息是基于所述第一聚合对象解析结果信息的原因信息的显示信息,在所述第二聚合对象解析结果信息的一个以上的已检测状态满足所述第二聚合对象解析结果信息的一个以上的状态条件的至少一个差异条件时,所述聚合后的确信度是所述第二聚合对象解析结果信息的确信度,所述聚合后的原因信息是基于所述第二聚合对象解析结果信息的原因信息的显示信息。
另外,说明了设为所述聚合对象的多个解析结果信息包含第一聚合对象解析结果信息和第二聚合对象解析结果信息,所述第一聚合对象解析结果信息的一个以上的状态条件和所述第二聚合对象解析结果信息的一个以上的状态条件包含共同的状态条件、以及关于共同的信息处理装置或共同的部位设为条件的状态不同的差异条件,在所述第一聚合对象解析结果信息的一个以上的已检测状态以及所述第一聚合对象解析结果信息的一个以上的已检测状态不满足在所述差异条件中包含的所述第一聚合对象解析结果信息的一个以上的状态条件或在所述差异条件中包含的所述第一聚合对象解析结果信息的一个以上的状态条件时,所述聚合后的确信度是所述第一聚合对象解析结果信息的确信度与所述第一聚合对象解析结果信息的确信度之和,所述聚合后的原因信息是基于所述第一聚合对象解析结果信息的原因信息和所述第一聚合对象解析结果信息的原因信息的显示信息。
另外,说明了设为所述聚合对象的多个解析结果信息包含第一聚合对象解析结果信息和第二聚合对象解析结果信息,所述第一聚合对象解析结果信息的一个以上的状态条件由所述第二聚合对象解析结果信息的一个以上的全部的状态条件和其他状态条件构成,在所述第一聚合对象解析结果信息的一个以上的已检测状态满足所述其他状态条件时,所述聚合后的确信度是所述第一聚合对象解析结果信息的确信度,所述聚合后的原因信息是基于所述第一聚合对象解析结果信息的原因信息的显示信息,在所述第一聚合对象解析结果信息的一个以上的已检测状态不满足所述其它状态条件的任意一个时,所述聚合后的确信度是所述第二聚合对象解析结果信息的确信度,所述聚合后的原因信息是基于所述第二聚合对象解析结果信息的原因信息的显示信息。
此外,说明了所述显示器装置在显示所述第二聚合对象解析结果信息的原因信息时,显示所述聚合后的确信度作为对应的确信度。
但是,还关于这些以外的事项公开了本实施例。
符号说明
1管理服务器
10存储器
11处理器
13网络I/F

Claims (14)

1.一种管理系统,管理多个信息处理装置,其特征在于,
所述管理系统具有:
网络接口,其从所述信息处理装置接收管理信息;
处理器,其根据所述管理信息判断所述信息处理装置的状态;
存储器,其存储所述信息处理装置的状态和用于确定引起所述状态发生的信息处理装置即原因装置或引起所述状态发生的该原因装置的部位即原因部位的多个解析规则信息;以及
显示装置,其显示所述信息处理装置的状态,
所述存储器存储多个解析结果信息,该解析结果信息是包含表示所述原因装置或原因部位的原因的原因信息、用于通过充分条件确定所述原因装置或原因部位的与所述信息处理装置有关的一个以上的状态条件、表示所述原因信息的可靠度的确信度、以及满足所述一个以上的状态条件中的一部分或者全部的一个以上的已检测状态,根据所述解析规则信息而生成的解析结果信息,
所述处理器根据所述解析结果信息中包含的所述原因信息或所述一个以上的状态条件或所述一个以上的已检测状态,从多个所述解析结果信息中选择设为聚合对象的多个解析结果信息,
所述处理器根据设为所述聚合对象的多个解析结果信息中包含的所述原因信息,生成聚合后的原因信息,
所述处理器根据设为所述聚合对象的多个解析结果信息中包含的所述确信度,计算聚合后的确信度,
所述显示装置显示所述聚合后的原因信息和所述聚合后的确信度。
2.根据权利要求1所述的管理系统,其特征在于,
所述信息处理装置的状态是作为所述信息处理装置的逻辑或物理上的构成物的部位的状态或所述信息处理装置的作为装置的状态,
所述原因信息是与所述部位有关的信息或所述信息处理装置的作为装置的信息。
3.根据权利要求2所述的管理系统,其特征在于,
设为所述聚合对象的多个解析结果信息包含第一聚合对象解析结果信息和第二聚合对象解析结果信息,
所述第一聚合对象解析结果信息的原因信息表示的原因装置或原因部位与所述第二聚合对象解析结果信息的原因信息表示的原因装置或原因部位相同,
所述聚合后的确信度是表示可靠度更高的所述第一聚合对象解析结果信息的确信度或所述第二聚合对象解析结果信息的确信度的某一方。
4.根据权利要求2所述的管理系统,其特征在于,
设为所述聚合对象的多个解析结果信息包含第一聚合对象解析结果信息和第二聚合对象解析结果信息,
所述第一聚合对象解析结果信息的一个以上的状态条件和所述第二聚合对象解析结果信息的一个以上的状态条件包含共同的状态条件、以及关于共同的信息处理装置或共同的部位设为条件的状态不同的差异条件,
在所述第一聚合对象解析结果信息的一个以上的已检测状态满足所述第一聚合对象解析结果信息的一个以上的状态条件的至少一个差异条件时,所述聚合后的确信度是所述第一聚合对象解析结果信息的确信度,所述聚合后的原因信息是基于所述第一聚合对象解析结果信息的原因信息的显示信息,
在所述第二聚合对象解析结果信息的一个以上的已检测状态满足所述第二聚合对象解析结果信息的一个以上的状态条件的至少一个差异条件时,所述聚合后的确信度是所述第二聚合对象解析结果信息的确信度,所述聚合后的原因信息是基于所述第二聚合对象解析结果信息的原因信息的显示信息。
5.根据权利要求2所述的管理系统,其特征在于,
设为所述聚合对象的多个解析结果信息包含第一聚合对象解析结果信息和第二聚合对象解析结果信息,
所述第一聚合对象解析结果信息的一个以上的状态条件和所述第二聚合对象解析结果信息的一个以上的状态条件包含共同的状态条件以及关于共同的信息处理装置或共同的部位设为条件的状态不同的差异条件,
在所述第一聚合对象解析结果信息的一个以上的已检测状态以及所述第二聚合对象解析结果信息的一个以上的已检测状态不满足在所述差异条件中包含的所述第一聚合对象解析结果信息的一个以上的状态条件或在所述差异条件中包含的所述第二聚合对象解析结果信息的一个以上的状态条件时,所述聚合后的确信度是所述第一聚合对象解析结果信息的确信度与所述第二聚合对象解析结果信息的确信度之和,所述聚合后的原因信息是基于所述第一聚合对象解析结果信息的原因信息和所述第二聚合对象解析结果信息的原因信息的显示信息。
6.根据权利要求2所述的管理系统,其特征在于,
设为所述聚合对象的多个解析结果信息包含第一聚合对象解析结果信息和第二聚合对象解析结果信息,
所述第一聚合对象解析结果信息的一个以上的状态条件由所述第二聚合对象解析结果信息的一个以上的全部的状态条件和其他状态条件构成,
在所述第一聚合对象解析结果信息的一个以上的已检测状态满足所述其他状态条件时,所述聚合后的确信度是所述第一聚合对象解析结果信息的确信度,所述聚合后的原因信息是基于所述第一聚合对象解析结果信息的原因信息的显示信息,
在所述第一聚合对象解析结果信息的一个以上的已检测状态不满足任何一个所述其他状态条件时,所述聚合后的确信度是所述第二聚合对象解析结果信息的确信度,所述聚合后的原因信息是基于所述第二聚合对象解析结果信息的原因信息的显示信息。
7.根据权利要求4所述的管理系统,其特征在于,
所述显示装置,在显示所述第二聚合对象解析结果信息的原因信息时,作为对应的确信度而显示所述聚合后的确信度。
8.一种管理方法,其是管理多个信息处理装置的管理系统的管理方法,其特征在于,
从所述信息处理装置接收管理信息,
根据所述管理信息判断所述信息处理装置的状态,
在所述管理系统具有的存储器中存储所述信息处理装置的状态,
在存储器中存储用于确定引起所述状态发生的信息处理装置即原因装置或引起所述状态发生的该原因装置的部位即原因部位的多个解析规则信息,
根据所述解析规则信息生成多个解析结果信息,该解析结果信息包含表示所述原因装置或原因部位的原因的原因信息、用于通过充分条件确定所述原因装置或原因部位的与所述信息处理装置有关的一个以上的状态条件、表示所述原因信息的可靠度的确信度、以及满足所述一个以上的状态条件中的一部分或者全部的一个以上的已检测状态,
根据所述解析结果信息中包含的所述原因信息或所述一个以上的状态条件或所述一个以上的已检测状态,从多个所述解析结果信息中选择设为聚合对象的多个解析结果信息,
根据设为所述聚合对象的多个解析结果信息中包含的所述原因信息,生成聚合后的原因信息,
根据设为所述聚合对象的多个解析结果信息中包含的所述确信度,计算聚合后的确信度,
显示所述聚合后的原因信息和所述聚合后的确信度。
9.根据权利要求8所述的管理方法,其特征在于,
所述信息处理装置的状态是作为所述信息处理装置的逻辑或物理上的构成物的部位的状态或所述信息处理装置的作为装置的状态,
所述原因信息是与所述部位有关的信息或所述信息处理装置的作为装置的信息。
10.根据权利要求9所述的管理方法,其特征在于,
设为所述聚合对象的多个解析结果信息包含第一聚合对象解析结果信息和第二聚合对象解析结果信息,
所述第一聚合对象解析结果信息的原因信息表示的原因装置或原因部位与所述第二聚合对象解析结果信息的原因信息表示的原因装置或原因部位相同,
所述聚合后的确信度是表示可靠度更高的所述第一聚合对象解析结果信息的确信度或所述第二聚合对象解析结果信息的确信度的某一方。
11.根据权利要求9所述的管理方法,其特征在于,
设为所述聚合对象的多个解析结果信息包含第一聚合对象解析结果信息和第二聚合对象解析结果信息,
所述第一聚合对象解析结果信息的一个以上的状态条件和所述第二聚合对象解析结果信息的一个以上的状态条件包含共同的状态条件、以及关于共同的信息处理装置或共同的部位设为条件的状态不同的差异条件,
在所述第一聚合对象解析结果信息的一个以上的已检测状态满足所述第一聚合对象解析结果信息的一个以上的状态条件的至少一个差异条件时,所述聚合后的确信度是所述第一聚合对象解析结果信息的确信度,所述聚合后的原因信息是基于所述第一聚合对象解析结果信息的原因信息的显示信息,
在所述第二聚合对象解析结果信息的一个以上的已检测状态满足所述第二聚合对象解析结果信息的一个以上的状态条件的至少一个差异条件时,所述聚合后的确信度是所述第二聚合对象解析结果信息的确信度,所述聚合后的原因信息是基于所述第二聚合对象解析结果信息的原因信息的显示信息。
12.根据权利要求9所述的管理方法,其特征在于,
设为所述聚合对象的多个解析结果信息包含第一聚合对象解析结果信息和第二聚合对象解析结果信息,
所述第一聚合对象解析结果信息的一个以上的状态条件和所述第二聚合对象解析结果信息的一个以上的状态条件包含共同的状态条件以及关于共同的信息处理装置或共同的部位设为条件的状态不同的差异条件,
在所述第一聚合对象解析结果信息的一个以上的已检测状态以及所述第二聚合对象解析结果信息的一个以上的已检测状态不满足在所述差异条件中包含的所述第一聚合对象解析结果信息的一个以上的状态条件或在所述差异条件中包含的所述第二聚合对象解析结果信息的一个以上的状态条件时,所述聚合后的确信度是所述第一聚合对象解析结果信息的确信度与所述第二聚合对象解析结果信息的确信度之和,所述聚合后的原因信息是基于所述第一聚合对象解析结果信息的原因信息和所述第二聚合对象解析结果信息的原因信息的显示信息。
13.根据权利要求9所述的管理方法,其特征在于,
设为所述聚合对象的多个解析结果信息包含第一聚合对象解析结果信息和第二聚合对象解析结果信息,
所述第一聚合对象解析结果信息的一个以上的状态条件由所述第二聚合对象解析结果信息的一个以上的全部的状态条件和其他状态条件构成,
在所述第一聚合对象解析结果信息的一个以上的已检测状态满足所述其他状态条件时,所述聚合后的确信度是所述第一聚合对象解析结果信息的确信度,所述聚合后的原因信息是基于所述第一聚合对象解析结果信息的原因信息的显示信息,
在所述第一聚合对象解析结果信息的一个以上的已检测状态不满足任何一个所述其他状态条件时,所述聚合后的确信度是所述第二聚合对象解析结果信息的确信度,所述聚合后的原因信息是基于所述第二聚合对象解析结果信息的原因信息的显示信息。
14.根据权利要求11所述的管理方法,其特征在于,
在显示所述第二聚合对象解析结果信息的原因信息时,作为对应的确信度而显示所述聚合后的确信度。
CN200980159268.7A 2009-09-30 2009-10-22 故障的根本原因解析结果显示方法、装置以及系统 Expired - Fee Related CN102428447B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009-225859 2009-09-30
JP2009225859A JP5542398B2 (ja) 2009-09-30 2009-09-30 障害の根本原因解析結果表示方法、装置、及びシステム
PCT/JP2009/005560 WO2011039825A1 (ja) 2009-09-30 2009-10-22 障害の根本原因解析結果表示方法、装置、及びシステム

Publications (2)

Publication Number Publication Date
CN102428447A CN102428447A (zh) 2012-04-25
CN102428447B true CN102428447B (zh) 2015-03-18

Family

ID=43825682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980159268.7A Expired - Fee Related CN102428447B (zh) 2009-09-30 2009-10-22 故障的根本原因解析结果显示方法、装置以及系统

Country Status (5)

Country Link
US (1) US8423826B2 (zh)
EP (1) EP2485148A4 (zh)
JP (1) JP5542398B2 (zh)
CN (1) CN102428447B (zh)
WO (1) WO2011039825A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8156387B2 (en) * 2003-12-19 2012-04-10 Pitney Bowes Inc. Method and system for error manipulation
US8112378B2 (en) 2008-06-17 2012-02-07 Hitachi, Ltd. Methods and systems for performing root cause analysis
US8429455B2 (en) * 2010-07-16 2013-04-23 Hitachi, Ltd. Computer system management method and management system
JP5165132B1 (ja) * 2012-05-31 2013-03-21 株式会社 ディー・エヌ・エー ゲーム管理サーバ装置、ゲーム管理サーバ装置用プログラム、および、端末装置用プログラム
WO2014013603A1 (ja) 2012-07-20 2014-01-23 株式会社日立製作所 監視システム及び監視プログラム
CN104854820B (zh) * 2012-12-12 2018-06-15 三菱电机株式会社 监视控制装置和监视控制方法
US20140282426A1 (en) * 2013-03-12 2014-09-18 Microsoft Corporation Divide and conquer approach to scenario timeline activity attribution
CN103440174B (zh) * 2013-08-02 2016-05-25 杭州华为数字技术有限公司 一种错误信息处理方法、装置及应用该装置的电子设备
US9244808B2 (en) * 2013-09-27 2016-01-26 International Business Machines Corporation Pattern oriented data collection and analysis
JP6413537B2 (ja) 2013-10-23 2018-10-31 富士通株式会社 障害予兆通報装置および予兆通報方法、予兆通報プログラム
GB2536317A (en) * 2013-11-29 2016-09-14 Hitachi Ltd Management system and method for assisting event root cause analysis
US10437510B2 (en) * 2015-02-03 2019-10-08 Netapp Inc. Monitoring storage cluster elements
US20170147931A1 (en) * 2015-11-24 2017-05-25 Hitachi, Ltd. Method and system for verifying rules of a root cause analysis system in cloud environment
JP6838234B2 (ja) * 2017-03-24 2021-03-03 日立Astemo株式会社 車両制御装置
EP3605415A4 (en) * 2017-03-29 2020-11-04 Kyocera Corporation PLANT MANAGEMENT PROCEDURE, PLANT MANAGEMENT DEVICE AND PLANT MANAGEMENT SYSTEM
CN110502404B (zh) * 2019-07-22 2022-05-31 平安科技(深圳)有限公司 一种基于数据治理平台的预警处理方法及相关设备

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05114899A (ja) * 1991-10-22 1993-05-07 Hitachi Ltd ネツトワーク障害診断方式
US5528516A (en) 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
US5539877A (en) * 1994-06-27 1996-07-23 International Business Machine Corporation Problem determination method for local area network systems
JPH09160849A (ja) * 1995-12-04 1997-06-20 Nippon Telegr & Teleph Corp <Ntt> 自律エージェント制御による通信ネットワーク障害管理システム
US5737520A (en) * 1996-09-03 1998-04-07 Hewlett-Packard Co. Method and apparatus for correlating logic analyzer state capture data with associated application data structures
US7043661B2 (en) * 2000-10-19 2006-05-09 Tti-Team Telecom International Ltd. Topology-based reasoning apparatus for root-cause analysis of network faults
US6738933B2 (en) * 2001-05-09 2004-05-18 Mercury Interactive Corporation Root cause analysis of server system performance degradations
CA2453127A1 (en) * 2001-07-06 2003-01-16 Computer Associates Think, Inc. Method and system for correlating and determining root causes of system and enterprise events
JP2003333084A (ja) * 2002-05-09 2003-11-21 Matsushita Electric Ind Co Ltd パケットフィルタリングルール設定方法
CN100456687C (zh) * 2003-09-29 2009-01-28 华为技术有限公司 网络故障实时相关性分析方法及系统
US7552447B2 (en) * 2004-05-26 2009-06-23 International Business Machines Corporation System and method for using root cause analysis to generate a representation of resource dependencies
US7203624B2 (en) * 2004-11-23 2007-04-10 Dba Infopower, Inc. Real-time database performance and availability change root cause analysis method and system
JP4239989B2 (ja) * 2005-03-07 2009-03-18 日本電気株式会社 障害復旧システム、障害復旧装置、ルール作成方法、および障害復旧プログラム
US7406271B2 (en) * 2005-05-24 2008-07-29 Xerox Corporation Contextual fault handling method and apparatus in a printing system
JP4527642B2 (ja) * 2005-09-29 2010-08-18 富士通株式会社 ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム
JP4873985B2 (ja) * 2006-04-24 2012-02-08 三菱電機株式会社 設備機器用故障診断装置
JP5459608B2 (ja) * 2007-06-06 2014-04-02 日本電気株式会社 通信網の障害原因分析システムと障害原因分析方法、及び障害原因分析用プログラム
US8369227B2 (en) * 2009-03-24 2013-02-05 Hitachi, Ltd. Management system and information processing system
US20110145269A1 (en) * 2009-12-09 2011-06-16 Renew Data Corp. System and method for quickly determining a subset of irrelevant data from large data content
US20110314138A1 (en) * 2010-06-21 2011-12-22 Hitachi, Ltd. Method and apparatus for cause analysis configuration change

Also Published As

Publication number Publication date
CN102428447A (zh) 2012-04-25
EP2485148A4 (en) 2017-06-21
JP2011076293A (ja) 2011-04-14
EP2485148A1 (en) 2012-08-08
JP5542398B2 (ja) 2014-07-09
WO2011039825A1 (ja) 2011-04-07
US8423826B2 (en) 2013-04-16
US20110209010A1 (en) 2011-08-25

Similar Documents

Publication Publication Date Title
CN102428447B (zh) 故障的根本原因解析结果显示方法、装置以及系统
US8667096B2 (en) Automatically generating system restoration order for network recovery
US8990368B2 (en) Discovery of network software relationships
US9049105B1 (en) Systems and methods for tracking and managing event records associated with network incidents
CN100417081C (zh) 检查和修复网络配置的方法和系统
CN111934922B (zh) 一种网络拓扑的构建方法、装置、设备、存储介质
CN103812699A (zh) 基于云计算的监控管理系统
CN104583968A (zh) 管理系统及管理程序
US10567232B2 (en) System and method for mapping a connectivity state of a network
US20170230254A1 (en) Systems and methods for configuring a probe server network using a reliability model
US11799888B2 (en) Automatic identification of roles and connection anomalies
US20200073781A1 (en) Systems and methods of injecting fault tree analysis data into distributed tracing visualizations
CN105531680A (zh) 远程监视系统、远程监视方法以及程序
CN105721498A (zh) 一种工控网络安全预警系统
CN109088773A (zh) 故障自愈方法、装置、服务器及存储介质
CN103095821A (zh) 一种基于虚拟机迁移识别的持续审计系统
CN105354102B (zh) 一种文件系统维护和修复的方法和装置
CN110291505A (zh) 减少应用的恢复时间
US20220021696A1 (en) Minimizing Production Disruption Through A Scan Rule Engine
JP6555721B2 (ja) 障害復旧システム及び方法
WO2020264319A1 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
Kolosok et al. Cyber resilience of SCADA at the level of energy facilities
CN112150306B (zh) 一种电力数据网络安全测试方法及设备
KR101636141B1 (ko) 전력설비 고유번호 관리 장치 및 방법
Bagehorn et al. A fault injection platform for learning AIOps models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150318

Termination date: 20181022