CN1472649A - 信息处理设备 - Google Patents

信息处理设备 Download PDF

Info

Publication number
CN1472649A
CN1472649A CNA031453619A CN03145361A CN1472649A CN 1472649 A CN1472649 A CN 1472649A CN A031453619 A CNA031453619 A CN A031453619A CN 03145361 A CN03145361 A CN 03145361A CN 1472649 A CN1472649 A CN 1472649A
Authority
CN
China
Prior art keywords
memory
state
computer
messaging device
during
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA031453619A
Other languages
English (en)
Other versions
CN1269039C (zh
Inventor
��Ұï��
爱野茂幸
山崎茂雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN1472649A publication Critical patent/CN1472649A/zh
Application granted granted Critical
Publication of CN1269039C publication Critical patent/CN1269039C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1666Error detection or correction of the data by redundancy in hardware where the redundant component is memory or memory area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements

Abstract

本发明的信息处理设备包括第一和第二计算机单元,实质上同时执行相同的指令,而且实质上相互同步。第一计算机单元包括第一和第二存储器单元,在第一状态期间,分别由第一和第二计算机单元对第一和第二存储器单元进行写操作。所述信息处理设备具有控制单元,在第二状态期间,使第一计算机单元从第二存储器单元进行读取。另一信息处理设备具有第一和第二计算机单元及设置在第一计算机单元中的第一和第二存储器区域。在第一状态期间,分别由第一和第二计算机单元对第一和第二存储器区域进行写操作。在第二状态期间,控制单元使第一计算机单元从第二存储器区域进行读取。

Description

信息处理设备
技术领域
本发明涉及一种诸如步伐一致容错计算机(lockstep fault tolerantcomputer)之类的信息处理设备,此设备在多个时钟同步的计算机模块中同时处理相同的指令,以及更具体地涉及一种信息处理设备,此信息处理设备迅速同步已经与其他计算机模块不同步并被隔离在操作之外的计算机模块与其他计算机模块。
背景技术
传统的步伐一致容错计算机具有同时执行相同指令的多个计算机模块。在容错计算机中,由于故障或一些其他原因,这些计算机模块之一可能与其他计算机模块有差别地进行操作。当检测到与其他计算机模块有差别地进行操作的计算机模块时,换句话说,在找到失去一致同步的计算机模块时,步伐一致容错计算机就使检测到的计算机模块停止操作。
使计算机模块失去一致同步的原因多种多样。失去一致同步的计算机模块所采取的反应过程依赖于原因。使计算机拾取一致同步的原因之一可以是计算机模块内发生的永久性故障。永久性故障并不是计算机自身能恢复的暂时干扰或故障,而是需要修理的故障。通常将其中发生了永久性故障的计算机模块从步伐一致容错计算机中取出,代替此模块,安装另一正常的计算机模块。
使计算机模块失去一致同步的另一潜在原因可能是由于计算机模块制造的多样性,操作定时暂时与其他计算机模块不同步的同步的缺失。另一潜在原因可能是由于如α射线等影响,引起计算机模块中的存储器的暂时性错误动作。在这些并不引起永久性故障的如同步的缺失或暂时性错误动作等原因中,并不需要更换计算机模块。
如果发生了永久性故障,更换有故障的计算机模块,而将更换了的计算机模块加入到其他计算机模块中,并与其他计算机模块同步。如果不存在永久性故障,此计算机模块重新加入其他计算机模块中,并与其他计算机模块重新同步。使断开的计算机模块重新加入其他计算机模块的操作是重新同步。当传统的步伐一致容错计算机重新同步失去一致同步的计算机模块时,传统的步伐一致容错计算机将处于一致同步的另一计算机模块的存储器复制到要重新加入的计算机的存储器。之后,重新加入的计算机模块执行与其他计算机模块相同的操作。
在加入或重新加入计算模块时,传统的步伐一致容错计算机强制全部计算模块停止,并从处于一致同步的另一计算机模块复制加入或重新加入的计算机模块的存储器的全部内容。这使全部计算模块能够具有完全相同的内部状态。传统的步伐一致容错计算机被强制停止很长时间来加入或重新加入计算机模块。这是因为复制计算机模块中的存储器的全部内容需要很长时间。特别地,随着计算机模块中存储器大小的增加,复制计算机模块中的存储器的全部内容的时间也增加。
发明内容
本发明的一个目的是提供一种改进了可用性的信息处理设备。
本发明的另一目的是提供一种在检测到故障之后快速重新开始操作的信息处理设备。
按照本发明的一个方面,提供了一种信息处理设备,它包括:第一和第二计算机单元,实质上同时执行相同的指令,而且实质上相互同步;第一存储器单元,设置在第一计算机单元中,而且在第一状态期间,由第一计算机单元进行读和写;第二存储器单元,设置在第一计算机单元中,而且在第一状态期间,由第二计算机单元进行写操作;以及控制单元,在第二状态期间,使第一计算机单元从第二存储器单元进行读取。
按照本发明的另一方面,提供了一种信息处理设备,它包括:第一和第二计算机单元,实质上同时执行相同的指令,而且实质上相互同步;第一存储器区域,设置在第一计算机单元中,而且在第一状态期间,由第一计算机单元进行读和写;第二存储器区域,设置在第一计算机单元中,而且在第一状态期间,由第二计算机单元进行写操作;以及控制单元,在第二状态期间,使第一计算机单元从第二存储器区域进行读取。
附图说明
通过下面详细描述和附图,将使本发明的其他特征和优点将变得更加清楚,其中:
图1是本发明实施例的方框图;
图2是本发明实施例中的存储器控制器的方框图;
图3是示出了在正常处理期间,响应读访问请求的计算机模块操作的示意图;
图4是示出了在正常处理期间,响应写访问请求的计算机模块操作的示意图;
图5是示出了在重新加入处理期间,响应读访问请求的计算机模块操作的示意图;
图6是示出了在重新加入处理期间,响应写访问请求的计算机模块操作的示意图;以及
图7是示出了在重新加入处理期间,计算机模块的存储器复制操作的示意图。
在附图中,相同的参考数字代表相同的结构性单元。
具体实施方式
如在背景技术中所描述的那样,使计算机模块失去一致同步的原因是永久性故障或非永久性故障。在容错计算机中,必须更换其中发生了永久性故障的计算机模块。另一方面,如果由于非永久性故障使计算机模块失去一致同步,通常不进行更换,而是没有任何改变地重新加入。即,在相当多的情况下,失去一致同步的计算机模块重新加入容错计算机。
本发明的目的是减少在将失去一致同步的计算机模块不进行更换地重新加入时,步伐一致容错计算机不能工作的时间。
下面将详细描述本发明的实施例。
参照图1,信息处理设备包括计算机模块300和301。在本实施例中,信息处理设备是步伐一致容错计算机。计算机模块300和301具有相同或等价的配置或结构。计算机模块300包括处理器101和102、存储器111和112及存储器控制器121。处理器101和102具有相同的配置并共享总线200。存储器控制器121与处理器101和102的总线200相连。存储器111和存储器112具有相同的配置。存储器111通过信号线201与存储器控制121相连。存储器112通过信号线203与存储器控制器121相连。
与计算机模块300一样,计算机模块301包括处理器103和104、存储器113和114及存储器控制器122。处理器103和104与计算机模块300的处理器101和102相同。存储器控制器122与计算机模块300的存储器控制器121相同。存储器113和114与计算机模块300的存储器111和112相同。
计算机模块300的存储器控制器121和计算机模块301的存储器控制器122通过信号线202和205相连。
接下来,下面将以计算机模块300作为示例,详细描述本发明的第一
实施例。
处理器101和102执行由步伐一致容错计算机指示的指令。由处理器101和102进行的指令执行过程实质上与由基于相同或实质上相同的时钟信号的计算机模块301的处理器103和104所进行的指令执行过程同步,而且处理器101和102与计算机模块301的处理器103和104实质上同时执行相同或实质上相同的指令。为所有计算机模块100、200和300共同提供时钟信号源,或者分别为计算机模块100、200和300提供同步的时钟信号源。即,计算机模块300和301“一致”同步地执行指令,其中每个计算机模块300和301实质上同步地执行实质上相同的指令流。在指令执行期间,处理器101和102将数据写入存储器或从存储器读取数据。
存储器控制器121在来自处理器101的存储器访问请求、来自处理器102的存储器访问请求和通过信号线205接收到的来自计算机模块301的存储器访问请求之间切换,并向适当的存储器111和112发送这些请求。此外,存储器控制器121从存储器111或112接收对存储器访问请求的响应,并向处理器101和102发送此响应。当请求是写访问请求或读访问请求时,从处理器101或102向存储器111和112之一或全部发送请求。写访问请求包括写数据。当请求是读访问请求时,从存储器向处理器发送响应。该响应包括读数据。
参照图2,存储器控制器121包括开关电路400、401、402和403及直接存储器存取(DMA)电路404。开关电路400将信号线207连接到信号线206,并在从存储器111和112之一接收到响应时,向信号线206发送响应。信号线206是总线200之一或等同于总线200,而且向处理器101和102发送此响应。当从处理器101和102向存储器之一或全部发送请求时,开关电路400将信号线206连接到信号线202。开关电路400从信号线202和207中选择一条信号线,并将其连接到信号线206。
当在重新加入处理期间,从存储器112接收到响应时,开关电路401将信号线203连接到信号线207,以选择从存储器112接收到的响应。当在正常处理期间,从存储器111接收到响应时,开关电路401将信号线201连接到信号线207,以选择从存储器111接收到的响应。术语“正常处理”是其中计算机模块300与另一计算机模块301同步操作的状态。术语“在重新加入处理期间”是其中仍未完成由计算机模块300开始的重新加入处理的状态。
开关电路402从信号线202和203中选择一条信号线,并将其连接到信号线201。无论何时通过信号线202从处理器101和102接收请求,开关电路402都将信号线202连接到信号线201,以向存储器111发送请求。当在重新加入处理期间,通过信号线203、在DMA传送(复制)模式下接收写访问请求时,开关电路402将信号线203连接到信号线201,以向存储器111发送请求。
开关电路403选择信号线202、205和208之一,并将其连接到信号线203。当在重新加入处理期间,通过信号线202接收请求时,开关电路403将信号线202连接到信号线203,以向存储器112发送请求。当在正常处理期间,通过信号线205从计算机模块301接收请求时,开关电路403将信号线205连接到信号线203,以向存储器112发送请求。当正在执行重新加入处理,而且从信号线202未收到任何请求时,开关电路403将信号线208连接到信号线203,以在DMA传送(复制)中,从DMA电路404向存储器112发送读访问请求。
当正在执行重新加入处理,而且从信号线202未收到任何请求时,DMA电路404在DMA传送(复制)中通过信号线208从存储器112向存储器111传送数据。在DMA传送期间,DMA电路404从存储器112中的全部存储器区域顺序读取数据,并将数据写入存储器111中。如果在DMA传送期间,通过信号线202从处理器101和102向存储器111和112发送请求,DMA电路404挂起DMA传送。
接下来,将详细描述在正常处理期间,本实施例中步伐一致容错计算机的操作。在正常操作期间,所有计算机模块300和301执行相同或实质上相同的操作。
首先,将描述在正常处理期间,响应读访问请求的操作。
参照图3,通过信号线206,即总线200向开关电路400发送来自处理器101和102的读访问请求。通过开关电路400的路由,向信号线202发送来自信号线206的请求。通过信号线202向计算机模块301发送此请求。此请求到达存储器114,但计算机模块301中的开关电路停止来自存储器114的响应。通过信号线202也向开关电路403发送此请求,但就停止于此而不到达存储器112,因为开关电路403未连接信号线202和信号线203。同样,通过信号线202向开关电路402发送此请求。通过开关电路402的路由,向信号线201发送此请求,并到达存储器111。此请求也通过信号线201到达开关电路401,但就停止于此,因为开关电路401未连接信号线201和信号线207。
通过信号线201向开关电路401发送包括响应来自处理器101和102的请求、从存储器111读取的数据的响应。通过开关电路401的路由,向信号线207发送来自存储器111的响应,并到达开关电路400。通过开关电路400的路由,向信号线206发送包括读取的数据的响应,并到达处理器101和102。如图3所示,以这种方式,在正常处理期间,从存储器111读取数据。
接下来,将描述在正常处理期间,响应写访问请求的操作。
在图4中,通过信号线206,即总线200向开关电路400发送来自处理器101和102的写访问请求。通过开关电路400的路由,向信号线202发送来自信号线206的请求。通过信号线202向计算机模块301发送此请求。此请求到达计算机模块301的存储器114。然后,将数据写入存储器114中。通过信号线202也向开关电路403发送此请求,但就停止于此而不到达存储器112,因为开关电路403未连接信号线202和信号线203。同样,通过信号线202向开关电路402发送此请求。通过开关电路402的路由,向信号线201发送此请求,并到达存储器111。然后,将数据写入存储器111中。
如图4所示,以这种方式,在正常处理期间,将数据写入存储器111中。尽管未示出,处理器101和102通过信号线206、开关电路400和信号线202将相同的数据写入计算机模块301的存储器114中。此外,因为计算机模块301的处理器103和104执行与处理器101和102相同的操作,如图4所示,通过信号线205、开关电路403和信号线203,也将相同的数据写入存储器112中。
接下来,将描述从发现计算机模块失去一致同步时到完成重新加入处理时,包括重新加入处理期间,本实施例中的步伐一致容错计算机的操作。
当发现计算机模块失去一致同步时,步伐一致容错计算机就停止全部计算机模块300和301。然后,步伐一致容错计算机将此时正在处理器101、102、103和104中执行的处理的内容存储到存储器中。
随后,步伐一致容错计算机将存储在存储器中的处理的内容加载到所有计算机模块的处理器上。然后,未失去一致同步的计算机模块重新开始正常处理。失去一致同步的计算机模块开始重新加入处理。
接下来,将描述在重新加入处理期间,计算机模块的操作。假设计算机模块300是失去一致同步的计算机模块。
首先,下面将描述在重新加入处理期间,响应读访问请求的计算机模块的操作。
参照图5,通过信号线206,即总线200向开关电路400发送来自处理器101和102的读访问请求。通过开关电路400的路由,向信号线202发送来自信号线206的请求。通过信号线202向计算机模块301发送此请求。此请求到达存储器114,但计算机模块301中的开关电路停止来自存储器114的响应。同样,通过信号线202向开关电路402发送此请求。开关电路402将信号线202连接到信号线201。以及,此请求到达存储器111,但开关电路401停止来自存储器111的响应。通过信号线202也向开关电路403发送此请求。通过开关电路403的路由,向信号线203发送此请求,并到达存储器112。包括通过处理器101和102发出的请求从存储器112读取的数据的响应通过信号线203到达开关电路401。此响应也到达开关电路402,但就停止于此,因为开关电路402未将信号线203连接到信号线201。通过开关电路401的路由,向信号线207发送此响应,并到达开关电路400。通过开关电路400的路由,向信号线206发送包括从存储器112读取的数据的响应,并到达处理器101和102。如图5所示,以这种方式,在重新加入处理期间,从存储器112读取数据。
其次,下面将描述在重新加入处理期间,响应写访问请求的计算机模块的操作。
在图6中,通过信号线206,即总线200向开关电路400发送来自处理器101和102的写访问请求。通过开关电路400的路由,向信号线202发送来自信号线206的请求。通过信号线202向计算机模块301发送此请求。此请求到达计算机模块301的存储器114。然后,将数据写入存储器114中。同样,通过信号线202向开关电路402发送此请求。通过开关电路402的路由,向信号线201发送此请求,并到达存储器111。然后,将数据写入存储器111中。通过信号线202也向开关电路403发送此请求。通过开关电路403的路由,向信号线203发送此请求并到达存储器112。然后,将数据写入存储器112中。
如图6所示,以这种方式,在重新加入处理期间,将数据写入存储器111和112中。尽管在图中未示出,处理器101和102也将相同的数据写入计算机模块301的存储器114中。
再次,在重新加入处理期间,计算机模块利用DMA电路404,并行于上述从处理器101和102接收到的读访问请求或写访问请求的处理,复制存储器的内容。
图7是示出了在重新加入处理期间,由计算机模块执行的存储器复制操作的示意图。
当在重新加入处理期间,检测到从信号线202向存储器112未作出任何访问时,DMA电路404通过信号线208从存储器112的所有存储器区域向开关电路403顺序发送读请求。通过开关电路403的路由,向信号线203发送这些请求,并到达存储器112。然后从存储器112顺序读取数据。包括从存储器112读取的数据的响应到达开关电路401,但就停止于此,因为开关电路401未将信号线203连接到信号线207。同样,此请求作为存储器111的写访问请求到达开关电路402。通过开关电路402的路由,向信号线201发送这些请求,并到达存储器111。这样,将从存储器112读取的数据顺序写入存储器111中。以这种方式复制存储器的内容。
如果在上述存储器复制操作期间,从处理器101和102向存储器111和/或102发送请求,步伐一致容错计算机挂起存储器复制操作,并执行从处理器101和/或102接收到的请求。如果此请求是写访问请求,则将相同的数据写入存储器111和存储器112中。这样,不仅在执行存储器复制操作时,而且在从处理器101和102接收执行结果时,将相同的数据写入存储器111和112中。
当对于存储器,本实施例中,存储器12的全部存储器区域完成存储器复制操作时,步伐一致容错计算机将计算机模块300的状态改为正常状态。这样,由存储器复制操作和对于来自处理器101和102的执行操作分时共享存储器112,直到存储器复制操作完成。
如果不更换,则由因为非永久性故障而失去一致同步的计算机模块保持存储器111和112的内容。已经由未失去一致同步的计算机模块写入了存储器112的内容。因此,与未失去一致同步的计算机模块的存储器的内容一样,即使在已经失去一致同步的计算机模块300中,存储器112的内容一定是正常而有效的。
在本实施例中,当直接使失去一致同步的计算机模块回到操作中时,在重新加入处理期间的重新加入的计算机模块可以利用其中由另一计算机模块在正常处理期间写入数据的存储器112,立即开始执行指令。这使得重新加入的计算机模块能够立即开始与未失去一致同步的另一计算机模块相同的操作。此外,在重新加入处理期间的计算机模块并行于指令的执行,复制存储器。这消除了在存储器复制操作期间,停止步伐一致容错计算机的必要,而这种停止对于传统的计算机是必不可少的。因此,本发明的步伐一致容错计算机可以在短暂的停止时间之后,重新开始操作。
尽管本实施例中的步伐一致容错计算机具有其中提供了两个计算机模块300和301的结构,本发明并不局限于此结构。本发明可以应用于其中提供了多个计算机模块的结构。针对三个或更多的计算机模块,可以作为环来连接计算机模块的存储器控制器。如果计算机模块的数目是偶数,每两个模块可以形成一对,从而与本实施例的示例中一样,将成对的计算机模块的存储器控制器相互连接。
尽管上述实施例的计算机模块300具有两个存储器111和112,计算机模块可以具有这样的存储器,此存储器具有例如与存储器111相对应的第一存储器区域和例如与存储器112相对应的第二存储器区域。
在本实施例中,将步伐一致容错计算机用作示例。但是,本发明并不限制于步伐一致容错计算机。本发明可以应用于其中每个电路包含必须具有一致的内部状态的处理器和存储器的包括多个电路的装置。
尽管已经结合上述优选实施例描述了本发明,现在本领域的技术人员仍然能够以多种其他方式来实现本发明。

Claims (18)

1、一种信息处理设备,包括:
第一和第二计算机单元,实质上同时执行相同的指令,而且实质上相互同步;
第一存储器单元,设置在所述第一计算机单元中,而且在第一状态期间,由所述第一计算机单元进行读和写;
第二存储器单元,设置在所述第一计算机单元中,而且在第一状态期间,由所述第二计算机单元进行写操作;以及
控制单元,在第二状态期间,使所述第一计算机单元从所述第二存储器单元进行读取。
2、按照权利要求1所述的信息处理设备,其特征在于在第二状态期间,所述控制单元使所述第一计算机单元对所述第一和第二存储器单元进行写操作。
3、按照权利要求1所述的信息处理设备,其特征在于在第二状态期间,所述控制单元将所述第二存储器单元的内容复制到所述第一存储器单元。
4、按照权利要求1所述的信息处理设备,其特征在于在第二状态期间,所述控制单元并行于对所述第二存储器单元的读或写访问处理,将所述第二存储器单元的内容复制到所述第一存储器单元。
5、按照权利要求4所述的信息处理设备,其特征在于如果不出现访问,所述控制单元将所述第二存储器单元的内容复制到所述第一存储器单元。
6、按照权利要求1所述的信息处理设备,其特征在于所述第二状态是所述第一存储器单元具有不确定性的时候。
7、按照权利要求1所述的信息处理设备,其特征在于所述第二状态是对所述第一存储器单元进行更新的时候。
8、按照权利要求1所述的信息处理设备,其特征在于所述第二状态是将所述第一计算机单元重新加入所述第二计算机单元的时候。
9、按照权利要求1所述的信息处理设备,其特征在于所述第一计算机单元还包括至少一个处理器;以及
其中,在所述第二状态期间,响应读访问请求,所述控制单元创建从所述第二存储器单元到所述处理器的第一路由;响应写访问请求,所述控制单元创建从所述处理器到所述第二存储器单元的第二路由;以及如果不出现所述读访问请求和所述写访问请求,所述控制单元创建从所述第二存储器单元到所述第一存储器单元的第三路由。
10、一种信息处理设备,包括:
第一和第二计算机单元,实质上同时执行相同的指令,而且实质上相互同步;
第一存储器区域,设置在所述第一计算机单元中,而且在第一状态期间,由所述第一计算机单元进行读和写;
第二存储器区域,设置在所述第一计算机单元中,而且在第一状态期间,由所述第二计算机单元进行写操作;以及
控制单元,在第二状态期间,使所述第一计算机单元从所述第二存储器区域进行读取。
11、按照权利要求10所述的信息处理设备,其特征在于在第二状态期间,所述控制单元使所述第一计算机单元对所述第一和第二存储器区域进行写操作。
12、按照权利要求10所述的信息处理设备,其特征在于在第二状态期间,所述控制单元将所述第二存储器区域的内容复制到所述第一存储器区域。
13、按照权利要求10所述的信息处理设备,其特征在于在第二状态期间,所述控制单元并行于对所述第二存储器区域的读或写访问处理,将所述第二存储器区域的内容复制到所述第一存储器区域。
14、按照权利要求13所述的信息处理设备,其特征在于如果不出现访问,所述控制单元将所述第二存储器区域的内容复制到所述第一存储器区域。
15、按照权利要求10所述的信息处理设备,其特征在于所述第二状态是所述第一存储器区域具有不确定性的时候。
16、按照权利要求10所述的信息处理设备,其特征在于所述第二状态是对所述第一存储器区域进行更新的时候。
17、按照权利要求10所述的信息处理设备,其特征在于所述第二状态是将所述第一计算机单元重新加入所述第二计算机单元的时候。
18、按照权利要求10所述的信息处理设备,其特征在于所述第一计算机单元还包括至少一个处理器;以及
其中,在所述第二状态期间,响应读访问请求,所述控制单元创建从所述第二存储器区域到所述处理器的第一路由;响应写访问请求,所述控制单元创建从所述处理器到所述第二存储器区域的第二路由;以及如果不出现所述读访问请求和所述写访问请求,所述控制单元创建从所述第二存储器区域到所述第一存储器区域的第三路由。
CNB031453619A 2002-07-11 2003-07-08 信息处理设备 Expired - Fee Related CN1269039C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP202558/2002 2002-07-11
JP2002202558A JP3774826B2 (ja) 2002-07-11 2002-07-11 情報処理装置

Publications (2)

Publication Number Publication Date
CN1472649A true CN1472649A (zh) 2004-02-04
CN1269039C CN1269039C (zh) 2006-08-09

Family

ID=29728500

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031453619A Expired - Fee Related CN1269039C (zh) 2002-07-11 2003-07-08 信息处理设备

Country Status (10)

Country Link
US (1) US7418626B2 (zh)
EP (1) EP1380951B1 (zh)
JP (1) JP3774826B2 (zh)
KR (1) KR100583214B1 (zh)
CN (1) CN1269039C (zh)
AU (1) AU2003212014A1 (zh)
CA (1) CA2434292C (zh)
DE (1) DE60300233T2 (zh)
ES (1) ES2231750T3 (zh)
TW (1) TWI224256B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9213609B2 (en) * 2003-12-16 2015-12-15 Hewlett-Packard Development Company, L.P. Persistent memory device for backup process checkpoint states
US20050216552A1 (en) * 2004-03-24 2005-09-29 Samuel Fineberg Communication-link-attached persistent memory system
DE102004036261A1 (de) * 2004-07-26 2006-03-23 Siemens Ag Verfahren und Anordnung zum Synchronisieren des Speicherinhalts zwischen zwei redundanten Einrichtungen im laufenden Betrieb
JP2006178550A (ja) 2004-12-21 2006-07-06 Nec Corp 二重化同期システム、及び二重化同期システムの動作方法
JP2006178636A (ja) * 2004-12-21 2006-07-06 Nec Corp フォールトトレラントコンピュータ、およびその制御方法
JP4831599B2 (ja) 2005-06-28 2011-12-07 ルネサスエレクトロニクス株式会社 処理装置
US7496786B2 (en) * 2006-01-10 2009-02-24 Stratus Technologies Bermuda Ltd. Systems and methods for maintaining lock step operation
JP5153310B2 (ja) * 2007-12-10 2013-02-27 株式会社日立製作所 フォールトトレラントコンピュータシステム、並びに再同期稼働化処理方法、及びプログラム
JP2010198131A (ja) * 2009-02-23 2010-09-09 Renesas Electronics Corp プロセッサシステム、及びプロセッサシステムの動作モード切り替え方法
US9983953B2 (en) * 2012-12-20 2018-05-29 Intel Corporation Multiple computer system processing write data outside of checkpointing
US9811345B2 (en) * 2015-04-16 2017-11-07 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Utilizing computing resources under a disabled processor node without fully enabling the disabled processor node

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4823256A (en) * 1984-06-22 1989-04-18 American Telephone And Telegraph Company, At&T Bell Laboratories Reconfigurable dual processor system
CA2003338A1 (en) * 1987-11-09 1990-06-09 Richard W. Cutts, Jr. Synchronization of fault-tolerant computer system having multiple processors
US5287484A (en) * 1989-06-21 1994-02-15 Hitachi, Ltd. Multi-processor system for invalidating hierarchical cache
ATE144058T1 (de) 1989-08-01 1996-10-15 Digital Equipment Corp Massenspeicherübertragung während der neusynchronisierung
US5091847A (en) * 1989-10-03 1992-02-25 Grumman Aerospace Corporation Fault tolerant interface station
US5295258A (en) * 1989-12-22 1994-03-15 Tandem Computers Incorporated Fault-tolerant computer system with online recovery and reintegration of redundant components
JPH03219333A (ja) 1990-01-24 1991-09-26 Nippon Signal Co Ltd:The 待機二重系装置
US5155845A (en) * 1990-06-15 1992-10-13 Storage Technology Corporation Data storage system for providing redundant copies of data on different disk drives
US5398331A (en) * 1992-07-08 1995-03-14 International Business Machines Corporation Shared storage controller for dual copy shared data
US5751932A (en) * 1992-12-17 1998-05-12 Tandem Computers Incorporated Fail-fast, fail-functional, fault-tolerant multiprocessor system
US5838894A (en) * 1992-12-17 1998-11-17 Tandem Computers Incorporated Logical, fail-functional, dual central processor units formed from three processor units
US5953742A (en) * 1996-07-01 1999-09-14 Sun Microsystems, Inc. Memory management in fault tolerant computer systems utilizing a first and second recording mechanism and a reintegration mechanism
US5903717A (en) * 1997-04-02 1999-05-11 General Dynamics Information Systems, Inc. Fault tolerant computer system
KR100258079B1 (ko) * 1997-12-17 2000-06-01 이계철 밀결합 결함 허용 시스템에서 메모리 버스 확장에 의한 동시 쓰기 이중화 장치
US6260159B1 (en) * 1998-06-15 2001-07-10 Sun Microsystems, Inc. Tracking memory page modification in a bridge for a multi-processor system
DE19836347C2 (de) * 1998-08-11 2001-11-15 Ericsson Telefon Ab L M Fehlertolerantes Computersystem
EP1169676A1 (en) 1999-04-05 2002-01-09 Marathon Technologies Corporation Background synchronization for fault-tolerant systems
GB2369692B (en) 2000-11-29 2002-10-16 Sun Microsystems Inc Processor state reintegration
US7003691B2 (en) * 2002-06-28 2006-02-21 Hewlett-Packard Development Company, L.P. Method and apparatus for seeding differences in lock-stepped processors
CN100550155C (zh) * 2002-11-18 2009-10-14 松下电器产业株式会社 纠错、纠错编码、数据再现及数据记录的方法及其电路
JP2006178636A (ja) * 2004-12-21 2006-07-06 Nec Corp フォールトトレラントコンピュータ、およびその制御方法
US20060150010A1 (en) * 2005-01-03 2006-07-06 Stiffler Jack J Memory-controller-embedded apparatus and procedure for achieving system-directed checkpointing without operating-system kernel support
US7444541B2 (en) * 2006-06-30 2008-10-28 Seagate Technology Llc Failover and failback of write cache data in dual active controllers

Also Published As

Publication number Publication date
CA2434292C (en) 2006-11-14
CA2434292A1 (en) 2004-01-11
KR20040007310A (ko) 2004-01-24
DE60300233T2 (de) 2005-12-29
US20040153750A1 (en) 2004-08-05
JP3774826B2 (ja) 2006-05-17
TWI224256B (en) 2004-11-21
JP2004046507A (ja) 2004-02-12
ES2231750T3 (es) 2005-05-16
DE60300233D1 (de) 2005-01-27
EP1380951A1 (en) 2004-01-14
AU2003212014A1 (en) 2004-01-29
US7418626B2 (en) 2008-08-26
CN1269039C (zh) 2006-08-09
KR100583214B1 (ko) 2006-05-24
EP1380951B1 (en) 2004-12-22
TW200404200A (en) 2004-03-16

Similar Documents

Publication Publication Date Title
CN1213376C (zh) 用于被复制的服务器的协议
US7145837B2 (en) Global recovery for time of day synchronization
US5896492A (en) Maintaining data coherency between a primary memory controller and a backup memory controller
CN1269039C (zh) 信息处理设备
US8788879B2 (en) Non-volatile memory for checkpoint storage
JPH086854A (ja) アウトボードファイルキャッシュ外部処理コンプレックス
CN1794196A (zh) 确保用于识别容错计算机中的异步原因的时间
CN1729456A (zh) 高可靠性处理器的片上机制
CN1790285A (zh) 容错计算机系统及其同步方法
CN1818882A (zh) 容错系统、其中所用的控制装置、访问控制方法及控制程序
CN1667600A (zh) 分布式系统和冗余控制方法
CN1269040C (zh) 信息处理设备
US8499133B2 (en) Cache management for increasing performance of high-availability multi-core systems
KR100258079B1 (ko) 밀결합 결함 허용 시스템에서 메모리 버스 확장에 의한 동시 쓰기 이중화 장치
CN1258716C (zh) 片内多处理器局部cache一致性的双环监听方法
US6832270B2 (en) Virtualization of computer system interconnects
EP2118749B1 (en) Fast backup of compute nodes in a massively parallel computer system
WO2010100757A1 (ja) 演算処理システム、再同期方法、およびファームプログラム
KR20080016438A (ko) 데이터 처리 장치, 모드 관리 장치 및 모드 관리 방법
CN1093964C (zh) 输入/输出装置的检查点恢复方法
EP0418030A2 (en) Improvements in and relating to stable memory circuits
JP3615219B2 (ja) システムコントローラ、コントロールシステムおよびシステムコントロール方法
US20080052473A1 (en) Information processing apparatus
US5671370A (en) Alternating data valid control signals for high performance data transfer
KR100298319B1 (ko) 통신시스템에서의 이중화 장치_

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee