CN1472649A - 信息处理设备 - Google Patents
信息处理设备 Download PDFInfo
- Publication number
- CN1472649A CN1472649A CNA031453619A CN03145361A CN1472649A CN 1472649 A CN1472649 A CN 1472649A CN A031453619 A CNA031453619 A CN A031453619A CN 03145361 A CN03145361 A CN 03145361A CN 1472649 A CN1472649 A CN 1472649A
- Authority
- CN
- China
- Prior art keywords
- memory
- state
- computer
- messaging device
- during
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1658—Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1666—Error detection or correction of the data by redundancy in hardware where the redundant component is memory or memory area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
Abstract
本发明的信息处理设备包括第一和第二计算机单元,实质上同时执行相同的指令,而且实质上相互同步。第一计算机单元包括第一和第二存储器单元,在第一状态期间,分别由第一和第二计算机单元对第一和第二存储器单元进行写操作。所述信息处理设备具有控制单元,在第二状态期间,使第一计算机单元从第二存储器单元进行读取。另一信息处理设备具有第一和第二计算机单元及设置在第一计算机单元中的第一和第二存储器区域。在第一状态期间,分别由第一和第二计算机单元对第一和第二存储器区域进行写操作。在第二状态期间,控制单元使第一计算机单元从第二存储器区域进行读取。
Description
技术领域
本发明涉及一种诸如步伐一致容错计算机(lockstep fault tolerantcomputer)之类的信息处理设备,此设备在多个时钟同步的计算机模块中同时处理相同的指令,以及更具体地涉及一种信息处理设备,此信息处理设备迅速同步已经与其他计算机模块不同步并被隔离在操作之外的计算机模块与其他计算机模块。
背景技术
传统的步伐一致容错计算机具有同时执行相同指令的多个计算机模块。在容错计算机中,由于故障或一些其他原因,这些计算机模块之一可能与其他计算机模块有差别地进行操作。当检测到与其他计算机模块有差别地进行操作的计算机模块时,换句话说,在找到失去一致同步的计算机模块时,步伐一致容错计算机就使检测到的计算机模块停止操作。
使计算机模块失去一致同步的原因多种多样。失去一致同步的计算机模块所采取的反应过程依赖于原因。使计算机拾取一致同步的原因之一可以是计算机模块内发生的永久性故障。永久性故障并不是计算机自身能恢复的暂时干扰或故障,而是需要修理的故障。通常将其中发生了永久性故障的计算机模块从步伐一致容错计算机中取出,代替此模块,安装另一正常的计算机模块。
使计算机模块失去一致同步的另一潜在原因可能是由于计算机模块制造的多样性,操作定时暂时与其他计算机模块不同步的同步的缺失。另一潜在原因可能是由于如α射线等影响,引起计算机模块中的存储器的暂时性错误动作。在这些并不引起永久性故障的如同步的缺失或暂时性错误动作等原因中,并不需要更换计算机模块。
如果发生了永久性故障,更换有故障的计算机模块,而将更换了的计算机模块加入到其他计算机模块中,并与其他计算机模块同步。如果不存在永久性故障,此计算机模块重新加入其他计算机模块中,并与其他计算机模块重新同步。使断开的计算机模块重新加入其他计算机模块的操作是重新同步。当传统的步伐一致容错计算机重新同步失去一致同步的计算机模块时,传统的步伐一致容错计算机将处于一致同步的另一计算机模块的存储器复制到要重新加入的计算机的存储器。之后,重新加入的计算机模块执行与其他计算机模块相同的操作。
在加入或重新加入计算模块时,传统的步伐一致容错计算机强制全部计算模块停止,并从处于一致同步的另一计算机模块复制加入或重新加入的计算机模块的存储器的全部内容。这使全部计算模块能够具有完全相同的内部状态。传统的步伐一致容错计算机被强制停止很长时间来加入或重新加入计算机模块。这是因为复制计算机模块中的存储器的全部内容需要很长时间。特别地,随着计算机模块中存储器大小的增加,复制计算机模块中的存储器的全部内容的时间也增加。
发明内容
本发明的一个目的是提供一种改进了可用性的信息处理设备。
本发明的另一目的是提供一种在检测到故障之后快速重新开始操作的信息处理设备。
按照本发明的一个方面,提供了一种信息处理设备,它包括:第一和第二计算机单元,实质上同时执行相同的指令,而且实质上相互同步;第一存储器单元,设置在第一计算机单元中,而且在第一状态期间,由第一计算机单元进行读和写;第二存储器单元,设置在第一计算机单元中,而且在第一状态期间,由第二计算机单元进行写操作;以及控制单元,在第二状态期间,使第一计算机单元从第二存储器单元进行读取。
按照本发明的另一方面,提供了一种信息处理设备,它包括:第一和第二计算机单元,实质上同时执行相同的指令,而且实质上相互同步;第一存储器区域,设置在第一计算机单元中,而且在第一状态期间,由第一计算机单元进行读和写;第二存储器区域,设置在第一计算机单元中,而且在第一状态期间,由第二计算机单元进行写操作;以及控制单元,在第二状态期间,使第一计算机单元从第二存储器区域进行读取。
附图说明
通过下面详细描述和附图,将使本发明的其他特征和优点将变得更加清楚,其中:
图1是本发明实施例的方框图;
图2是本发明实施例中的存储器控制器的方框图;
图3是示出了在正常处理期间,响应读访问请求的计算机模块操作的示意图;
图4是示出了在正常处理期间,响应写访问请求的计算机模块操作的示意图;
图5是示出了在重新加入处理期间,响应读访问请求的计算机模块操作的示意图;
图6是示出了在重新加入处理期间,响应写访问请求的计算机模块操作的示意图;以及
图7是示出了在重新加入处理期间,计算机模块的存储器复制操作的示意图。
在附图中,相同的参考数字代表相同的结构性单元。
具体实施方式
如在背景技术中所描述的那样,使计算机模块失去一致同步的原因是永久性故障或非永久性故障。在容错计算机中,必须更换其中发生了永久性故障的计算机模块。另一方面,如果由于非永久性故障使计算机模块失去一致同步,通常不进行更换,而是没有任何改变地重新加入。即,在相当多的情况下,失去一致同步的计算机模块重新加入容错计算机。
本发明的目的是减少在将失去一致同步的计算机模块不进行更换地重新加入时,步伐一致容错计算机不能工作的时间。
下面将详细描述本发明的实施例。
参照图1,信息处理设备包括计算机模块300和301。在本实施例中,信息处理设备是步伐一致容错计算机。计算机模块300和301具有相同或等价的配置或结构。计算机模块300包括处理器101和102、存储器111和112及存储器控制器121。处理器101和102具有相同的配置并共享总线200。存储器控制器121与处理器101和102的总线200相连。存储器111和存储器112具有相同的配置。存储器111通过信号线201与存储器控制121相连。存储器112通过信号线203与存储器控制器121相连。
与计算机模块300一样,计算机模块301包括处理器103和104、存储器113和114及存储器控制器122。处理器103和104与计算机模块300的处理器101和102相同。存储器控制器122与计算机模块300的存储器控制器121相同。存储器113和114与计算机模块300的存储器111和112相同。
计算机模块300的存储器控制器121和计算机模块301的存储器控制器122通过信号线202和205相连。
接下来,下面将以计算机模块300作为示例,详细描述本发明的第一
实施例。
处理器101和102执行由步伐一致容错计算机指示的指令。由处理器101和102进行的指令执行过程实质上与由基于相同或实质上相同的时钟信号的计算机模块301的处理器103和104所进行的指令执行过程同步,而且处理器101和102与计算机模块301的处理器103和104实质上同时执行相同或实质上相同的指令。为所有计算机模块100、200和300共同提供时钟信号源,或者分别为计算机模块100、200和300提供同步的时钟信号源。即,计算机模块300和301“一致”同步地执行指令,其中每个计算机模块300和301实质上同步地执行实质上相同的指令流。在指令执行期间,处理器101和102将数据写入存储器或从存储器读取数据。
存储器控制器121在来自处理器101的存储器访问请求、来自处理器102的存储器访问请求和通过信号线205接收到的来自计算机模块301的存储器访问请求之间切换,并向适当的存储器111和112发送这些请求。此外,存储器控制器121从存储器111或112接收对存储器访问请求的响应,并向处理器101和102发送此响应。当请求是写访问请求或读访问请求时,从处理器101或102向存储器111和112之一或全部发送请求。写访问请求包括写数据。当请求是读访问请求时,从存储器向处理器发送响应。该响应包括读数据。
参照图2,存储器控制器121包括开关电路400、401、402和403及直接存储器存取(DMA)电路404。开关电路400将信号线207连接到信号线206,并在从存储器111和112之一接收到响应时,向信号线206发送响应。信号线206是总线200之一或等同于总线200,而且向处理器101和102发送此响应。当从处理器101和102向存储器之一或全部发送请求时,开关电路400将信号线206连接到信号线202。开关电路400从信号线202和207中选择一条信号线,并将其连接到信号线206。
当在重新加入处理期间,从存储器112接收到响应时,开关电路401将信号线203连接到信号线207,以选择从存储器112接收到的响应。当在正常处理期间,从存储器111接收到响应时,开关电路401将信号线201连接到信号线207,以选择从存储器111接收到的响应。术语“正常处理”是其中计算机模块300与另一计算机模块301同步操作的状态。术语“在重新加入处理期间”是其中仍未完成由计算机模块300开始的重新加入处理的状态。
开关电路402从信号线202和203中选择一条信号线,并将其连接到信号线201。无论何时通过信号线202从处理器101和102接收请求,开关电路402都将信号线202连接到信号线201,以向存储器111发送请求。当在重新加入处理期间,通过信号线203、在DMA传送(复制)模式下接收写访问请求时,开关电路402将信号线203连接到信号线201,以向存储器111发送请求。
开关电路403选择信号线202、205和208之一,并将其连接到信号线203。当在重新加入处理期间,通过信号线202接收请求时,开关电路403将信号线202连接到信号线203,以向存储器112发送请求。当在正常处理期间,通过信号线205从计算机模块301接收请求时,开关电路403将信号线205连接到信号线203,以向存储器112发送请求。当正在执行重新加入处理,而且从信号线202未收到任何请求时,开关电路403将信号线208连接到信号线203,以在DMA传送(复制)中,从DMA电路404向存储器112发送读访问请求。
当正在执行重新加入处理,而且从信号线202未收到任何请求时,DMA电路404在DMA传送(复制)中通过信号线208从存储器112向存储器111传送数据。在DMA传送期间,DMA电路404从存储器112中的全部存储器区域顺序读取数据,并将数据写入存储器111中。如果在DMA传送期间,通过信号线202从处理器101和102向存储器111和112发送请求,DMA电路404挂起DMA传送。
接下来,将详细描述在正常处理期间,本实施例中步伐一致容错计算机的操作。在正常操作期间,所有计算机模块300和301执行相同或实质上相同的操作。
首先,将描述在正常处理期间,响应读访问请求的操作。
参照图3,通过信号线206,即总线200向开关电路400发送来自处理器101和102的读访问请求。通过开关电路400的路由,向信号线202发送来自信号线206的请求。通过信号线202向计算机模块301发送此请求。此请求到达存储器114,但计算机模块301中的开关电路停止来自存储器114的响应。通过信号线202也向开关电路403发送此请求,但就停止于此而不到达存储器112,因为开关电路403未连接信号线202和信号线203。同样,通过信号线202向开关电路402发送此请求。通过开关电路402的路由,向信号线201发送此请求,并到达存储器111。此请求也通过信号线201到达开关电路401,但就停止于此,因为开关电路401未连接信号线201和信号线207。
通过信号线201向开关电路401发送包括响应来自处理器101和102的请求、从存储器111读取的数据的响应。通过开关电路401的路由,向信号线207发送来自存储器111的响应,并到达开关电路400。通过开关电路400的路由,向信号线206发送包括读取的数据的响应,并到达处理器101和102。如图3所示,以这种方式,在正常处理期间,从存储器111读取数据。
接下来,将描述在正常处理期间,响应写访问请求的操作。
在图4中,通过信号线206,即总线200向开关电路400发送来自处理器101和102的写访问请求。通过开关电路400的路由,向信号线202发送来自信号线206的请求。通过信号线202向计算机模块301发送此请求。此请求到达计算机模块301的存储器114。然后,将数据写入存储器114中。通过信号线202也向开关电路403发送此请求,但就停止于此而不到达存储器112,因为开关电路403未连接信号线202和信号线203。同样,通过信号线202向开关电路402发送此请求。通过开关电路402的路由,向信号线201发送此请求,并到达存储器111。然后,将数据写入存储器111中。
如图4所示,以这种方式,在正常处理期间,将数据写入存储器111中。尽管未示出,处理器101和102通过信号线206、开关电路400和信号线202将相同的数据写入计算机模块301的存储器114中。此外,因为计算机模块301的处理器103和104执行与处理器101和102相同的操作,如图4所示,通过信号线205、开关电路403和信号线203,也将相同的数据写入存储器112中。
接下来,将描述从发现计算机模块失去一致同步时到完成重新加入处理时,包括重新加入处理期间,本实施例中的步伐一致容错计算机的操作。
当发现计算机模块失去一致同步时,步伐一致容错计算机就停止全部计算机模块300和301。然后,步伐一致容错计算机将此时正在处理器101、102、103和104中执行的处理的内容存储到存储器中。
随后,步伐一致容错计算机将存储在存储器中的处理的内容加载到所有计算机模块的处理器上。然后,未失去一致同步的计算机模块重新开始正常处理。失去一致同步的计算机模块开始重新加入处理。
接下来,将描述在重新加入处理期间,计算机模块的操作。假设计算机模块300是失去一致同步的计算机模块。
首先,下面将描述在重新加入处理期间,响应读访问请求的计算机模块的操作。
参照图5,通过信号线206,即总线200向开关电路400发送来自处理器101和102的读访问请求。通过开关电路400的路由,向信号线202发送来自信号线206的请求。通过信号线202向计算机模块301发送此请求。此请求到达存储器114,但计算机模块301中的开关电路停止来自存储器114的响应。同样,通过信号线202向开关电路402发送此请求。开关电路402将信号线202连接到信号线201。以及,此请求到达存储器111,但开关电路401停止来自存储器111的响应。通过信号线202也向开关电路403发送此请求。通过开关电路403的路由,向信号线203发送此请求,并到达存储器112。包括通过处理器101和102发出的请求从存储器112读取的数据的响应通过信号线203到达开关电路401。此响应也到达开关电路402,但就停止于此,因为开关电路402未将信号线203连接到信号线201。通过开关电路401的路由,向信号线207发送此响应,并到达开关电路400。通过开关电路400的路由,向信号线206发送包括从存储器112读取的数据的响应,并到达处理器101和102。如图5所示,以这种方式,在重新加入处理期间,从存储器112读取数据。
其次,下面将描述在重新加入处理期间,响应写访问请求的计算机模块的操作。
在图6中,通过信号线206,即总线200向开关电路400发送来自处理器101和102的写访问请求。通过开关电路400的路由,向信号线202发送来自信号线206的请求。通过信号线202向计算机模块301发送此请求。此请求到达计算机模块301的存储器114。然后,将数据写入存储器114中。同样,通过信号线202向开关电路402发送此请求。通过开关电路402的路由,向信号线201发送此请求,并到达存储器111。然后,将数据写入存储器111中。通过信号线202也向开关电路403发送此请求。通过开关电路403的路由,向信号线203发送此请求并到达存储器112。然后,将数据写入存储器112中。
如图6所示,以这种方式,在重新加入处理期间,将数据写入存储器111和112中。尽管在图中未示出,处理器101和102也将相同的数据写入计算机模块301的存储器114中。
再次,在重新加入处理期间,计算机模块利用DMA电路404,并行于上述从处理器101和102接收到的读访问请求或写访问请求的处理,复制存储器的内容。
图7是示出了在重新加入处理期间,由计算机模块执行的存储器复制操作的示意图。
当在重新加入处理期间,检测到从信号线202向存储器112未作出任何访问时,DMA电路404通过信号线208从存储器112的所有存储器区域向开关电路403顺序发送读请求。通过开关电路403的路由,向信号线203发送这些请求,并到达存储器112。然后从存储器112顺序读取数据。包括从存储器112读取的数据的响应到达开关电路401,但就停止于此,因为开关电路401未将信号线203连接到信号线207。同样,此请求作为存储器111的写访问请求到达开关电路402。通过开关电路402的路由,向信号线201发送这些请求,并到达存储器111。这样,将从存储器112读取的数据顺序写入存储器111中。以这种方式复制存储器的内容。
如果在上述存储器复制操作期间,从处理器101和102向存储器111和/或102发送请求,步伐一致容错计算机挂起存储器复制操作,并执行从处理器101和/或102接收到的请求。如果此请求是写访问请求,则将相同的数据写入存储器111和存储器112中。这样,不仅在执行存储器复制操作时,而且在从处理器101和102接收执行结果时,将相同的数据写入存储器111和112中。
当对于存储器,本实施例中,存储器12的全部存储器区域完成存储器复制操作时,步伐一致容错计算机将计算机模块300的状态改为正常状态。这样,由存储器复制操作和对于来自处理器101和102的执行操作分时共享存储器112,直到存储器复制操作完成。
如果不更换,则由因为非永久性故障而失去一致同步的计算机模块保持存储器111和112的内容。已经由未失去一致同步的计算机模块写入了存储器112的内容。因此,与未失去一致同步的计算机模块的存储器的内容一样,即使在已经失去一致同步的计算机模块300中,存储器112的内容一定是正常而有效的。
在本实施例中,当直接使失去一致同步的计算机模块回到操作中时,在重新加入处理期间的重新加入的计算机模块可以利用其中由另一计算机模块在正常处理期间写入数据的存储器112,立即开始执行指令。这使得重新加入的计算机模块能够立即开始与未失去一致同步的另一计算机模块相同的操作。此外,在重新加入处理期间的计算机模块并行于指令的执行,复制存储器。这消除了在存储器复制操作期间,停止步伐一致容错计算机的必要,而这种停止对于传统的计算机是必不可少的。因此,本发明的步伐一致容错计算机可以在短暂的停止时间之后,重新开始操作。
尽管本实施例中的步伐一致容错计算机具有其中提供了两个计算机模块300和301的结构,本发明并不局限于此结构。本发明可以应用于其中提供了多个计算机模块的结构。针对三个或更多的计算机模块,可以作为环来连接计算机模块的存储器控制器。如果计算机模块的数目是偶数,每两个模块可以形成一对,从而与本实施例的示例中一样,将成对的计算机模块的存储器控制器相互连接。
尽管上述实施例的计算机模块300具有两个存储器111和112,计算机模块可以具有这样的存储器,此存储器具有例如与存储器111相对应的第一存储器区域和例如与存储器112相对应的第二存储器区域。
在本实施例中,将步伐一致容错计算机用作示例。但是,本发明并不限制于步伐一致容错计算机。本发明可以应用于其中每个电路包含必须具有一致的内部状态的处理器和存储器的包括多个电路的装置。
尽管已经结合上述优选实施例描述了本发明,现在本领域的技术人员仍然能够以多种其他方式来实现本发明。
Claims (18)
1、一种信息处理设备,包括:
第一和第二计算机单元,实质上同时执行相同的指令,而且实质上相互同步;
第一存储器单元,设置在所述第一计算机单元中,而且在第一状态期间,由所述第一计算机单元进行读和写;
第二存储器单元,设置在所述第一计算机单元中,而且在第一状态期间,由所述第二计算机单元进行写操作;以及
控制单元,在第二状态期间,使所述第一计算机单元从所述第二存储器单元进行读取。
2、按照权利要求1所述的信息处理设备,其特征在于在第二状态期间,所述控制单元使所述第一计算机单元对所述第一和第二存储器单元进行写操作。
3、按照权利要求1所述的信息处理设备,其特征在于在第二状态期间,所述控制单元将所述第二存储器单元的内容复制到所述第一存储器单元。
4、按照权利要求1所述的信息处理设备,其特征在于在第二状态期间,所述控制单元并行于对所述第二存储器单元的读或写访问处理,将所述第二存储器单元的内容复制到所述第一存储器单元。
5、按照权利要求4所述的信息处理设备,其特征在于如果不出现访问,所述控制单元将所述第二存储器单元的内容复制到所述第一存储器单元。
6、按照权利要求1所述的信息处理设备,其特征在于所述第二状态是所述第一存储器单元具有不确定性的时候。
7、按照权利要求1所述的信息处理设备,其特征在于所述第二状态是对所述第一存储器单元进行更新的时候。
8、按照权利要求1所述的信息处理设备,其特征在于所述第二状态是将所述第一计算机单元重新加入所述第二计算机单元的时候。
9、按照权利要求1所述的信息处理设备,其特征在于所述第一计算机单元还包括至少一个处理器;以及
其中,在所述第二状态期间,响应读访问请求,所述控制单元创建从所述第二存储器单元到所述处理器的第一路由;响应写访问请求,所述控制单元创建从所述处理器到所述第二存储器单元的第二路由;以及如果不出现所述读访问请求和所述写访问请求,所述控制单元创建从所述第二存储器单元到所述第一存储器单元的第三路由。
10、一种信息处理设备,包括:
第一和第二计算机单元,实质上同时执行相同的指令,而且实质上相互同步;
第一存储器区域,设置在所述第一计算机单元中,而且在第一状态期间,由所述第一计算机单元进行读和写;
第二存储器区域,设置在所述第一计算机单元中,而且在第一状态期间,由所述第二计算机单元进行写操作;以及
控制单元,在第二状态期间,使所述第一计算机单元从所述第二存储器区域进行读取。
11、按照权利要求10所述的信息处理设备,其特征在于在第二状态期间,所述控制单元使所述第一计算机单元对所述第一和第二存储器区域进行写操作。
12、按照权利要求10所述的信息处理设备,其特征在于在第二状态期间,所述控制单元将所述第二存储器区域的内容复制到所述第一存储器区域。
13、按照权利要求10所述的信息处理设备,其特征在于在第二状态期间,所述控制单元并行于对所述第二存储器区域的读或写访问处理,将所述第二存储器区域的内容复制到所述第一存储器区域。
14、按照权利要求13所述的信息处理设备,其特征在于如果不出现访问,所述控制单元将所述第二存储器区域的内容复制到所述第一存储器区域。
15、按照权利要求10所述的信息处理设备,其特征在于所述第二状态是所述第一存储器区域具有不确定性的时候。
16、按照权利要求10所述的信息处理设备,其特征在于所述第二状态是对所述第一存储器区域进行更新的时候。
17、按照权利要求10所述的信息处理设备,其特征在于所述第二状态是将所述第一计算机单元重新加入所述第二计算机单元的时候。
18、按照权利要求10所述的信息处理设备,其特征在于所述第一计算机单元还包括至少一个处理器;以及
其中,在所述第二状态期间,响应读访问请求,所述控制单元创建从所述第二存储器区域到所述处理器的第一路由;响应写访问请求,所述控制单元创建从所述处理器到所述第二存储器区域的第二路由;以及如果不出现所述读访问请求和所述写访问请求,所述控制单元创建从所述第二存储器区域到所述第一存储器区域的第三路由。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP202558/2002 | 2002-07-11 | ||
JP2002202558A JP3774826B2 (ja) | 2002-07-11 | 2002-07-11 | 情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1472649A true CN1472649A (zh) | 2004-02-04 |
CN1269039C CN1269039C (zh) | 2006-08-09 |
Family
ID=29728500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB031453619A Expired - Fee Related CN1269039C (zh) | 2002-07-11 | 2003-07-08 | 信息处理设备 |
Country Status (10)
Country | Link |
---|---|
US (1) | US7418626B2 (zh) |
EP (1) | EP1380951B1 (zh) |
JP (1) | JP3774826B2 (zh) |
KR (1) | KR100583214B1 (zh) |
CN (1) | CN1269039C (zh) |
AU (1) | AU2003212014A1 (zh) |
CA (1) | CA2434292C (zh) |
DE (1) | DE60300233T2 (zh) |
ES (1) | ES2231750T3 (zh) |
TW (1) | TWI224256B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9213609B2 (en) * | 2003-12-16 | 2015-12-15 | Hewlett-Packard Development Company, L.P. | Persistent memory device for backup process checkpoint states |
US20050216552A1 (en) * | 2004-03-24 | 2005-09-29 | Samuel Fineberg | Communication-link-attached persistent memory system |
DE102004036261A1 (de) * | 2004-07-26 | 2006-03-23 | Siemens Ag | Verfahren und Anordnung zum Synchronisieren des Speicherinhalts zwischen zwei redundanten Einrichtungen im laufenden Betrieb |
JP2006178550A (ja) | 2004-12-21 | 2006-07-06 | Nec Corp | 二重化同期システム、及び二重化同期システムの動作方法 |
JP2006178636A (ja) * | 2004-12-21 | 2006-07-06 | Nec Corp | フォールトトレラントコンピュータ、およびその制御方法 |
JP4831599B2 (ja) | 2005-06-28 | 2011-12-07 | ルネサスエレクトロニクス株式会社 | 処理装置 |
US7496786B2 (en) * | 2006-01-10 | 2009-02-24 | Stratus Technologies Bermuda Ltd. | Systems and methods for maintaining lock step operation |
JP5153310B2 (ja) * | 2007-12-10 | 2013-02-27 | 株式会社日立製作所 | フォールトトレラントコンピュータシステム、並びに再同期稼働化処理方法、及びプログラム |
JP2010198131A (ja) * | 2009-02-23 | 2010-09-09 | Renesas Electronics Corp | プロセッサシステム、及びプロセッサシステムの動作モード切り替え方法 |
US9983953B2 (en) * | 2012-12-20 | 2018-05-29 | Intel Corporation | Multiple computer system processing write data outside of checkpointing |
US9811345B2 (en) * | 2015-04-16 | 2017-11-07 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Utilizing computing resources under a disabled processor node without fully enabling the disabled processor node |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4823256A (en) * | 1984-06-22 | 1989-04-18 | American Telephone And Telegraph Company, At&T Bell Laboratories | Reconfigurable dual processor system |
CA2003338A1 (en) * | 1987-11-09 | 1990-06-09 | Richard W. Cutts, Jr. | Synchronization of fault-tolerant computer system having multiple processors |
US5287484A (en) * | 1989-06-21 | 1994-02-15 | Hitachi, Ltd. | Multi-processor system for invalidating hierarchical cache |
ATE144058T1 (de) | 1989-08-01 | 1996-10-15 | Digital Equipment Corp | Massenspeicherübertragung während der neusynchronisierung |
US5091847A (en) * | 1989-10-03 | 1992-02-25 | Grumman Aerospace Corporation | Fault tolerant interface station |
US5295258A (en) * | 1989-12-22 | 1994-03-15 | Tandem Computers Incorporated | Fault-tolerant computer system with online recovery and reintegration of redundant components |
JPH03219333A (ja) | 1990-01-24 | 1991-09-26 | Nippon Signal Co Ltd:The | 待機二重系装置 |
US5155845A (en) * | 1990-06-15 | 1992-10-13 | Storage Technology Corporation | Data storage system for providing redundant copies of data on different disk drives |
US5398331A (en) * | 1992-07-08 | 1995-03-14 | International Business Machines Corporation | Shared storage controller for dual copy shared data |
US5751932A (en) * | 1992-12-17 | 1998-05-12 | Tandem Computers Incorporated | Fail-fast, fail-functional, fault-tolerant multiprocessor system |
US5838894A (en) * | 1992-12-17 | 1998-11-17 | Tandem Computers Incorporated | Logical, fail-functional, dual central processor units formed from three processor units |
US5953742A (en) * | 1996-07-01 | 1999-09-14 | Sun Microsystems, Inc. | Memory management in fault tolerant computer systems utilizing a first and second recording mechanism and a reintegration mechanism |
US5903717A (en) * | 1997-04-02 | 1999-05-11 | General Dynamics Information Systems, Inc. | Fault tolerant computer system |
KR100258079B1 (ko) * | 1997-12-17 | 2000-06-01 | 이계철 | 밀결합 결함 허용 시스템에서 메모리 버스 확장에 의한 동시 쓰기 이중화 장치 |
US6260159B1 (en) * | 1998-06-15 | 2001-07-10 | Sun Microsystems, Inc. | Tracking memory page modification in a bridge for a multi-processor system |
DE19836347C2 (de) * | 1998-08-11 | 2001-11-15 | Ericsson Telefon Ab L M | Fehlertolerantes Computersystem |
EP1169676A1 (en) | 1999-04-05 | 2002-01-09 | Marathon Technologies Corporation | Background synchronization for fault-tolerant systems |
GB2369692B (en) | 2000-11-29 | 2002-10-16 | Sun Microsystems Inc | Processor state reintegration |
US7003691B2 (en) * | 2002-06-28 | 2006-02-21 | Hewlett-Packard Development Company, L.P. | Method and apparatus for seeding differences in lock-stepped processors |
CN100550155C (zh) * | 2002-11-18 | 2009-10-14 | 松下电器产业株式会社 | 纠错、纠错编码、数据再现及数据记录的方法及其电路 |
JP2006178636A (ja) * | 2004-12-21 | 2006-07-06 | Nec Corp | フォールトトレラントコンピュータ、およびその制御方法 |
US20060150010A1 (en) * | 2005-01-03 | 2006-07-06 | Stiffler Jack J | Memory-controller-embedded apparatus and procedure for achieving system-directed checkpointing without operating-system kernel support |
US7444541B2 (en) * | 2006-06-30 | 2008-10-28 | Seagate Technology Llc | Failover and failback of write cache data in dual active controllers |
-
2002
- 2002-07-11 JP JP2002202558A patent/JP3774826B2/ja not_active Expired - Fee Related
-
2003
- 2003-07-03 TW TW092118158A patent/TWI224256B/zh active
- 2003-07-04 CA CA002434292A patent/CA2434292C/en not_active Expired - Fee Related
- 2003-07-07 US US10/612,929 patent/US7418626B2/en not_active Expired - Fee Related
- 2003-07-08 CN CNB031453619A patent/CN1269039C/zh not_active Expired - Fee Related
- 2003-07-09 AU AU2003212014A patent/AU2003212014A1/en not_active Abandoned
- 2003-07-10 DE DE60300233T patent/DE60300233T2/de not_active Expired - Fee Related
- 2003-07-10 ES ES03015795T patent/ES2231750T3/es not_active Expired - Lifetime
- 2003-07-10 KR KR1020030046814A patent/KR100583214B1/ko not_active IP Right Cessation
- 2003-07-10 EP EP03015795A patent/EP1380951B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CA2434292C (en) | 2006-11-14 |
CA2434292A1 (en) | 2004-01-11 |
KR20040007310A (ko) | 2004-01-24 |
DE60300233T2 (de) | 2005-12-29 |
US20040153750A1 (en) | 2004-08-05 |
JP3774826B2 (ja) | 2006-05-17 |
TWI224256B (en) | 2004-11-21 |
JP2004046507A (ja) | 2004-02-12 |
ES2231750T3 (es) | 2005-05-16 |
DE60300233D1 (de) | 2005-01-27 |
EP1380951A1 (en) | 2004-01-14 |
AU2003212014A1 (en) | 2004-01-29 |
US7418626B2 (en) | 2008-08-26 |
CN1269039C (zh) | 2006-08-09 |
KR100583214B1 (ko) | 2006-05-24 |
EP1380951B1 (en) | 2004-12-22 |
TW200404200A (en) | 2004-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1213376C (zh) | 用于被复制的服务器的协议 | |
US7145837B2 (en) | Global recovery for time of day synchronization | |
US5896492A (en) | Maintaining data coherency between a primary memory controller and a backup memory controller | |
CN1269039C (zh) | 信息处理设备 | |
US8788879B2 (en) | Non-volatile memory for checkpoint storage | |
JPH086854A (ja) | アウトボードファイルキャッシュ外部処理コンプレックス | |
CN1794196A (zh) | 确保用于识别容错计算机中的异步原因的时间 | |
CN1729456A (zh) | 高可靠性处理器的片上机制 | |
CN1790285A (zh) | 容错计算机系统及其同步方法 | |
CN1818882A (zh) | 容错系统、其中所用的控制装置、访问控制方法及控制程序 | |
CN1667600A (zh) | 分布式系统和冗余控制方法 | |
CN1269040C (zh) | 信息处理设备 | |
US8499133B2 (en) | Cache management for increasing performance of high-availability multi-core systems | |
KR100258079B1 (ko) | 밀결합 결함 허용 시스템에서 메모리 버스 확장에 의한 동시 쓰기 이중화 장치 | |
CN1258716C (zh) | 片内多处理器局部cache一致性的双环监听方法 | |
US6832270B2 (en) | Virtualization of computer system interconnects | |
EP2118749B1 (en) | Fast backup of compute nodes in a massively parallel computer system | |
WO2010100757A1 (ja) | 演算処理システム、再同期方法、およびファームプログラム | |
KR20080016438A (ko) | 데이터 처리 장치, 모드 관리 장치 및 모드 관리 방법 | |
CN1093964C (zh) | 输入/输出装置的检查点恢复方法 | |
EP0418030A2 (en) | Improvements in and relating to stable memory circuits | |
JP3615219B2 (ja) | システムコントローラ、コントロールシステムおよびシステムコントロール方法 | |
US20080052473A1 (en) | Information processing apparatus | |
US5671370A (en) | Alternating data valid control signals for high performance data transfer | |
KR100298319B1 (ko) | 통신시스템에서의 이중화 장치_ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |