CN1319237C

CN1319237C - 超级计算机中通过动态重新划分的容错

Info

Publication number: CN1319237C
Application number: CNB028054253A
Authority: CN
Inventors: 陈东; 保罗W·科特尤斯; 艾伦G·加拉; 托德E·塔肯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-02-24
Filing date: 2002-02-25
Publication date: 2007-05-30
Anticipated expiration: 2022-02-25
Also published as: KR100570145B1; CN1493101A; EP1374360A1; KR20030077034A; EP1374360A4; US20040153754A1; US7185226B2; WO2002069469A1; JP2007220147A; JP2004532447A; JP4577851B2; JP4524073B2

Abstract

通过提供额外冗余备用处理器组和通过设计系统使得这些额外的处理器组可以与发生硬件故障的任何组交换而使多处理器并行计算机容忍硬件故障。这一交换可以在软件控制下进行，从而允许整个计算机承受硬件故障，但是在备用处理器交换后，对软件来说仍然象是一个原来的、全部起作用的系统。

Description

超级计算机中通过动态重新划分的容错

交叉参考

本发明要求享受于2001年2月24日递交的、名为“MassivelyParallel Supercomputer”的共同拥有的待审美国临时专利申请60/271,124的优先权，，它的全部内容和公开特意被结合在这里作为参考，如同在这里完全叙述的一样。本专利申请另外与下面共同拥有的、与本申请同一天递交的待审美国专利申请相关，它们中的每一篇的全部内容和公开特意被包含在这里作为参考，如同在这里完全叙述的一样。美国专利申请(YOR920020027US1，YOR920020044US1(15270))，名称为“Class Networking Routing”；美国专利申请(YOR920020028US1(15271))，名称为“A Global Tree Network for ComputingStructures”；美国专利申请(YOR920020029US1(15272))，名称为“Global Interrupt and Barrier Networks”；美国专利申请(YOR920020030US1(15273))，名称为“Optimized Scalable NetworkSwitch”；美国专利申请(YOR920020031US1，YOR920020032US1(15258))，名称为“Arithmetic Functions in Torus and TreeNetworks”；美国专利申请(YOR920020033US1，YOR920020034US1(15259))，名称为“Data Capture Technique for High SpeedSignaling”；美国专利申请(YOR920020035US1(15260))，名称为“Managing Coherence Via Put/Get Windows”；美国专利申请(YOR920020036US1，YOR920020037US1(15261))，名称为“Low LatencyMemory Access And Synchronization”；美国专利申请(YOR920020038US1(15276))，名称为“Twin-Tailed Fail-Over forFileservers Maintaining Full Performance”；美国专利申请，序列号No.(YOR920020039US1(15277))，名称为“Fault IsolationThrough No-Overhead Link Level Checksums”；美国专利申请(YOR920020040US1(15278))，名称为“Ethernet Addressing viaPhysical Location for Massively Parallel Systems””；美国专利申请，序列号No.(YOR920020041US1(15274))，名称为“FaultTolerance in a Supercomputer Through Dynamic Repartitioning”；美国专利申请(YOR920020042US1(15279))，名称为“CheckpointingFilesystem”；美国专利申请(YOR920020043US1(15262))，名称为“Efficient Implementation of Multidimensional Fast Transformon a Distributed-Memory Parallel Multi-Node Computer”；美国专利申请(YOR9-20010211US2(15275))，名称为“A Novel MasssivelyParallel Supercomputer”；和美国专利申请(YOR920020045US1(15263))，名称为“Smart Fan Modules and System”。

发明背景技术

发明领域

本发明一般涉及在并行计算机互联网络中通过软件控制的动态重新划分提供容错。

背景技术

巨大类的重要计算可以由巨型并行计算机系统执行。这种系统包括许多同样的计算节点，每一个这样的节点通常包括一个或者多个CPU、存储器、和一个或者多个网络接口来连接它与其它节点。

在于2001年2月24日递交的、名为“Massively ParallelSupercomputer”的相关美国临时专利申请60/271,124中说明的计算机使用芯片上系统(SOC)技术来建立具有高吞吐量的可升级的合算的计算系统。SOC技术已经使其适于使用嵌入部件库在单个芯片上建立整个多处理器节点，包括具有集成的一级超高速缓冲存储器的CPU内核。这种封装技术极大地减少了一个节点的部件数目，允许建立可靠的大型机器。

发明概述

本发明通过动态重新划分提供在超级计算机中的容错。通过提供另外几组冗余备用处理器和通过设计系统使得这些额外的处理器组可以与发生硬件故障的任何组交换，使多处理器并行计算机容忍硬件故障备用处理器。这一交换可以在软件的控制下进行，从而允许整个计算机承受硬件故障，但是在与备用处理器交换后对软件仍然象是一个原来的、全部起作用的系统。

附图简要说明

本领域技术人员结合附图参考后面对几个实施例的详细说明，可以更容易理解通过动态重新划分在超级计算机中提供容错的本发明的上述目的和优点，其中在几个视图中使用相同的附图标记表示相似的元件，附图中：

图1显示了并行计算机的一个非常简化的8节点部分和在这8个节点之间的环型(torus)链接。它是全部节点阵列的环型链接的一部分显示，其中，每一节点实际有在+和-x、y、z方向上的6个环型链接，并且链接在每一逻辑方向上(x、y或z)从最高标号节点覆盖到最低标号节点的，以便为系统中的所有节点维持在6个方向上的6个环型链接。

图2是巨型并行超级计算机的全局组合树的一个非常简化的表示，并且是一个完全的全局组合树的一部分显示，完全的全局组合树连接在计算节点的整个划分上的所有节点。

图3显示了控制重新划分的链接芯片的操作。

图4可以概念性地视为巨型并行超级计算机的平面图，并且显示了由8个通道分开的每行有8个计算机架的9行，其中每一行内的8个机架中的每一个包括两个中平面(midplane)，每一中平面包括8×8×8个计算节点。

图5显示了通过连接相邻中平面的电缆路由选择环型信号进入和离开一个链接卡，通过该链接卡，然后进入和离开在当前中平面上的环型。链接ASIC可选地连接当前中平面上的3维8×8×8环型到较大的机器上的环型。

图6显示了通过连接相邻中平面的电缆路由选择全局树信号进入和离开一个链接卡，通过该链接卡，然后进入和离开中平面计算ASIC，所述树信号是全局组合树网络的信号。链接ASIC和顶级计算ASIC共同决定当前中平面上的树如何被连接到较大系统中的全局组合树。

图7显示了通过连接相邻中平面的电缆路由选择中断信号进入和离开一个链接卡，通过该链接卡ASIC和FPGA，然后进入和离开该中平面，所述中断信号是全局中断信号网络的信号。

本发明的详细描述

在美国临时申请60/271,124中说明的巨型并行超级计算机说明了具有(x，y，z)(这里x＝64，y＝32，z＝32)计算节点的巨型并行超级计算机，这些节点由几个分开的通信网络连接。这些网络中的第一个是3维(3D)环型，其中每一个计算节点由在+和-x、y、z方向中的6个链接连接到它的6个逻辑上相邻的最近的邻居计算节点，并且每一计算节点有6个双向环型端口。

该巨型并行超级计算机包括64×32×32个计算节点，其中，每一计算节点包括一个具有两个处理器的ASIC，它的一个处理器作为巨型并行超级计算机的一部分执行处理，而第二处理器执行消息传递操作。

图4可以被概念性地视为是巨型并行超级计算机的平面图，并且显示了由8个通道分开的9行计算机架，以方便服务。每一行中的9个机架中的每一个大约有冰箱大小，并且包含两个中平面。每一中平面是一个基本构造块，并且包括8×8×8个计算节点，其中每一计算节点包括一个多处理器，如上所述。

物理机器结构最紧密地与3D环型绑在一起。这是一个简单的3维最近邻居互联，它在边缘上被“覆盖”。所有6个最近的环型邻居是等距的，除了对于“飞行时间”的差别，诸如存在在计算节点ASIC的不同机架之间，以使代码容易书写和优化。因此每一节点支持6个独立的双向最近邻居链接。

图1显示了一个并行超级计算机环型的8个节点和在这8个节点之间的链接的非常简化的视图，并且是全部节点阵列的一部分，其中每一节点实际上有在+和-x、y、z方向中的6个环型链接。这些链接在每一逻辑方向(x，y或z)从编号最高的节点覆盖到编号最低的节点，以便为在该系统中的所有节点维持在6个方向上的6个环型链接。图1还示意地显示了一个x，y，z坐标系，其与图4的x，y，z坐标系一致。巨型并行超级计算机具有计算电路卡和链接电路卡，它们插入到中平面中。电路卡以2×2×2子立方块连线，而中平面，每一机架有两个，被连线为8×8×8的子立方块。运行的64k机器是64×32×32环型，虽然为提供冗余以补偿故障部件该机器被物理实现为72×32×32环型，但是其中另外的8×32×32个节点为冗余的目的提供，以提供额外冗余备用处理器组。

除了每一节点到6个最近的邻居节点的6个环型链接外，巨型并行超级计算机包括两个另外完全分开的通信链接网络。第二通信链接网络是全局组合链接树，其如图2和图6所示。第三通信链接网络是一组全局中断信号，如图7所示。组合链接树和全局中断信号在它们的树结构上彼此相似，并在机器的整个划分(64×32×32个计算节点)上提供通信，这两者都在下面说明。

图2是巨型并行超级计算机的全局组合树的一个非常简化的表示，它延伸到整个机器，允许数据从任何节点发送到所有其它节点(广播)，或节点的一个子集。也可以计算全局和、最小值和最大值。消息传递在全局组合树上得到支持，并在每一计算节点内由第二处理器控制，允许独立于该计算节点进行加强的操作，像大家对大家的通信。

根据本发明，多处理器并行计算机通过提供额外的冗余备用处理器组和通过设计系统使得这些额外的处理器组可以与经历硬件故障的任何组交换，实现对硬件故障的容错。这种交换可以在软件控制下，从而允许整个计算机承受硬件故障，但是在交换备用处理器后对软件来说似乎仍然是原来的、完全起作用的系统。

系统重新划分

在这里说明的巨型并行超级计算机中，有3个主要的分开的互联网络可以从这一动态重新划分中受益：3维环型，全局组合树，和全局中断组。巨型并行超级计算机被组织为每一中平面有512个多处理器(8×8×8个节点)的组，具有链接芯片，它控制在中平面之间的电缆上的信号。链接芯片(每一链接电路卡6个芯片)是允许系统软件重新配置的主要方式。

巨型并行超级计算机逻辑上可以由软件控制重新划分。这允许在物理上由电缆连接到一起作为一个系统的大的机架组(其在图4所示)在逻辑上被分成多个子系统。每一个这些逻辑上被分开的子系统然后可以同时运行不同的代码，或者某些被分开的子系统可以被维护而其它子系统进行计算。因此逻辑上的重新划分便利了代码开发和系统维护。

图3显示了并且下面的部分说明了控制重新划分的链接芯片的操作。随后的部分详细说明可能的子划分的类型。

链接芯片

巨型并行超级计算机的环型、全局组合树和全局中断信号当在不同中平面之间跟踪时通过链接芯片。这一芯片用作两种功能。第一，它重新驱动中平面之间的电缆上的信号，改善在不同中平面上的计算ASIC之间的长的、有损耗的追踪-电缆-追踪连接中的高速信号形状和振幅。第二，该链接芯片在它的不同端口之间重定向信号。正是这一重定向功能允许巨型并行超级计算机被动态重新划分为多个逻辑上分开的系统。

链接芯片为系统重新划分执行两类环型信号重定向，称为规律重定向和分裂重定向。

规律重定向

规律重定向从大型计算系统的一个逻辑方向(沿x、y或z轴的任何一个，如图4所示)中去掉一个中平面。规律重定向如图3中的方式1和2所示。它涉及链接芯片的端口C、F、A和B。端口C和F由在特定环型逻辑方向x、y或z的当前中平面和较高或者较低级次的中平面之间的电缆连接到正和负方向，其如图5顶部所示。这些电缆连接由图4中标记为逻辑X电缆40、逻辑Y电缆42和逻辑Z电缆44的箭头表示。端口A和B连接到一个中平面环型回路，该回路通过8个串接的计算处理器在中平面内循环，其如图3所示，还在图5中被示为中平面X环型51、中平面Y环型52和中平面Z环型53。

当以方式1操作时，链接芯片从先前的中平面通过端口C、通过由中间环型回路表示的当前中平面路由选择信号继续通过端口F到下一中平面。从而使当前中平面作为更大计算系统的一部分。

当以方式2操作时，来自前一中平面的电缆信号通过端口C进入，并且直接通过端口F传递到下一中平面，从更大的计算系统中除去当前中平面。也是在方式2下，在当前中平面上的环型信号通过端口A和B连接到中平面并且在中平面内形成回路，建立较小的计算系统。

分裂重定向

分裂重定向允许把机器的大的64×32×32节点部分分成两个相等的32×32×32一半或者4个16×32×32的四分之一。如在链接芯片中实现的那样，分裂重定向可以允许多种系统划分。然而，由于费用和在长电缆上的信号整体性考虑，分裂重定向仅在逻辑X方向和仅在为允许分割大系统为两个相等的一半或4个四分之一所需要的数目的机架行(图4)上物理上用电缆连接。分裂重定向如图1中的方式3和4表示。虽然在图1中为说明起见只显示出两个方式，方式3和4，但是需要8个方式、3到10来实现分裂重定向，剩余的方式以类似方式操作。在分裂重定向中，链接芯片重新定义电缆端口，它考虑是到邻居中平面的正或负电缆方向。它要么重新定义从规律端口C到分裂端口D或E的正方向端口，要么重新定义从规律端口F到分裂端口D或E或两者的负方向端口。图4中用带箭头的细线(逻辑x电缆40，逻辑y电缆42，逻辑z电缆44，)表示规律电缆，用不带箭头的粗线(靠近逻辑x电缆中心)表示分裂电缆46。逻辑x电缆沿x方向延伸，相似地逻辑y电缆在y方向、逻辑z电缆在z方向延伸。

图4显示了逻辑X电缆如何在机架之间连接。行号由在左边的数字0-8指示。注意，逻辑x电缆常常使用在行0-2、1-3、2-4、3-5之间的电缆等连接到其它每一行，，除了末端用一个电缆0-1和一个电缆7-8。这些电缆允许沿x轴连接一个中平面到邻居中平面，不需要使任何一根电缆过度地长。沿y和z轴可以使用相似的电缆连接方案。

分裂电缆允许不同于沿规律逻辑x电缆的x维的环型连接。例如，如果要把机器分成两个较小的机器，使第一机器有0-4行，第二机器有5-8行，则分裂电缆46’可以切换到逻辑电缆40’的位置，使得用于第一机器的x电缆现在是0-2、2-4、4-3、3-1和1-0，第二机器可以以相似方式切换。

环型划分

图4显示了巨型并行超级计算机的电缆连接和划分。

逻辑重新划分允许了如何把机器细分的一个选择范围。图4显示了规律和分裂划分两者的例子，并且显示了一个中平面如何可以从系统分开用于维护。

分裂划分可以把大的72×32×32电缆连接的巨型并行超级计算机分成两个大约相等的一半的子系统，40×32×32的子系统和32×32×32子系统。这可以用两种方法中的一种进行，以保证当一个中平面发生故障时总能建立两个32×32×32子系统，而与该中平面物理上位于何处无关(通过以以上在分裂重定向下说明的方式使用分裂电缆46)。要么40×32×32子系统是顶部的5行机架，32×32×32子系统是底部的4行，要么反之。例如，如果由在图4中的方形4/5指示的机架中的第一行中的一个中平面需要维护，则可以使用分裂划分在顶4行机架和底5行机架之间分割系统。在这种情况下，编号为0、1、2、3和4的底部5行形成一个40×32×32的子系统，而顶部4行5、6、7和8(所有具有编号6的都指示系统划分#6)形成一个分开的32×32×32子系统。两个子系统都可以以这些尺寸运行，或者它们可以使用规律划分进一步细分。

规律划分可以把一个1中平面(8节点)长的部分从任何逻辑环型方向分开。如果在图4中的行1的4/5机架中的一个中平面发生故障，则可以使用规律划分在逻辑x方向上把行1从40×32×32的较低系统的其余部分分开，建立在行0、2、3和4标号1的32×32×32的系统(系统#1)和在行1中的一个8×32×32系统，它的机架用号码2、3和4/5标号。在逻辑y方向的行1中的这一8×32×32部分的规律划分把3和4/5机架从2个机架中分出来，产生一个8×24×32部分(2个机架，系统#2)和一个8×8×32部分(3和4/5机架)。在逻辑z方向的8×8×32部分的两次规律划分分离4/5机架和3机架，产生8×8×16部分(2机架，系统#3)和两个8×8×8部分(4/5机架，系统#4和#5)，可以给其中之一进行维护，而所有其它子划分进行计算。可以以不同的组合使用相似的划分来细分和分离不同的子部分。

图5显示了通过连接相邻中平面的电缆路由选择环型信号进入和离开一个链接卡，通过该链接卡，然后进入和离开在当前中平面上的环型。链接ASIC可选地连接当前中平面上的3维8×8×8环型到较大的机器上的环型。在图5的顶部，把+和-x、y和z信号连接到图4的各+和-逻辑x电缆40、逻辑y电缆42、和逻辑z电缆44。到和来自在图5中的x方向上的“到分裂1”和“到分裂2”的信号被连接到图4的+和-分裂电缆46。如上所述，只沿x方向提供分裂电缆46，不过在更复杂的实施例中它们也可以沿y和z方向提供。链接卡包括用于每一x、y和z方向的+和-ASIC，它们的操作如上面已经参考图3解释的那样。

树和中断重划分

全局组合树和全局中断信号通过和环型信号同样的链接芯片和电缆路由选择，这可以通过比较图5、6和7的最上面的部分看出。因此规律和分裂重新划分以和环型完全同样的方式把树分成逻辑子划分。在一个逻辑子划分中，每一中平面上的I/O处理器然后被软件配置以连接该划分内的树。

图6和7显示了通过在中平面之间的电缆和链接芯片(用所显示的x、y和z链接芯片)路由选择全局组合树和全局中断信号，所述中平面也携带环型信号。当重新配置链接芯片时，它设定在每一系统逻辑划分中哪一些中平面被连接。然而，在重新划分时，组合树网络和中断信号网络两者都需要被进一步配置，以便组合树的头部和中断信号网络的头部都通过每一逻辑机器划分定义。这可以以许多方式实现。

图6显示了全局树信号的路由选择，全局树信号是全局组合树网络的信号，它们经由和图5的环型信号完全一样的电缆路由选择。

对于全局组合树，巨型并行超级计算机使用在每一中平面上的一组顶级中平面计算处理器(ASIC)集中定义到相邻中平面的6个离开中平面的电缆方向(通过链接芯片的信号)的哪一个被定义为上树(up-tree)(从透视图看，朝向图2的树顶)，或者向树中的较高逻辑级行进，和哪一个被定义为下树(down-tree)(从透视图看，朝向图2的树底)。这些顶级中平面ASIC每一个有3个全局树端口，这些端口可以在软件控制下被切换，以定义哪些端口是上树和下树。总起来说这些顶级中平面ASIC定义6个离开中平面的电缆链接中的一个为上树，其它5个是下树，并且它们为其它较低级中平面ASIC提供一个树连接，如图6所示。

图7显示了中断信号的路由选择，中断信号是全局中断信号网络的信号，它们也通过和图5的环型信号完全一样的电缆路由选择。

因为中断是简单的“与”和“或”功能，因此当连接多个下树分支到一个上树链接时不需要中平面计算ASCI的复杂的处理器来执行算术运算。不需要一组顶级计算ASIC来连接中断网络的离开中平面的上树和下树链接。从而与图6的全局树路由选择相比较，图7的中断路由选择可以被简化。对于全局中断，图7的链接芯片通过线54在它们之间通信，并通过线55一起给出单个双向上树信号到在该链接卡上的链接FPGA(ASIC浮点门阵列)。这一FPGA可以执行下树广播和上树“与”和“或”逻辑功能。它通过5个下树电缆连接传递下树信号并进入中平面。

图5、6和7表示，所有环型信号、全局树信号、和中断信号在电缆和链接卡之间的路由选择完全相同。所有3个网络通过同样的电缆传播，每一个链接卡处理所有3种类型的网络的所有3类信号的路由选择和重新划分。

虽然这里详细说明了用于通过动态重新划分在超级计算机中容错的本发明的几个实施例和变体，但是显然，本发明的公开和教导对于本领域技术人员将建议许多可供选择的设计。

Claims

1.一种用于在包括多个并行处理器的并行计算机系统中提供容错的方法，以使该计算机系统容忍硬件故障，包括：

给该计算机系统提供额外的冗余备用处理器组；

设计该计算机系统，使得可以切换该冗余备用处理器组以取代经历硬件故障的计算机系统的处理器组运行，

其中所述计算机系统的环型、全局组合树、和全局中断信号通过一个链接芯片，该链接芯片在该链接芯片的不同端口之间重定向信号以使该计算机系统被划分为多个逻辑上分开的系统。

2.如权利要求1的方法，其特征在于：所述切换在软件控制下执行，从而允许整个计算机系统承受硬件故障，并且在切换到备用处理器组后该计算机系统对于软件来说看上去像完全起作用和运行着的计算机系统。

3.如权利要求1的方法，其特征在于：所述计算机系统包括一个巨型并行计算机系统，它包括多个相同的计算节点，每一计算节点包括一个或者多个CPU、存储器、和一个或者多个连接它与其它计算节点的网络接口。

4.如权利要求1的方法，其特征在于：所述计算机系统包括一个a×b×c计算节点的阵列，其被连接为3维环型，其中，每一计算节点有在x、y、z轴的正和负方向的6个链接，包括覆盖链接，连接到6个相邻的计算节点。

5.如权利要求4的方法，其特征在于：每一计算节点包括带有一个多处理器的专用集成电路ASIC，其中一个处理器作为巨型并行超级计算机的一部分执行处理，和一个第二处理器，它执行计算节点的消息传递操作。

6.如权利要求4的方法，其特征在于：所述计算机系统还包括一个在全局组合链接树上的通信链接和具有与全局组合链接树相似树结构的一组全局中断信号。

7.如权利要求1的方法，其特征在于：所述链接芯片还用作重新驱动在中平面之间的电缆上的信号。

8.如权利要求6的方法，其特征在于：每一链接芯片执行两类信号重定向，规律重定向和分裂重定向，其中规律重定向从沿所述计算机系统的x、y或z轴中的任何一个轴的逻辑方向除去一个中平面，分裂重定向允许分割所述计算机系统为两个一半或4个四分之一。

9.如权利要求8的方法，其特征在于：全局组合树和全局中断信号通过和环型信号同样的链接芯片和电缆进行路由选择，使得规律和分裂重定向和重新划分以和环型完全同样的方式改变该树为逻辑子划分。

10.如权利要求9的方法，其特征在于：在重新划分时，进一步配置全局组合树和中断信号，使得组合树的头部和中断网络的头部都通过每一逻辑机器划分进行定义。