CA2493407A1

CA2493407A1 - Procede de replication d'une application logicielle dans une architecture multi-ordinateurs, procede pour realiser une continuite de fonctionnement mettant en oeuvre ce procede de replication, et systeme multi-ordinateurs ainsi equipe

Info

Publication number: CA2493407A1
Application number: CA002493407A
Authority: CA
Inventors: Marc Vertes; Laurent Dufour; Francois Richard; Gregory Kurz
Original assignee: Individual
Current assignee: International Business Machines Corp
Priority date: 2002-08-02
Filing date: 2003-07-28
Publication date: 2004-02-19
Anticipated expiration: 2023-07-28
Also published as: CA2493407C; WO2004015574B1; EP1529259A2; AU2003273481A8; DE60328100D1; WO2004015574A3; JP2005535044A; FR2843209B1; ATE434790T1; FR2843209A1; US20050251785A1; US7725763B2; EP1529259B1; AU2003273481A1; WO2004015574A2

Abstract

Procédé pour répliquer une application logicielle dans une architecture mult i- ordinateurs (cluster), cette application logicielle étant préalablement exécutée sur un premier ordinateur du cluster constituant un n.oelig.ud primaire ou opérationnel et étant destinée à être répliquée sur au moins un autre ordinateur du cluster constituant un n.oelig.ud secondaire, comprenant une réplication des ressources associées à cette application logicielle. Ce procédé comprend une mise à jour au fil de l'eau des ressources répliquées p ar un mécanisme d'introspection dynamique prévu pour fournir la structure de l'application à répliquer, ainsi que le graphe dynamique des ressources et dépendances mises en .oelig.uvre.

Claims

1. Procédé pour répliquer une application logicielle dans une architecture multi-ordinateurs (cluster), ladite application logicielle étant préalablement exécutée sur un premier ordinateur dudit cluster constituant un noeud primaire et étant destinée à être répliquée sur au moins un autre ordinateur dudit cluster constituant un noeud secondaire, comprenant une réplication des ressources associées à ladite application logicielle, caractérisé en ce que les ressources répliquées incluent :
- la mémoire virtuelle de chaque processus concerné ainsi que sa pile d'appel, - des ressources systèmes (inter process communication, connexion réseau, etc.), et - des données écrites sur disques;
et en ce qu'il comprend en outre une mise à jour au fil de l'eau desdites ressources répliquées par un mécanisme d'introspection dynamique prévu pour fournir la structure de l'application à répliquer, et un graphe dynamique des ressources et dépendances mises en oeuvre.

2. Procédé de réplication selon la revendication 1, caractérisé en ce qu'il comprend en outre une création et une maintenance d'un arbre de dépendance, qui fournit à
chaque instant des informations sur les ressources qu'il est nécessaire de répliquer.

3. Procédé de réplication selon l'une des revendications 1 ou 2, caractérisé en ce qu'il comprend en outre un mécanisme de génération de point de reprise (« checkpointing »), par lequel les ressources à répliquer ont répliquées sur un ou plusieurs noeuds secondaires.

4. Procédé de réplication selon la revendication 3, caractérisé en ce qu'il comprend trois étapes :
- capture des ressources sur 1e noeud primaire, - transfert par le réseau vers un ou plusieurs noeuds secondaires, et - restauration sur le ou les noeuds secondaires.

5. Procédé de réplication selon l'une quelconque des revendications précédentes et la revendication 3, caractérisé en ce qu'il comprend en outre un mécanisme d'optimisation du mécanisme de génération de point de reprise.

6. Procédé de réplication selon la revendication 5, caractérisé en ce que le mécanisme de « checkpointing » est incrémental.

7. Procédé de réplication selon l'une des revendications 5 ou 6, caractérisé en ce que le mécanisme de « checkpointing » est discriminant.

8. Procédé de réplication selon l'une des revendications 5 à
7, caractérisé en ce que le mécanisme de « checkpointing »
inclut au moins l'une des fonctions suivantes :
- une barrière de synchronisation de processus (PSB), - une gestion de ressources (RM), - une gestion de ressources système (SRM),et - une gestion de ressources de processus (PRM).

9. Procédé de réplication selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il comprend en outre un mécanisme de réplication de fichiers de données applicatives entre un noeud opérationnel (OP) sur lequel l'application est exécutée et un noeud dit de stand-by (SB).

10. Procédé pour réaliser une continuité de fonctionnement d'une application logicielle dans une architecture multi-ordinateurs (cluster), cette application étant exécutée à un instant donné sur l'un des ordinateurs du cluster, appelé
noeud primaire ou opérationnel, les autres ordinateurs dudit cluster étant appelés noeuds secondaires, ce procédé mettant en oeuvre le procédé de réplication selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il comprend les étapes suivantes :
- réplication de l'application sur au moins des noeuds secondaires, de façon à réaliser au moins un clone de ladite application, - mise à jour au fil de l'eau dudit ou desdits clones, et - en cas de détection d'une défaillance ou d'un événement affectant ledit noeud opérationnel, basculement de service vers l'un au moins desdits clones.

11. Procédé de continuité de fonctionnement selon la revendication 10, caractérisé en ce que la réplication de l'application est de nature holistigue.

12. Procédé de continuité de fonctionnement selon l'une revendication 10 ou 11, caractérisé en ce qu'il comprend en outre une mise à jour des clones de l'application.

13. Procédé de continuité de fonctionnement selon l'une des revendications 10 à 12, caractérisé en ce qu'il comprend en-outre une supervision de l'état de ressources nécessairement au fonctionnement de l'application.

14. Procédé de continuité de fonctionnement selon l'une des revendications 10 à 13, caractérisé en ce qu'il comprend en outre, à la suite d'une détection d'une défaillance ou d'un événement affectant le noeud opérationnel, une étape pour élire, parmi des clones installés sur des noeuds secondaires, un clone pour être substitué à l'application initiale, le noeud sur lequel ledit clone élu est installé devenant le nouveau noeud opérationnel.

15. Procédé de continuité de fonctionnement selon l'une des revendications 10 à 14, caractérisé en ce qu'il comprend en outre un enregistrement sur chaque clone de messages reçus par le noeud primaire ou opérationnel, ces messages étant réinjectés dans le clone élu nouvel opérationnel en cas de basculement.

16. Système multi-ordinateurs prévu pour exécuter sur au moins desdits ordinateurs au moins une application logicielle, implémentant 1e procédé pour réaliser une continuité de fonctionnement selon l'une quelconque des revendications 11 à 15.

17. Application du procédé de réplication selon l'une quelconque des revendications 1 à 9, pour une optimisation automatique de ressources informatiques par partage de charge par répartition dynamique de processus.

18. Application du procédé de réplication selon l'une quelconque des revendications 1 à 9, pour une maintenance non interruptive par relocation à la demande de processus au travers d'un réseau de ressources informatiques.

19. Application du procédé de réplication selon l'une quelconque des revendications 1 à 9, pour une préservation de contexte applicatif dans des applications mobiles.