Contexte
” Un Plan de Reprise d’Activité (PRA) permet d’assurer, dans le cas d’une crise majeure, la reconstruction de son infrastructure informatique et la remise en route des applications nécessaires à l’activité de l’entreprise.”
Le client :
GIE Mutuelle
La demande :
Ce test de PRA consistait à gérer et coordonner les différents acteurs, directs ou indirects, liés à un serveur de bases de données mutualisé. Cela impactait un grand nombre d’interlocuteurs, du support applicatif jusqu’au service en charge de l’infrastructure, en passant par les équipes réseau.
Au sein d’un service de production important, nous avons eu la responsabilité d’encadrer, de définir et d’accompagner un test de PRA d’envergure.
L’objectif du test était de simuler la perte du serveur actif et de ses disques SAN associés.
Après avoir vérifié et appliqué les pré-requis de l’opération, nous avons effectuer une bascule du serveur actif vers son backup.
L’nfrastructure technique en chiffres
110 instances Oracle hébergées;
Plus de 30 équipes mobilisées;
Opération impactant 5 partenaires;
5h d’intervention englobant les vérifications des pré-requis, la bascule technique, le redémarrage des applications et la vérification du système et des applications pour permettre de rendre un service nominal aux utilisateurs et sans impact;
200 applications impactées.
Missions principales
Définir le périmètre de l’opération, les risques et les impacts potentiels de l’opération;
Établir une cartographie exhaustive des instances et des applications impactées;
Rédiger un descriptif précis et complet de l’intervention;
Établir une date d’intervention en prenant en compte l’impact et les contraintes métiers des différents partenaires;
Coordonner les différentes équipes Techniques et Applicatives pour obtenir l’intervention la plus efficiente possible;
Définir un chronogramme des tâches et des délais approximatifs de l’intervention;
Communiquer auprès des partenaires, responsables de domaines et personnes concernées un suivi de la préparation et du déroulement de la mission;
Animer les réunions de préparation et de conclusion du test;
Définir une stratégie de secours en cas de dysfonctionnement avéré et ayant un impact réel sur l’activité de production.
Conclusion
Bonne coordination des équipes lors de la réalisation de l’opération;
L’opération a été un succès malgré la découverte d’un bug firmware lié au matériel du serveur de backup (performance du serveur dégradée);
Cet incident nous a contraint à une intervention, la semaine suivante, pour rétablir un fonctionnement nominal des applications;
Gestion de crise et définition d’une stratégie de retour à une situation nominale, 2 scénarii ont été établis :
Retour arrière, bascule sur le serveur nominal;
Dans le cas où la découverte du dysfonctionnement et test révélant un retour à la normal des performances, il a été défini un plan d’intervention rétablissant une exploitation nominale.