LMi-MAG 6 Mars 2021 - Flipbook - Page 35
© Jerry Coli - Pixabay
La première chose à faire en cas de sinistre : dépêcher sur place
la personne la plus compétente, et prévoir pour elle et son équipe
hébergement et ressources de premières nécessités.
dé : la première rangée de rack de tous les serveurs était
sous l’eau, mais les racks supérieurs étaient intacts. Le
plan de récupération consistait à déplacer les serveurs
qui fonctionnaient encore vers le datacenter qui n’avait
pas été inondé, et de tout récupérer là-bas. Même si globalement le transfert des serveurs d’un endroit à l’autre
s’est bien passé, Ron a déclaré que, dans la précipitation,
certains serveurs avaient subi des dommages et qu’il avait
eu du mal à les remonter.
Liaison par satellite ou par micro-ondes
physiques. Le système de sauvegarde était basé sur un
logiciel de sauvegarde traditionnel de premier plan, et il
était stocké dans un système de disques de déduplication
cible. Chaque datacenter effectuait la sauvegarde sur son
propre système de déduplication local, puis répliquait
ses sauvegardes sur le système de disques de l’autre datacenter. Cela signifie que chaque datacenter conservait
une copie complète de toutes les sauvegardes d’Initech,
de sorte que, si un datacenter était détruit, l’entreprise
aurait toujours la totalité de ses données. Initech copiait
aussi occasionnellement ces sauvegardes sur bande et les
stockait hors site, mais sur l’île, pour des raisons d’éloignement. Les bandes auraient pu être stockées sur le
continent, mais ne l’ont pas été : heureusement qu’elles
n’ont pas été détruites lors de la catastrophe, mais cela
aurait pu arriver. L’entreprise de biotechnologie avait
envisagé d’utiliser le cloud pour la reprise après sinistre,
mais elle a estimé la solution peu pratique en raison des
limitations de bande passante sur l’île.
Quand l’ouragan a frappé, Initech a commencé à chercher
quelqu’un sur place pour prendre en charge le processus de récupération. Mais compte tenu de l’importance
des dégâts, l’entreprise savait qu’elle avait besoin d’une
personne capable de maîtriser la reprise avec des commandes en ligne. Chez Initech, seules quelques personnes
avaient ce niveau de compétence, et notamment Ron,
envoyé sur place en jet privé. Là-bas, il a constaté l’incroyable niveau de destruction, en particulier, dans les
bâtiments d’Initech. L’un des datacenters avait été inon-
Mais c’est la connexion Internet entre l’île et le continent
qui a posé le plus de problèmes à l’expert. Celle-ci avait été
temporairement désactivée à cause de l’ouragan, et Ron
s’est retrouvé face à un problème majeur. L’entreprise
avait pris la malheureuse décision d’exécuter les tâches
Active Directory (AD) sur le continent, au lieu d’installer un
AD séparé sur ses datacenters distants. Si bien que toute
requête AD devait être envoyée sur le continent, désormais
inaccessible. Et donc, Ron ne pouvait pas se connecter aux
systèmes qu’il devait utiliser pour lancer la récupération.
Avec son équipe, il a essayé plusieurs options, à commencer par l’Internet par satellite. Même s’ils ont pu retrouver
une forme de connectivité, ils ont constaté qu’ils étaient
limités dans leur allocation quotidienne de bande passante, et qu’au-delà, le fournisseur d’accès Internet par
satellite réduisait leur connexion. Ils ont également essayé
une connexion par micro-ondes avec un autre fournisseur
d’accès. Mais avec ce système de relais micro-ondes à plusieurs étages, la perte de puissance au niveau de l’un des
relais pouvait provoquer une autre panne temporaire. Il
s’avère qu’il est très difficile d’avoir une connexion réseau
stable quand l’infrastructure - bâtiments et alimentation
- sur laquelle repose cette connexion réseau ne l’est pas.
Finalement, la restauration proprement dite a été la
phase la plus facile de l’opération. Elle n’a certainement
pas été rapide, mais elle a fonctionné. Le processus complet de restauration d’un datacenter à l’autre a pris un
peu plus de deux semaines. Vu les dégâts occasionnés sur
l’île, la performance est assez impressionnante. Le logiciel qu’ils ont utilisé sauvegardait VMware au niveau de
l’hyperviseur, si bien que la restauration des plus de
35