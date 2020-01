Gandi, un bureau français d'enregistrement de noms de domaines, publie un post mortem définitif de la défaillance d'une unité de stockage d'hébergement Au début du mois qui s'achève 5PARTAGES 6 0 La société française Gandi qui œuvre dans l’enregistrement de noms de domaine et l’hébergement web a procédé à la publication d’un post mortem définitif de la défaillance d’une unité de stockage au début du mois en cours.



D’abord, les chiffres. Si les précédents développements ne faisaient pas dans le détail en ce qui concerne la portée de cet incident, c’est le cas du post mortem définitif : 414 clients arrimés à une unité de stockage au sein d’un des centres de données de l’entreprise situé au Luxembourg sont concernés. En sus, bonne nouvelle pour ces derniers : Gandi fait savoir qu’il a restauré la totalité de leurs données. « Nous avons réussi à restaurer les données et à remettre les services en ligne le matin du 13 janvier », écrit l’entreprise.



Gandi s’appuie sur le système de fichiers ZFS pour le stockage des données des clients. L’entreprise configure une triple mise en miroir sur chaque pool ZFS. C’est grâce à cette disposition que les data des clients ont pu faire l’objet de restauration. S’il a fallu cinq jours pour y parvenir, c’est en raison de difficultés à importer les données mises en miroir. À ce sujet, Gandi formule l’explication selon laquelle une corruption des métadonnées a empêché à la procédure d’importation de s’effectuer avec célérité. En fait, il y a que la version de ZFS dont l’entreprise a fait usage lors des premières tentatives de récupération ne permettait pas d’effectuer l’importation sans scan total du pool et donc sans éviter la zone corrompue de métadonnées. C’est grâce à une version plus récente de ZFS On Linux que les équipes Gandi sont parvenues à contourner cette difficulté et à lancer une importation en lecture seule dans un premier temps, ce, pour ne pas altérer les données sur le pool. Une importation sans l’option read only a fait suite à la première et c’est elle qui a débouché sur une phase de copie des données sur une unité de stockage alternative.





Donc, en dehors du mécanisme de réplication de données sur le pool ZFS au centre de l’incident Gandi ne disposait pas de copies de sauvegardes des données de ses clients. C’est aussi au cours de l’opération de restauration que l’entreprise s’est constituée une base de données de snapshots qui auraient pu aider à mitiger l’incident de façon plus aisée. Dans sa dernière publication, l’entreprise se défend : « Le ZFS permet aux clients de prendre des snapshots, qui sont des images de leur disque, à tout moment et de revenir en arrière en cas d'erreurs comme la suppression d'un fichier par exemple. Toutefois, d’un point de vue contractuel, nous ne fournissons pas de sauvegarde aux clients. Cela n'a peut-être pas été expliqué assez clairement au sein de la version 5 de notre documentation. » En d’autres termes, chez Gandi le client est responsable de ses données. Via ZFS, l’entreprise met à sa portée une fonctionnalité qu’il doit utiliser pour répondre à des sollicitations du type qu’elle a formulée en début de mois : « Nous ne pouvons pas encore faire de garanties sur les données. Soyez prêts à restaurer à partir de vos sauvegardes. »



La cause réelle de la corruption des métadonnées qui a laissé les clients aux abois reste un mystère. Si Gandi a écarté le facteur humain comme pouvant être à l’origine de cet incident, l’entreprise souligne néanmoins qu’elle « n’a pas d’explication claire à donner si ce n’est formuler des théories. » « Nous pensons que cela peut être dû à un problème matériel lié à la mémoire vive du serveur », lance l’enteprise.



