Pourquoi la sauvegarde reste essentielle

Le #WorldBackupDay est l‘occasion annuelle de rappeler l’importance de protéger les données de votre entreprise contre les sinistres de toute envergure. Les données sont l’ADN de votre système d’information qui, sans elles, se résume à une coquille vide. Si d’autres technologies de protection des données ont vu le jour afin de s’adapter aux exigences grandissantes en termes de disponibilité des données et de résilience du système d’information, la sauvegarde reste néanmoins le fondement de la protection des données et votre dernier recours à bien des égards. Souvent critiquée de « Old School » ou de « Legacy Solution » par ses détracteurs, la sauvegarde a encore bien sa place et a su s’adapter aux défis auxquels elle doit faire face au quotidien. Je ne souhaite pas non plus tomber dans un sectarisme quelconque d’une technologie plutôt qu’une autre car chacune à sa place pour protéger vos données, le tout est de bien en comprendre les fondamentaux et je vous explique pourquoi.

Les familles SPit et APiT

Les solutions de protection des données peuvent être classées en deux grandes familles. Nous trouvons tout d’abord les technologies de la famille SPiT (Single Point-in-Time). Dans la langue de Molière, nous pouvons traduire celle-ci par « un seul instant dans le temps ». En d’autres termes, elles vous permettent de mettre à disposition une copie de la donnée, mais celle-ci est généralement la dernière version de l’information et la « plus fraîche » ou la plus à jour. Nous pouvons classer dans cette famille les solutions s’appuyant sur un principe de réplication de la donnée. Seule la dernière version est disponible ce qui est fort utile quand l’on souhaite disposer de l’information sur un site de secours par exemple. Cette technologie ne respecte par conséquent pas le principe d’isolation, que je vais détailler un peu plus loin, mais ce n’est pas son rôle. La réplication copie à l’identique la donnée d’un point A vers un point B, elle fait office de miroir étendu et c’est là où le bât blesse quand votre entreprise subit une attaque de type Ransomware. La donnée ayant été chiffrée sur le stockage source, elle se retrouve également corrompue sur le stockage de destination : dommage !

Dans la deuxième famille, regroupe les technologies dites APiT (Any Point-in-Time) que l’on traduira par « à tout instant dans le temps ». On classe dans cette famille les solutions mettant en œuvre la réplication de deuxième génération ou plus communément appelées CDP (Continuous Data Protection). Cette technologie est généralement employée dans la mise en oeuvre d'une stratégie identique à celle employée avec la réplication, à savoir répliquer la donnée d’un point A vers un point B avec comme une différence de taille : une journalisation des informations. En d’autres termes, elle est capable de mettre à disposition une copie de la donnée, à un instant précis dans tant que celle-ci se trouve dans son journal. La CDP est redoutable d’efficacité pour garantir un PDMA/RPO et DMIA/RTO faibles en cas de sinistre pour des applications d’entreprise dites « Mission Critical ». Ces solutions de type BC/DR sont proposées par Zerto. Le journal quant à lui est généralement minimaliste : de quelques heures à quelques jours ce qui est largement suffisant pour ce que l’on lui demande de faire et compte-tenu du volume d’information que la CDP doit stocker. Des stratégies d’optimisation de stockage sont néanmoins de mise afin de minimiser les coûts de stockage. Enfin, une corruption ou une perte du journal, ou encore un son mauvais dimensionnement de celui nécessaire rend cette technologie inopérante. De la même manière, cette technologie s’appuie sur le stockage primaire où réside la donnée de production. Les blocs de données qu’elle a mémorisés dans le temps peuvent être réappliqués sous à condition que le stockage primaire soit à minima opérationnel !

Nous voyons souvent s’adosser à ces deux technologies les Snapshots ou clichés instantanés qui comme leur nom l’indique effectuent une copie instantanée d’un volume disque qui est la granularité minimale. Une fois le Snapshot déclenché, toute modification du volume est mémorisée dans l’espace de Snapshot qui lui est attribué en copiant la donnée avant modification. Plus le volume disque est sollicité au moyen d’opérations de type écriture, plus le volume va se remplir. En cas de sinistre logique (et non physique), il est possible de recopier les données désirées depuis le volume de Snapshot à l’instant où il a été déclenché : elle est dans ce sens SPiT. Il est néanmoins possible de déclencher plusieurs Snapshots afin de permettre la recopie de la donnée depuis plusieurs points dans le temps (APiT). De la même manière que la technologie de CDP, le Snapshot s’appuie une fois encore sur le stockage primaire, car seuls des blocs de données sont recopiés dans l’espace de Snapshot. Une perte totale du volume primaire rend inopérant cette technologie.

Enfin, « The Last but not the Least », nous trouvons la sauvegarde qui est la plus ancienne des technologies de protection de données. A la différence des autres technologies précédemment citées la sauvegarde respecte le principe d’isolation : tout du moins elle doit être mise en œuvre dans l’esprit dans lequel elle a été conçue ! Une sauvegarde a pour principe de s’affranchir du facteur humain, source d’erreur, en se déclenchant de manière autonome selon une planification bien précise. Elle se réalise en trois opérations unitaires qui sont la collecte de la donnée à sauvegarder sur le stockage primaire au moyen d’une lecture, le transfert de la copie de la donnée sur le LAN ou SAN et son écriture sur un stockage secondaire, le tout en mémorisant les dates, lieu de collecte et informations sur la donnée (métadonnées) dans une base de connaissance connue sous le nom de catalogue de sauvegarde qui constitue son Talon d’Achille. En cas de perte, toute restauration devient impossible… ou tout du moins très compliquée. La différence majeure est que la sauvegarde se suffit à elle-même, la donnée sauvegardée résidant sur un stockage secondaire et en totalité, tout sinistre d’origine logique ou physique sur l’environnement de production n’affecte en rien le contenu des sauvegardes grâce au principe d’isolation. Les données sauvegardées peuvent être copiées sur disque, sur une robotique de bande magnétique de chez Quantum bien évidemment ou vers le Cloud. Le respect de la règle des 3-2-1-1 permet de garantir la disponibilité des données indépendamment de la nature et de l’envergure du sinistre subit par l’entreprise, comprenant les sinistres majeurs d’origine naturelle. Les solutions de sauvegardes modernes ont su tirer parti des différentes technologies en les intégrant ou en les interfaçant et ont dû s’adapter aux évolutions technologiques, je fais référence ici à la virtualisation et l’hyperconvergence. Veeam Software est in un précurseur en matière de sauvegarde et de réplications de machines virtuelles. L’intégration de technologies s’appuyant sur technologies citées permet également aux solutions de sauvegarde modernes de s’adresser à des volumes de données à sauvegarder sur des NAS de l’ordre du pétascale ce qui était impossible précédemment compte-tenu des fenêtres de sauvegarde. Atempo avec sa nouvelle solution baptisée Miria permet de sauvegarder ou de migrer des données avec des vitesses impressionnantes.

Un point important: la nature de vos données

Le dernier facteur à prendre en compte dans l’emploi d’une technologie de protection de données est la nature des données à sauvegarder. Là encore, le monde des données est divisé en deux : les données structurées et les données non structurées. Les fichiers sont par essence non structurés et représentent généralement la majorité des données en nombre et en volumétrie et sont moins contraignantes avec les technologies de protection énoncées. Les données structurées sont celles résidant dans les bases de données et applications (Oracle, MS-SQL, Exchange…) qui dans le cadre de la production quotidienne, disposent de leur propre mécanisme de journalisation. Elles doivent par conséquent être protégées en faisant appel à des API ou au moyen de scripts visant à garantir leur consistance dans une optique de restauration. Ainsi, les technologies de Snapshot ou de CDP, lors de leur déclenchement, doivent impérativement introduire des points de reprise consistants (consistent Point-in-Time) afin d'obtenir une copie application consistante. Le cas échant, la copie produite est dite « Crash Consistent », les données sont dans l’état d’un système que l’on couperait électriquement sans autre mesure précaution. En cas de reprise, la base de données ou l’application peut redémarrer…ou non. L’autre image serait celle d’une voiture venant percuter un mur, plus l’activité en termes d’I/O étant élevée, plus la vitesse avant l’impact est grande dans ce cas et les dommages importants. Le redémarrage éventuel de la voiture dépend ainsi de ces facteurs.

Le mot de la fin

En conclusion il y a rarement de solution miracle, la protection des données optimale doit souvent combiner un ensemble de technologies car chacune y compris la sauvegarde à des forces et des faiblesses. L'important est de protéger vos données en permanence et pas uniquement à l'occasion du #WorldBackupDay.

Vous avez des doutes sur vos stratégies de protection de données ? Contactez-moi.

Atempo Digital Archive

Atempo Live Navigator

Atempo Time Navigator

Scalar® Tape Libraries

Disk Backup Systems

Lattus Object Storage

Nextcloud Files

Veeam Software

Seald