Comment éviter les pannes système et les problèmes de gravité 1 les plus courants | 1ère partie

À la recherche d’une disponibilité de 100 %

Vous savez déjà que si vous et vos utilisateurs ne pouvez accéder ni au système ni à ses données, cela peut entraîner plus qu’une simple perte de revenus : c’est la réputation même de votre entreprise qui est en jeu. DataCore s’engage à vous assurer la plus grande disponibilité possible. Dans cette série, notre objectif est de déterminer des niveaux de gravité, de comprendre pourquoi les pannes se produisent et comment les éviter.

Identifier les problèmes de gravité 1

Pour DataCore, un problème de gravité 1 est l’impossibilité totale d’accéder aux données. Nous améliorons en permanence notre documentation et nos produits afin d’éviter les pannes pouvant toucher les données sur les produits. Une étude des problèmes de gravité 1 les plus courants qui empêchent d’accéder aux données a montré qu’ils découlaient essentiellement soit une panne d’alimentation à l’échelle du système sur le site, soit d’une saturation simultanée de tous les pools DataCore alloués en thin-provisioning.

Que faire lorsqu’une panne intervient

Lorsque deux serveurs DataCore équipés de disques virtuels en configuration miroir synchrone subissent une perte d’alimentation en même temps (ou presque), cela peut se traduire par une double panne. La reprise exige alors une intervention manuelle pour savoir sur quel côté du disque virtuel se trouvent les dernières données correctes connues. Une fois cela établi, l’utilisateur doit sélectionner l’option « Force Online » pour permettre aux hôtes d’obtenir l’accès et pour que les miroirs commencent à se synchroniser.  La tâche peut se révéler ardue si, par exemple, l’alimentation a été rétablie, puis à nouveau perdue, ou si l’un des côtés du miroir connaissait déjà un problème lorsque le courant a été coupé. Dans un tel cas, nous vous conseillons d’ouvrir un dossier d’incident auprès de notre équipe de support technique qui vous aidera à déterminer le dernier « bon » côté connu du disque virtuel.

Comment reprendre rapidement après une panne

L’un des moyens d’éviter tout ce scénario consiste à utiliser un onduleur (Uninterruptible Power Supply ou UPS) sur l’un des serveurs DataCore (et tous les composants utilisés sur la trajectoire entre l’application et ses données). Il s’agit d’une mesure relativement simple qui permet d’empêcher ce serveur de perdre son alimentation en même temps que son serveur partenaire.  Des commandes d’alimentation appropriées permettront au serveur équipé de l’UPS de s’éteindre correctement si le courant ne peut pas être rétabli à temps.  Il est prudent d’installer un UPS, même si les serveurs se trouvent dans un même centre de données protégé une alimentation entièrement redondante.  Pourquoi ? Parce que même ces centres de données ne sont pas immunisés contre une panne de courant catastrophique.

Ce système est efficace parce que si les deux côtés d’une configuration en miroir perdent leur alimentation, tant que l’arrêt de l’un des deux se produit de façon suffisamment décalée par rapport à l’autre, les miroirs peuvent se resynchroniser sans intervention humaine dès que les systèmes redeviennent opérationnels. Inversement, si leur alimentation est interrompue au même moment ou presque, les hôtes ne peuvent pas accéder aux disques virtuels quand le courant revient tant qu’un intervenant humain ne leur a pas indiqué sur quel côté se trouvent les données les plus récentes.

Get a Live Demo of SANsymphony

Talk with a solution advisor about how DataCore Software-Defined Storage can make your storage infrastructure modern, performant, and flexible.

Demander une Live Demo