Vinod Mohan

Hiérarchisation automatisée des données ou placement automatisé ?

Apprenez comment déplacer des données entre divers supports de stockage en ligne et découvrez les deux techniques couramment utilisées : la hiérarchisation et le placement des données.

Savoir où telles ou telles données sont placées et sur quel stockage est une tâche herculéenne à laquelle les administrateurs de stockage sont confrontés chaque jour. Les supports de stockage ne sont pas tous identiques. Ils peuvent différer selon leurs performances, leur coût, leur respect de la conformité, leur déploiement, leur emplacement, etc. En outre, toutes les données n’ont évidemment pas la même importance. Certaines sont des données cruciales très fréquemment consultées, d’autres ne le sont que rarement et d’autres encore ne sont que des copies redondantes, créées à des fins de récupération après sinistre et accessibles uniquement en cas de perturbation et de perte de données. Il est nécessaire de souligner que l’importance des données et leur degré d’actualité (chaudes ou froides), évoluent au fil du temps. Par exemple, des données tièdes stockées sur des disques durs rapides peuvent être consultées fréquemment par une certaine application et, donc, demander à être considérées comme chaudes et déplacées vers des lecteurs SSD plus rapides.

automated data tiering vs automated data placement

Il incombe à l’administrateur du stockage de déterminer où vont telles ou telles données. Compte tenu de la vitesse et du volume de traitement des données, il est impossible d’exécuter ces opérations manuellement et en temps réel. C’est là qu’intervient l’automatisation des mouvements de données.

Les logiciels de gestion du stockage de données (ceux qui sont intégrés au matériel de stockage comme ceux que proposent les fournisseurs de solutions tiers) donnent des moyens de déplacer automatiquement les données vers le niveau de stockage approprié. En outre cela se produit de façon totalement transparente pour l’application et les utilisateurs qui accèdent aux données, sans aucune incidence sur la continuité d’activité.

Dans cet article, nous allons comparer et mettre en avant deux techniques : celle de la hiérarchisation des données et celle de leur placement. Il s’agit de techniques en principe similaires, mais qui diffèrent par la façon dont elles fonctionnent. Regardons cela de plus près.

Hiérarchisation automatisée des données

La hiérarchisation automatisée des données (également appelée « tiering du stockage » ou « auto-tiering ») est une technique largement utilisée dans le monde du stockage par blocs. En effet, le logiciel qui contrôle le mouvement des données utilise l’apprentissage automatique pour suivre des modèles d’accès et connaître la température des données. La science du classement des données revient à surveiller le comportement des I/O, à déterminer la fréquence d’utilisation, puis à déplacer dynamiquement des blocs d’informations vers la classe ou le niveau de stockage le plus approprié. Selon la fréquence à laquelle les données sont consultées (autrement dit, selon qu’elles sont chaudes ou froides), elles sont placées sur des niveaux de stockage correspondants. En règle générale, l’administrateur du stockage définit des niveaux de stockage (1, 2, 3 et ainsi de suite). Le logiciel se charge du reste.

La hiérarchisation des données peut s’opérer au sein d’un même périphérique de stockage comportant différents niveaux ou entre appareils du même fabricant ou de fabricants différents. Elle peut fonctionner à plein lorsqu’il n’existe aucune contrainte de fournisseur ou d’appareil et qu’elle intervient sur n’importe quel système de stockage.

Prenez un environnement contenant une combinaison de baies SSD flash haut de gamme, de systèmes de stockage sur disques durs et de JBOD. Vous voulez éviter de gaspiller de l’espace sur la baie flash haut de gamme avec des données froides rarement consultées et obliger cet appareil à réclamer toujours plus de capacité, ce qui ne serait ni intelligent ni rentable. La hiérarchisation permet de déplacer automatiquement les données de telle sorte que le stockage hautes performances coûteux (niveau 1) stocke les données les plus chaudes et que les autres niveaux (dont le numéro de niveau est plus élevé) reçoivent des données tièdes et froides.

Ce mouvement ne se produit pas seulement lorsque de nouvelles données sont écrites sur le disque. Même lorsque les données existantes sont consultées et que leurs fréquences de consultation changent, le logiciel de gestion du stockage reconnaît intelligemment le modèle et déplace les données vers le niveau de stockage le plus adapté. Ce mouvement de données se produit en permanence, automatiquement et en toute transparence pour l’application de consultation.

Chez DataCore, nous avons intégré la hiérarchisation automatisée des données dans SANsymphony, notre solution de software-defined storage basée sur des blocs qui utilise la technologie de virtualisation du stockage pour extraire la capacité du matériel de stockage et créer des pools virtuels. Au sein d’un pool de stockage, les niveaux de hiérarchisation peuvent être caractérisés. SANsymphony effectue le data tiering en temps réel, ce qui vous permet de profiter pleinement de la capacité de votre matériel performant pour stocker des données critiques ou chaudes. SANsymphony avance les blocs les plus fréquemment utilisés jusqu’au niveau le plus rapide, tandis que les blocs de stockage les moins fréquemment consultés sont rétrogradés sur le niveau le plus lent. Cela vous permet également d’intégrer les nouvelles technologies dans votre infrastructure de stockage de manière transparente. Par exemple, si vous ajoutez des disques de stockage basés sur 3D XPoint, SANsymphony peut ajouter ce matériel sans perturbation dans son pool de stockage virtuel et en faire votre stockage de niveau 1, celui où parviennent toutes vos données chaudes. Le grand intérêt de SANsymphony est de prendre en charge la hiérarchisation des données sur n’importe quelle marque ou n’importe quel modèle de matériel de stockage et sur tous les types de déploiement (y compris hyperconvergé).

automated data tiering using hot and cold data

Placement automatisé des données

Dans le monde des données non structurées, où la croissance des données excède de beaucoup celle des données structurées, le support de stockage privilégié est généralement le stockage de fichiers. Les services informatiques ont besoin de flexibilité pour déplacer les données entre les différents systèmes de stockage de fichiers, tels que les NAS, les serveurs de fichiers, etc., (ainsi, éventuellement, qu’avec le stockage d’objets) en fonction de leurs besoins.

Cela est possible grâce au placement automatisé des données, qui est une variante du tiering automatisé des données, mais va bien au-delà en répondant à différents critères régissant le mouvement des données. Ici, le logiciel de gestion du stockage de données est généralement un système de fichiers global qui réside au-dessus de la couche de stockage. En tirant parti de la technologie de virtualisation des fichiers, le système de fichiers global recueille d’abord les métadonnées de la charge utile stockée sur divers systèmes de stockage (serveurs de fichiers, NAS, cloud, etc.). Il assimile ensuite les fichiers, y compris leurs informations de métadonnées, dans son espace de noms global.

Le système de fichiers global connaît à présent l’emplacement des fichiers stockés, leur type, leur date de création et celle à laquelle ils ont été consultés pour la dernière fois, leur taille, l’utilisateur qui les a créés, etc., ainsi que l’utilisation de la capacité des systèmes de stockage. Les informations recueillies sur les données sont beaucoup plus nombreuses que dans le cas du stockage par blocs. Il existe donc maintenant davantage d’options pour personnaliser les critères d’après les supports de stockage les mieux indiqués pour y déplacer telles ou telles données. La fréquence des accès aux données (soit la température des données) est indéniablement l’une de ces options. Mais l’administrateur peut aussi créer de nombreuses autres stratégies sur mesure pour réguler le mouvement des données. Le placement de données présente donc une applicabilité plus large que leur hiérarchisation.

Voici quelques exemples pour plus de clarté :

  • Durabilité et protection des données : créez des copies des données stockées sur un certain partage et déplacez-les vers plusieurs emplacements pour servir de sauvegardes.
  • Performances : déchargez les données stockées sur des appareils NAS haut de gamme vers des disques plus lents et un stockage moins coûteux. Vous pourrez ainsi libérer de la capacité sur votre stockage principal et minimiser les goulots d’étranglement des I/O.
  • Conformité : les règles de conformité peuvent exiger des organisations qu’elles conservent des données à un endroit précis pendant une période donnée avant de pouvoir les déplacer ou les supprimer. Par exemple, stocker les données des clients dans un pays ou sur un site spécifique pour respecter des normes de conformité et de sécurité.
  • Déchargez vos systèmes vers un stockage d’objets: les organisations qui privilégient l’utilisation du stockage d’objets comme alternative peu coûteuse au stockage de fichiers peuvent utiliser le placement automatisé pour déplacer les données inactives ou froides vers du stockage d’objets en local ou dans le cloud.
  • Personnalisez les objectifs de l’entreprise: déplacez tous les fichiers de snapshot vers le cloud. Déplacez aussi toutes les données du département RH enregistrées sur du matériel de stockage spécifique vers du stockage secondaire. Lorsque la limite de capacité est atteinte sur un volume de stockage spécifique, déplacez toutes les nouvelles données vers un autre volume de stockage (ce qui permet d’équilibrer la charge entre les systèmes de stockage), etc.

Pour effectuer des placements automatisés de données sur du stockage distribué de fichiers et d’objets, DataCore propose vFilO, une solution de software-defined storage qui fonctionne comme un système de fichiers global et régit le mouvement des données en fonction de stratégies personnalisées définies par l’administrateur du stockage. vFilO utilise l’apprentissage automatique pour détecter les modèles au fur et à mesure que les données sont écrites sur le support de stockage, puis procède au placement des données d’après ces stratégies. L’utilisation de vFilO vous permet d’agréger des espaces de noms sur des appareils et des serveurs NAS disparates au sein d’un unique espace de noms global et de rationaliser à votre convenance la mobilité des données.

Automated Data Placement

Tout comme avec la hiérarchisation des données, le mouvement des données se produit ici aussi de façon dynamique et entièrement transparente pour l’application et les utilisateurs. Puisqu’il permet de déplacer des données vers le cloud et entre les différentes plateformes de cloud public, vFilO peut également vous aider à effectuer votre transition vers le cloud et à tirer parti d’options économiques de stockage des données.

Policy-Driven Data Placement for Unstructured Data

Conclusion

Bien que les informaticiens professionnels utilisent en général indifféremment les termes de hiérarchisation (ou tiering) ou de placement des données, DataCore traite ces notions comme deux techniques distinctes. Pour nous, le tiering concerne davantage le déplacement des données en fonction de leur température, tandis que le placement utilise des stratégies personnalisées pour contrôler le mouvement des données en fonction des besoins de l’entreprise (ce qui place également la température des données parmi les options possibles).

Vous pouvez vous renseigner sur SANsymphony et/ou vFilO en fonction de la composition de votre environnement de stockage (bloc, fichier ou objet) et du type de données que vous traitez (structurées ou non structurées).

Get a Live Demo of SANsymphony

Talk with a solution advisor about how DataCore Software-Defined Storage can make your storage infrastructure modern, performant, and flexible.

Demander une Live Demo