Webcast - Diffusé pour la première fois le

23 juin 2020

13 h (heure de l'Est)

Données « chaudes » et « froides » : leur influence sur les décisions relatives au placement des données et comment y remédier

Transcription de la webdiffusion

Carlos Nieves : Bonjour, bon après-midi, et même bonsoir à certains d’entre vous. Merci de vous joindre à nous aujourd’hui. Je m’appelle Carlos Nieves et je serai votre modérateur pour cet événement. Je tiens à vous souhaiter à tous la bienvenue à la présentation d’aujourd’hui, qui portera sur le thème des données « chaudes » et « froides », leur influence sur les décisions de placement des données, et les solutions à y apporter. Nous avons également parmi nous aujourd’hui notre intervenant, Augie Gonzalez. Augie est directeur du marketing produit et l’un de nos experts techniques en matière de software-defined storage .

Avant de commencer la présentation d’aujourd’hui, j’aimerais aborder quelques points d’ordre pratique. Tout d’abord, la présentation comprendra quelques questions de sondage ; nous vous encourageons donc à voter et à participer dès que les questions seront posées. Par ailleurs, nous organiserons une session de questions-réponses à la fin de la présentation ; n’hésitez donc pas à soumettre vos questions à tout moment via la boîte de questions. À l’issue de cette session, nous désignerons le gagnant du tirage au sort pour une carte-cadeau Amazon d’une valeur de 200 $. Nous avons également inclus quelques ressources dans la section des pièces jointes ; n’hésitez pas à les consulter. Par ailleurs, cette présentation sera enregistrée. Nous la partagerons avec tous les participants et elle sera également disponible à la demande. Enfin, n’oubliez pas de noter la présentation et de nous faire part de vos commentaires, qui nous sont très précieux. Sur ce, je cède la parole à notre expert en solutions techniques, Augie Gonzalez. Augie ?

Augie Gonzalez : Salut, merci Carlos. Quand je regarde cette photo, ça me fait un peu sourire. Ça me rappelle les grandes différences de température entre le printemps ici, dans notre belle Floride, et partout ailleurs au nord de chez nous, mais en réalité, ce contraste de température spectaculaire s’applique aussi à tes données. Voyons donc comment cela se traduit.

Si nous abordons ce sujet, c’est en partie parce qu’il a une incidence sur nos dépenses : combien dépensons-nous pour des données relativement inactives qui ne justifient pas le même niveau d’investissement que les données « chaudes » habituelles, sur lesquelles nous comptons tant ? Nous le savons parce que nous avons passé beaucoup de temps à analyser les données télémétriques provenant de milliers de sites, ce qui nous donne une très bonne idée de la répartition entre données « chaudes » et « froides » dans des environnements comme le vôtre.

Jetez un œil à ces courbes. Elles sont très représentatives de ce que l’on observe de manière générale. Donc, si vous deviez examiner la norme de ces scénarios, voici ce que vous constateriez en moyenne. Et laissez-moi vous présenter cela. L’axe de gauche est très révélateur – vous voyez ce pic important. Il indique essentiellement la température. On observe donc des pics très élevés à gauche : le vert va jusqu’à la limite du rouge. Cela correspond aux données les plus actives, celles qui sont consultées le plus fréquemment. Comme vous pouvez le constater, la courbe s’aplatit à mesure que l’on se dirige vers la droite et vers le bas. Elle commence à chuter de manière spectaculaire à environ 20 %. Cela signifie donc que la plupart des données « chaudes » représentent environ 20 % de la capacité totale du pool à laquelle vous avez accès. C’est très significatif, car cela revient à dire que seule une petite fraction de toutes les données dont vous disposez est suffisamment importante pour que vous y accédiez fréquemment.

Maintenant, le deuxième graphique que vous voyez ici, la ligne ondulée – ces lignes orange, jaunes et ambrées – indique l’ancienneté des données. Elle représente le temps écoulé depuis leur arrivée initiale. Vous constatez là aussi la même chose : la température, lorsqu’elle arrive, est active – c’est-à-dire « chaude » –, mais en l’espace de quelques heures seulement, ces données deviennent relativement obsolètes et inutilisées, et elles vieillissent très rapidement. J’y reviendrai plus en détail lorsque nous aborderons la demi-vie des données, mais cela sert simplement à vous mettre dans le contexte. C’est un phénomène très, très courant. Si vous deviez analyser vos propres scénarios, vous constateriez un comportement très similaire.

Les variations de température sont souvent décrites de manière générale comme des « données chaudes » – ce terme désignant une fréquence d’utilisation élevée, des données fréquemment consultées, toujours actives. Le deuxième groupe est généralement associé aux « données tièdes », dont l’utilisation est plus modérée – moins fréquente que celle des données chaudes. Viennent ensuite les informations rarement consultées, qui sont classées comme « données froides ». Il existe en réalité une autre catégorie. On les appelle les « données gelées », et vous en saurez un peu plus à ce sujet. Peu importe que vous utilisiez les degrés Fahrenheit ou Celsius. C’est exactement la même chose. La corrélation est très forte, quelle que soit votre unité de mesure.

Ce qu’il faut retenir ici, c’est que même si nous nous concentrons principalement sur ce qui nous intéresse et ce qui est pertinent à un moment donné, si vous pouviez avoir un aperçu de l’ensemble des données auxquelles vous êtes confronté, vous constateriez que ces « données chaudes » ne représentent qu’une infime fraction – une part disproportionnellement faible – de votre volume total. Les « données tièdes » ne constituent elles aussi qu’une petite partie, mais ces deux catégories ne sont en réalité que la partie émergée de l’iceberg.

La plupart des informations que vous conservez et pour lesquelles vous dépensez beaucoup d'argent sont des données obsolètes. C'est intéressant, car on a très vite tendance à perdre cela de vue. Nous sommes tellement préoccupés par la gestion de notre entreprise que nous négligeons parfois cet aspect, à nos dépens.

Pour illustrer cela par des chiffres concrets, il faut examiner la capacité moyenne gérée et son évolution, ne serait-ce qu’au cours des deux dernières années et demie. Dans certains cas, le nombre de pétaoctets stockés a été multiplié par près de six. Certes, votre environnement est peut-être plus modeste, mais le pourcentage de croissance relatif est probablement similaire, selon votre secteur d’activité. Réfléchissez-y. Imaginons que quelqu’un stocke près de 10 pétaoctets de données : si seulement 20 % de ce volume est actif et réellement important, et que vous consacrez autant d’argent à ces 20 % pour les sécuriser, les protéger et les maintenir actifs et à jour que pour les 8 pétaoctets restants… waouh, c’est beaucoup d’argent gaspillé là où il ne faut pas, argent que vous pourriez mieux investir ailleurs.

Nous allons maintenant aborder les moyens de résoudre ce problème, mais avant tout, j’aimerais savoir combien de types différents de périphériques de stockage vous utilisez actuellement ? Je suis vraiment curieux de comprendre comment vous gérez cette distinction entre les données « chaudes », « tièdes » et « froides ». Je vous invite donc à cocher l’une de ces options, une seule. Soit vous utilisez les mêmes périphériques de stockage pour toutes les données, quelle que soit leur « température » – ce qui revient à n’avoir qu’une seule vision d’ensemble ; n’essayez pas de faire de distinction pour l’instant. Certains d’entre vous choisissent peut-être une solution intermédiaire : un type de stockage pour les données actives et un autre pour les données d’archive. J’aimerais savoir si c’est votre cas. Et ceux qui ont une approche un peu plus sophistiquée et plus rigoureuse à ce sujet utilisent peut-être trois types de périphériques, voire plus, pour gérer cela. Le fait de conserver ces données sur site ou non déterminera si vous choisissez l’option C ou D. Il se peut également que d’autres se situent entre les deux. Je ne sais pas si vous pourriez répondre de manière littérale, cela nous ferait plaisir. Je vous laisse environ 10 secondes pour répondre – choisissez l’une des deux options – puis nous discuterons des résultats du vote.

Bon, voici donc à quoi commencent à ressembler les résultats du sondage. Je vais juste vous en donner snapshot bref snapshot nous puissions poursuivre la présentation. Environ 20 % des personnes interrogées utilisent un seul périphérique de stockage, quelle que soit la température. C’est intéressant. Environ 26 % en utilisent deux : un pour les données actives et un pour les données d’archivage. Seuls environ 4 % utilisent trois types de périphériques ou plus, tous sur site. Et puis il y a le reste : un mélange de niveaux cloud sur site et cloud , qui représente environ 43 %. C’est plutôt bien. On dirait que beaucoup d’entre vous parviennent à répartir judicieusement vos données et à en prendre soin correctement. C’est donc une bonne chose. Vous êtes déjà sur la bonne voie.

Parlons maintenant de cette « demi-vie ». C’est un concept que j’ai glané chez Nucleus Research. Ils ont mené une étude sectorielle pour déterminer l’importance des données après quelques minutes, quelques heures et quelques jours, et ils sont parvenus à des conclusions importantes. Ils ont comparé ce phénomène à la demi-vie des matières radioactives, où certaines substances persistent longtemps et peuvent encore être dangereuses. Or, c’est plutôt l’inverse qui tend à se vérifier pour la « demi-vie » des données. D’une certaine manière, pour les informations tactiques – représentées ici par la courbe bleue –, dans les 30 minutes en moyenne suivant leur réception, ces données ne sont plus particulièrement utiles pour la prise de décision. C’est donc curieux d’une certaine manière, car cela revient à dire que si je dois prendre des décisions dans les quelques minutes qui suivent la réception de ces informations, si j’attends plus longtemps ou si je consulte ces données après ce délai, elles n’ont plus aucune valeur pour moi. Elles n’ont plus d’incidence – en gros, autant les jeter, car elles n’influenceront plus la manière dont vous abordez vos choix.

C’est le cas avec les fournisseurs. Par exemple, nous essayons de mettre en place une gestion des stocks et des livraisons « juste à temps ». C’est un domaine parmi d’autres. Une partie de la planification dans le secteur aérien est parfois affectée à ce niveau. Ils considèrent cela comme des décisions très tactiques qu’ils doivent prendre de manière très spontanée. Ainsi, s’ils ne consultent pas ces données immédiatement ou dans les minutes qui suivent, cela ne leur sera pas d’une grande utilité. En effet, attendre pour imprimer des rapports est l’un des arguments qu’ils avancent. Si l’on attend qu’une imprimante produise certaines de ces informations, celles-ci seront déjà obsolètes au moment où l’encre sera séchée.

Il y a aussi les données opérationnelles. Considérez le niveau tactique comme cette première partie : il faut agir en temps réel. Le niveau opérationnel correspond à des décisions basées sur ces données qui s’étendent sur plusieurs jours, voire quelques semaines. Ce qui se passe alors, c’est que la courbe s’atténue : la valeur de ces données diminue plus progressivement. En fait, on estime – avec un écart-type très important – qu’au bout de 8 heures environ, seules 30 % des données collectées après ce délai et conservées pendant plus de 8 heures auront encore une valeur utile, si ce n’est pour la planification future et l’analyse prédictive ultérieure. Mais cela n’influence pas vraiment vos choix opérationnels au-delà de ces 8 heures.

Maintenant, la ligne verte, qui ressemble presque à une ligne droite – et encore une fois, il s’agit d’une moyenne calculée à partir d’un large éventail de secteurs, et l’un de leurs arguments est que cela ne dépend pas tant du secteur que de la phase du processus décisionnel dans laquelle on se trouve. Ici, ils parlent de la nature stratégique des décisions. Ainsi, les décisions stratégiques sont celles qui sont prises, par exemple, sur une base trimestrielle ou annuelle. Dans ce cas, la demi-vie diminue beaucoup plus progressivement. Ainsi, au bout d’environ 56 heures, si je me souviens bien, ils estiment toujours que 70 % de ces données resteront importantes pour les aider dans leurs choix stratégiques à long terme. Cela va donc peser dans la balance et faire partie des critères que vous utiliserez pour déterminer non seulement la « température » des données – en tant que critère de sélection pour évaluer le montant à investir dans les données –, mais aussi leur demi-vie. Et si sa demi-vie est longue, il y a évidemment de bonnes raisons d’y consacrer davantage de ressources. Si elle est très courte, dès qu’elles ne sont plus d’utilité, vous devriez envisager de les transférer vers un stockage beaucoup moins coûteux, même si vous souhaitez les conserver à des fins de référence et de planification futures.

Nous avons déjà examiné cet iceberg. Il s’agit probablement… Je vais cliquer là-dessus pour que vous puissiez voir la répartition relative de cette capacité, en moyenne, sur un large éventail d’environnements clients. Vous voyez qu’une petite partie, de l’ordre de 20 % des données, est « chaude », que les données « tièdes » représentent environ le double, et que les données « froides » constituent la plus grande partie, certaines d’entre elles entrant même dans la catégorie des données « glaciaires », c’est-à-dire « gelées ».

Ce qu’il faut garder à l’esprit ici, c’est le pourcentage – non pas le pourcentage, mais le volume réel des données « chaudes », qui a tendance à rester assez constant. Ce chiffre repose sur les données des capteurs, les données en temps réel que vous recevez, ainsi que les informations transactionnelles. À moins que votre entreprise ne connaisse une forte croissance, ce chiffre reste généralement assez limité. Ce sont les données « froides » et « gelées » qui ont tendance à s’accumuler. Elles continuent généralement à s’accumuler au fil du temps, ce qui explique pourquoi cet iceberg devient si profond et si lourd sous la surface. C’est ce que nous devons déterminer : comment allouer au mieux l’espace de stockage approprié à chacune de ces fins.

Le problème, bien sûr, c’est de savoir comment s’y prendre. Je les considère parfois presque comme des « compartiments » distincts les uns des autres. Nous avons d’ailleurs quelques vidéos sympas à ce sujet, mais dans cette présentation, ce que je souhaite vous montrer, c’est la segmentation classique du stockage pour distinguer les données « chaudes », « tièdes », « froides » et « gelées » : il s’agit de les envisager en fonction du type de stockage auquel on les associerait.

Beaucoup de gens à qui vous poseriez la question répondraient : « Eh bien, je garde mes données actives – elles doivent être ultra-rapides, avec une faible latence. Je dois les stocker dans une flash . » Alors, qu’en pensez-vous ? C’est donc celle tout à gauche. Je peux utiliser une baie de stockage hybride, capable d’intégrer à la fois des disques SSD et des disques rotatifs, comme référentiel « tiède ». Et pour le stockage secondaire, je peux me contenter d’une solution peu coûteuse et à grande capacité – un JBOD, par exemple, ou simplement de gros disques rotatifs. Quant au reste, je le considère comme une ressource élastique dont je dispose dans le cloud.

La question qui se pose alors est, tout d’abord : par où commencer ? Par où commencer pour examiner et évaluer quelles données sont pertinentes et lesquelles ne le sont pas ? Une fois que vous avez déterminé cela, qu’en sera-t-il dans quelques minutes, compte tenu de la même conclusion à laquelle vous êtes parvenu lors de votre première observation des données ? Est-ce toujours la même conclusion à laquelle vous aboutiriez plus tard ? Et dans cette optique, à quelle fréquence devriez-vous vérifier ces données, et combien de temps cela vous prendrait-il à chaque fois ?

En substance, ce que nous avons mentionné dans le résumé, c’est qu’il ne s’agit pas d’une tâche qu’un être humain est capable d’accomplir. Il n’existe aucun moyen efficace de le faire en impliquant une personne dans le processus. D’après ce que j’ai pu constater lors du sondage précédent, je pense que ceux qui s’y essaient… Ce que je peux vous dire, c’est que je m’attends à ce que vous deviez prendre des mesures très contraignantes si vous devez effectuer ces opérations manuellement. Cela risque en effet d’entraîner des ralentissements pour vos utilisateurs pendant que vous essayez de transférer des données d’un endroit à un autre, et c’est évidemment une corvée pour vous-mêmes. Nous allons vous donner quelques conseils pour aborder ce problème et automatiser ce processus.

Une réaction que j’ai souvent entendue lorsque j’ai abordé ce sujet par le passé, c’est : « Holà, attends un peu. Pourquoi te prendre la tête avec tous ces différents types de stockage et tout ça ? Pourquoi ne pas en choisir un seul ? Choisis-en un. Utilise peut-être une solution hybride – une grosse vieille baie hybride. Ça réglera tous ces problèmes. » Eh bien, la raison, c’est que ça coûte extrêmement cher de faire ça.

Si l’on essayait de déployer suffisamment de capacité au niveau des baies hybrides pour prendre en charge toutes ces données, en particulier les données « froides » et « gelées », ce serait impossible : la plupart des entreprises n’en ont pas les moyens. Seules les organisations les plus prospères sont en mesure de le faire. Nous devons donc trouver des solutions plus nuancées pour résoudre ce problème, en reconnaissant qu’il faut combiner différentes catégories de stockage pour répartir au mieux la capacité.

Si je dis que c’est si cher, c’est parce que cela provient d’une étude de Gartner, qui cherchait essentiellement à comparer la différence de prix et le coût par téraoctet entre une baie SSD (flash ), une baie hybride et une baie entièrement composée de disques durs. Or, le coût par téraoctet est environ six fois plus élevé pour uneflash . Donc, si vous décidez de tout migrer versflash, c’est très bien si vous en avez les moyens, mais là, c’est un surcoût considérable que vous consacrez à des équipements qui vont rapidement devenir obsolètes. Ce n’est donc probablement pas la meilleure approche d’un point de vue financier. Certains pourraient y regarder de plus près et dire : « Il faudrait dépenser cet argent autrement. » Une approche financièrement responsable… Je crois avoir entendu cette description.

Ce que nous souhaitons vous montrer ici, c’est l’approche adoptée par DataCore du point de vue de la virtualisation. Il s’agit d’un schéma très simple. Il illustre le fait qu’au niveau de la couche supérieure se trouvent les consommateurs de stockage : les charges de travail, qu’il s’agisse de serveurs « bare metal », de serveurs virtualisés ou de charges de travail conteneurisées. Tous ces éléments peuvent en principe puiser dans des pools de capacité comportant différents niveaux, en fonction de la « température » des données et de leur valeur.

Dans ce cas précis, le logiciel assume cette responsabilité et utilise l’apprentissage automatique pour distinguer ce qui est réellement consulté fréquemment de ce qui ne l’est pas. Grâce à l’intelligence artificielle, il détermine ensuite en temps réel le meilleur emplacement pour ces éléments, à mesure que les instruments internes et les données de télémétrie nous indiquent ce qui se passe. Il peut ainsi réagir directement aux tendances que vous observez, que vous soyez là pour les surveiller ou non.

Nous estimons être le seul éditeur de logiciels indépendant capable d’y parvenir à tous les niveaux, c’est-à-dire capable non seulement de regrouper ces différentes solutions de stockage spécialement conçues pour ces usages, mais aussi d’assurer une hiérarchisation automatique des données. Vous pouvez donc comparer les offres concurrentes, et je pense que c’est vers nous que votre choix se portera.

La hiérarchisation automatisée du stockage est essentiellement un moyen de trouver le meilleur compromis – si l’on peut s’exprimer ainsi – entre les meilleures performances, la latence la plus faible et le montant que vous y consacrez, c’est-à-dire le coût. Nous allons approfondir ce sujet plus en détail, mais vous verrez comment nous sommes en mesure de migrer dynamiquement les blocs entre les différentes classes de stockage ; cette migration sera déterminée par la fréquence d’accès et pourra être modifiée selon vos propres préférences, si nécessaire.

Pensez-y en termes de granularité. C’est en fait encore plus intéressant. Prenons l’exemple d’une base de données Oracle ou SQL. On pourrait penser que si l’on avait le contrôle manuel de tout cela, on se dirait : « Bon, voici une base de données Oracle. Elle contient toutes les données financières, toutes les transactions lourdes s’y déroulent. Je vais donc la placer sur uneflash , car c’est là que nous générons l’essentiel de nos revenus. Elle doit donc offrir une réactivité optimale. »

Eh bien, ce que vous constateriez, là encore si vous disposiez des outils d’analyse nécessaires, c’est que seule une petite fraction de cette base de données est réellement sollicitée. rest c’est en quelque sorte rest l’image rest je présente à gauche. On y voit ces zones rouges très actives qui sont consultées très fréquemment. Vous verriez également des parties de cette même base de données qui sont modérément consultées, puis d’autres qui ne le sont pratiquement jamais.

Ce que fait le logiciel DataCore dans ce cas précis, c’est qu’il n’essaie pas d’en faire tout un plat… bon, c’est tout le bloc qui… c’est une base de données SQL. Je dois tout stocker sur uneflash . Mais le système est bien plus intelligent que cela, bien plus sophistiqué. Il analyse la situation et se dit : « D’accord, je peux diviser cette base de données, en quelque sorte, en blocs sur le volume où elle réside, puis attribuer et allouer de l’espace à ces blocs en fonction des blocs les plus sollicités que je peux placer sur flash, et le sous-ensemble qui fait l’objet d’un accès modéré – je peux le placer sur un stockage moins coûteux. Enfin, tout ce qui est rarement consulté ira peut-être sur une baie de données de troisième niveau. Cela évoluera au fur et à mesure que le comportement des utilisateurs de ces bases de données changera. Le système procédera donc à ces ajustements dans l’allocation et l’affectation de ces blocs en conséquence, au fil du temps, sans intervention manuelle.

L’une des questions que vous pourriez vous poser est la suivante : « Bon, maintenant que tout ça est en place, comment pouvons-nous apporter une aide supplémentaire ? » Ainsi, en plus de l’auto-tiering assuré par l’IA et le ML en arrière-plan, nous mettons également les données en cache. Ainsi, dès qu’on détecte un pic de trafic, on le met en cache dans la mémoire vive (RAM) proche de l’application pour accélérer encore davantage le traitement de tout ce qui arrive et qui a besoin d’un petit coup de pouce. Évidemment, on ne veut pas faire ça pour des données figées, car on ne veut pas monopoliser le cache avec ça. Ces données sont donc naturellement orientées vers l’extrême droite. Ainsi, les données les moins actives sont placées sur un stockage moins coûteux, tandis que les plus actives sont placées sur votre support le plus rapide. C’est là l’essence même de ce message, ce que nous essayons de faire passer ici.

D’un point de vue visuel, vous pouvez suivre ces données au sein du logiciel grâce à plusieurs graphiques dynamiques et outils de traçage que nous mettons à votre disposition. Ces données sont présentées aussi bien en temps réel que sous forme d’historique, ce qui vous permet de les visualiser. Ce que je vous montre ici, c’est comment l’ajustement s’effectue automatiquement, ainsi que les heat maps par le logiciel dans la console lorsque vous consultez les données, mais aussi dans certaines analyses en arrière-plan.

Chacun des groupes de lignes que vous voyez – le premier groupe correspond au niveau 1 : vous pouvez voir l'espace qui lui est alloué et la part de cet espace qui est consommée. Les 4 ou 5 lignes suivantes correspondent au niveau secondaire, et le dernier groupe de lignes correspond au troisième niveau dans ce scénario particulier. Vous constaterez que, à mesure que la composition des charges de travail évolue, cette allocation évolue également. C'est simplement un moyen de garder un œil sur la situation.

Vous vous demandez peut-être comment nous définissons ces niveaux. C’est très simple. En gros, lorsque vous intégrez un nouveau système de stockage dans notre pool virtualisé, vous désignez le niveau auquel vous souhaitez le classer. Il arrive parfois que, même si les utilisateurs disposent d’un stockage très rapide, il y ait – disons – des raisons d’ordre « politique ». Nous venons de dépenser beaucoup d’argent pour cette baie. Nous le classons alors en niveau 1, même s’il présente des caractéristiques très similaires à celles d’un autre niveau de notre infrastructure, mais nous souhaitons accorder un traitement préférentiel à celui-ci. Nous pouvons donc définir explicitement un niveau pour une ressource donnée au sein de notre pool. Dans ce cas précis, nous classons notreflash en niveau 1. Notre baie hybride serait classée en niveau 2, et tout stockage secondaire, comme le stockage de masse, pourrait être classé en niveau 3 ou 4.

Aussi simple que cela soit, vous pouvez également modifier cette configuration. Ainsi, lorsque votre stockage arrive – disons qu’en plus de laflash , je souhaite intégrer du NVMe direct au sein de DataCore, qui virtualise le pool –, ces ressources seront extrêmement rapides et réactives. Je pourrais donc les marquer dès maintenant, au moment de leur intégration, comme « niveau 1 », et déplacer laflash vers mon niveau 2. Je peux effectuer cette opération en arrière-plan sans affecter ni perturber les utilisateurs, et sans entraîner de temps d’arrêt. Ceux-ci profiteraient simplement de l’arrivée d’un niveau 1 ultra-rapide, et le logiciel se chargerait automatiquement de migrer les blocs vers ce niveau si nécessaire. Il en va de même pour les configurations en cascade. Si vous disposiez d’un stockage de niveau 3 ou 4 vraiment peu coûteux que vous souhaitiez intégrer au pool, vous procéderiez de la même manière. Nous pourrions alors considérer que c’est le meilleur emplacement pour ce stockage et laisser le logiciel s’en charger.

Il existe également des circonstances particulières qui suggèrent, voire imposent, de passer outre le processus d’intelligence en cours, car il peut s’agir d’une activité de courte durée que vous souhaitez, en quelque sorte, « épingler » de manière consciente. Je pense que c’est l’une des expressions que les gens utilisent : « affecter à un niveau de stockage pour une courte durée ». Ainsi, à la fin du trimestre, je dois établir des rapports spécifiques, même si ces ensembles de données sont généralement consultés assez rarement. Ce que nous voulons faire, c’est tirer parti du stockage le plus rapide possible pour exécuter cette tâche immédiatement, afin de pouvoir identifier certains volumes et modifier explicitement le profil de stockage pour les placer sur un type de stockage spécifique. Je peux probablement le faire de deux manières extrêmes – c’est généralement ce que font nos clients. Soit ils considèrent que c’est extrêmement critique, et veillent donc à ce que ces données bénéficient de tous les avantages du stockage le plus rapide – dans ce cas, vous voyez à gauche le profil de stockage « critique ». La classe de performance est réglée au maximum, tout comme la priorité de réplication et la priorité de récupération, et toute hiérarchisation automatique est désactivée. Pendant cette période, je le précise explicitement.

Le deuxième cas de figure est le suivant : j’ai, disons, des sauvegardes. Je souhaite que mes sauvegardes – ces blocs qui sont accédés au moment de la sauvegarde – soient explicitement placées sur mon stockage de niveau 3 ou de type secondaire, dont je sais qu’il est moins coûteux. Ainsi, pour tout volume utilisé pour les sauvegardes, je le désigne : je passe outre la classification automatique habituelle et je demande que ces données soient placées sur le stockage secondaire, et le logiciel s’en chargera volontiers pour vous. Vous pouvez intervenir si vous le jugez nécessaire dans ces cas particuliers.

Cela m’amène à notre deuxième question du sondage, et je suis vraiment curieux de savoir, compte tenu des variations que vous m’avez montrées il y a quelques instants – et pour ceux d’entre vous qui en ont deux ou trois de plus –, quels outils utilisez-vous pour transférer vos données vers différents supports de stockage ? À mesure qu’il refroidit, il passe de « très chaud » aux autres. Vous avez à nouveau le choix entre quatre options. Je ne peux pas le faire aujourd’hui. Je ne le fais pas. Je suppose que ce sont ceux qui ont également indiqué un seul type de périphérique de stockage. Certains d’entre vous utilisent peut-être des techniques de copie – des techniques de copie basées sur l’hôte. Dans ce cas, vous copiez essentiellement les données quelque part, puis vous supprimez l’original. Et il y en a peut-être quelques-uns qui utilisent également des outils de migration de stockage comme Storage vMotion. Donnez-nous donc votre avis et comparez-le à celui des autres.

Voici ce que j’observe pour l’instant : nous recevons des informations techniques qui nous permettront de prendre certaines décisions pour la rest la présentation. À l’heure actuelle, 33 % d’entre vous indiquent ne pas pouvoir le faire aujourd’hui – c’est sans doute la principale raison pour laquelle vous êtes ici. 32 % d’entre vous indiquent copier les données puis supprimer l’original, et je compatis. Je sais à quel point c’est difficile. Environ 13 % d’entre vous procèdent à une sorte de migration de la source à l’aide d’un outil tel que vMotion, et les 23 % restants utilisent une autre technique, que j’aimerais beaucoup découvrir. Très bien, merci d’avoir répondu à ces questions.

Il existe peut-être une autre solution. Avec DataCore, vous disposez en fait d’un auto-tiering inter-baies. C’est le summum de la flexibilité. Concrètement, cela signifie que vous pouvez connecter n’importe quel type de stockage en blocs dont vous disposez pour répondre aux besoins primaires, secondaires et tertiaires, l’intégrer au pool, puis laisser le logiciel décider du meilleur emplacement. Cela fonctionne aussi bien avec le stockage existant qu’avec le stockage futur. Certains de nos clients utilisent cette solution depuis plus de 10 ans. Au cours de cette période, ils ont bien sûr mis en service et mis hors service un nombre considérable d’équipements, le tout sans aucune interruption de service.

Comme je vous l’ai montré, vous pouvez définir précisément quelles données composent chaque niveau. Vous pouvez ainsi faire la distinction entre les données à haute performance, celles de milieu de gamme et celles à faible coût. Cela s’avère également bénéfique en termes de performances des applications. En effet, si vous stockez à la fois des données relativement obsolètes et des données très sollicitées sur le même support de stockage, les baies de stockage ont tendance, à mesure qu’elles se remplissent, à voir leur temps de réponse se dégrader. Vous compromettez donc non seulement la capacité — en la surchargeant de travail supplémentaire —, mais vous réduisez également sa capacité à répondre en temps réel. Ainsi, lorsque vous pouvez retirer ces charges secondaires et les placer ailleurs, vous disposez de plus d’espace et de ressources pour répondre à vos exigences de haute performance. Encore une fois, dans les situations où vous souhaiteriez passer outre cette configuration, vous pouvez le faire.

Il existe d’autres domaines dans lesquels nous avons constaté que ces techniques offraient des approches intéressantes. C’est notamment le cas lorsque vous êtes confronté à des préférences différentes — que j’appellerais « préférences des métiers ». Vos clients peuvent vous avoir fait savoir : « J’ai besoin d’un fournisseur particulier pour répondre à ce besoin, car j’ai déjà eu de bons résultats avec lui par le passé », et encourager le service informatique à faire appel à lui pour ce projet. Vous vous exécutez donc. Ce que vous pouvez alors faire, c’est l’affecter explicitement à ce projet, tout en partageant éventuellement cette ressource avec d’autres qui ont des besoins moins importants. Cela vous offre ainsi une marge de manœuvre dont vous ne disposiez pas auparavant. À tout moment, vous pouvez décider de réintégrer cette ressource dans le pool commun afin que tout le monde puisse en profiter. Elle ne doit pas nécessairement rester isolée. En effet, elle peut être partagée lorsque des capacités excédentaires sont disponibles.

Cette solution peut également être utilisée dans le cadre de fusions et d’acquisitions. Nous rencontrons donc de plus en plus souvent des entreprises qui, à mesure qu’elles acquièrent d’autres sociétés et intègrent l’ensemble de leur infrastructure informatique, se retrouvent confrontées à de multiples variantes, de multiples fournisseurs et de multiples modèles de stockage, sans vraiment savoir comment rationaliser tout cela ni comment y voir clair. Voici une méthode simple pour regrouper ces éléments dans des pools communs, puis les attribuer. Bon, je sais qu’il s’agissait peut-être ici de matériel HP. Je vois ici qu’il s’agit peut-être d’équipements Dell EMC issus de ces fusions-acquisitions. Identifions-les par niveaux, intégrons-les simplement dans les pools virtualisés, et laissons le logiciel décider du meilleur emplacement pour les charges de travail à l’aide de ces techniques.

Cela facilite d’ailleurs les choses lorsque de nouvelles générations d’équipements sont mises en service. Ainsi, lorsque des équipements anciens et nouveaux coexistent, ils peuvent tous être traités de la même manière. Vous constaterez peut-être que les plus anciens sont un peu dépassés. Ils ne sont plus aussi performants, même s’il s’agit en soi du même modèle et de la même marque, mais nous pouvons les classer dans des catégories légèrement différentes.

Je pense que, d’un certain point de vue, on peut aborder cela en se basant sur ce qui existe déjà, mais ce qui est tout aussi important — comme c’est le cas pour ce client, Architectural Nexus—, c’est la possibilité d’intégrer un stockage de nouvelle génération à n’importe quel niveau de votre choix et dans la limite de votre budget, sans temps d’arrêt. Je trouve qu’ils l’ont très bien formulé : avec DataCore, il ne s’agit jamais d’une refonte totale. Vous pouvez acheter le matériel le plus récent et le déployer là où il est nécessaire, ce qui vous permet de bénéficier immédiatement des avantages de ce matériel de pointe sans perdre l’investissement réalisé dans l’infrastructure de données existante.

En gros, cela signifie que je peux intégrer de nouveaux équipements, des équipements flambant neufs qui me plaisent et qui sont prévus au budget. Je peux continuer à tirer parti des équipements existants, éventuellement en réduisant leurs capacités. Puis, à un moment donné, lorsque leur durée de vie financière sera arrivée à son terme, je pourrai les retirer définitivement du parc. Toutes ces étapes peuvent se dérouler sans aucune interruption de service.

Les avantages économiques sont considérables. Si nous abordons ce sujet, c’est parce qu’il a une incidence directe sur vos résultats financiers. Être capable d’adapter vos dépenses de stockage à la valeur temporelle des données doit devenir une responsabilité essentielle que nous devons assumer à l’avenir, compte tenu du volume de données existant — et en prenant conscience de la part importante de données « tièdes » ou secondaires qui ne justifient pas le même niveau de dépenses.

Un avantage secondaire, qui est très important dans ce cas précis, réside dans le fait qu’en vous positionnant ainsi et en isolant le type de stockage que vous utilisez des consommateurs — grâce software-defined storage —, vous renforcez également votre pouvoir de négociation. En d’autres termes, le stockage devient une ressource interchangeable. Vous pouvez donc changer de fournisseur si celui-ci ne vous traite pas particulièrement bien, s’il ne répond pas à vos attentes. Alors qu’auparavant vous étiez tributaire des procédures spécifiques associées à ce modèle et à ce fournisseur, vous en êtes désormais affranchi. Vous disposez d’un ensemble uniforme de software-defined storage qui, quel que soit le fournisseur que vous choisissez, continuent de fonctionner. Le même processus que vous utilisiez pour provisionner, sécuriser et optimiser l’utilisation de ce stockage reste en place. Cela vous permettra d’obtenir les meilleures conditions à chaque fois à l’avenir. Il s’agit là d’un élément très important de la structure globale.

Jetez un œil à quelques ressources. Je pense que Carlos en mentionnera également certaines, mais vous trouverez plusieurs descriptions à ce sujet, une vidéo, ainsi qu’un livre blanc qui figure parmi les documents que nous mettons à votre disposition. Cela vous permettra d’avoir une vision un peu plus complète et de mieux cerner certains des points dont nous avons discuté aujourd’hui.

Sur ce, passons aux questions du public. Je vais en aborder quelques-unes dès maintenant. La première est : « Peut-on disposer de différents ensembles de profils pour différents types de données ? Il s’agit d’une entreprise d’ingénierie logicielle qui dispose de téraoctets de données avec des exigences variées : projet d’été, milieux de culture, etc. C’est exactement ce que vous essayez de faire. Je peux définir un profil comme « critique », « normal » ou « archive », et je peux également créer des profils personnalisés pour déterminer la valeur relative de ces données par rapport à toutes les autres.

En voici une autre : « Quel type de scénario observez-vous généralement en matière de protection du stockage des données — « hot », « warm » ou « cold » — et quels types d’entreprises y ont recours ? » C’est très varié. Il ne s’agit pas d’un comportement spécifique à un secteur d’activité ou à une branche particulière. Ce que l’on constate, c’est qu’il y en a davantage : nous travaillons par exemple avec de nombreux établissements de santé dont les activités sont vitales, et pour eux, il est très, très clair ce qui relève du « hot », quelle proportion de ces données nécessite des solutions spéciales et ultra-rapides, lesquelles sont en cours de vieillissement et lesquelles doivent être archivées sur de très longues durées. Dans ce cas, c’est plus concret. C’est une expression plus naturelle de leur activité. Dans d’autres cas, ce n’est pas aussi évident, car elles n’ont pas encore abordé les données sous cet angle. Et j’espère qu’en comprenant ce dont nous avons discuté aujourd’hui, vous commencerez à les considérer sous cet angle. Ce sera important.

Je passe en revue d’autres questions ici. Bon, « En dehors de l’interface graphique, comment puis-je modifier par programmation les attributs de hiérarchisation ? » Intéressant. Oui, en effet, dans bon nombre de ces scénarios actuels, nous devons effectuer l’orchestration en externe. L’utilisateur ne peut pas se tenir physiquement devant une console pour effectuer ces opérations et faire ces choix. Je veux dire, ce ne serait pas une bonne utilisation de son temps. Il existe donc des méthodes conditionnelles et programmatiques. Nous proposons une gamme complète : une REST permettant d’invoquer non seulement les choix de hiérarchisation, mais aussi toutes les fonctions disponibles via le logiciel DataCore. Pour ceux d’entre vous qui PowerShell , nous proposons également cette rest .

Une autre question est la suivante : « À quelle fréquence le logiciel décide-t-il de déplacer des blocs d’un niveau à l’autre ? » Il s’agit d’un choix dynamique qu’il effectue. L’une des tâches principales du logiciel consiste à rechercher les moments où le système n’est pas trop sollicité, afin d’éviter de déplacer des données à ce moment-là, car cela constituerait une mauvaise utilisation des ressources. Il recherche donc ces occasions. Bon, j’ai un peu de marge de manœuvre ici. C’est le bon moment. Mais il procède ainsi de manière régulière. Ce n’est donc pas quelque chose que vous devez planifier, ni vous inquiéter que cela ne se produise qu’à certaines heures. Cela se produit en permanence sur les ressources et les volumes que vous avez affectés à cette fonctionnalité.

« DataCore est-elle une entreprise basée aux États-Unis ? » Oui, tout à fait. Mais nous sommes une entreprise d’envergure mondiale. Où que vous soyez, nous pouvons vous joindre. [Rires] Et je crois que c’est tout ce que j’avais à demander. Carlos, as-tu autre chose à ajouter ?

Carlos : Non, je ne vois pas d’autres questions, Augie. Merci encore pour cette présentation très instructive et enrichissante. Je voudrais simplement rappeler quelques points afin d’encourager à nouveau tout le monde à consulter la section des pièces jointes. Vous y trouverez un livre blanc sur ce sujet. Je vous invite également à nous faire part de vos commentaires en évaluant notre intervenant et la présentation. Je vous rappelle par ailleurs que cette présentation a été enregistrée ; nous la partagerons avec tous les participants et elle sera également disponible à la demande.

Enfin, nous sommes prêts à dévoiler le nom du gagnant du tirage au sort de la carte-cadeau Amazon d’une valeur de 200 $. Le gagnant est Mike Carter, d’Advance Auto Parts. Je le répète : Mike Carter, d’Advance Auto Parts. Nous vous contacterons très prochainement pour vous fournir plus d’informations et vous remettre votre carte-cadeau. Sur ce, Augie, merci encore pour votre intervention. Je tiens à remercier le public d’avoir assisté à cette session. N’hésitez pas à rester en contact avec nous. Nous organisons des webinaires tous les mois, alors en attendant le prochain, merci et passez une excellente journée.

Lire la transcription intégrale

Événements associés

Webcast

Construire une infrastructure virtualisée validée : Vates VMS & DataCore, intégrées par Neovad – Partie 2

Webcast

Construire une infrastructure virtualisée validée : Vates VMS & DataCore, intégrées par Neovad – Partie 1

Webcast

Puls8 : réinventer le stockage persistant pour Kubernetes