DataCore Swarm centralise les données bioinformatiques collectées par l'IBMP

L’Institut de biologie moléculaire des plantes (IBMP), le plus grand laboratoire du CNRS en Alsace, associé à l’Université de Strasbourg, mobilise ses 160 chercheurs, doctorants et étudiants de toutes nationalités pour étudier le développement des végétaux, leurs structures moléculaires et leurs maladies virales. Ce travail génère une quantité considérable de données stockées en mode objet et consultables dans un système DataCore Swarm.

Le défi

Aujourd’hui, la production de données scientifiques sous forme numérique est généralisée et la mise en œuvre de nouveaux outils, tels que le séquençage de nouvelle génération (NGS), entraîne une croissance explosive de leur volume. À l’IBMP, ce sont déjà quelque 80 To de données par an qui sont générées et les nouvelles méthodes, comme celle dite des nanopores, utilisée pour déterminer la disposition des nucléotides dans des fragments d’ADN, contribuent à accroître encore davantage leur production.

À cette croissance en volume s’ajoutent des contraintes temporelles, car il est indispensable de conserver ces informations à long terme, jusqu’à une quinzaine d’années en moyenne, afin de pouvoir les consulter et les comparer avec des études plus récentes, ce qui signifie qu’elles doivent rester accessibles à tout moment.

Enfin, compte tenu du nombre et de l’origine des chercheurs passant par l’IBMP, qui représentent jusqu’à 50 nationalités et des logiques différentes en matière d’identification des fichiers, il est indispensable de s’appuyer sur une méthodologie véritablement universelle permettant d’effectuer des « recherches » approfondies et rapides dans la base de données.

Tous ces paramètres ont alors été pris en compte par la DSI et la communauté scientifique de l’IBMP lorsqu’il a été envisagé, en 2021, de remplacer le NAS en RAID 6 qui servait jusque-là à la conservation des données à long terme, mais qui ne répondait plus aux nouvelles contraintes générées par les méthodes avancées de séquençage.

La solution

Le système d’information d’IBMP a été entièrement rénové en 2015 selon certains principes, tels que la virtualisation des serveurs et du stockage, avec la mise en place d’une architecture redondante et disponible 24 heures sur 24, 7 jours sur 7. Cette solution repose sur un cluster sous VMWare à un système de software-defined storage SDS) de 200 To redondant en temps réel, DataCore SANsymphony.

Ce système s’est révélé extrêmement robuste, mais le principe du NAS de stockage à long terme s’est avéré de plus en plus obsolète au fil du temps : son maintien en état de fonctionnement est devenu plus complexe à mesure que les capacités augmentaient, tandis que les délais de reconstruction en cas de panne de disque devenaient déraisonnables.

Il était donc impératif de trouver une solution à la fois évolutive, flexible et capable d’anticiper le tsunami de données qui s’annonçait. Plusieurs consultations et analyses prospectives ont permis d’écarter définitivement les solutions traditionnelles et de déterminer que seul le stockage objet dit S3 (Simple Storage Service) était en mesure de répondre aux critères du cahier des charges et aux contraintes budgétaires de l’Institut.

Après avoir passé en revue les propositions des différents éditeurs, deux solutions se sont finalement retrouvées en concurrence, dont Swarm, une solution qui venait tout juste d’être intégrée au giron de DataCore, une entreprise avec laquelle IBM entretenait une relation de support.

Les résultats

Un système de stockage robuste dont la méthode de protection des données par dispersion de fragments (erasure coding) est particulièrement efficace et dont le mode objet surpasse nettement le système de gestion de fichiers classique (file system).

Une excellente résilience face aux pannes, à l’instar de SANsymphony. Une interface Web simple et accessible, plutôt destinée aux administrateurs.

Une réduction significative de la consommation d'électricité et, par conséquent, de la facture énergétique grâce à la technologie Darkive.

Un stockage de données à long terme, accessible à tout moment

Afin de confirmer le choix de Swarm, les niveaux de performance du système ont été vérifiés lors d’une phase de test à distance, comprenant une simulation de pannes, sur un serveur hébergé chez DataCore France à Paris. Des tests ont également permis de valider l’intégration logicielle avec Active Directory et la mise en place des droits d’accès. La solution Swarm de DataCore a ensuite été installée sur site début 2022, par l’équipe informatique, sur un ensemble de dix serveurs Dell : trois R6515 en tête de cluster pour prendre en charge les services et sept R7515 pour le stockage proprement dit, tous couverts par un contrat de maintenance de sept ans, la virtualisation étant assurée par des ESXi VMware.

Le déploiement logiciel a, quant à lui, été réalisé directement par DataCore. Ces équipements sont interconnectés par des liaisons redondantes à 25 Gbps transitant par un commutateur FS S5860-48SC, lui-même relié au cœur du réseau par une fibre optique à 10 Gbps. Un deuxième petit commutateur FS S3700-24T4F est utilisé pour les liaisons iDRAC permettant la surveillance à distance des machines. L’architecture choisie devrait d’ailleurs faciliter la migration future du dispositif vers le centre de données du campus universitaire.

La pérennité logicielle de la solution est assurée par une licence « à vie » couvrant 850 To de stockage, sur les 1,3 Po bruts disponibles, ainsi que par un contrat de maintenance de 3 ans. L’investissement s’élève à 145 k€ HT. Swarm est pour l’instant principalement utilisé par une partie de l’équipe de bio-informatique, celle qui génère et gère les plus gros volumes de données issus du séquençage NGS.

Le matériel est donc pleinement opérationnel, tandis que la partie logicielle nécessite encore quelques ajustements pour que l’ensemble des informations produites à l’IBMP soient transférées vers Swarm.

Pour cela, il faut finaliser la méthode d’intégration des métadonnées dès l’ingestion des données dans le système, processus indispensable pour optimiser l’« exploration » (data mining) de cette imposante base de données et ne plus dépendre d’un processus classique de nommage, nécessairement hétérogène compte tenu de la diversité d’origine des chercheurs, ce qui nuit aux performances de l’« exploration ». Ce travail prend du temps car le CNRS, tutelle de l’établissement, souhaite déployer un Cahier de Laboratoire Électronique (CLE), avec une « fiche numérique » qui doit accompagner chaque séquence d’ingestion de données scientifiques. Plusieurs laboratoires partageant les mêmes préoccupations et le même intérêt pour le stockage orienté objet, il faut prendre le temps d’exprimer les besoins, de coordonner les réflexions et de partager les expériences au sein des groupes de travail consacrés à ce CLE.

En attendant, les données bioinformatiques stockées sur Swarm sont déjà accessibles via des serveurs de visualisation dédiés (Jbrowse pour l’identification des génomes), l’ensemble devant être transféré vers le stockage objet par l’intermédiaire du CLE. En amont, l’ingestion primaire et le stockage des données actives s’effectuent toujours sur SANsymphony fournit sans faille l’ensemble des services aux utilisateurs de l’IBMP.

« Grâce à DataCore Swarm, notre institut fait un bond en avant dans sa capacité à séquencer l’ADN des végétaux selon les méthodologies les plus avancées. Cet outil met à notre disposition un volume très important de données bioinformatiques collectées sur plusieurs dizaines d’années, ce qui décuple nos capacités d’analyse et améliore, au final, nos performances scientifiques. »

Jean-Luc Evrard, directeur des systèmes d'information

IBMP

Conclusion

DataCore Swarm renforce la capacité d’acquisition de l’IBMP, ce qui s’inscrit parfaitement dans l’air du temps, celui de la science ouverte, des référentiels nationaux et internationaux de stockage centralisé et organisé des données, ainsi que d’un mode de fonctionnement et de partage « entièrement en ligne ».

Télécharger l’étude de cas

DataCore Swarm engrange les données bio-informatiques moissonnées par l’IBMP

Le défi

La solution

Les résultats

Un stockage de données à long terme, accessible à tout moment

Conclusion

Ressources associées

Stockage à long terme des archives vidéo Milestone XProtect

StarWind HCI Appliance

StarWind Virtual SAN

DataCore Swarm engrange les données bio-informatiques moissonnées par l’IBMP

Le défi

La solution

Les résultats

Un stockage de données à long terme, accessible à tout moment

Conclusion

Ressources associées

Stockage à long terme des archives vidéo Milestone XProtect

StarWind HCI Appliance

StarWind Virtual SAN

Restez informé grâce à et découvrez les dernières analyses !

Restez informé grâce à
et découvrez les dernières analyses !