Potenziare la ricerca bioinformatica e la gestione dei dati su larga scala per l’IBMP

L'Istituto di Biologia Molecolare Vegetale (IBMP), il più grande laboratorio del CNRS in Alsazia, Francia. L'IBMP è affiliato all'Università di Strasburgo e coinvolge i suoi oltre 160 ricercatori, dottorandi e studenti di varie nazionalità nello studio dello sviluppo delle piante, delle strutture molecolari e delle malattie virali.

La sfida

Oggi la produzione di dati scientifici in formato digitale è molto diffusa e l’adozione di nuovi strumenti come il sequenziamento di nuova generazione (NGS) comporta una crescita esponenziale del volume dei dati. All’IBMP vengono generati circa 80 TB di dati all’anno, e nuovi metodi come il sequenziamento a nanopori, utilizzato per determinare la disposizione dei nucleotidi nei frammenti di DNA, contribuiscono ulteriormente all’aumento dei dati. A ciò si aggiunge l’esigenza di conservare queste informazioni a lungo termine, in genere fino a quindici anni, per consentire il confronto con studi più recenti. Pertanto, i dati devono rimanere sempre accessibili.

Inoltre, considerando il numero e le diverse provenienze dei ricercatori dell’IBMP, nonché la loro logica di identificazione dei file, è fondamentale affidarsi a una metodologia di accesso ai dati realmente universale che consenta un recupero rapido dal database. Il dipartimento IT e la comunità scientifica dell’IBMP hanno tenuto conto di tutti questi fattori nel valutare la sostituzione del proprio NAS RAID 6, che non soddisfaceva più le elevate esigenze dei metodi di sequenziamento avanzati.

“Grazie a DataCore Swarm, il nostro istituto compie un grande balzo in avanti nella capacità di sequenziare il DNA vegetale utilizzando le metodologie più avanzate. Swarm ci fornisce un volume significativo di dati bioinformatici raccolti nel corso di diversi decenni, il che potenzia notevolmente le nostre capacità analitiche e migliora i nostri risultati scientifici.”

Jean-Luc Evrard, direttore del sistema informativo

IBMP

Soluzione

IBMP ha intrapreso una revisione completa del proprio sistema informativo, attuando una serie di trasformazioni IT. Tra queste figurano l’adozione della virtualizzazione dei server e dello storage, nonché l’implementazione di un’architettura altamente resiliente, disponibile 24 ore su 24, 7 giorni su 7. Questa soluzione si basava su un cluster VMware supportato da una piattaforma software-defined storage SDS), DataCore SANsymphony, con una capacità di 200 TB.

Sebbene questo sistema si fosse dimostrato estremamente robusto, l'approccio basato sull'archiviazione a lungo termine tramite NAS è diventato sempre più obsoleto col passare del tempo. La manutenzione operativa appariva più complessa con l'aumentare della capacità e i tempi di ricostruzione dei dischi (in caso di guasto) erano irragionevolmente lunghi.

Era quindi fondamentale trovare una soluzione in grado di gestire con agilità l’aumento della capacità e di far fronte senza difficoltà all’imminente “tsunami” di dati. Dopo aver valutato diverse opzioni, le soluzioni tradizionali sono state definitivamente scartate e si è giunti alla conclusione che solo un sistema di object storage con accesso S3 potesse soddisfare i requisiti e i vincoli di budget dell’istituto.

A seguito di un'approfondita valutazione delle proposte presentate da diversi fornitori, erano state prese in considerazione due soluzioni, tra cui DataCore Swarm. Grazie all'ottimo support instaurato con DataCore, la soluzione di storage a oggetti software-defined Swarm è emersa come la scelta preferita da IBMP.

I risultati

Architettura di archiviazione basata su oggetti che offre prestazioni superiori rispetto ai file system tradizionali
Eccellente resilienza ai guasti, simile a quella di SANsymphony per lo storage a blocchi)
Un'interfaccia web semplice e intuitiva per l'amministrazione e l'accesso ai contenuti (S3/HTTP)
Sistema di archiviazione robusto con protezione efficace dei dati tramite codifica a cancellazione
Significativa riduzione del consumo energetico e dei costi energetici grazie alla tecnologia Darkive

Archiviazione dati a lungo termine
con accesso sempre attivo

Attualmente, Swarm è utilizzato principalmente da una parte del team di bioinformatica dell’IBMP, che genera e gestisce i maggiori volumi di dati tramite il sequenziamento di nuova generazione (NGS). Sebbene l’hardware sia pienamente operativo, il software richiede ancora alcune messe a punto per facilitare la migrazione dei dati in Swarm.

L'integrazione dei metadati durante l'acquisizione dei dati rappresenta un passo fondamentale per l'IBMP al fine di ottimizzare il recupero degli oggetti dal proprio ampio database. Ciò consentirà all'IBMP di abbandonare gli schemi di denominazione convenzionali ed eterogenei (adottati dai ricercatori che gestiscono i dati) che incidono negativamente sulle prestazioni di ricerca.

Questa iniziativa richiederà tempo, poiché il CNRS, l’organismo di vigilanza dell’istituzione, intende implementare un quaderno di laboratorio elettronico (ELN) con una “registrazione digitale” che accompagni ogni sequenza di acquisizione dei dati scientifici.

Poiché diversi laboratori nutrono interesse per l’object storage, è necessario dedicare del tempo a definire i requisiti, coordinare le discussioni e condividere le esperienze all’interno dei gruppi di lavoro dell’ELN.

Nel frattempo, i dati bioinformatici archiviati su Swarm sono già accessibili agli utenti tramite server di visualizzazione dedicati (come JBrowse per l’identificazione del genoma), e la migrazione completa all’object storage sarà facilitata dall’ELN.

L'acquisizione dei dati primari e l'archiviazione dei dati "a caldo" continueranno a essere gestite da SANsymphony storage a blocchi, che fornisce in modo affidabile tutti i servizi agli utenti IBM.

Punti salienti dell'implementazione

Cluster di storage a oggetti Swarm costituito da 10 server Dell PowerEdge
Concessa inizialmente una licenza per 850 TB di capacità utilizzabile (su una capacità lorda totale di 1,3 PB)
VMware ESXi per la virtualizzazione dei server

Integrazione con Active Directory per la gestione delle identità e il controllo degli accessi
Collegamento a 25 Gbps e collegamento in fibra ottica a 10 Gbps
Interruttori FS
Connessioni iDRAC per il monitoraggio di macchine remote

Scarica il case study

Potenziare la ricerca bioinformatica e la gestione dei dati su larga scala per l’IBMP

La sfida

Soluzione

I risultati

Archiviazione dati a lungo termine
con accesso sempre attivo

Punti salienti dell'implementazione

Risorse correlate

Archiviazione a lungo termine per gli archivi video di Milestone XProtect

StarWind HCI Appliance

StarWind Virtual SAN

Potenziare la ricerca bioinformatica e la gestione dei dati su larga scala per l’IBMP

La sfida

Soluzione

I risultati

Archiviazione dati a lungo termine con accesso sempre attivo

Punti salienti dell'implementazione

Risorse correlate

Archiviazione a lungo termine per gli archivi video di Milestone XProtect

StarWind HCI Appliance

StarWind Virtual SAN

Rimani aggiornato su con le ultime novità!

Archiviazione dati a lungo termine
con accesso sempre attivo

Rimani aggiornato su
con le ultime novità!