Cerca
Lingue
<
Anteprima del caso di studio Ibmp
Case study

Potenziare la ricerca bioinformatica e la gestione dei dati su larga scala per l’IBMP

Scarica il case study

L'Istituto di Biologia Molecolare Vegetale (IBMP), il più grande laboratorio del CNRS in Alsazia, Francia. L'IBMP è affiliato all'Università di Strasburgo e coinvolge i suoi oltre 160 ricercatori, dottorandi e studenti di varie nazionalità nello studio dello sviluppo delle piante, delle strutture molecolari e delle malattie virali.

La sfida

Oggi la produzione di dati scientifici in formato digitale è molto diffusa e l’adozione di nuovi strumenti come il sequenziamento di nuova generazione (NGS) comporta una crescita esponenziale del volume dei dati. All’IBMP vengono generati circa 80 TB di dati all’anno, e nuovi metodi come il sequenziamento a nanopori, utilizzato per determinare la disposizione dei nucleotidi nei frammenti di DNA, contribuiscono ulteriormente all’aumento dei dati. A ciò si aggiunge l’esigenza di conservare queste informazioni a lungo termine, in genere fino a quindici anni, per consentire il confronto con studi più recenti. Pertanto, i dati devono rimanere sempre accessibili.

Inoltre, considerando il numero e le diverse provenienze dei ricercatori dell’IBMP, nonché la loro logica di identificazione dei file, è fondamentale affidarsi a una metodologia di accesso ai dati realmente universale che consenta un recupero rapido dal database. Il dipartimento IT e la comunità scientifica dell’IBMP hanno tenuto conto di tutti questi fattori nel valutare la sostituzione del proprio NAS RAID 6, che non soddisfaceva più le elevate esigenze dei metodi di sequenziamento avanzati.

“Grazie a DataCore Swarm, il nostro istituto compie un grande balzo in avanti nella capacità di sequenziare il DNA vegetale utilizzando le metodologie più avanzate. Swarm ci fornisce un volume significativo di dati bioinformatici raccolti nel corso di diversi decenni, il che potenzia notevolmente le nostre capacità analitiche e migliora i nostri risultati scientifici.”

Jean-Luc Evrard, direttore del sistema informativo
IBMP

Soluzione

IBMP ha intrapreso una revisione completa del proprio sistema informativo, attuando una serie di trasformazioni IT. Tra queste figurano l’adozione della virtualizzazione dei server e dello storage, nonché l’implementazione di un’architettura altamente resiliente, disponibile 24 ore su 24, 7 giorni su 7. Questa soluzione si basava su un cluster VMware supportato da una piattaforma software-defined storage SDS), DataCore SANsymphony, con una capacità di 200 TB.

Sebbene questo sistema si fosse dimostrato estremamente robusto, l'approccio basato sull'archiviazione a lungo termine tramite NAS è diventato sempre più obsoleto col passare del tempo. La manutenzione operativa appariva più complessa con l'aumentare della capacità e i tempi di ricostruzione dei dischi (in caso di guasto) erano irragionevolmente lunghi.

Era quindi fondamentale trovare una soluzione in grado di gestire con agilità l’aumento della capacità e di far fronte senza difficoltà all’imminente “tsunami” di dati. Dopo aver valutato diverse opzioni, le soluzioni tradizionali sono state definitivamente scartate e si è giunti alla conclusione che solo un sistema di object storage con accesso S3 potesse soddisfare i requisiti e i vincoli di budget dell’istituto.

A seguito di un'approfondita valutazione delle proposte presentate da diversi fornitori, erano state prese in considerazione due soluzioni, tra cui DataCore Swarm. Grazie all'ottimo support instaurato con DataCore, la soluzione di storage a oggetti software-defined Swarm è emersa come la scelta preferita da IBMP.

I risultati

  • Architettura di archiviazione basata su oggetti che offre prestazioni superiori rispetto ai file system tradizionali
  • Eccellente resilienza ai guasti, simile a quella di SANsymphony per lo storage a blocchi)
  • Un'interfaccia web semplice e intuitiva per l'amministrazione e l'accesso ai contenuti (S3/HTTP)
  • Sistema di archiviazione robusto con protezione efficace dei dati tramite codifica a cancellazione
  • Significativa riduzione del consumo energetico e dei costi energetici grazie alla tecnologia Darkive
Risultati del caso di studio Ibmp

Archiviazione dati a lungo termine
con accesso sempre attivo

Attualmente, Swarm è utilizzato principalmente da una parte del team di bioinformatica dell’IBMP, che genera e gestisce i maggiori volumi di dati tramite il sequenziamento di nuova generazione (NGS). Sebbene l’hardware sia pienamente operativo, il software richiede ancora alcune messe a punto per facilitare la migrazione dei dati in Swarm.

L'integrazione dei metadati durante l'acquisizione dei dati rappresenta un passo fondamentale per l'IBMP al fine di ottimizzare il recupero degli oggetti dal proprio ampio database. Ciò consentirà all'IBMP di abbandonare gli schemi di denominazione convenzionali ed eterogenei (adottati dai ricercatori che gestiscono i dati) che incidono negativamente sulle prestazioni di ricerca.

Questa iniziativa richiederà tempo, poiché il CNRS, l’organismo di vigilanza dell’istituzione, intende implementare un quaderno di laboratorio elettronico (ELN) con una “registrazione digitale” che accompagni ogni sequenza di acquisizione dei dati scientifici.

Poiché diversi laboratori nutrono interesse per l’object storage, è necessario dedicare del tempo a definire i requisiti, coordinare le discussioni e condividere le esperienze all’interno dei gruppi di lavoro dell’ELN.

Nel frattempo, i dati bioinformatici archiviati su Swarm sono già accessibili agli utenti tramite server di visualizzazione dedicati (come JBrowse per l’identificazione del genoma), e la migrazione completa all’object storage sarà facilitata dall’ELN.

L'acquisizione dei dati primari e l'archiviazione dei dati "a caldo" continueranno a essere gestite da SANsymphony storage a blocchi, che fornisce in modo affidabile tutti i servizi agli utenti IBM.

Punti salienti dell'implementazione

  • Cluster di storage a oggetti Swarm costituito da 10 server Dell PowerEdge
  • Concessa inizialmente una licenza per 850 TB di capacità utilizzabile (su una capacità lorda totale di 1,3 PB)
  • VMware ESXi per la virtualizzazione dei server
  • Integrazione con Active Directory per la gestione delle identità e il controllo degli accessi
  • Collegamento a 25 Gbps e collegamento in fibra ottica a 10 Gbps
  • Interruttori FS
  • Connessioni iDRAC per il monitoraggio di macchine remote