Suche
Sprachen
<
Ibmp Case Study Thumb
Case Study

IT-Grundlagen für die Bioinformatikforschung und die Verarbeitung großer Datenmengen im IBMP

Kundenbericht Herunterladen

Das Institut für Pflanzenmolekularbiologie (IBMP) ist das größte CNRS-Labor im französischen Elsass. An dem der Universität Straßburg angegliederten Institut erforschen über 160 Wissenschaftler, Doktoranden und Studierende verschiedener Nationalitäten die Pflanzenentwicklung, molekulare Strukturen und Viruserkrankungen.

Die Herausforderung

Heutzutage werden die meisten wissenschaftlichen Daten in digitaler Form erzeugt. Darüber hinaus führt der Einsatz neuer Verfahren wie Next-Generation-Sequenzierung (NGS) zu einem explosionsartigen Anstieg des Datenvolumens. Am IBMP werden jährlich rund 80 TB an Daten generiert. Zudem tragen neue Verfahren wie die Nanopore-Sequenzierung, mit der die Anordnung von Nukleotiden in DNA-Fragmenten bestimmt werden kann, weiter zur explosionsartigen Zunahme der Datenmenge bei. Hinzu kommt die Notwendigkeit, diese Daten langfristig aufzubewahren – in der Regel bis zu 15 Jahre lang –, um einen Vergleich mit aktuelleren Studien zu ermöglichen. Aus diesem Grund müssen die Daten stets abrufbar bleiben.

Betrachtet man die Anzahl und die unterschiedliche Herkunft der Forscher am IBMP sowie deren unterschiedliche Methoden zur Dateiidentifikation, wird deutlich, wie wichtig ein universelles Verfahren für den Datenzugriff ist, das den schnellen Abruf von Daten aus der Datenbank ermöglicht. Die IT-Abteilung und die wissenschaftliche Gemeinschaft am IBMP berücksichtigten all diese Faktoren, als der Austausch ihres RAID-6-NAS anstand, das den hohen Anforderungen moderner Sequenzierungsmethoden nicht mehr gewachsen war.

„DataCore Swarm ist für unser Institut die ideale Lösung zur Sequenzierung von Pflanzen-DNA mit modernsten Methoden. Swarm ermöglicht uns die Verarbeitung großer Mengen an Bioinformatikdaten, die über mehrere Jahrzehnte hinweg gesammelt wurden. Dadurch verbessern sich sowohl unsere Analysefähigkeiten als auch unsere wissenschaftlichen Leistungen.“

Jean-Luc Evrard, Leiter des Informationssystems
IBMP

Lösung

Die IT des IBMP wurde einer umfassenden Modernisierung unterzogen, die mit einer Reihe von IT-Transformationen einherging. Dazu gehörten auch die Einführung der Server- und Speichervirtualisierung sowie die Implementierung einer hochgradig ausfallsicheren Architektur mit 24/7-Verfügbarkeit. Diese Lösung basierte auf einem VMware mit einer Kapazität von 200 TB, unterstützt durch die Software-Defined Storage SDS) SANsymphony.

Dieses System hatte sich als äußerst robust erwiesen; allerdings stieß der NAS-Langzeitspeicher im Laufe der Zeit an seine Grenzen. Die betriebliche Wartung wurde mit zunehmender Kapazität immer komplexer, und die Wiederherstellung der Festplatten (nach Ausfällen) nahm unverhältnismäßig viel Zeit in Anspruch.

Es wurde also dringend eine Lösung benötigt, die den wachsenden Kapazitätsanforderungen flexibel gerecht werden und die steigende Datenflut problemlos bewältigen konnte. Nach Prüfung mehrerer Optionen wurden herkömmliche Lösungen endgültig ausgeschlossen. Man kam zu dem Schluss, dass nur eine Objektspeicherlösung mit S3-Zugang die Anforderungen erfüllen würde, ohne das begrenzte Budget des Instituts zu sprengen.

Nach einer gründlichen Auswertung der Angebote mehrerer Anbieter wurden zwei Lösungen in die engere Wahl gezogen, darunter DataCore Swarm. Angesichts der hervorragenden Erfahrungen mit dem Support DataCore entschied sich das IBMP schließlich für den Software-Defined-Objektspeicher Swarm.

Ergebnisse

  • Eine objektbasierte Speicherarchitektur, die leistungsfähiger ist als herkömmliche Dateisysteme
  • Hervorragende Ausfallsicherheit, ähnlich wie bei SANsymphony für Blockspeicher)
  • Eine einfache, benutzerfreundliche Weboberfläche für die Verwaltung und den Zugriff auf Inhalte (S3/HTTP)
  • Ein robustes Speichersystem mit wirksamem Datenschutz dank Erasure Coding
  • Deutlich geringerer Stromverbrauch und damit geringere Stromkosten dank der Darkive-Technologie
Ergebnisse der IBM-Fallstudie

Langfristige Datenspeicherung
mit uneingeschränktem Datenzugriff

Derzeit wird Swarm vorwiegend von einem Teil des Bioinformatik-Teams am IBMP genutzt, das die größten Datenmengen mittels Next-Generation-Sequencing (NGS) generiert und verarbeitet. Während die Hardware bereits voll einsatzbereit ist, muss die Software noch optimiert werden, um die Migration der Daten zu Swarm zu ermöglichen.

Die Integration der Metadaten bei der Datenerfassung ist ein entscheidender nächster Schritt für das IBMP, um den Abruf von Objekten aus der umfangreichen Datenbank zu optimieren. Auf diese Weise kann sich das IBMP von den herkömmlichen, uneinheitlichen Namensschemata lösen, die von den verschiedenen Forschern bei der Datenverarbeitung eingeführt wurden und die Suchleistung beeinträchtigten.

Diese Initiative wird einige Zeit in Anspruch nehmen, da das CNRS, das Aufsichtsgremium des Instituts, ein Electronic Laboratory Notebook (ELN) mit

einen „digitalen Datensatz“ einführen möchte, der jede Erfassungssequenz wissenschaftlicher Daten begleiten soll.

Da mehrere Labore an der Objektspeicherung beteiligt sind, muss ausreichend Zeit eingeplant werden, um die Anforderungen zu formalisieren, Gespräche zu koordinieren und Erfahrungen innerhalb der ELN-Arbeitsgruppen auszutauschen. In der Zwischenzeit stehen die in Swarm gespeicherten Bioinformatik-Daten den Nutzern bereits über spezielle Visualisierungsserver (wie JBrowse zur Genomidentifikation) zur Verfügung, und die vollständige Migration in den Objektspeicher erfolgt über das ELN.

Die primäre Datenerfassung und die Speicherung „heißer“ Daten werden weiterhin von SANsymphony Blockspeicher unterstützt, damit alle Dienste den IBM-Anwendern zuverlässig zur Verfügung stehen.

Wichtigste Punkte bei der Bereitstellung

  • Swarm-Objektspeicher-Cluster, bestehend aus 10 Dell PowerEdge-Servern
  • Vorläufig lizenziert für 850 TB nutzbare Kapazität (von insgesamt 1,3 PB Bruttokapazität)
  • VMware für die Servervirtualisierung
  • Active-Directory-Integration für das Identitätsmanagement und die Zugriffskontrolle
  • 25-Gbit/s-Verbindung und 10-Gbit/s-Glasfaserverbindung
  • FS-Switches
  • iDRAC-Verbindungen zur Überwachung von Remote-Rechnern