Datenanalyse
Was wir anbieten
Unser Prozess
Heutzutage ist das Generieren von Daten der einfache Teil, die Analyse und Interpretation der erhaltenen Datensätze ist die eigentliche Herausforderung. Wir haben bestehende Pipelines angepasst, um die Daten verschiedener Assays optimal zu analysieren. Wir haben Zugang zu sorgfältig gepflegten hausinternen Datenbanken, die beispielsweise eine erweiterte Varianteninterpretation für die targeted Panel Sequenzierung ermöglichen.
Bei jeder NGS Library Vorbereitung werden jeder Probe eindeutige Barcode-Sequenzen hinzugefügt, so dass mehrere Libraries gepoolt und gemeinsam sequenziert werden können. Nach der Sequenzierung werden diese Informationen verwendet, um die sequenzierten Reads eindeutig den einzelnen Proben zuzuordnen (=Demultiplexing) und automatisch probenspezifische FASTQ-Dateien zu erzeugen.
Die FASTQ-Datei ist der Input für das anschließende Read-Alignment an das Referenzgenom oder Transkriptom. Der Alignment-Prozess ordnet jedes sequenzierte DNA/RNA-Fragment auf der Grundlage seiner Basensequenz der entsprechenden Region im menschlichen Genom/Transkriptom zu. Die Position der Reads wird als Sequenz-Alignment/Map (SAM) oder binäre Alignment/Map (BAM) Datei gespeichert.
Varianten Calling
Das Ergebnis des Alignments wird verwendet, um vom Referenzgenom abweichende Positionen zu identifizieren und eine Liste von Varianten zu erstellen, die in einer VCF-Datei (variant call format) detailliert beschrieben werden. Es können sowohl Einzelnukleotidvarianten (SNVs) als auch kleinere Insertionen und Deletionen erkannt werden. Bei größeren Assays (WGS, WES) können auch die Kopienzahlveränderungen (CNV) und Strukturvarianten (SV) detektiert werden.
Rohdaten - txt-Datei
Für Transkriptomdaten liefern wir entweder die rohe Anzahl an Transkripten auf Grundlage der Alignment-Ergebnisse oder die Transkriptzahlen auf Grundlage von Pseudo-Alignment-Algorithmen.
Fusion-Calling-Ergebnisse
Drei verschiedene Fusions-Caller werden verwendet, um potenzielle Fusionstranskripte aus Transkriptomdaten zu identifizieren. Identifizierte Fusions-Transkripte können mit öffentlichen Datenbanken annotiert werden, um zusätzliche Informationen über das Transkript zu erhalten.
Um die Varianten Interpretation zu erleichtern, können zusätzliche Informationen zu den nachgewiesenen Varianten bereitgestellt werden. Das MLL dokumentiert routinemäßig die Bewertung der Sequenzvarianten, so dass zusätzlich zu den klinischen Datenbanken auch die hauseigene Datenbank zur Bewertung der klinischen Relevanz herangezogen werden kann.
Rohdaten der Sequenzierung aus dem NovaSeq-System werden direkt in eine private AWS-Instanz der Amazon Cloud in Frankfurt mit eingeschränktem und streng reguliertem Zugriff gestreamt. Die Daten sind vollständig anonymisiert und es werden keine persönlichen oder klinischen Daten in der Cloud gespeichert. Die Datensicherheitsmaßnahmen entsprechen den höchsten Standards der neuen EU-Datenschutzgrundverordnung (GDPR), was auch von externen Prüfern verifiziert wurde. Rohdaten der Sequenzierung aus den MiSeq-Systemen werden lokal ohne externen Zugriff gespeichert.