Tritt unserer Community bei – hier klicken
Screenshot der Scanpy-Bibliothek für die Einzelzell-RNA-Sequenzierung-Analyse.
· AI Redaktion · 3 Min. Lesezeit
Single Cell RNA Sequencing Scanpy Data Analysis Biologie

Die Zukunft der individuellen Zellanalysen: Eine Anleitung

Erfahren Sie, wie Sie eine vollständige Pipeline zur Einzelzell-RNA-Sequenzierung mit Scanpy erstellen für Cluster-Visualisierung und Zelltyp-Annotation.

Inhaltsverzeichnis
  1. 1. Installation der notwendigen Pakete
  2. 2. Datenvorverarbeitung
  3. 3. Datenfilterung
  4. 4. Normalisierung und Identifizierung hochvariabler Gene
  5. 5. Datenvisualisierung
  6. 6. Clusteranalyse und Zelltyp-Annotation

Die Einzelzell-RNA-Sequenzierung hat sich als bahnbrechendes Werkzeug in der molekularen Biologie etabliert. Sie ermöglicht es Forschern, die Genexpression auf Einzelzellebene zu untersuchen, was neue Einblicke in Zellpopulationen und deren Funktionsweise bietet. In diesem Artikel zeigen wir Ihnen Schritt für Schritt, wie Sie eine komplette Analyse-Pipeline für die Einzelzell-RNA-Sequenzierung mit der Python-Bibliothek Scanpy aufbauen können.

Installation der notwendigen Pakete

Der erste Schritt zur Erstellung Ihrer Pipeline ist die Installation der notwendigen Pakete. Scanpy ist eine leistungsfähige Bibliothek, die nicht nur für die Analyse, sondern auch für die Visualisierung von Einzelzell-RNA-Daten geeignet ist. Zu den benötigten Paketen gehören außerdem Anndata und andere für die Datenverarbeitung nützliche Bibliotheken.

python import sys import subprocess

def pip_install(*packages): subprocess.check_call([sys.executable, “-m”, “pip”, “install”, “-q”, *packages])

required = [ “scanpy”, “anndata”, “leidenalg”, “igraph”, “harmonypy”, “seaborn” ] pip_install(*required)

Nachdem die erforderlichen Pakete installiert sind, können Sie mit der Analyse beginnen.

Datenvorverarbeitung

Im nächsten Schritt laden wir das zu analysierende Dataset. Für diesen Leitfaden verwenden wir das PBMC 3k-Dataset, welches weitverbreitet für Trainings- und Testzwecke in der Einzelzell-RNA-Sequenzierung genutzt wird.

python import scanpy as sc import anndata as ad

adata = sc.datasets.pbmc3k() adata.var_names_make_unique()

Nach dem Laden des Datensatzes sollten wir einige Qualitätskontrollmaßnahmen durchführen. Mitochondriale Gene sind ein wichtiger Marker für die Zellqualität. Wenn der Anteil hoch ist, kann dies auf eine schlechte Zellgesundheit hindeuten.

python adata.var[“mt”] = adata.var_names.str.upper().str.startswith(“MT-”)
sc.pp.calculate_qc_metrics(adata, qc_vars=[“mt”], log1p=False, inplace=True)

Durch die Anwendung von Qualitätskontrollen können wir sicherstellen, dass unsere Analyse auf qualitativ hochwertigen Daten basiert.

Datenfilterung

Um nur Zellen mit ausreichend Genexpression zu behalten, filtern wir die unbrauchbaren Zellen aus. Die minimal erforderliche Anzahl an Genen und deren maximale Anzahl sowie der Prozentsatz an mitochondrialen Genen können wie folgt festgelegt werden:

python adata = adata[adata.obs[“n_genes_by_counts”] >= 200].copy()
adata = adata[adata.obs[“n_genes_by_counts”] <= 5000].copy()
adata = adata[adata.obs[“pct_counts_mt”] < 10].copy()

Dies sichert die Qualität der Daten, bevor wir die normalisierte Analyse durchführen. Betrachten wir nun die Normalisierung und die Identifikation hochvariabler Gene.

Normalisierung und Identifizierung hochvariabler Gene

Die Daten sollten normalisiert werden, bevor wir das folgende Analyseschritte durchführen:

python sc.pp.normalize_total(adata, target_sum=1e4) sc.pp.log1p(adata) adata.raw = adata.copy() sc.pp.highly_variable_genes(adata, flavor=“seurat”, min_mean=0.0125, max_mean=3, min_disp=0.5)

Mit den hochvariablen Genen können wir besser zwischen den Zellpopulationen unterscheiden.

Datenvisualisierung

Eine der Stärken von Scanpy ist die Möglichkeit der Visualisierung. Nach der Identifikation der hochvariablen Gene ist es sinnvoll, die PCA-Analyse und UMAP zur niedrigdimensionalen Darstellung durchzuführen:

python sc.tl.pca(adata, svd_solver=“arpack”) sc.pl.pca(adata, color=None) sc.pp.neighbors(adata, n_neighbors=12, n_pcs=30) sc.tl.umap(adata) sc.pl.umap(adata, color=[“leiden”])

Durch die Erstellung von UMAP-Diagrammen können wir schnell Clustering-Ergebnisse visualisieren, die sehr aufschlussreich sind für das Verständnis der zugrunde liegenden Zellpopulationen.

Clusteranalyse und Zelltyp-Annotation

Im Anschluss an das Clustering können wir Gene identifizieren, die als Marker für verschiedene Zelltypen fungieren. Dieses Wissen erlaubt es uns, die verschiedenen Zelltypen in unseren Daten zu annotieren:

python sc.tl.rank_genes_groups(adata, groupby=“leiden”, method=“wilcoxon”) marker_table = sc.get.rank_genes_groups_df(adata, group=None)

Diese Schritte geben Ihnen eine strukturierte Anleitung, um eine vollständige Analyse-Pipeline für Einzelzell-RNA-Sequenzierungsdaten aufzubauen. Scanpy bietet die Möglichkeit, alle Schritte – von der Installation bis zur Visualisierung – einfach zu integrieren, was Ihre Analyse nicht nur leistungsfähig, sondern auch benutzerfreundlich macht.

Abschließend zeigt uns dieser Leitfaden, wie effektive Datenanalysemethoden helfen können, Lösungen für komplexe biologische Fragen zu finden. Einzelzell-RNA-Sequenzierung eröffnet neue Perspektiven in der biomedizinischen Forschung, indem sie uns das Verständnis der vielfältigen Zellpopulationen ermöglicht.