Skip to main content

2025 | Buch

Einführung in die Bioinformatik in der Mikrobiologie

insite
SUCHEN

Über dieses Buch

Dieses Lehrbuch führt in die grundlegenden Konzepte der Bioinformatik ein und verbessert die Fähigkeiten der Studierenden im Umgang mit Software und Werkzeugen, die speziell für die Lösung von mikrobiologischen Fragestellungen relevant sind. Es werden die wichtigsten Methoden zur Analyse von Daten aufgezeigt und die Leser werden darin geschult, auf der Grundlage der erzielten Ergebnisse gültige Schlussfolgerungen zu ziehen. Weiters stellen die Autoren hilfreiche Programme und Server vor, die kostenlos im Internet genutzt werden können, präsentieren aber zusätzlich fortgeschrittenere eigenständige Software als zweite Option.. Zur Vertiefung des Erlernten werden am Ende jedes Kapitels unterhaltsame Übungen und Quizfragen angeboten.

Das Buch richtet sich an Doktoranden und fortgeschrittene Studierende der Mikrobiologie, Biotechnologie und (Veterinär-)Medizin mit geringen bis grundlegenden Kenntnissen in Bioinformatik.

Inhaltsverzeichnis

Frontmatter
Kapitel 1. Einführung
Was Sie aus dem Buch lernen können
Zusammenfassung
Dieses Kapitel handelt von den Grundlagen der Bioinformatik und erklärt, was Sie aus dem Buch lernen können. Bioinformatik ist hauptsächlich die Konvergenz zweier Trends in der biologischen Forschung, der Speicherung von Molekülsequenzen in Computerdatenbanken und der Anwendung von Computeralgorithmen zur Analyse von DNA- und Proteinsequenzen. Die Bioinformatik verknüpft zahlreiche Wissenschaftsfelder, wobei eine wichtige Aufgabe des Informationsteils der Bioinformatik auf das Verständnis und die Übersetzung von Begriffen und Konzepten zwischen diesen Wissenschaftsfeldern abzielt. Alles beginnt mit biologischen Fragestellungen, die gelöst werden sollen. Der Erfolg der Bioinformatik beruht unter anderem darauf, dass sie in der Lage ist, die Evolution zu modellieren und Homologie zu testen. Die Mehrheit der besten Computerprogramme der Bioinformatik ist nicht kommerziell und kann kostenlos für gemeinnützige Zwecke genutzt werden. Viele Bioinformatiktools können kostenlos auf Servern genutzt werden, die über das Internet zugänglich sind. Das Gleiche gilt für die Datenbanken; nur eine gute Internetverbindung ist zwingend notwendig.
Henrik Christensen
Kapitel 2. DNA-Sequenzassemblierung und Annotation von Genen
Wie man eine DNA-Sequenz erzeugt und die Funktion von Genen vorhersagt
Zusammenfassung
Dieses Kapitel beschreibt die verschiedenen Sequenzierungsstrategien, die Vor- und Nachteile der verschiedenen Strategien, um Ihnen bei der Auswahl der optimalen Methode für Ihre Forschungsfrage zu helfen, sowie die Assemblierung und die Annotation von DNA-Sequenzen. Bei der DNA-Sequenzierung wird die Reihenfolge der Nukleotide von Teilen oder ganzen Chromosomen von Organismen und Viren bestimmt. Die DNA-Sequenzierung kann für ein einzelnes Gen, ein ganzes Genom oder viele Genome gleichzeitig durchgeführt werden, wie zum Beispiel in der Metagenomik. Eine der beliebtesten Sequenzierungsplattformen ist MiSeq von Illumina, die in der Lage ist, kleine Gesamtgenomsequenzierungen, Transkriptomik und 16S-rRNA-Metagenomik auszuführen. Durch Verwendung einzigartiger Kombinationen an spezifischen Barcodes und Indizes ist Multiplexing möglich. Einzelmolekülsequenzierung in Echtzeit erlaubt die Sequenzierung nativer DNA, was zu deutlich längeren Read-Längen und genaueren Sequenzinformationen führt, die verfügbar sind, noch während die Nukleotide eingebaut werden. Base Calling ist der erste Schritt bei der Sequenzierung, bei dem das elektronische Signal, das in der Sequenzierungsmaschine erzeugt wird, von zufälligem Rauschen getrennt und in Nukleotidinformationen umgewandelt wird. Anschließend müssen die Nukleotidinformationen zu DNA-Sequenzen zusammengesetzt werden, die der ursprünglich sequenzierten DNA so gut wie möglich entsprechen. Dies kann entweder de novo ohne Referenz oder mithilfe einer Referenz erfolgen, wenn das Genom des Organismus oder Virus gut bekannt ist. Der wichtigste zu berücksichtigende Qualitätsparameter ist die sogenannte Coverage. Ein weiterer wichtiger Parameter ist N50. Vergleiche verschiedener Assemblierungen können mit Quast gemacht werden. Die Mindestinformationen über eine Genomsequenz (MIGS) bieten eine erschöpfende Liste der für genomische Sequenzen erforderlichen Informationen, einschließlich der Anforderungen an Metadaten. Die Genomannotation beinhaltet die Identifizierung und Kennzeichnung aller relevanten Merkmale der genomischen Sequenz. Dies schließt die Nukleotidpositionen ein, an denen kodierende Regionen vorhergesagt werden. Es handelt sich hauptsächlich um eine Vorhersage von kodierenden Genen; jedoch werden auch andere strukturelle Gene wie rRNA identifiziert.
Henrik Christensen, Arshnee Moodley
Kapitel 3. Datenbanken und Proteinstrukturen
Zusammenfassung
Bioinformatikdatenbanken enthalten biologische Daten aus wissenschaftlichen Experimenten, vor allem DNA- und Proteinsequenzen sowie Proteinstrukturen. Auch Datenbanken mit veröffentlichter Literatur sowie zur computergestützten Analyse von Primärdaten und Metadaten sind wichtig. Primäre und sekundäre Datenbanken beziehen sich auf die Art und Quelle der gespeicherten Daten. Primäre Datenbanken, wie GenBank und ENA, werden auch Archive oder Repositorien genannt, und sie nehmen Informationen direkt vom einzelnen Forscher entgegen; die Daten gehören dem Einreicher mit Privilegien zur Änderung der Daten. Die Nukleotiddatenbanken DDBJ, EMBL und GenBank werden automatisch auf die Proteinebene übersetzt, wenn die DNA-Sequenzen kodierend sind. Die sekundären Datenbanken (z. B. Swiss-Prot und PDB) sind kuratiert und führen Qualitätskontrollen und Einordnungen der Informationen aus, bevor die Informationen der Öffentlichkeit zugänglich gemacht werden. Dies erleichtert die Reduzierung von Redundanzen. Sie können auch die Einreicher von nicht mehr aktualisierten Einträgen in den primären Datenbanken umgehen. Die Vorhersage von Proteindomänen wird auf der Grundlage einzelner Motive, mehrerer Motive, vollständiger Domänen oder durch die Kombination verschiedener dieser Methoden durchgeführt. Domänen sind kompakte Einheiten von Proteinen, die unabhängig voneinander agieren und mit bestimmten Funktionen assoziiert sein können, während Motive konservierte Regionen von Proteinen sind, die Teil von Domänen sein können. Proteine, die über die zytoplasmatische Membran transloziert werden, weisen N-terminale Signalsequenzen auf. Zur Vorhersage der Funktion eines Proteins genügt eine eher geringe Identität zu anderen bekannten Proteinen über einen relativ kurzen Bereich und eine eher geringe Ähnlichkeit zu Proteinstrukturen. Die Proteomik befasst sich mit der Vorhersage von Proteinen auf der Grundlage der Messung von Masse-zu-Ladung-Verhältnissen (m/z). Die Vorhersage von Proteinen erfolgt dann mit Programmen wie Mascot.
Henrik Christensen, Lisbeth de Vries
Kapitel 4. Paarweises Alignment, multiples Alignment und BLAST
Zusammenfassung
Quantitative Vergleiche von Sequenzen können paarweise durchgeführt werden, indem zwei Sequenzen mithilfe von Auslassungen, die Einfügungen oder fehlende Positionen darstellen, und Übereinstimmungen zwischen Nukleotiden oder Aminosäuren zueinander ausgerichtet werden. Paarweise Vergleiche können als umfassendes (global) Alignment ausgeführt werden, wenn die Sequenzen über ihre volle Länge homolog sind, oder als lokale Alignments, wenn eine Sequenz kürzer ist als die andere. Es werden die dynamischen Programmieralgorithmen zur Erstellung von globalen und lokalen Alignments detailliert beschrieben und dafür relevante Computerprogramme empfohlen. Anschließend werden verschiedene Strategien für multiple Alignments erläutert, inklusive der relevanten Computerprogramme. Nach einer detaillierten Vorstellung des Programms BLAST werden entsprechende Anwendungen beschrieben.
Henrik Christensen, John Elmerdahl Olsen
Kapitel 5. Primer-Design
Design von Oligonukleotid-PCR-Primern und Hybridisierungssonden
Zusammenfassung
In diesem Kapitel wird ein Überblick über das Design von Oligonukleotiden für explorative Untersuchungen und Diagnostik gegeben. Es werden die Kriterien für die Auswahl von Oligonukleotiden, einschließlich der Längen von PCR-Primern, -Produkten und Hybridisierungssonden, die Prinzipien für den Sequenzvergleich sowie die Regeln für die sequenzbasierte Vorhersage der Amplifikation sowie der Schmelztemperaturen erläutert. Anschließend werden Computerprogramme für die verschiedenen Anwendungen von degenerierten Primern; Multiplex-, Nested-Polymerasekettenreaktion(PCR) und Einzelnukleotidpolymorphismen sowie Hybridisierungsmethoden empfohlen. Im Abschnitt „Aktivität“ wird das Design von Oligonukleotiden für die Amplifikation einzelner DNA-Sequenzen mithilfe von PCR und PrimerBLAST für das Design von diagnostischen PCR-Primern demonstriert.
Henrik Christensen, John Elmerdahl Olsen
Kapitel 6. Einführung in die phylogenetische Analyse molekularer Sequenzdaten
Zusammenfassung
Die Phylogenie bzw. Phylogenese beschreibt die Beziehungen zwischen Organismen, Genen, Proteinen oder anderen Strukturen auf der Grundlage gemeinsamer Abstammung. Phylogenetische Analysen werden auch für epidemiologische Untersuchungen und Analysen der parallelen Evolution zwischen Wirt und Parasit verwendet. Zur Visualisierung phylogenetischer Stammbäume können Dendrogramme oder radiale Bäume verwendet werden. Die wichtigste Information, die einem phylogenetischen Baum entnommen werden kann, ist die Position der verschiedenen monophyletischen Gruppen. Die Hauptarten von Modellparametern, die benötigt werden, um einen Baum aus einem gegebenen Datensatz zu konstruieren, sind die Baumform und die Substitutionsmatrix. Eine der vier phylogenetischen Methoden maximale Parsimonie, Neighbor-Joining-Verfahren, Maximum-Likelihood-Methode und Bayessche Interferenz) wird anschließend zur Konstruktion des Stammbaums genutzt. Die Belastbarkeit der erstellten Bäume kann mithilfe der Bootstrap-Analyse bewertet werden. Im Kapitel werden die wichtigsten Datenformate, die als Input für phylogenetische Programme verwendet werden, ebenso vorgestellt wie die wichtigsten Programme. Schließlich wird der Leser angeleitet, einen phylogenetischen Baum mithilfe des Neighbor-Joining-Verfahrens zu erstellen.
Henrik Christensen, John Elmerdahl Olsen
Kapitel 7. Sequenzbasierte Klassifikation und Identifikation
Zusammenfassung
In diesem Kapitel werden Sie in die Klassifizierung von Prokaryoten von Spezies bis zu den höheren Ebenen von Klassen und Phyla eingeführt. Der Vergleich von 16S-rRNA-Gensequenzen einschließlich der phylogenetischen Analyse liefern die Hauptinformationen für die Klassifizierung. Die Klassifizierung von Spezies erfolgt hauptsächlich aus der Vorhersage von In-silico-DNA-DNA-Hybridisierungen von Genomgenomsequenzen. Im Abschnitt „Aktivitäten“ lernen Sie, ein Isolat aus der 16S-rRNA-Sequenz vom EzBioCloud-Server und durch Gesamtgenomsequenzierung vom Type Strain Genome Server (TYGS) zu identifizieren.
Henrik Christensen, John Elmerdahl Olsen
Kapitel 8. 16S rRNA Amplicon-Sequenzierung
Zusammenfassung
Die 16S-rRNA-Amplicon-Sequenzierungstechnik ist eine Mikrobiomanalyse, bei der mehrere Proben mithilfe von Multiplexing gleichzeitig analysiert werden. Die Ergebnisse dienen der Bestimmung der mikrobiellen Vielfalt auf Gattungs-, Familien-, Ordnungs-, Klassen- und Phylumsebene. In der Regel ist die Auflösung für die Speziesebene zu gering. Die verschiedenen Schritte der bioinformatischen Analyse ermöglichen sowohl die Analyse sämtlicher Probenkombinationen als auch Vergleiche zwischen den Proben. Die Analyse konzentriert sich auf die Qualität der Reads, das Zusammenführen identischer Reads und das Gruppieren von Reads in operationale taxonomische Einheiten (OTU) mit einer Schwelle von 97 %. Diese Schwelle ist vom Schwellenwert für die Klassifizierung von Spezies basierend auf dem Vergleich von 16S-rRNA-Gensequenzen abgeleitet. Die Verteilung von Reads und OTU innerhalb und zwischen den Proben kann zur Schätzung der α- und β-Diversität genutzt werden. Eine Alternative zur OTU-Dereplikation ist der Divisive-Amplicon-Denoising-Algorithmus. Dieser Algorithmus gruppiert Reads nach der statistischen Modellierung und identifiziert die wahrscheinlich zentralste Sequenz. Zwischen den Proben kann das relative Auftreten der taxonomischen Einheiten auf den Ebenen Gattung, Familie, Ordnung, Klasse und Phylum bestimmt werden. Diese Verteilungen können mit Metadaten durch Hauptkomponentenanalyse in Beziehung gesetzt werden.
Henrik Christensen, Jasmine Andersson, Steffen Lynge Jørgensen, Josef Korbinian Vogt
Kapitel 9. Vollständige Shotgun-DNA-Metagenomik
Zusammenfassung
Gesamt-DNA-Metagenomik beinhaltet die Sequenzierung der gesamten in einer Probe enthaltenen DNA, gefolgt von Assemblierung, Annotation und Zuordnung der Sequenzinformationen zu Organismen und Funktion. Bei der Assemblierung von DNA-Sequenz-Reads wird versucht, Genomfragmente zu Entwurfsgenomen zu rekonstruieren. Die bioinformatischen Pipelines Mothur und QIIME, die in Kap. 8 für die Analyse von 16S-rRNA-Amplicon-Sequenzen vorgestellt wurden, können auch für die Gesamt-DNA-Metagenomik verwendet werden. Der Schwerpunkt in diesem Kapitel liegt auf MG-RAST, das sowohl die Informationen vorhergesagter Proteine in Metagenomik-Daten für weitere Vorhersagen von Funktionen oder taxonomischen Beziehungen verarbeiten, als auch die 16S-rRNA-Gen-Sequenzinformationen extrahieren und detailliertere taxonomische Informationen aus den spezialisierten Datenbanken SILVA, Greengenes und RDP liefern kann, die in Kap. 8 vorgestellt wurden.
Henrik Christensen, John Elmerdahl Olsen
Kapitel 10. Transkriptomik
RNA-seq
Zusammenfassung
Die RNA-Sequenzierung (RNA-Seq) ist eine Technologie zur Bestimmung der relativen Häufigkeiten von Transkripten. Das primäre Ziel der Analyse der differenziellen Genexpression besteht darin, Unterschiede in den Transkriptmengen zwischen zwei oder mehr Behandlungweisen oder Gruppen quantitativ zu messen. RNA-seq basiert auf Hochdurchsatzsequenzierung, die eine genomweite Erkennung transkribierter Gene ermöglicht. Dafür wird extrahierte RNA in cDNA umgeschrieben, die anschließend mittels einer Next-Generation-Sequencing-Plattform wie Illumina sequenziert wird. Die Sequenzdaten werden durch Sequenzalignment mit annotierten Genen abgeglichen. Daten aus der Sequenzierung werden im FASTQ-Format bereitgestellt. Das Datenmanagement umfasst die Bewertung der Datenqualität, das Alignment der Reads mit einem Referenzgenom und die Normalisierung der Daten, bevor die Analyse der differenziellen Genexpression durchgeführt werden kann. Die Methode birgt noch einige technische Probleme, die auf eine Lösung warten, zum Beispiel hinsichtlich des PCR-Amplifikations-Bias und Verzerrungen bei der Konstruktion der Bibliotheken.
Rikke Heidemann Olsen, Henrik Christensen
Kapitel 11. Sequenzbasierte Typisierung und Vorhersage der Funktion
Zusammenfassung
Das Kapitel gibt eine Einführung in die populationsgenetischen Mechanismen, die für die Bildung und Erhaltung von Populationen verantwortlich sind. Multilokussequenztypisierung (MLST) wird zur Abgrenzung von Populationen verwendet und hat die molekulare Typisierung revolutioniert, indem sie Informationen liefert, die zwischen verschiedenen Laboren verglichen und in gut gepflegten Datenbanken auf Servern über das Internet analysiert werden können. Der Erfolg von MLST als Konzept hat sich auf der Analyse der gesamten genomischen Sequenz fortgesetzt, wobei die genetischen Informationen von sieben auf Hunderte von Genen erweitert wurden. Der detaillierteste Vergleich zur Rückverfolgung einzelner Stämme wurde auf der Ebene einzelner Nukleotide erhalten. Die Analyse von Einzelnukleotidpolymorphismen (SNP), bei der die Reads aus der Hochdurchsatzsequenzierung mit einer Referenzsequenz verglichen werden, ermöglicht die detaillierteste Analyse. Für bestimmte, hauptsächlich humanpathogene Bakterien wie Escherichia coli und Salmonella enterica, ist eine organismusspezifische Vorhersage in Datenbanken auf dedizierten Servern verfügbar, wo Serotyp, Virulenz, Plasmide, Prophagen, antimikrobielle Resistenzprofile und wgMLST auf Basis der über das Internet hochgeladenen Gesamtgenomsequenz vorhergesagt werden können.
Henrik Christensen, John Elmerdahl Olsen
Metadaten
Titel
Einführung in die Bioinformatik in der Mikrobiologie
herausgegeben von
Henrik Christensen
Copyright-Jahr
2025
Electronic ISBN
978-3-031-65257-8
Print ISBN
978-3-031-65256-1
DOI
https://doi.org/10.1007/978-3-031-65257-8