Skip to main content
main-content

Über dieses Buch

Locker und leicht verständlich geschrieben führt dieser Leitfaden in die Grundlagen und Möglichkeiten der Sequenzanalyse ein.

Das Buch beginnt mit einer Einführung in die wichtigen Sequenzdatendatenbanken am NCBI und EMBL sowie in die wachsende Zahl der Motivdatenbanken. Anschließend werden die einfachsten Methoden des paarweisen Sequenzvergleiches in globalen und lokalen Alignments beschrieben sowie die gängigsten heuristischen Verfahren der Datenbanksuche (FASTA und BLAST). Multiple Alignments, Substitutionsmatrizen und die Berechnung phylogenetischer Bäume werden dem Leser nahe gebracht. Neu hinzugekommen sind auch Erläuterungen der Prinzipien der Genomanalyse und der gängigsten Algorithmen zur Genvorhersage. Zu jeder Methode werden Online-Tools im Internet oder freie Software angegeben.

Das Buch richtet sich an Anwender und Einsteiger in die Bioinformatik, speziell Studenten und Forscher, die sich mit der Sequenzanalyse auseinandersetzen müssen.

Inhaltsverzeichnis

Frontmatter

1. Einstieg in die Sequenzanalyse

Zusammenfassung
Die Bioinformatik ist nur auf den ersten Blick eine junge Wissenschaft, tatsächlich ist sie jedoch schon wesentlich älter als ihr Name. Die ersten Algorithmen zur Sequenzanalyse wurden in den 50er Jahren benötigt, als die ersten Proteinsequenzen verfügbar wurden. Daher sind die ältesten Analysemethoden auch auf Proteine abgestimmt. Nachdem Fred Sanger 1975 [Sanger and Coulson, 1975] die enzymatische Sequenzierung von DNA erfunden hatte, stieg auch die Anzahl der Nukleotidsequenzen kontinuierlich an. Mit den Jahren wurden die Sequenzierungstechniken und -strategien von Nukleotiden und Proteinen derartig optimiert, dass die Anzahl der verfügbaren Sequenzen inzwischen exponentiell wächst (siehe Abbildung 2.1).
Andrea Hansen

2. Primäre Datenbanken

Zusammenfassung
Die drei größten primären Sequenzdatenbanken weltweit sind: Genbank (USA), EMBL (England) und DDBJ (Japan). Diese drei Datenbanken sind die ersten Anlaufstellen zur Sequenzsuche, da hier Wissenschaftler aus der ganzen Welt ihre Protei- nund Nukleotidsequenzen eintragen, unabhängig von Art und Herkunft der Sequenz.
Andrea Hansen

3. Einfache Alignments

Zusammenfassung
Alignments sind die Grundlage aller Sequenzanalysen. Das einfachste Alignment besteht aus zwei Sequenzen, die aufgrund der Position ihrer Nukleotide bzw. Aminosäuren aneinander ausgerichtet werden. Ziel ist es dabei, möglichst viele identische Positionen nebeneinander in den zu vergleichenden Sequenzen zu finden. Der Dotplot, das globale und das lokale Alignment gehören zu den gängigsten Methoden dieser Analyse. Die Bewertung des paarweisen Sequenzvergleichs erfolgt mit Hilfe einer Substitutionsmatrix.
Andrea Hansen

4. Heuristische Methoden zum Sequenzvergleich

Zusammenfassung
Heuristische Verfahren sind eine Annäherung an die genaue Berechnung von Sequenzalignments mit dem Smith & Waterman oder Needleman & Wunsch Algorithmus. Sie ermöglichen es, auch innerhalb kurzer Zeit ganze Datenbanken nach ähnlichen Sequenzen zu durchsuchen. Zu den am häufigsten verwendeten gehören fasta und blast.
Andrea Hansen

5. Multiple Alignments

Zusammenfassung
Das multiple Alignment, also das gleichzeitige analysieren mehrerer Sequenzen, liefert im Vergleich zum paarweisen Sequenzvergleich genauere Informationen über Aminosäureverteilungen an einzelnen Positionen. Solche Verteilungen können nicht nur Aufschluß über konservierte Bereiche geben, sondern sie sind auch die Grundlage für profilbasierte Datenbanksuchen (siehe Kapitel 4.2.4) und phylogenetische Analysen (siehe Kapitel 6). Die häufigsten multiplen Alignments sind globale Alignments, die mit heuristischen Methoden errechnet werden. Für die Analyse von Proteindomänen werden lokale multiple Alignments benötigt.
Andrea Hansen

6. Phylogenetische Analysen

Zusammenfassung
Phylogenetische Analysen versuchen, die evolutionären Beziehungen zwischen den Organismen aufzuklären. In früheren Zeiten stützte man sich auf morphologische Merkmale, heutzutage werden die Protein- und Nukleotidsequenzen für die Analysen immer wichtiger. Die drei häufigsten Methoden, die zur Berechnung von Bäumen verwendet werden, sind die Distanzmethoden, Parsimonymethoden und Maximum-Likelihood-Methoden.
Andrea Hansen

7. Abgeleitete Datenbanken

Zusammenfassung
Abgeleitete biologische Datenbanken filtern und interpretieren die Informationen der primären Datenbanken nach bestimmten Kriterien. Der Trend geht dahin, abgeleitete Datenbanken immer mehr miteinander zu verknüpfen, um die Datenbankabfrage für den Anwender einfacher und vollständiger zu gestalten.
Andrea Hansen

Backmatter

Weitere Informationen