Skip to main content

2023 | Buch

Mathematische Methoden der Bioinformatik - Eine Einführung

insite
SUCHEN

Über dieses Buch

Große Datenmengen lassen sich ohne den Einsatz von einschlägigen Softwareprodukten kaum bearbeiten. Mit den bereitgestellten Algorithmen können Daten statistisch ausgewertet und Optimierungsaufgaben oder kombinatorische Problemstellungen gelöst werden. Auch wenn dies zumeist im „Black Box“-Verfahren geschieht, ist es doch hilfreich, etwa bei der Auswahl der Algorithmen oder bei der Einschätzung der erforderlichen Zeit-Ressourcen, die hinter den Algorithmen steckenden mathematischen Ideen zu kennen.

Das Buch lädt Biologen und Mediziner ein, sich mit den mathematischen Grundlagen von ausgewählten Algorithmen der Bioinformatik vertraut zu machen. Es ist eine Einführung mit vielen durchgerechneten Beispielen und zahlreichen Aufgaben mit ausführlichen Lösungen zum Einüben der mathematischen Inhalte. Inhaltliche Schwerpunkte sind Matrizen, lineare Gleichungssysteme, Rekursionen, Abzähltechniken, diskrete dynamische Optimierung, Markov-Ketten, Hidden Markov-Modelle und distanzbasierte Klassifikationsverfahren.

Inhaltsverzeichnis

Frontmatter
Kapitel 1. Matrizen und Vektoren
Zusammenfassung
Die Bewältigung von großen Datenmengen mit den vielfältigen Methoden des „Data Science“ ist ohne Matrizen unvorstellbar. Mit Matrizen können multivariate Datensätze kompakt erfasst und Lagebeziehungen zwischen Untersuchungseinheiten oder Zusammenhänge zwischen Variablen dargestellt werden. Eine besondere Rolle spielen dabei Kovarianz- und Korrelationsmatrizen. Um diese Matrizen berechnen zu können, ist es erforderlich, grundlegende Rechenoperationen wie das Skalarprodukt von Vektoren oder die Multiplikation von Matrizen zu kennen. Matrizen sind auch nützliche Hilfsmittel bei der Beschreibung und Analyse von Strukturen und Prozessen, die sich mit Hilfe von Graphen darstellen lassen.
Werner Timischl
Kapitel 2. Lineare Gleichungssysteme
Zusammenfassung
Lineare Gleichungssysteme bilden den mathematischen Kern von zahlreichen Verfahren der multivariaten Statistik. In diesem Kapitel geht es um Methoden zur Lösung von linearen Gleichungssystemen und deren Anwendung (z.B. bei der mehrfachen linearen Regression), aber auch um die Frage der Lösbarkeit von linearen Gleichungssystemen.
Werner Timischl
Kapitel 3. Hauptkomponentenanalyse
Zusammenfassung
Ein Datenmaterial aus den Werten von \(p>1\) Variablen, die an n Untersuchungseinheiten gemessen wurden, kann man sich durch n Datenpunkte in einem p-dimensionalen, rechtwinkeligen Koordinatensystem dargestellt denken. Dabei ist es oft von Vorteil, das Koordinatensystem in eine der Punkteverteilung „angepasste“ Lage zu verdrehen. Dies bedeutet, dass man mit Hilfe einer geeigneten Transformation von den Originalvariablen zu neuen Variablen übergeht. Genau das passiert in der Hauptkomponentenanalyse. Die neuen Variablen (die sogenannten Hauptkomponenten) zeichnen sich durch zwei Eigenschaften aus: Die Produktmomentkorrelation von zwei verschiedenen Hauptkomponenten ist null und die Bedeutung jeder Hauptkomponente kann am Beitrag zur Erklärung der Gesamtvariation beurteilt werden. Die Transformation auf die Hauptkomponenten wird mit Hilfe von Orthogonalmatrizen vorgenommen, die man spaltenweise aus den Eigenvektoren der Kovarianz- oder Korrelationsmatrizen zusammensetzt.
Werner Timischl
Kapitel 4. Rekursionsgleichungen
Zusammenfassung
Rekursionen spielen sowohl in der Mathematik als auch in der Informatik eine wichtige Rolle. Im Zusammenhang mit Algorithmen führt die Abschätzung der Laufzeit oft auf Rekursionsgleichungen. Hier interessiert vor allem das Wachstum der Lösungsfolgen, das man mit Hilfe des Landauschen Ordnungssymbols Groß-O charakterisieren kann.
Werner Timischl
Kapitel 5. Abzählprobleme
Zusammenfassung
Die behandelten Abzählprobleme stehen im Zusammenhang mit dem Alignment von DNA-Sequenzen und phylogenetischen Stammbäumen. Die gefundenen Formeln sollen klar machen, dass „brute force“-Methoden, denen das einfache Durchzählen von allen Möglichkeiten zugrunde liegt, im Allg. nicht zielführend sind. Bei der Herleitung der Abzählformeln sind elementare Kenntnisse über Permutationen und Kombinationen erforderlich, die am Beginn des Kapitels bereitgestellt werden.
Werner Timischl
Kapitel 6. Diskrete dynamische Optimierung
Zusammenfassung
Das Verfahren der diskreten dynamischen Optimierung wurde zur optimalen Steuerung von Prozessen in der Wirtschaft und in der Technik entwickelt. Es kommt aber auch in den Biowissenschaften zur Anwendung, wie am Beispiel der Bestimmung des optimalen Alignments von zwei Gensequenzen gezeigt wird. Die Grundlage des Optimierungsverfahrens bildet das Optimalitätsprinzip von Bellman. In die Thematik wird an Hand des binäres Rucksackproblems eingeführt.
Werner Timischl
Kapitel 7. Markov-Ketten und Hidden-Markov-Modelle
Zusammenfassung
In diesem Kapitel geht es um Prozesse, bei denen die aufeinanderfolgenden Zustände durch eine Folge von Zufallsvariablen beschrieben werden. Einen wichtigen Sonderfall bilden die Markov-Ketten, bei denen die Wahrscheinlichkeit, dass die den Zustand beschreibende Variable einen bestimmten Wert annimmt, nur vom Wert der in der Kette vorangehenden Variablen abhängt. Trotz der Einfachheit von Markov-Modellen gibt es zahlreiche Anwendungen. Z.B. kann die Evolution eines Nukleotids an einer bestimmten Stelle einer DNA-Sequenz im Verlaufe der Zeit durch eine Markov-Kette modelliert werden. Eine Verallgemeinerung der Markov-Ketten stellen die Hidden-Markov-Modelle dar, mit denen man z.B. aus den beobachteten Nukleotiden einer DNA-Sequenz auf Regionen mit speziellen Eigenschaften schließen kann.
Werner Timischl
Kapitel 8. Distanzbasierte Klassifikationsverfahren
Zusammenfassung
Klassifikationsverfahren finden u. a. bei der Analyse von Gen-Expressionsdaten und der Rekonstruktion von phylogenetischen Bäumen Anwendung. Die Verfahren gehen von einer Menge von taxonomischen Einheiten (z. B. Nukleotidsequenzen) aus und verwenden ein Abstandsmaß zur Erfassung der Ähnlichkeit der Elemente. Die hier behandelten Fusionsverfahren beginnen mit einer Startklassifikation, in der jedes Element ein eigenes Cluster bildet. Schritt für Schritt werden die jeweils ähnlichsten Elemente (z.B. mit dem UPGMA- oder dem Neighbour Joining-Algorithmus) fusioniert, bis zuletzt alle Elemente in einem einzigen Cluster enthalten sind. Die schrittweise entstehende Hierarchie von Clustern kann durch einen binären Baum veranschaulicht werden.
Werner Timischl
Kapitel 9. Lösungen der Aufgaben
Zusammenfassung
Das Kapitel enthält ausführliche Anleitungen und Lösungen zu den jeweils 10 Aufgaben am Ende der Kap. 1 bis 8.
Werner Timischl
Backmatter
Metadaten
Titel
Mathematische Methoden der Bioinformatik - Eine Einführung
verfasst von
Werner Timischl
Copyright-Jahr
2023
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-662-67458-1
Print ISBN
978-3-662-67457-4
DOI
https://doi.org/10.1007/978-3-662-67458-1