Skip to main content

2009 | Buch

Gene und Stammbäume

Ein Handbuch zur molekularen Phylogenetik

verfasst von: Professor Dr. Volker Knoop, Dr. Kai Müller

Verlag: Spektrum Akademischer Verlag

insite
SUCHEN

Über dieses Buch

Gene, Genome und Sequenzen auf der einen Seite, Algorithmen, Computer und Informatik auf der anderen - sie üben Faszination aus, halten aber viele Interessierte auf respektvolle Distanz. Die Schnittstelle der Bereiche ist mit dem modernen Begriff Bioinformatik belegt. In der Tat hat die Synthese von zwei unabhängigen Disziplinen selten so viele faszinierende neue Einsichten geliefert.

Eine spannende Teildisziplin der Bioinformatik ist die Molekulare Phylogenetik, deren Ziel die Rekonstruktion von Stammbäumen aus molekularen Daten ist: Computer, moderne Molekularbiologie und Kladistik haben der etwas angestaubten biologischen Systematik und Taxonomie eine ungeahnte Renaissance verschafft. Der Einstieg in beide Welten gleichzeitig - Molekularbiologie und Phylogenetik - war nicht unbedingt einfach. Hier schloss „Gene und Stammbäume" 2006 eine Lücke. Die zweite Auflage behält das bewährte Konzept bei, ist aber inhaltlich um zwei Kapitel erweitert, die den neuesten Trends unter anderem bei Bayesianischen Ansätzen Rechnung tragen.

Einführende Kapitel über Molekularbiologie, Evolution, Taxonomie und Kladistik ermöglichen je nach Wissenshintergrund einen leichten Zugang zur Molekularen Phylogenetik. Den besonders schnellen Einstieg erlaubt ein spezielles Kapitel über den Weg von der Sequenz zum Stammbaum ohne Umwege oder Details. Wer es genauer wissen will, bekommt detaillierte Einführungen in die wichtigen methodischen Ansätze: Parsimonie, Distanzverfahren, Maximum Likelihood und Bayesianische Verfahren. Speziellere Kapitel widmen sich neuen Methoden für stammbaumbasierte statistische Tests, Supertrees, Analysen von Substitutionsraten, molekularer Datierung und vielem mehr. Alles wird hands on anhand von nachvollziehbaren Beispielen mit der gängigen Software besprochen, die aus dem Internet bezogen werden kann.

Das Buch bietet so eine ideale Balance zwischen Theorie und Praxis. Es hat zahlreiche Illustrationen, bietet am Ende der Kapitel Hinweise zum Weiterlesen und schließt mit einem Glossar und einem umfangreichen Index.

Inhaltsverzeichnis

Frontmatter
1. Die molekularen Grundlagen des Lebens
Auszug
Wir sind weit gekommen, seit Johannes Friedrich Miescher 1869 in der Schlossküche zu Tübingen, dem Labor von Felix Hoppe-Seyler, zum ersten Mal Desoxyribonukleinsäure, die er noch Nuklein nannte, aus Eiter isoliert hat. Dass diese chemisch scheinbar so langweilige Substanz entgegen der Erwartung der meisten Wissenschaftler tatsächlich Träger der Erbinformation sein könnte, wurde erst ein dreiviertel Jahrhundert später überzeugend gezeigt. Mit dem legendären Modell der Doppelhelix wurde die Desoxyribonukleinsäure (DNA) 1953 als Träger der Erbinformation zur chemisch verstandenen Tatsache. In den 1960er Jahren haben wir gelernt, die Sprache der Gene zu lesen, in den 1970er Jahren auch, sie zu schreiben — die Verknüpfung von Genen im Reagenzglas, ihre Vermehrung und das Umsetzen der Erbinformation in Proteine wurde in Bakterien möglich. Rund 50 Jahre nach der Aufklärung der DNA-Struktur ist auch die gesamte Genomsequenz des Menschen bekannt. Die Genome dienen, gleichsam als Handbücher und Gebrauchsanweisungen, vornehmlich als Informationsspeicher der Steuerung aller Lebensfunktionen. Die Kopierarbeiten an diesen Büchern des Lebens bringen Tippfehler, neue Sätze, Kapitel, umgestellte Passagen und fehlende oder neu eingefügte Seiten mit sich. Aus diesen Veränderungen die Stammesgeschichte der Organismen nachzuzeichnen, ist Gegenstand der molekularen Phylogenetik.
2. Evolution, Taxonomie, Kladistik und Phylogenetik
Auszug
Es wird überliefert, dass die Veröffentlichung von Darwins Evolutionstheorie im 19. Jahrhundert von der Gattin des Bischofs von Worcester mit den Worten kommentiert worden sei: „Descended from apes! My dear, let us hope it is not so; but if it is, let us hope that it does not become generally known“. Fast 150 Jahre sind bis heute vergangen und bei einigen unserer Zeitgenossen scheinen noch ganz ähnliche Denkmuster dieWeltsicht zu bestimmen. Die Evolutionstheorie ist heute so wenig bloße Hypothese wie die Relativitätstheorie oder die Endosymbiontentheorie. Unzählige Belege und Befunde stützen die Richtigkeit außerhalb jeden möglichen Zweifels. Molekulare Daten haben dazu beigetragen und tun dies weiterhin und in steigendem Maße. Die biologische Disziplin der Taxonomie hat durch sie frischen Wind erfahren, denn nun scheint die Aufklärung verbleibender stammesgeschichtlicher Fragen in greifbare Nähe zu rücken. Trivial sind molekulare Phylogenetik und Systematik allerdings nicht — gute Daten und gute Analysen sind, wie immer in der Wissenschaft, der Schlüssel zum Erfolg.
3. Datenbanken, Alignments, Software
Auszug
Ein Wust von Drei- und Vierbuchstabenabkürzungen gehört zum Jargon der Molekularbiologie und auch der Informatik. Wir wollen ihn durchdringen. Wer heute als Molekularbiologe seine Midlife Crisis schon fast hinter sich hat, wird sich noch daran erinnern, wie molekulare Datenbanken in den 1980er Jahren auf Disketten an die Forscher in ihre Institute verschickt wurden. Danach kam natürlich die CD und seit den 90er Jahren sind die Datenbanken auf Wechseldatenträgern durch das WWW und komfortable Anwendungen ersetzt. Die erste Datenbank molekularer Sequenzdaten geht auf 1982 zurück. Bereits während wir an der ersten Auflage dieses Buches schrieben, wurde gerade die Schwelle von 100 Gigabasen an gespeicherten Sequenzdaten überschritten. Mit dem immer rasanteren Zuwachs an Daten durch immer schnellere Hochdurchsatztechnologien der DNA-Sequenzierung wird ein Rekord an Datenmenge immer schneller vom nächsten abgelöst.
4. Stammbäume rekonstruieren: das Allerwichtigste in einem Kapitel
Auszug
Dies ist zum einen das Kapitel für den Überblick, bevor wir in den Folgekapiteln in die Details gehen: Neighbour Joining, Maximum Parsimony, Maximum Likelihood und Bayesianische Verfahren — was hat es damit auf sich?
5. Parsimonieanalyse
Auszug
Der Maximum Parsimony-Ansatz zeichnet sich in der Phylogenetik zweifelsohne durch seine gedankliche Schlichtheit aus: Was einfach ist, ist auch gut und richtig. Ein Genbaum oder ein Stammbaum, der unsere Beobachtungen mit den einfachsten Annahmen erklären kann, ist natürlich an sich schon attraktiv. Zumindest aber sollte er ein guter Ausgangspunkt für weitere Betrachtungen sein. Maximum Parsimony wird allerdings gerade wegen seiner konzeptionellen Einfachheit von einigen molekularen Phylogenetikern gering geschätzt. Nur komplexere Modelle von Sequenzevolution können ihrer Meinung nach den Geschehnissen in der Evolution auf molekularer Ebene Rechnung tragen. Außerdem seien Parsimonieansätze besonders anfällig für Fehler, wie sie insbesondere durch einsame, lange Äste im Baum hervorgerufen werden. So berechtigt diese Kritik auch ist: Wenigstens bei morphologischen Daten sehen sich Parsimonieanalysen noch keiner überzeugenden Konkurrenz durch mehr statistisch orientierte, rechenaufwändigere Ansätze ausgesetzt. Doch auch bei Sequenzdaten wird sich der pragmatische Biologe zumindest freuen, wenn auch sein most parsimonious tree nicht völlig anders aussieht als sein mit anderen Methoden gefundener, und darum werden die schnellen, einfachen und gut etablierten Parsimonieanalysen selten in seinem Methodenarsenal fehlen.
6. Distanzverfahren
Auszug
Distanzmatrix-Methoden oder Distanzverfahren machen nicht nur von Ihren Daten in Form einer DNA-Matrix Gebrauch, sondern auch von Modellen zur Sequenzevolution, die üblicherweise ebenfalls als Matrix im Sinne der linearen Algebra notiert werden - auch nichts anderes als eine Anordnung von Zahlen in Tabellenform mit Spalten und Zeilen. Mit der Kenntnis der wichtigsten dieser Modelle schlagen Sie gleich drei Fliegen mit einer Klappe, denn auch für Maximum Likelihood und Bayesianische Verfahren sind sie ein entscheidendes Element. Distanzverfahren reduzieren zunächst die in Ihren Sequenzen vorhandene Information zu einer Matrix aus paarweisen Distanzen, aus der dann mit einer Reihe hier vorgestellter Ansätze versucht wird, den Baum zu finden, der in der Evolution zu diesen Distanzen zwischen den Sequenzen geführt hat. Wenngleich in heutigen Studien Distanzverfahren nur noch selten das letzte Wort haben, so finden sich doch unter den hier beschriebenen Rekonstruktionsmethoden die schnellsten derzeit verfügbaren. Mit ihrer Hilfe gestaltet sich zumindest eine anfängliche Abschätzung der Verwandtschaftsverhältnisse sehr unaufwändig.
7. Maximum Likelihood
Auszug
Leben ist allgemein äußerst unwahrscheinlich. Dennoch kann man zwischen unterschiedlich unwahrscheinlichen Evolutionsszenarien unterscheiden. Phylogenetische Hypothesen über ihre Wahrscheinlichkeit zu bewerten, ist Ziel der Maximum Likelihood-Analysen. Obwohl in den üblichen Statistik-Rezeptbüchern für Biologen meist abwesend, ist Maximum Likelihood doch ein zentrales statistisches Konzept. Es liegt eigentlich vielen vertrauten Konzepten zugrunde — so ist die Abschätzung des tatsächlichen Mittelwertes durch Berechnung des Durchschnitts in einer Stichprobe auch nichts anderes als eine Maximum Likelihood-Schätzung. Eine Reihe wünschenswerter Eigenschaften machen Maximum Likelihood seit der Einführung um 1920 durch Sir Ronald Aylmer Fisher (*17.2.1890, †29.7.1962) zu einem der beliebtesten Verfahren zur Schätzung von Parametern. Dazu gehören die Annäherung an den wahren Parameter bei zunehmender Datenmenge (im Fachjargon: die Konsistenz) und eine minimale Streuung (Varianz) um den tatsächlichen Wert (die Wirksamkeit oder Effizienz). Um die Einführung von Maximum Likelihood in die Molekulare Phylogenetik hat sich insbesondere Joseph Felsenstein in einer Reihe früher Publikationen verdient gemacht. Trotz der jüngst einsetzenden Durchdringung der Phylogenetik mit der oft konkurrierenden Bayesianischen Statistik bleiben Maximum Likelihood-Analysen anhaltend für zahlreiche Fragestellungen die statistische Methode der Wahl.Wie sie funktionieren, erklärt dieses Kapitel.
8. Bayesianische Statistik
Auszug
Noch vor wenigen Jahren war Thomas Bayes (englischer Theologe und Mathematiker, *1702, †1761) nicht vielen Phylogenetikern ein Begriff. Heute gehört eine phylogenetische Analyse basierend auf Bayes’ berühmtem Theorem fast schon zum Standardrepertoire, auch wenn über die vergleichsweise neue Methodik naturgemäß noch mehr debattiert wird, als über die Verfahren, die wir in den vorigen Kapiteln besprochen haben. Auch wer Reverend Bayes als Person nicht zuordnen kann, hat vielleicht schon vom gleichnamigen Computerprogramm MrBayes gehört, mit dessen Erscheinen der Siegeszug Bayesianischer Statistik in der Phylogenetik einsetzte. Grund für die Beliebtheit ist die im Vergleich zu Maximum-Likelihood (oft nur vermeintliche) Zügigkeit der Analysen, während gleichzeitig komplexe Modelle zur Sequenzevolution eingesetzt werden können.
9. Raten und Zeiten
Auszug
Fossilien erlauben einen direkten Blick in die Vergangenheit der Evolutionsgeschichte und ermöglichen die zeitliche Einordnung vieler evolutionärer Ereignisse. Allerdings dokumentieren sie die Zeitpunkte der Verzweigungen im Baum des Lebens nur sehr lückenhaft. Mit molekularen Datensätzen und dem Konzept molekularer Uhren versucht man schon seit vielen Jahren, auch solche Verzweigungen in Stammbäumen zu datieren, für die uns verlässliche Fossilbelege im fossil record (noch) fehlen. Erst in den letzten Jahren haben die dazu eingesetzten Methoden einen gewissen Reifegrad erreicht, der ihnen zu der inzwischen recht weiten Verbreitung verholfen hat. Dieses Kapitel liefert einen Überblick über die verschiedenen Ansätze und gibt konkrete Hinweise für den Umgang mit zwei zentralen Programmen zur molekularen Datierung: r8s und BEAST.
10. Testen und Vergleichen: Modelle, Bäume und Methoden
Auszug
Woher weiß man eigentlich, welche der im Buch vorgestellten Rekonstruktionsmethoden man verwenden soll? Gar nicht (zumindest nicht ohne weiteres). Sonst würden wir hier nur „die“ beste Methode vorstellen und empfehlen, den Rest zu ignorieren. So einfach ist das Ganze aber nun einmal nicht, und es gibt eine Reihe von Publikationen über diese Frage, nicht selten eher philosophischer Natur. Wir geben in diesem Kapitel einen Überblick. Entscheidet man sich für Distanz- und Likelihood-basierte Analysen, dann ist die Frage, welches der zahlreichen Modelle aus den vorangegangenen Kapiteln man eigentlich einsetzen soll? Dafür gibt es verschiedene Tests, die wir hier vorstellen — oder man überlässt die Wahl des Modells der Analyse selbst. Hat man einmal einen Baum, gibt es verschiedeneWege, den Grad des Vertrauens abzuschätzen, den man in bestimmte Verzweigungen haben darf — ein Schritt, der mindestens genauso wichtig ist wie die Rekonstruktion des Baumes selbst, denn sonst könnten höchst wackelige, keinem Test standhaltende Hypothesen nicht von den wirklich beinahe sicheren Kernerkenntnissen einer phylogenetischen Studie unterschieden werden. Bayesianische Verfahren liefern diese Abschätzung der Knotenverlässlichkeit gleich mit, andere Methoden nicht — dieses Kapitel stellt die gängigen Verfahrensweisen vor.
11. Viele Loci, viele Taxa, viele Bäume
Auszug
Eine gut begründete Phylogenie ist das Hauptziel vieler molekularphylogenetischer Studien. Das Verzweigungsmuster des Stammbaumes, das Kladogramm, steht im Kern des Interesses. Was molekulare Daten hier zu leisten vermögen, dürfte außer Frage stehen. Allein: die gute Analyse alleine macht es nicht, der Datensatz selbst muss für die Fragestellung stimmen — wenn die Auswahl von Taxa oder genetischen Loci eine Schieflage hat oder das Alignment nicht gut überprüft ist, nützen die raffiniertesten Methoden gar nichts. Die letzten Jahre der molekularen Phylogenetik waren oft von massivem, vielleicht manchmal sogar etwas unkritischem Datensammeln geprägt. Multigenansätze sind zum Standard geworden und „Phylogenomics“ erscheint einigen als der heilige Gral des Feldes. Allerdings wären vielen Datensätzen letztlich mehr Taxa deutlich besser bekommen als immer längere Sequenzen in den Alignments.Wie löchrige Datensätze zu Supermatrices und vor allem wie große Mengen unabhängiger, oft inkongruenter, Bäume zu Supertrees verknüpft werden können, wollen wir zumindest kurz umreißen. Schließlich: Bäume an sich sind nicht immer der Weisheit letzter Schluss. In der Evolution ist viel mehr passiert, als das lediglich abermillionenmal in Aufspaltungen aus einer Art zwei geworden wären. Die Verschmelzungen von Genomen in der Polyploidisierung, der Horizontale Gentransfer oder das Lineage Sorting sind Beispiele dafür, dass die Dinge nicht immer einfach liegen. Wie Netzwerkdarstellungen die klassischen Stammbäume ergänzen, soll hier auch kurz zur Sprache kommen.
12. Molekulare Einsichten zu alten und neuen Kladen
Auszug
Nach vielen Betrachtungen zu Algorithmen, Daten, Konzepten, Programmen, Strategien und Tests in der Phylogenetik wollen wir uns hier abschließend wieder ganz der Biologie widmen. Welche Erkenntnisse der molekularen Phylogenetik in den letzten Jahren die beeindruckendsten wären, darüber ließe sich sicher leidenschaftlich debattieren - ebenso natürlich, welche noch ganz offenen Fragen die spannendsten für die Zukunft sind. Unsere ganz persönliche Auswahl in diesem Kapitel ist da sicher sehr subjektiv. Wichtig ist vor allem die Einsicht, dass unser Wissen insgesamt zwar stetig und in beeindruckendem Maße wächst, aber dass sich gerade das Neue, Spannende immer erst einmal in schöner Tradition der Naturwissenschaften dem kritischen Hinterfragen, dem Warten auf Unterstützung durch unabhängige Ansätze oder eben der Falsifizierung stellen muss.
Backmatter
Metadaten
Titel
Gene und Stammbäume
verfasst von
Professor Dr. Volker Knoop
Dr. Kai Müller
Copyright-Jahr
2009
Verlag
Spektrum Akademischer Verlag
Electronic ISBN
978-3-8274-2230-9
Print ISBN
978-3-8274-1983-5
DOI
https://doi.org/10.1007/978-3-8274-2230-9