Skip to main content
main-content

Über dieses Buch

Für Studierende und Wissenschaftler der Lebenswissenschaften schafft dieses Buch einen schnellen, strukturierten Zugang zur Angewandten Bioinformatik ohne Programmierkenntnisse oder tiefgehende Informatikkenntnisse vorauszusetzen. Es bietet eine Einführung in die tägliche Anwendung der vielfältigen bioinformatischen Werkzeuge und gibt einen ersten Überblick über das sehr komplexe Fachgebiet. Die Kontrolle des vermittelten Stoffs wird durch Übungsbeispiele mit Lösungen gewährleistet. Ein Glossar der zugrundeliegenden Fachtermini sowie ein ausführliches Sachverzeichnis runden das Buch ab. Für die 2. Auflage wurde das Werk umfassend aktualisiert.

Inhaltsverzeichnis

Frontmatter

1. Die biologischen Grundlagen der Bioinformatik

Nukleinsäuren und Proteine sind die beiden Makromolekülklassen, die in der belebten Natur eine besondere Rolle spielen und die Grundlage allen Lebens bilden. Die Desoxyribonukleinsäure (DNS oder englisch DNA – „Deoxyribonucleic Acid“) ist der Träger der Erbinformation, während die Ribonukleinsäuren (RNS oder englisch RNA – „Ribonucleic Acid“) an der Biosynthese der Proteine beteiligt sind. Die Proteine steuern mit ihren vielfältigen Funktionen die zellulären Prozesse des Lebens. Die monomeren Grundbausteine der Nukleinsäuren sind die Nukleotide, die Bausteine der Proteine sind die Aminosäuren.Der Aufbau der Nukleotide ist für DNA und RNA gleich (Alberts et al. 2012). Die Nukleotide setzen sich aus einer Pentose, einem Phosphorsäurerest und einer heterozyklischen Base zusammen. Die Verknüpfung der Nukleotide zum Makromolekül erfolgt über chemische Bindungen zwischen der Pentose eines Nukleotids mit dem Phosphorsäurerest des nächsten Nukleotids (Abb. 1.1). Das Grundgerüst der Nukleinsäuren ist dementsprechend ein Polynukleotid, bei dem die Phosphorsäure mit der 3′‐ständigen Hydroxyl(OH)‐Gruppe des Zuckerrests des einen und der 5′‐ständigen OH‐Gruppe des Zuckerrests des anderen Nukleotids verestert ist. Am einen Ende der Polynukleotidkette existiert daher eine Phosphatgruppe, die mit dem 5′‐Sauerstoff der Pentose verknüpft ist, wogegen am anderen Ende eine freie 3′‐OH‐Gruppe vorhanden ist (Abb. 1.1).

Paul M. Selzer, Richard J. Marhöfer, Oliver Koch

2. Biologische Datenbanken

Die wichtigste Grundlage der angewandten Bioinformatik ist die Sammlung von Sequenzdaten und damit verbundenen biologischen Informationen. Täglich fallen weltweit solche Daten beispielsweise im Rahmen von Genomsequenzierungsprojekten in sehr großen Mengen an. Um diese Daten sinnvoll nutzen zu können, ist einerseits eine strukturierte Ablage der Daten absolut notwendig, andererseits sollten die Daten von allen interessierten Wissenschaftlern weltweit eingesehen werden können. Die Zeitschrift Nucleic Acids Research widmet einmal jährlich eine Ausgabe den verfügbaren biologischen Datenbanken. Im Database‐Issue, der ersten Ausgabe im Januar, sind alle relevanten Datenbanken tabellarisch mit den zugehörigen URL verzeichnet. Darüber hinaus sind für eine Reihe von Datenbanken Originalbeiträge enthalten, in denen die Datenbanken und ihre Funktion beschrieben werden. Das Database‐Issue, das auch im Internet komplett eingesehen werden kann, stellt einen sehr guten Startpunkt für die Beschäftigung mit biologischen Datenbanken dar. Man unterscheidet bei den biologischen Datenbanken verschiedene Kategorien, entsprechend der Art der Daten. Primäre Datenbanken enthalten Sequenzinformationen (Nukleotid‐ oder Proteinsequenzen) und zugehörige Annotationen wie Funktionsinformationen, Bibliografien, Kreuzreferenzen zu weiteren Datenbanken usw. Sekundäre biologische Datenbanken hingegen fassen Ergebnisse aus Analysen primärer Proteinsequenzdatenbanken zusammen. Dabei ist das Ziel der Analysen, für Klassen von Sequenzen gemeinsame Merkmale abzuleiten, die wiederum zur Klassifizierung unbekannter Sequenzen benutzt werden können (Annotation). Darüber hinaus werden häufig alle weiteren Datenbanken, die biologische oder medizinische Information speichern, wie beispielsweise Literaturdatenbanken, unter dem Begriff der sekundären Datenbanken eingeordnet.

Paul M. Selzer, Richard J. Marhöfer, Oliver Koch

3. Sequenzvergleiche und sequenzbasierte Datenbanksuchen

Der Vergleich von Protein‐ und DNA‐Sequenzen ist eine wichtige Analysemethode der angewandten Bioinformatik. Auf diesen Analysen beruhen die Annotationen neuer Nukleotid‐ und Proteinsequenzen, der Aufbau von Modellstrukturen für Proteine, das Design und die Analyse von Expressionsexperimenten sowie eine Vielzahl weiterer bioinformatischer und biologischer Untersuchungen. Die Natur verhält sich sehr konservativ, d. h. nicht für jede Lebensform hat die Natur eine neue Biologie entwickelt, sondern ein bewährtes Konzept wurde kontinuierlich umgewandelt, angepasst oder weiterentwickelt. Neue Funktionalitäten sind nicht durch die Synthese eines neuen Gens entstanden, sondern neue Funktionalität wurde durch Modifikationen während der Evolution entwickelt. Unter Berücksichtigung dieser Gegebenheiten kann bei relativer Ähnlichkeit zweier Proteine zueinander – in Sequenz und Struktur – durchaus Funktionsinformation des einen Proteins auf die Funktion des anderen Proteins transferiert werden. Jedoch muss dieser Vorgang ständig kritisch reflektiert werden, da ähnliche Proteine auch verschiedene Funktionen haben können. Die Ähnlichkeit zweier Proteine zueinander kann z. B. auf eine gemeinsame Vorläufersequenz in der Evolution zurückzuführen sein (konvergente Evolution), gleichzeitig kann die Funktion der beiden Proteine sich jedoch divergent, d. h. aus unterschiedlichen Vorgängerproteinen, entwickelt haben (divergente Evolution).

Paul M. Selzer, Richard J. Marhöfer, Oliver Koch

4. Die Entschlüsselung eukaryotischer Genome

Mit der Veröffentlichung des ersten vollständig sequenzierten Bakteriengenoms, dem Genom des humanen Krankheitserregers Haemophilus influenzae, im Jahr 1995 wurde eine neue Ära in der Genomforschung eingeleitet. Erstmals konnte ein komplettes Genom inklusive aller Gene sowie deren regulatorische Bereiche analysiert werden. Drei Jahre später – 1998 – war die vollständige Sequenzierung des ersten mehrzelligen eukaryotischen Genoms, des Fadenwurms Caenorhabditis elegans, abgeschlossen. Eukaryotische Genome sind größer und weitaus komplexer als Bakteriengenome (s. Kap. 7). Beim Vergleich dieses eukaryotischen Genoms mit prokaryotischen Genomen bestätigte sich, dass bei Bakterien die Gene einen Großteil des Genoms ausmachen, während proteincodierende Gene in eukaryotischen Genomen einen kleineren Teil des Gesamtgenoms einnehmen. So bestehen beim Mensch und der Maus nur etwa 1,4 % des Gesamtgenoms aus proteincodierenden Genen. Zwischen Mensch und Maus sind lediglich 5 % der beiden Genome hoch konserviert, obwohl mehr als 80 % orthologe Gene bzw. Proteine in beiden Organismen identifiziert wurden. Neben den proteincodierenden Genen können die konservierten Bereiche wichtige regulatorische Elemente, nicht proteincodierende Gene oder auch für die Struktur von Chromosomen bedeutsame Regionen aufweisen. Die Funktion eines Großteils des Genoms ist wenig bekannt (Mouse Genome Sequencing Consortium 2002).

Paul M. Selzer, Richard J. Marhöfer, Oliver Koch

5. Proteinstrukturen und Proteinstruktur-basiertes rationales Wirkstoffdesign

Proteine sind Makromoleküle, deren Monomereinheiten die 20 natürlich vorkommenden Aminosäuren sind. Die Verknüpfung der Aminosäuren zum Polypeptid geschieht unter Wasserabspaltung und Ausbildung einer Peptidbindung (s. Kap. 1). Polypeptide können sehr unterschiedliche Längen aufweisen, die zwischen drei und mehreren hundert Aminosäuren liegen. Die Sequenz, d. h. die Abfolge der Aminosäuren eines bestimmten Proteins, die auch als Primärstruktur bezeichnet wird, ist genetisch festgelegt. Sie wird während der Translation entsprechend der Informationen der mRNA aufgebaut.Die Eigenschaften der gestreckten Polypeptidkette entsprechen einem Querschnitt der Eigenschaften der beteiligten Aminosäuren, d. h. die Funktion des jeweiligen Proteins kann nicht ausschließlich von der Primärstruktur determiniert sein. Gestreckte Polypeptidketten falten sich unter Ausbildung der Sekundärstrukturelemente i. d. R. spontan zu dreidimensionalen Strukturen. Die Sekundärstruktur besitzt zwei Hauptstrukturmerkmale, die α‐Helix und das β‐Faltblatt. Verbunden sind diese Strukturelemente über Schleifen (Loops), die aus nichtrepetitiven Elementen, den Kehren (Turns) aufgebaut sind. Die Gesamtanordnung aller Sekundärstrukturen wird Tertiärstruktur eines Proteins genannt. Besteht ein Protein aus mehreren Proteinuntereinheiten, so bezeichnet man die Assoziation der Untereinheiten zu einem funktionsfähigen Protein als Quartärstruktur.

Paul M. Selzer, Richard J. Marhöfer, Oliver Koch

6. Die funktionelle Analyse von Genomen

Im Rahmen des humanen Genomprojekts wurde 2001 das erste Genom des Menschen veröffentlicht. Nach damaligen Schätzungen ging man von etwa 30.000 bis 35.000 menschlichen Genen aus. Heute weiß man jedoch, dass das Genom des Menschen, das stammesgeschichtlich gesehen sehr jung ist, einen enormen Unterschied zwischen der Zahl der Gene und der Genomgröße aufweist. Es beinhaltet etwa 19.000–20.000 Gene (Ezkurdia et al. 2014) bei einer Gesamtgröße von etwa 3,3 Gigabasen (s. auch Kap. 4 und 7). Jede menschliche Zelle mit Ausnahme von Spermien und Eizellen besitzt einen vollständigen Satz dieser Gene. Jedoch unterscheidet sich beispielsweise eine Blutzelle in ihrer Morphologie und Physiologie sehr stark von einer Leberzelle. Wie sind diese Unterschiede zu erklären, wenn alle Zellen das gleiche genetische Material besitzen? Die Antwort ist vergleichsweise einfach. Nicht jedes Gen wird in jeder Zelle transkribiert und exprimiert. Daraus folgt, dass in einer Zelle i. d. R. nur die Proteine vorliegen, die zu einem bestimmten Zeitpunkt im Leben dieser Zelle benötigt werden. Das Proteom einer Zelle oder eines Gewebes ist also vom Zelltyp und seinem momentanen Zustand abhängig.

Paul M. Selzer, Richard J. Marhöfer, Oliver Koch

7. Vergleichende Genomanalysen

Die erstaunlichen Errungenschaften der genombasierten Biologie innerhalb der letzten Jahre sind größtenteils auf die technologischen Fortschritte in der DNA‐Sequenzierung sowie die rasante Entwicklung der Hardware und Software zurückzuführen, die die Prozessierung der anfallenden Datenmassen erst möglich machten. Die Anzahl aller frei zugänglichen Nukleotidsequenzen der GenBank (genbank), der DNA‐Sequenzdatenbank des NCBI, beträgt 218 Mrd. Basen aus 196 Mio. DNA‐Sequenzen (Release 215, August 2016). Die Anzahl aller Proteinsequenzen in der weltweit größten nicht redundanten Proteindatenbank UniProtKB (uniprotkb) des EBI beträgt 65 Mio. (Stand September 2016).

Paul M. Selzer, Richard J. Marhöfer, Oliver Koch

Backmatter

Weitere Informationen

Premium Partner

Neuer Inhalt

BranchenIndex Online

Die B2B-Firmensuche für Industrie und Wirtschaft: Kostenfrei in Firmenprofilen nach Lieferanten, Herstellern, Dienstleistern und Händlern recherchieren.

Whitepaper

- ANZEIGE -

Product Lifecycle Management im Konzernumfeld – Herausforderungen, Lösungsansätze und Handlungsempfehlungen

Für produzierende Unternehmen hat sich Product Lifecycle Management in den letzten Jahrzehnten in wachsendem Maße zu einem strategisch wichtigen Ansatz entwickelt. Forciert durch steigende Effektivitäts- und Effizienzanforderungen stellen viele Unternehmen ihre Product Lifecycle Management-Prozesse und -Informationssysteme auf den Prüfstand. Der vorliegende Beitrag beschreibt entlang eines etablierten Analyseframeworks Herausforderungen und Lösungsansätze im Product Lifecycle Management im Konzernumfeld.
Jetzt gratis downloaden!

Bildnachweise