Molekulare Phylogenien: Der Weg allen Lebens

BLOG: Bierologie

Weissbier & Wissenschaft
Bierologie

Über den Hinweis von Alexander und Sebastian bin ich auf den Molecular Biology Carneval gestolpert. Da ich momentan ganz begeistert The Ancestor’s Tale von Richard Dawkins lese, ist das auch ein ganz guter Anlass mal etwas über den Nutzen der Molekularbiologie in der Evolutionsbiologie zu schreiben. Traditionell geht man davon aus, dass es einen Urvorfahr, den Last Universal Common Ancestor, kurz LUCA, gibt, aus dem alle weiteren Arten hervorgegangen sind, also sowohl Bakterien, Pflanzen, Pilze und auch die Tiere.

Ein Argument dafür ist zum Beispiel, dass wir alle – mehr oder weniger – den gleichen genetischen Code verwenden. Die DNA basiert auf den gleichen Grundbausteinen und wird zum Großteil auch nach dem gleichen Muster in Aminosäuren und damit auch in Proteine übersetzt. Diesem Umstand verdanken wir es auch, dass wir relativ problemlos Gene aus dem Menschen in Bakterien setzen können, die dann dort weiterhin funktionieren. Diese Möglichkeiten nutzt man beispielsweise bei der biotechnologischen Herstellung von Insulin für Diabetes-Patienten aus. Aber genauso spannend, wie die angewandte Nutzung dieser gemeinsamen Abstammungsgeschichte, ist es, den Stammbaum des Lebens selbst zu erkunden.

In den letzten Jahren, seit der Entdeckung der DNA-Struktur, hat sich auf diesem Gebiet viel verändert. Denn bevor man die DNA-Struktur kannte, hatten Taxonomen, die versuchten den natürlichen Stammbaum zu rekonstruieren, einige Probleme. Zur Klassifizierung der Arten konnten sie vor allem auf morphologische Ähnlichkeiten und die Ontogenese, also die Entwicklung eines Individuums vom Embryo bis adulten Lebewesen, zurückgreifen. Gerade die morphologischen Ähnlichkeiten können dabei zu einigen Verwirrungen führen. Denn nicht alle Körperteile, die sich äußerlich ähneln, sind auch wirklich miteinander verwandt.

Der Biologe unterscheidet dabei in der Regel zwischen homologen und analogen Entwicklungen. Während homologe Entwicklungen wirklich auf ein Verwandtschaftsverhältnis deuten sind Analogien nicht miteinander verwandt, sondern unabhängig voneinander entstanden. Ein bekanntes Beispiel für Analogien sind die Flügel von Vögeln, Fledermäusen und auch Flugsauriern. Diese sind unabhängig voneinander evolviert. Während Vögel ihre Flügel vor allem mit dem 2. Finger tragen nutzen die Fledermäuse dazu den zweiten, dritten, vierten und fünften Finger. Die Flugsaurier hingegen nutzten nur den vierten Finger. Der allgemeine Aufbau der Vorderextremitäten ist hingegen ein gutes Beispiel für eine homologe Entwicklung, denn der generelle Aufbau entstammt einer gemeinsamen Verwandtschaft.

Solche analogen Körpermerkmale können nun dazu führen, dass man Lebewesen, die in der Realität gar nicht nah verwandt sind, trotzdem in Gruppen steckt, einfach da man die vorhandenen und sichtbaren Merkmale falsch deutet. Man kann solche taxonomischen Gruppen in 3 Klassen einteilen:

phylie.png

  • Monophyletische Gruppen, diese umfassen den gemeinsamen Vorfahren und alle seine Nachfahren. Ein Beispiel: Die Wirbeltiere (Vertrebrata). Diese umfassen neben dem letzten gemeinsamen Vorfahren alle seine Nachkommen
  • Paraphyletische Gruppen, diese umfassen einen gemeinsamen Vorfahren, aber nicht alle seine Nachfahren. Bekanntestes Beispiel dürften die Reptilien (Reptilia) sein. Hier wird zwar der letzte gemeinsame Vorfahre mit in die Gruppe gezählt. Die Vögel, die aber ebenfalls aus dieser Gruppe hervorgegangen sind, werden nicht mit in die Gruppe gezählt.
  • Polyphyletische Gruppen, hier werden Tiere ohne ihren gemeinsamen Vorfahren in eine Gruppe gefasst. Ein Beispiel sind die klassischen Würmer, die wissenschaftlich betrachtet einfach nur eine wilde Mischung aus verschiedenen Tier-Klassen sind. So sind die Fadenwürmer (Nematoda, die oft als Parasiten – wie der Spulwurm – andere Tiere befallen) nur entfernt mit den Ringelwürmern (Anneliden, wie der Regenwurm) verwandt.  

Nachdem wir jetzt betrachtet haben, wie man mit traditionellen Mitteln Taxonomien erstellt und wo da die Probleme liegen, können wir uns jetzt der molekularen Phylogenie widmen. Anstelle der Morphologie betrachtet man hier die DNA -(oder auch Protein-)Sequenzen von Organismen. In einem früheren Beitrag hatte ich schon einmal erläutert, wie man DNA- & Protein-Sequenzen dazu nutzen kann, um positive Selektion im Laufe der Evolution von Organismen festzustellen. Aber man kann diese Sequenzen eben auch dazu benutzen, um Stammbäume zu erstellen.

Da alle verschiedenen Arten zurück auf einen gemeinsamen Vorfahren gehen, geht man davon aus, dass auch die Sequenzen irgendwann, in der Vergangenheit, gleich waren. Im Laufe der Evolution haben diese sich dann voneinander weg entwickelt, sind unterschiedlich evolviert und haben so andere Klassen und andere Arten gebildet. Und so kann man dann von den Sequenzunterschieden zwischen den Arten darauf schliessen, wann der gemeinsame Vorfahr gelebt hat, und kann so natürlich auch, wenn man mehr als 2 Arten vergleicht, ganze Stammbäume erstellen.

Im einfachsten Fall geht man einfach davon aus, dass zufällige Mutationen recht regelmässig häufig im Laufe der Zeit, durch Kopierfehler & Co entstehen. Um jetzt einen Stammbaum zu erzeugen nimmt man sich dann Sequenzen die man betrachten will, aligniert diese – wie unten mit Proteinsequenzen zu sehen – so das gleiche Bereiche zusammengerückt werden. Und daraus kann man dann Stammbäume errechnen.

Zinc-finger-seq-alignment2.png

In der Realität ist es allerdings mal wieder nicht ganz so einfach. Denn bereits die Grundannahme der molekularen Uhr, die regelmässig tickt, stimmt so simpel leider nicht. Mutationen passieren nicht bei allen Arten gleich schnell, die Populationsgröße, die Generationsdauer und auch die Art des Gens bzw. Proteins das man betrachten will, ändern wie schnell Mutationen passieren bzw. sichtbar werden. Denn auf Protein-Ebene sind synonyme Mutationen nicht sichtbar (wer mehr über synonyme/nicht-synonyme Mutationen wissen will, den verweise ich hier noch einmal auf die Seegräser) und auch auf der DNA-Ebene kann es leicht passieren, dass man ursprünglich vorhandene Mutationen heute nicht mehr nachweisen kann.

Wenn man heute einfach die Anzahl der Mutationen in einer Sequenz zählt, dann kann man nur die Unterschiede zu anderen Arten zählen. Allerdings kann es ja auch sein, dass im Laufe der Jahre (und bei der Evolution reden wir meist über recht viele Jahre) ein A zu einem T mutiert ist. Und dann irgendwann zurück vom T zum A. Und schon verzählen wir uns. Dazu kommen dann die unterschiedlichen Mutationswahrscheinlichkeiten, für verschiedene Arten von DNA-Mutationen wie Transitionen und Transversionen.

Dazu kommen die bereits erwähnten Mutationsraten, die auch von den betrachteten Genen abhängen. Während manche Gene, wie die des Immunsystems potentiell schneller evolvieren, da sie sich an neue Angreifer anpassen müssen (Individuen mit einer solchen Mutation sind auf einmal resistent gegen ein tödliches Bakterium, schon haben sie einen starken Fitnessvorteil), sind andere, z.B. die DNA-Kopiermaschinerie, sehr stark konserviert und mutieren kaum, da Mutationen an solchen Genen einen größeren Schaden anrichten, und das Überleben von betroffenen Individuen nicht sehr wahrscheinlich ist.

Diese unterschiedlichen Geschwindigkeiten, in denen einzelne Gene bzw. zum Teil auch nur Genabschnitte, evolvieren, kann man sich allerdings dann auch wieder bei der Stammbaum-Rekonstruktion zur Nutze machen: Wenn man den Stammbaum von Arten erstellen will, die sich erst vor kurzer Zeit getrennt haben, dann bietet es sich an solche Gene zu betrachten, die schnell evolvieren. Sonst könnte es passieren, dass man noch gar keine Mutation beobachtet hat, und den Baum nicht auflösen kann.

Wenn man hingegen Stammbäume von bereits lange getrennten Arten erstellen will, dann kann es bei schnell evolvierenden Genen passieren, dass man gar kein Signal sondern nur noch Rauschen beobachtet. Hier bietet es sich dann an, langsam evolvierende Gene zu verwenden, denn hier verliert sich das Signal nicht so schnell im Rauschen. Man sieht also, die Wahl der Gene, die man verwendet, beeinflusst also auch das Ergebnis seiner Stammbaum-Rekonstruktion.

Und hier treffen wir dann auch wieder auf das Problem, dass wir bei der Morphologie schon getroffen haben: Denn bei Genen gibt es nicht nur analoge und homologe Gene. Sondern auch das Problem, dass Gene auch ortholog und paralog sein können. Während orthologe Gene in verschiedenen Arten existieren und auf einen gemeinsamen Vorfahren zurückgehen existieren paraloge Gene in der gleichen Spezies und stammen aus einer Gen-Verdopplung. Nach so einer Verdopplung kann eine Variante des Gens daher anders evolvieren und zum Beispiel eine neue Funktion annehmen. Wenn man versucht Stammbäume zu rekonstruieren, dann muss man darauf achten, dass man nur orthologe Gene vergleicht. Und nicht versehentlich Paraloge mit in seine Analysen einbezieht.

Bis hier hin ist man also schon über viele, potentielle Probleme gestolpert, die man bei der Rekonstruktion von Stammbäumen beachten muss. Damit man also aussagekräftige Ergebnisse hat muss man folgende Dinge beachten:

  1. Die richtigen Gene finden, also solche die nicht zu schnell oder langsam evolvieren.
  2. Darauf achten, dass man Orthologe und nicht Paraloge vergleicht, sonst vergleicht man Äpfel mit Birnen
  3. Ein passendes Substitutionsmodell für Mutationswahrscheinlichkeiten verwenden
  4. Ein gutes Sequenzalignment mit allen Daten erstellen

Wenn man es so weit geschafft hat, dann kann man anfangen seinen Baum zu rekonstruieren. Während ich oben so lapidar gesagt habe, dass man einfach die Unterschiede zwischen den Sequenzen zählt, dann kann das für die einfachsten Algorithmen sogar stimmen. Denn auch zur Rekonstruktion aus dem Sequenzalignment gibt es wieder verschiedene Methoden. Eines der simpelsten Verfahren dafür ist der Neighbor-Joining-Algorithmus. Man beginnt damit, dass man die beiden Arten, die am wenigsten Sequenzunterschiede (den Unterschieden weist man Kosten zu, da manche Austausche wahrscheinlicher sind als andere) aufweisen als erstes Tupel des Baums. Dann rechnet man mit dieser Gruppe weiter und sucht die nächsten zwei Arten, die am wenigsten Unterschiede aufweisen. Und so weiter, bis alles schön zusammengruppiert ist.

Dabei geht dieser Algorithmus immer davon aus, dass es keine Zwischenschritte gibt, die man nicht betrachten kann. Allerdings ist das in der Natur so nicht immer gegeben. Und daher gibt es dann auch wieder andere, ebenfalls verbreitete Methoden um den besten (und damit hoffentlich auch “echten“) Baum zu finden. Weit verbreitet sind dabei sowohl Maximum Parsimony und Maximum Likelihood , die bessere Ergebnisse liefern sollen. Während Maximum Parsimony sich an Occam’s Razor orientiert und versucht jenen Baum zu finden, der am wenigsten evolutionäre Ereignisse benötigt (auch hier kann man einzelne Ereignisse wieder als wahrscheinlicher als andere festlegen) geht Maximum Likelihood noch einen Schritt weiter, und versucht den Baum zu finden, der am wahrscheinlichsten korrekt ist. Dabei hat man hier den Vorteil, dass die Evolutionsgeschwindigkeit sich an verschiedenen Gen-Stellen und auch in verschiedenen Arten unterscheiden kann.

Leider kann man diese Methoden nicht für alle Datensätze anwenden. Denn die Anzahl der möglichen Bäume wächst rapide mit der Anzahl an Arten, die man in dem Stammbaum aufgelöst haben möchte, an. Während es bei 4 Arten nur 5 mögliche, gewurzelte Bäume gibt, gibt es bei 10 Arten schon einige Millionen Kombinationen, die man betrachten muss. Dementsprechend steigt auch die Laufzeit, die solche Algorithmen haben stark an, und gerade für große Datensätze muss man deshalb entweder genug Rechenkapazität und Zeit einplanen, gute heuristische Algorithmen haben, die versuchen ohne das durchtesten sämtlicher Kombinationen den korrekten Baum zu finden, oder halt auf “schlechtere” Algorithmen zurückgreifen.

Und wenn man das alles richtig gemacht hat, dann hat man einen Stammbaum, der zumindest auf der Gen-Ebene hoffentlich aussagekräftig ist. Und ihr habt nun hoffentlich einen kleinen Einblick in die Vorzüge, aber auch in die Probleme der molekularen Phylogenien bekommen. Das Tree of Life-Project versucht übrigens kollaborativ einen möglichst informativen Stammbaum des Lebens zu konstruieren. Und beim Interactive Tree of Life findet ihr einen sehr schönen Übersichtsbaum, durch den man sich hangeln kann. Und falls ihr euch dafür interessiert selbst mal solche Analysen durchzuführen, oder einfach mehr Details zu den Voraussetzungen, den verschiedenen Modellen und den verschiedenen Algorithmen haben wollt kann ich euch das Buch Gene und Stammbäume empfehlen, welches ihr auch online im Volltext lesen könnt. (Disclaimer: Ich hab am Institut von Kai Müller Vorlesungen gehört). Wer etwas weniger technisch mag, und stattdessen lieber mehr über den Tree of Life lernen will, der ist mit The Ancestor’s Tale natürlich auch gut bedient.

Grafiken: Stammbäume aus Wikipedia [1], [2], [3] CC-BY-SA 3.0, Sequenz-Alignment Public Domain

Volker Knoop & Kai Müller (2009). Gene & Stammbäume Spektrum Akademischer Verlag DOI: 10.1007/978-3-8274-2230-9

Flattr this

Veröffentlicht von

Bastian hat seinen Bachelor in Biologie in nur 8 statt 6 Semestern abgeschlossen. Nach einem kurzen Informatik-Studiums-Intermezzo an der TU Dortmund hat es ihn eigentlich nur für ein Stipendium nach Frankfurt am Main verschlagen. Dort gestrandet studiert er dort nun im Master-Programm Ökologie und Evolution. Zumindest wenn er nicht gerade in die Lebensweise der Hessen eingeführt wird. Neben seinen Studiengebieten bloggt er über die Themen, die gerade in Paperform hochgespült werden und spannend klingen.

7 Kommentare

  1. Ich hoffe, dass der Artikel auch für Nicht-Biologen halbwegs verständlich ist. Darf ich fragen, was du noch gelernt hast, beim lesen? 🙂

  2. Kladismus

    Eines der chronischen Probleme des Kladismus (mit dem ich mich vor zwei Jahrzehnten auch herumschlug) war einst der “nicht identifizierbare letzte gemeinsame Vorfahr”. Wenn ich es recht entsinne, werden alle Taxa als “Endpunkte” aufgefasst. Anders gesprochen: es gibt keine Merkmalssätze, die es erlauben würden, den letzten gemeinsamen Vorfahren einer monophyletischen Gruppe – zu identifizieren, denn per definitionen sind _alle_ Merkmale, die er trägt, für jene Gruppe plesiomorph. Die Identifikation eines Taxons – auch einer Art – stützt sich aber auf Apomorphien. D.h. – selbst wann man ihn als Fossil in der Hand hätte: man erkennte ihn nicht.

    Hat sich da, seit der Kladismus molekular wurde, irgendetwas getan? Gibt es fossile DNA, deren Sequenz sich mit den hypothetischen, errechneten Sequenzen an den Verzweigungspunkten des Baumes deckt?

  3. Fossile DNA

    Das ist richtig, prinzipiell geht man davon aus, dass jedes Taxon ein Blatt des Stammbaums ist. Das macht es unmöglich einen gemeinsamen Vorfahren wirklich zu identifizieren. Wenn man einen ausreichend großen, molekularen Datensatz hat, dann kann man theoretische Vorläufersequenzen errechnen.

    Allerdings ist mir spontan kein Beispiel bekannt, wo man solche “fossilen DNA”-Sequenzen auch wirklich gefunden hätte, die zu den errechneten Sequenzen passen. Zum einen dürfte es daran liegen, dass man ja nur relativ selten fossile DNA findet (Mammut, Neandertaler z.B.) und daher die Chance gering ist, hier einen MRCA (Most Recent Common Ancestor) für irgendwelche Gruppen zu finden.

    Zum anderen würde ich davon ausgehen, dass die theoretischen Sequenzen nie zu 100% korrekt sind.

    Vielleicht hat ja wer anders eine Idee, ob man so etwas schon gefunden hat.

  4. @Bastian

    Die ganzen bioinformatischen Aspekte, die du ja immer wieder miteinbaust, sind für mich immer interessant und neu, da ich mit Bioinformatik mal so garnichts am Hut habe. Zur Frage, die sich zwischen dir und Helmut Wicht stellt, kann ich nur sagen, dass (wie du ja schon sagst) es sehr schwer ist, da man nicht immer Fossilien vom letzten gemeinsamen Vorfahr hat und somit seine Sequenz auch nicht kennt. So kann man dann nur meistens die genetischen Ähnlichkeiten zwischen verschiedenen Spezien und Arten ermitteln, um so darauf schließen zu können, dass sie verwandt sein müssen. Man kann aber auch seltene Mutationen zurückverfolgen, die etwa in Genen vorkommen, die sehr stark über Artgrenzen hinweg konserviert sind. Da könnte man dann auch einen Verwandtschaftsgrad herausfinden und man bräuchte nicht die ganze Genomsequenz zu kennen. Da kann aber ein Bioinformatiker wesentlich mehr zu sagen als ich 🙂

  5. Ein Versuch

    Hier hab ich ein sehr interessantes Paper zu MRCA-Sequenzen gefunden: Darin wurde die MRCA-Sequenz eines Photopigments errechnet und chemisch synthetisiert. In einer Säugetierzelle exprimiert hat das Ding dann auch funktioniert!

    Das ist so, als würde ich aus Papierfetzen eine Anleitung zusammenraten und damit ein Fahrrad bauen…

  6. @Sebastian: Okay, ich hoffe es ist allgemeinverständlich genug. Man läuft ja immer irgendwie Gefahr entweder zu viel Wissen aus seinem Fachbereich vorauszusetzen (Betriebsblindheit) oder andererseits zu generell zu bleiben. Falls du (oder auch die anderen Leser) also etwas mehr Tiefe (z.B. in der Mathematik dahinter) wollen, dann kann ich das gern auch mal behandeln. 🙂

    Zu den MRCA, die von Helmut ja angesprochen wurden: Ich bin jetzt fast durch The Ancestor’s Tale durch, und da wird das Thema der direkten Vorfahren auch noch mal aufgegriffen. Und Dawkins bestätigt meine Vermutung: Es wird auf fossiler Ebene vermutlich unmöglich bleiben einen wirklichen Vorfahren zu finden und diesen per molekularer Analysen zu verifizieren.

    Das Problem ist nämlich nicht nur, dass man vermutlich keine verwertbare DNA mehr findet. Sondern auch, dass die Chancen gering sind, dass die Fossilen überhaupt ein MRCA sind. Viel wahrscheinlicher ist es, dass man einfach eine andere Art, die aus dem eigentlichen MRCA entstanden ist, gefunden hat.

    @Philipp: Danke für den Link, das Abstract liest sich ganz spannend, ich werd mal das ganze Paper lesen. (Vielleicht kann man darüber mal bloggen ;))

Schreibe einen Kommentar