Riesige Phylogenetische Stammbäume
BLOG: Bierologie
Bastian sagt:
Seit Darwin seine Theorie zur Evolution der Arten propagiert hat gibt es Bemühungen den kompletten Stammbaum der Arten abzubilden. Auch wenn man kein Evolutionsbiologe ist kann man sich vielleicht noch vorstellen dass dieses Problem nicht gerade einfach zu lösen ist.
Deshalb verwendet man zur Rekonstruktion von phylogenetischen Bäumen meist nur eine kleine Auswahl an Arten und dazu dann lieber mehr verschiedene Gene. Grund dafür: Bei der Berechnung steigt der Aufwand und die benötigte Zeit linear mit der Anzahl der Gene die man als Rohdaten übergibt. Übergibt man jedoch mehr Arten steigt der Aufwand gleich exponentiell an.
Von daher war es bis vor kurzem mehr oder weniger unmöglich mit mehr als einigen Tausend Arten zu arbeiten. Das größte Set bestand aus gut 13000 Pflanzenarten die übergeben wurden. Doch nicht nur die Computer werden ja immer schneller dank Fortschritten in Sachen Hardware, auch die verwendeten Algorithmen können für die Anzahl angepasst werden. In einem Paper von Pablo Goloboff und Kollegen wird beschrieben wie sie es geschafft haben ganze 73060 Taxa mit Hilfe von Maximum Likelihood-Algorithmen in einen Stammbaum zu verfrachten. Dabei betrachteten sie 13 Gene und die Morphologie.
Schon um an die nötigen DNA-Sequenzen zu kommen musste ein wenig getrickst werden da Datenbanken wie NCBI/BLAST normalerweise nach zwanzigtausend Ergebnissen dicht machen (weil wer will schon mehr Treffer finden). Dabei wurden verschiedene Gene aus Genom, Plastiden und Mitochondrien abgedeckt und danach fleissig zu einem Alignment erstellt. Dazu kamen dann noch 604 morphologische Eigenschaften die betrachtet wurden.
Der aufwendige Teil des Baumes errechnen wurde dann von 3 größer Angelegten Rechnern durchgeführt: Insgesamt standen 16 Prozessoren á 3 GHz und insgesamt 96 GB RAM zur Verfügung um den Datensatz zu bearbeiten. Und trotz dieser nicht gerade kleinen Zahlen benötigte das Durchlaufen gute 2 1/2 Monate CPU Time.
Am Ende der Analysen bekamen die Informatiker diese hübschen (ich würd mir sofort Phylogenien tätowieren lassen) Bäume in die Hand gedrückt.
Links der Baum der nur aus den Sequenzen errechnet wurde. Rechts der Baum der die morphologischen Eigenschaften einbezieht. Die Zahlen geben die Anzahl der Arten wieder die in den Untergruppen zu finden sind. In den Klammern finden sich Wahrscheinlichkeiten für korrekt platzierte Arten.
Schön zu sehen sind die einzelnen phylogenetischen Hauptgruppen wie die Chordata und die Athropoda. Dieser riesige Datensatz ist ein guter Test ob diese künstliche Einteilung in Reiche funktioniert. Denn bei kleinen Datensätzen ist die Wahrscheinlichkeit groß dass allein durch den Zufall die Arten sich passend gruppieren. Mit einer steigenden Anzahl an Taxa im Baum sinkt auch die Wahrscheinlichkeit für eine zufällige, “richtige” Anordnung ab.
Dazu stellt es einen guten Beweis für das funktionieren von Evolution dar weil die Phylogenien die aus den morphologischen Daten erstellt wurden zu den molekularen Phylogenien passen.
Wer sich für Bioinformatik interessiert und mal sehen will wie man im großen Stil mit diesen Daten verdammt coole Sachen machen kann sollte sich das Paper mal in Ruhe ansehen.
Goloboff, P., Catalano, S., Marcos Mirande, J., Szumik, C., Salvador Arias, J., Källersjö, M., & Farris, J. (2009). Phylogenetic analysis of 73 060 taxa corroborates major eukaryotic groups Cladistics DOI: 10.1111/j.1096-0031.2009.00255.x