Seegräser – Zurück ins Meer
BLOG: Bierologie
Nicht nur die Wale haben den Weg zurück ins Meer angetreten um dort eine ökologische Nische zu besetzen, auch die Seegräser haben sich vermutlich vom Land aus, über das Süßwasser zurück ins Meer gezogen. Dabei sind die Seegräser vermutlich eine polyphyletische Gruppe, sprich eine Gruppe die nicht zurück auf einen direkten gemeinsamen Vorfahren gehen. Stattdessen scheint es wohl so zu sein, dass ein solcher Schritt zurück ins Wasser mindestens 3 mal passiert ist. Und damit gibt es wohl eine parallele Evolution. Denn das Leben im Meer erfordert für Pflanzen einige Anpassungen, verglichen an das Leben an Land.
Zum einen sind da die Lichtverhältnisse unter Wasser: Nicht nur, dass die Intensität des Sonnenlichts mit der Wassertiefe recht drastisch abnimmt, auch die Zusammensetzung aus verschiedenen Wellenlängen ändert sich im Wasser. Gleichzeitig sind die Pflanzen mit einem Mangel an Sauerstoff und Kohlenstoffdioxid konfrontiert. Durch den Sauerstoffmangel ist es unter Umständen sogar nötig, dass auf anaerobe Fermentation zurückgegriffen wird. Um den Kohlenstoffdioxid-Mangel zu umgehen greifen Seegräser auf Kohlensäure und Bikarbonat zurück. Ein anderes Problem für Pflanzen im Meer: Der erhöhte Salzgehalt, denn eine hohe Konzentration an Natrium-Ionen wirkt toxisch, da sie elementare Prozesse wie die Proteinbiosynthese behindern.
Damit ergeben sich eine ganze Reihe von Selektionsdrücken die bei der Besiedlung des Meeres wirken und die Auswirkungen davon sollten sich auch auf genetischer Ebene zeigen, nämlich durch molekulare Adaptionen an die neuen Bedingungen. Am Institut für Evolution und Biodiversität der Uni Münster (Disclaimer: Das ist das Institut an dem sowohl Philipp als auch ich unsere Bachelor-Arbeit geschrieben haben) hat man versucht Kandidaten-Gene zu finden, die bei der Anpassung an den neuen Lebensraum positiv selektiert wurden.
Dazu hat man sich des Vergleichs von landlebenden und im Meer lebenden Pflanzen (für die Botaniker: allesamt Angiospermen) bedient. Dazu wurden die beiden Seegräser Zostera marina und Posidonia oceanica mit insgesamt 8 terrestrischen Pflanzen, von denen die Genome bereits bekannt sind, verglichen. Da für die beiden Seegräser keine kompletten Genome existieren wurde hier auf 2 Expressed Sequence Tag (EST)-Bibliotheken zurückgegriffen. Solche EST-Bibliotheken generiert man dadurch, dass man die vorhandene mRNA aus Organismen gewinnt und anschliessend sequenziert. Damit erhält man – zumindest einen Teil – des Transkriptoms, also jene DNA-Sequenzen die auch in Proteine übersetzt werden. Diese proteincodierenden DNA-Sequenzen lassen sich dann auch relativ einfach in Proteinsequenzen übersetzen und damit hat man dann genug Daten für einen Vergleich mit den anderen Pflanzen.
Bevor man sich dann an die eigentliche Analyse der Gene machen kann muss man erstmal herausfinden welche Gene ortholog sind, also eine gemeinsame Abstammung haben. Schliesslich möchte man ja nur solche Gene miteinander vergleichen die einen gemeinsamen Ursprung haben, um dann zu schauen ob sie in der einen Gruppe einem Selektionsdruck ausgesetzt waren. Dazu übergibt man seinen Datensatz an eine, hoffentlich sorgfältig geschriebene Software, und die versucht dann Cluster von orthologen Genen zu finden. In der Studie konnten im Datensatz dabei 189 solcher orthologer Cluster gefunden werden. Und die wurden dann auf positive Selektion getestet.
Dieser Test ist das eigentlich spannende an so einer Studie und eine der am weitesten verbreiteten Methoden zum Test auf positive Selektion ist die sogenannte dN/dS-Ratio. Dabei macht man es sich zu nutze, dass der genetische Code degeneriert ist. Wie ihr vielleicht noch wisst, werden bei der Protein-Biosynthese jeweils 3 Nukleotide der DNA bzw. RNA (ein sogenanntes Codon) in eine Aminosäure (die Bausteine aus denen Proteine gebaut sind) übersetzt. Aus den 4 verschiedenen Nukleotiden (A,T,G,C) lassen sich bei 3 Positionen 4^3 = 64 Möglichkeiten ableiten. Allerdings gibt es nur 20 verschiedene Aminosäuren die in Proteine eingebaut werden.
Dadurch ergibt sich das Bild, dass es für die meisten Aminosäuren mehrere Codons möglich sind. Schauen wir uns in der Grafik oben doch mal das Codon GAU an (von innen nach außen gelesen). Mutiert die DNA in dem Codon zu GAC, so bleibt die Aminosäure in diesem Fall die selbe wie vorher, in beiden Fällen wird Asparaginsäure an der Stelle in das Protein eingebaut und eine solche Mutation nennt man synonym. Würde die DNA stattdessen zu GAG mutieren, so würde anstelle der Asparaginsäure die Glutaminsäure eingebaut, die Mutation wäre in dem Fall nicht-synonym.
Bei dem Test für positive Selektion über die dN/dS-Ratio vergleicht man jetzt das Verhältnis von nicht-synonymen (dN) zu synonymen (dS) Mutationen. Aber wieso ist das überhaupt sinnvoll: Nun, wenn ein Gen unter einem Anpassungsdruck steht, dann kann man davon ausgehen, dass auch das Gen-Produkt, das Protein, sich verändern sollte um eine gute Anpassung zu bieten. Daher geht man davon aus, dass unter der positiven Selektion mehr nicht-synonyme Mutationen gefunden werden, als der Zufall es gebieten würde.
Bei dem gegenteiligen Fall, der beibehaltenden Selektion geht man davon aus, dass ein Protein schon gut an seine Umwelt angepasst ist und jede verändernde Mutation nur weiter vom Optimum abweichen würde. Dementsprechend sollte man hier davon ausgehen, dass man mehr synonyme Mutationen findet als zufällig vorhanden sein sollten. Wenn man sich jetzt die Verhältnisse der beiden Mutationsarten anschaut, dann kann man bei einem Verhältnis dN/dS > 1 davon ausgehen, dass hier positive Selektion vorhanden war, bei einem Verhältnis von dN/dS < 1 davon, dass hier beibehaltende Selektion gewirkt hat. Wenn das Verhältnis von dN/dS = 1 ist, dann treten synonyme und nicht-synonyme Mutationen zufällig auf, es scheint als gar keinen Selektionsdruck zu geben.
So weit klingt dieser Test eigentlich noch ganz einfach, immerhin muss man nur abzählen wie oft die beiden unterschiedlichen Ereignisse eintreten und schon kann man etwas über die Selektion sagen. Leider ist die Realität der Molekularbiologie nicht ganz so simpel. Im Codon-Beispiel oben war die Wahrscheinlichkeit für beide Arten zufälligerweise 50 %, es ist also ein Münzwurf ob eine zufällige Mutation an der dritten Codon-Position synonym oder nicht synonym ist. Allerdings ändern sich die Wahrscheinlichkeiten, wenn die Mutation stattdessen an der ersten oder zweiten Position auftritt. Und wenn man sich die Codon-Grafik mal anschaut, dann sieht man, dass die Wahrscheinlichkeiten für synonyme und nicht-synonyme Mutationen von Codon zu Codon wechseln.
Deshalb zieht man diese Wahrscheinlichkeiten auch alle in seine Betrachtung der Verhältnisse mit ein, um für den genetischen Code zu korrigieren. Allerdings gehen die Probleme noch weiter: Nicht jede Sorte von Mutation passiert gleich wahrscheinlich: Es gibt 3 Möglichkeiten zu was ein einzelnes Nukleotid mutieren kann, und die lassen sich in 2 Möglichkeiten einteilen, die unterschiedlich häufig sind: Transversionen (Der Wechsel von einer Pyrimidinbase zu einer Purinbase bzw. umgekehrt) und Transitionen (Der Wechsel von einer Purin- zu einer anderen Purin-Base, analog für Pyrimidinbasen). Bei einer Transversion kann so aus einem A entweder ein C oder ein T werden. Bei einer Transition nur ein G. Obwohl es für Transversionen mmer 2 mögliche Mutationen gibt passieren diese viel seltener als Transitionen, also der Wechsel innerhalb einer Basenklasse. Wenn man also die Austauschwahrscheinlichkeiten von Nukleotiden innerhalb der Codons berechnen will, dann sollte man auch diese Tatsache mit einberechnen.
Man sieht also jetzt schon, dass der Teufel im Detail liegt. Und wenn man genauer hinschaut, dann sieht man, dass auch die Grundannahme schon nicht ganz korrekt ist: Denn es gibt noch ein Phänomen namens Codon-Bias: Bei der Proteinsynthese werden die Aminosäuren von sogenannter transfer-RNA, die jeweils zu einem Codon passt, an ihr Ziel geleitet. Allerdings liegen nicht alle 20 tRNAs in gleicher Konzentration in Zellen vor. Deshalb kann es sein, dass eine synonyme Mutation zwar die codierte Aminosäure nicht ändert, allerdings ändert sie die benötige tRNA. Und wenn man so von einer reichlich vorhandenen tRNA durch die Mutation zu einer selteneren tRNA (oder vice versa) wechselt, dann kann das bereits einen Einfluss auf die Fitness des Organismus haben. Aber ich will auch gar nicht weiter auf die Probleme bei der Analyse über die dN/dS-Ratio eingehen, auf jeden Fall sollte man nur im Kopf behalten, dass man bei der Wahl seiner Modelle all diese Dinge bedenken muss um aussagekräftige Ergebnisse zu erhalten. Nicht das ihr alle anfangt wild Mutationen zu zählen.
Aber kommen wir zurück zu der Studie: Von den 189 getesteten Genen wurde bei 51 eine positive Selektion gefunden. Und 30 dieser Gene konnte man mit Hilfe der Kyoto Encyclopedia of Genes and Genomes (KEGG) bestimmten Pfaden zuordnen, so zum Beispiel Stoffwechselwegen wie der Glykolyse, den Ribosomen oder auch zur Photosynthese. Diese 3 Kategorien werden in der Studie auch noch einmal genauer betrachtet: Die positive Selektion in der Glykolyse könnte so zum Beispiel von der Anpassung an die sauerstoffarme Umwelt im Meer herrühren.
Spannend ist auch, dass im Ribosomalen Komplex eine positive Selektion gefunden wurde. Üblicherweise ist das Ribosom, aufgrund seiner zentralen Rolle bei der Proteinsynthese, sehr stark konserviert, immerhin will man da auf keinen Fall Unfug bauen. Eine der Theorien die in der Studie vorgeschlagen werden, wieso es hier doch dazu kommt: Die Translation über das Ribosom ist stark von der Salzkonzentration abhängig. Und wie Eingangs erläutert haben die Seegräser im salzigen Meerwasser Probleme mit einer hohen Salz-Konzentration. Die positive Selektion könnte hier dazu geführt haben, dass die Ribosomen mit der erhöhten Konzentration noch umgehen können. Das die Photosynthese für die im Wasser lebenden Pflanzen einer Selektion unterliegen ist dann vielleicht auch weniger überraschend.
Insgesamt ist es aber schön zu sehen, wie man aus solchen Sequenzdaten nicht einfach nur evolutionäre Stammbäume basteln sondern auch Selektionsnachweise finden kann. Spannend wird es dann noch, wenn man neben den landlebenden Pflanzen auch solche mit einbezieht die vom Land aus nur zurück ins Frischwasser gegangen sind. Damit kann man dann auch schauen, welche Gene allgemein für das Leben im Wasser angepasst wurden und welche besonders spezifisch für das Leben im Salzwasser angepasst werden müssen.
Grafik: Wikimedia, gemeinfrei
Wissler, L., Codoñer, F., Gu, J., Reusch, T., Olsen, J., Procaccini, G., & Bornberg-Bauer, E. (2011). Back to the sea twice: identifying candidate plant genes for molecular evolution to marine life BMC Evolutionary Biology, 11 (1) DOI: 10.1186/1471-2148-11-8
Naive Frage
Wenn irgendwelche Vorfahren dieser Gräser bereits im Meer waren, ist es denkbar, dass einstmals benötigte, ‘deaktivierte’ Gensequenzen wieder aktiviert werden?
Also theoretisch ist es so, dass es sein könnte, dass Gene einfach wieder Angeschaltet werden könnten. Das wäre der Fall, wenn in der regulatorischen Region des Gens eine Mutation auftritt, die dazu führt, dass das Gen nicht mehr exprimiert wird. Bei dem Gang zurück ins Meer könnte es dann passieren, dass die Regulatorische Region wieder funktionsfähig wird und das Gen wieder gut funktioniert.
In der Praxis halte ich das allerdings für unwahrscheinlich, denn immerhin dürfte es schon recht lang her sein, dass die Pflanzen den Gang aus dem Meer gemacht haben. Während so ein Gen ausgeschaltet ist können sich dort jede Menge Mutationen ansammeln, die ad hoc keine negativen Auswirkungen haben. Wenn die Pflanzen dann wieder ins Meer gegangen sind, dann dürfte die Reaktivierung des Gens nicht funktionieren, denn es haben sich in der Zwischenzeit zu viele negative Mutationen angesammelt.
In den, in dieser Studie gefundenen Genen, kann das so oder so nicht passieren. Denn diese Gene werden alle auch in Landpflanzen exprimiert. Denn alle Pflanzen benötigen die Ribosomen zur Proteinsynthese und auch die Photosynthese wird von allen Pflanzen benötigt. Hier müssen Gene und damit auch die Proteinstruktur also angepasst werden, anstatt einfach nur an- oder ausgeschaltet werden.
Ausserdem lassen sich mit der dN/dS-Methode nur solche positiven Selektionen finden, die in den codierenden Bereichen der DNA passieren. Denn die Methode basiert ja darauf, dass entweder die Proteinzusammensetzung geändert wird oder nicht.
Analyse nicht-kodierender Sequenzen
Hab hier eine interessante alternative Methode gefunden:
Bei Shapiro et al. wird die S:F-ratio vorgeschlagen, die nach der gleichen Logik wie dn/ds funktioniert, aber auch bei nicht-kodierenden Elementen funktionieren sollte, da sie nicht auf Codons basiert.
Dabei wird unterschieden zwischen “slow-evolving” und “fast-evolving” (S und F) Stellen im Gen oder Protein; “slow-evolving” bedeutet, das es an dieser Stelle wenige (z.B. eine) Substitution gibt, an einer “fast-evolving” Stelle gibt es viele verschiedene Substitutionen (sagen wir in diesem Beispiel drei).
S:F wäre in diesem Beispiel 1/3, wo der dn/ds-Wert is kann man nicht sagen.
Der Unterschied (“Cut-Off”) zwischen beiden Gruppen muss bei jedem Baum neu berechnet werden, also ist der Unterschied zwischen “slow-evolving” und “fast-evolving” bei der S:F-Methode mehr an den untersuchten Spezies ausgerichtet als bei dn/ds, da der Unterschied zwischen “langsam” und “schnell” neu berechnet wird. Bei dn/ds ist dieser festgesetzt, wie im obigen Text beschrieben.
Durch S:F erhält man eher
Stellen, an denen die Evolution vom üblichen nicht-synonym/synonym Muster abweicht.
Ich bin da noch skeptisch – Was denkt ihr von der Methode?
@Philipp: Die S:F-Ratio ist mir noch nicht geläufig, danke für den Hinweis. Ich werde mir das mal anschauen.
Ich kenne als Methoden bislang sonst nur Codon Volatility und den Nachweis über die theoretische Poisson-Verteilung.
Bei der Poisson-Verteilung geht man einfach davon aus, dass unter der neutralen Theorie die Mutationen auf einem DNA-Strang nach Poisson verteilt sein müssten, wenn sie das nicht sind, dann soll das für eine positive Selektion sprechen, siehe: http://www.genetics.org/…ent/abstract/176/4/2451
Codon Volatility ist mehr oder weniger vergleichbar mit der dN/dS-Ratio. Dabei schaut man sich an wie die Wahrscheinlichkeiten für ein Codon sind, dass es durch eine einzelne Punktmutation für eine nicht-synonyme Aminosäure codiert.
Die Theorie dabei: Ein Codon was positiver Selektion unterlegen hat ist vermutlich “flüchtiger”, da es mehr Mutationen/AA-Austäuschen unterlegen hat als ein neutrales/negativ selektiertes, wo die Evolution dafür sorgen sollte, dass das Codon nicht so flüchtig ist.
Allerdings greift auch hier wieder das Problem des Codon-Bias etc. Von daher sind die Ergebnisse statistisch wohl nicht so richtig signifikant, siehe: http://mbe.oxfordjournals.org/content/22/3/496
dN/dS
Klasse, damit hab ich zumindest mal ne Idee für Software, die ich für eigene dN/dS-Fragestellungen benutzen könnte. Nur wer gibt mir die nötige Freizeit zum Einlernen?!?
In der Methoden-Sektion des Papers wird eigentlich ganz gut beschrieben wie die Analyse mit PAML/CodeML funktioniert. Allerdings ist die Software ein Usability-Alptraum sondergleichen, Philipp und ich können beide ein Lied davon singen. 😉
Etwas Zeit zum erlernen des Progamms wird man deshalb leider einrechnen müssen.
PAML/swapsc
Ohja, vor allem die Fehlermeldungen von PAML und swapsc sind grandios kryptisch.
Ich erinnere mich an einen Fehler, der was von “incorrect input” gefaselt hat, nur weil codeml (glaub ich) irgendwo keinen linebreak hingepackt hatte wo swapsc einen wollte.
Komplett neuschreiben in c/c++ mit normaler Dokumentation wäre angebracht 🙂 Dauert nur ca. eine ganze Master-Arbeit.
Ihr macht mir Mut…