Der Informationsgehalt von Sperma

BLOG: Bierologie

Weissbier & Wissenschaft
Bierologie
 
Momentan geistert dieser Tweet bzw der Inhalt mal durch die Twitter-Timelines. Vor einigen Monaten tat er das schon mal und da bin auch ich erstmal darauf reingefallen. Allerdings: So rein biologisch betrachtet ist es Unsinn. Und das auch gleich auf mehreren Ebenen.

Zum einen geht es um die Menge an Informationen, die sich in einem Spermium verstecken sollen. Kurze Grundlage zur Genetik: Menschliche Zellen besitzen im Normalfall einen diploiden Chromosomensatz, sprich von jedem Chromosom befinden sich 2 Varianten in der Zelle. In Spermien findet sich, genauso wie in Eizellen, der haploide Chromosomensatz. Damit wird gewährleistet, dass auch unsere Nachkommen mit einem diploiden Satz aufwachsen. So weit, so gut. Nach der Wikipedia umfasst das menschliche Genom, bei haploider Zählung, 3,27 × 10^9, also 3,27 Milliarden Basenpaare.

Wechseln wir nun mal kurz zur Informatik: Ein Bit entspricht dabei einer Binärzahl, die entweder 0 oder 1 sein kann. 8 solcher Bits fasst man zu einem Byte zusammen. Ein solches Byte kann 256 verschiedene Zustände annehmen. Traditionell fasst man 1024 solcher Bytes zu einem Kilobyte zusammen, 1024 Kilobyte zu einem Megabyte und so weiter (Das entspricht nicht den SI-Präfixen, deshalb gibt es auch Alternativen). Wenn man nun zur Biologie zurück geht, sieht man, dass ein Basenpaar nicht nur 2 sondern 4 verschiedene Zustände annehmen kann. Daher reichen bereits 4 Basen um ein Byte zu ergeben.

Mit diesem Wissen gehen wir nun noch mal an die 3,24 Milliarden Basenpaare des haploiden, menschlichen Genoms und rechnen mal nach:

3,27 * 10^9 / 4 = 81750000 Byte

Das sind ungefähr 798340 Kilobyte und ungefähr 779 Megabyte. Und damit viel mehr, als in dem Tweet angenommen wurde. Trotzdem ist die Zahl von 37 Megabyte nicht ganz unrealistisch, wenn man sich die Biologie etwas näher anschaut: Denn nur etwa 3 Prozent des menschlichen Genoms kodieren für Proteine. Dies würde ca. 23 Megabyte entsprechen. Je nach Rundungen, Ausgangswerten etc. also gar nicht so schlecht. Allerdings weiss man mittlerweile, dass nicht nur die 3 % des Genoms die für Proteine kodieren wichtig und der Rest Müll ist. Auch RNA-kodierende Teile des Genoms spielen eine wichtige Rolle, zum Beispiel in der RNA-Interferenz.

Wie viel des vermeintlichen Mülls also noch wichtig ist kann man bis heute gar nicht abschätzen. Und für die wirkliche Berechnung ist das auch erstmal gar nicht so wichtig. Denn rein faktisch enthält ein Spermium damit die Kapazität 779 Megabyte zu speichern. Wer jetzt glaubt, dass der Datentransfer für eine normale Ejakulation dramatisch in die Höhe steigt, der irrt leider. Dazu schauen wir uns noch mal den Aufbau unseres Genoms an: Spermien sind ja haploid und gehen aus diploiden Zellen hervor. Aber egal wie man die einzelnen Gene bzw. die Informationen aufteilt: Es werden dadurch nicht mehr Informationen.

Es tut mir wirklich leid, werte Herren der Schöpfung: Selbst alle denkbaren Kombinationen von Spermien eines Menschen in einem Ejakulat enthalten damit (Rekombinationen und identische Loci auf beiden Genen mal vernachlässigt) zusammen maximal 2 mal die 779 Megabyte, also gut 1,5 Gigabyte an Information. Ganz egal wie groß das Volumen eures Ejakulats ist.
 
*UPDATE*
 
Auf Twitter hat der angehende Informatiker Jan-Niklas Meier einen treffenden Einwand erhoben: Auch wenn die Informationen redundant übertragen werden: Das Volumen der Datenübertragung (der data transfer) steigt trotzdem an. Sein passender Vergleich: Auch wenn ich hundert mal die gleiche 1 MB große Datei an eine eMail hänge steigt das Übertragungsvolumen trotzdem auf 100 MB an. Also gute Nachricht Männer: Auch wenn ihr die Menge an Information nicht erhöhen könnt. Ihr könnt die Datensicherheit über das Volumen des Ejakulats erhöhen!

Veröffentlicht von

Bastian hat seinen Bachelor in Biologie in nur 8 statt 6 Semestern abgeschlossen. Nach einem kurzen Informatik-Studiums-Intermezzo an der TU Dortmund hat es ihn eigentlich nur für ein Stipendium nach Frankfurt am Main verschlagen. Dort gestrandet studiert er dort nun im Master-Programm Ökologie und Evolution. Zumindest wenn er nicht gerade in die Lebensweise der Hessen eingeführt wird. Neben seinen Studiengebieten bloggt er über die Themen, die gerade in Paperform hochgespült werden und spannend klingen.

20 Kommentare

  1. Nur kurz, der Tweet macht den Unterschied sogar ganz deutlich, indem einmal von Informationen und einmal von Daten die Rede ist. Leider vermischen das viele Menschen immer wieder.

  2. Wow

    Verdammt, hätte ich in Bio doch besseer aufgepasst. So kann ich der Argumentation nicht ganz folgen, auch wenn ich zugeben muss, dass mich allein die Annahme vollkommen fasziniert und begeistert – kindisch, wie man eben ist 🙂

  3. Hochinteressant…

    Hochinteressant, diese binäre Reflexion über das Orgastische. Was ist dann ein Kondom? Datenschutz?

  4. Anderer Rechenweg

    Vielleicht ist die Berechnung so einfacher nachzuvollziehen: die Basenpaare können jeweils aus vier verschiedenen Basen (Adenin, Guanin, Cytosin und Thymin) komplementär zusammengesetzt werden. Ein Basenpaar ist also jeweils durch eine Base bereits beschrieben (denn Basen haben immer die gleiche Partnerbase), bei vier möglichen Basen macht das 2 Bit pro Base. Denn um vier verschiedene Möglichkeiten zu unterscheiden, benötigt man zwei Bit: 00, 11, 01, 10.
    Folglich ergeben sich 2 * 3,27 * 10^9 Bit. Geteilt durch 8 ergibt Bytes, geteilt durch 1024 Kilobytes, noch mal durch 1024 ergibt Megabytes. Das Ergebnis ist wie im Beitrag.

  5. Informationsgehalt

    Wieviel Information in den Genen steckt ist auch aus anderen Gründen prinzipiell diskutierbar. So wie 2 identische Spermien nicht als neue Information gelten so sollte man identische Basenpaarsequenzen innerhalb eines Spermiums auch nicht als neue Information ansehen (z.B. Telomere). Eigentlich sollte man also schauen wie weit sich die Information komprimieren lässt um herauszufinden wieviel echte Information drinsteckt.

    Hinzu kommt, dass die Zuordnung von Gensequenzen zu Aminosäuren nicht eindeutig ist. Die gleiche Aminosäure lässt sich mitunter durch verschiedene Basenpaarsequenzen kodieren. Diese Unterschiede scheinen irrellevant für das Lebewesen zu sein.

    Hab leider keine Ahnung wieweit sich Erbgut komprimieren lässt. Weiss das wer?

  6. CD Rom/Menschliches Genom

    Ausgehend von 2,85 x 109 Basenpaaren hat das Genom des Menschen einen Informationsgehalt von 1,14 x 1010 Bit = 1,425 x 109 Byte das entspricht 1359 Megabyte (MB). Die Datenmenge des menschlichen Genom hat also auf zwei CDs Platz.

    http://www.wissenslogs.de/…em-menschlichen-genom

  7. Der Beitrag läßt mich etwas unbefriedigt zurück. 😉 Hier geht es ja “nur” um die Datenmenge. Genauso gut könnte ich auch die Seitenanzahl von Zeitschriften wie Bunte und Spektrum der Wissenschaft vergleichen, dabei aber den Inhalt ganz außer Acht lassen.

  8. @Arnd: In die Richtung weiter zu schauen ist in der Tat spannend. Im Prinzip machen Craig Venter & Co ja nichts anderes wenn sie versuchen ein Minimalbakterium zu bauen. Das könnte man ja ähnlich auch über Menschen übertragen: Was kann man weglassen und trotzdem noch funktionieren?

    Die nicht eindeutige Zuordnung von Nukleotid-Sequenz/Codon zu AS ist übrigens nicht wirklich wahllos, das Phänomen nennt sich Codon Usage Bias, siehe: http://en.wikipedia.org/wiki/Codon_usage_bias

    @Joe: Danke für den Link! Ich hatte versucht etwas ähnliches zu Googlen, wurde aber auf die schnelle nicht fündig! Schöner Beitrag!

    @Martin: Richtig, über die Qualität der Information sagt das noch gar nichts aus. 🙂

  9. 4Basen

    Kann man mit 4 Basen nicht 16 verschiedene Kombinationen herausbekommen?

    Laut Schulstoff: Anzahl der möglichen Kombinationen in Abhängigkeit der Anzahl der Eingangsvariablen(x) ist Ja 2^x und im Falle von 4 Basen: 2^4=16? D.h. bei 8Bit pro Byte sinds Ja 2Byte je 4Basis
    Versteh ich was falsch? 😉

  10. Die Argumentation, dass die Menge an Information von vielen Spermien gleich der Information des Erbguts des Ejakulators ist, weil jedes Spermium eine (zufällig geschnittene) Hälfte dieses Erbgutes beinhaltet, ist Blödsinn.

    Nach der Logik würden auch alle deutschen Bücher die gleiche Information wie ein deutsches Wörterbuch enthalten (sind ja die gleichen Wörter, nur in anderer Reihenfolge und gehäuft), und jede Datei die Informationen “0” und “1” enthalten.

    Information ergibt sich aus dem Kontext von Wörtern, Nullen und Einsen, oder eben DNA-Basen, und die Information jedes einzelnen Spermiums ist dadurch einzigartig, dass die Basen anders kombiniert sind. Die Informationen werden nicht redundant übertragen, denn aus der Gesamtinformation (gesamtes Erbgut) kann ich nun mal nicht schließen, welcher Teil der Information bei der Befurchtung übertragen würde – bei der Kenntnis jedes individuellen Spermiums aber schon.

  11. @Dominik: Okay, sonst noch mal kurz für den Rest, der vielleicht ähnliche Fragen hat: Kombinatorik ist an der Stelle gar nicht gefragt: Während ein Bit halt 0 oder 1 sein kann, kann eine einzelne Basenposition eben A, G, C oder T sein. Deshalb doppelt so viel Information an einer Stelle. 😉

    @Morun: Du hast nicht ganz unrecht, welcher Teil der Informationen in jedem Spermium steckt unterscheidet sich natürlich. Um bei deinem Beispiel mit dem Wörterbuch zu bleiben: Die Redundanz ergibt sich einfach dadurch, dass man ein vielfaches des eigentlichen Wörterbuches (Genoms) pro Ejakulat verteilt, wenn auch aufgesplittet in diskrete Untereinheiten die alle genau 50 % des Wörterbuchs beinhalten.

    • Ich fände zur Verbildlichung besser: Ein Bild!
      Wir übertragen in jedem Spermium ein sehr hochauflösendes Bild, das eine Collage aus 23 (etwas unterschiedlich großen) Teilbildern darstellt. Jedes Teilbild gibt es in zwei Varianten gespeichert im Erbgut des Samenspenders, und jede CD-füllenden Bilddatei hat eine zufällig ausgeloste Zusammenstellung von Teilbildern aus dieser Sammlung. Man könnte mal nachrechnen, wie viele Spermien=Bildcollage-Dateien es dann doch doppelt gibt… Varianten müsste es 2^23 geben, oder? Also 8.388.608, da gäbe es bei 20 Mio. aufwärts Spermien pro Erguss dann doch einige Identische Bildcollagen. Abgesehen von kleinen Pixel-Abweichungen, also Mutationen.
      Wenn man die insgesamt ähnlichen Bilddateien zippen würde, könnte man einiges an Speicherplatz sparen, aber die Analogie gibt im Sperma wohl nicht.

  12. “Wenn man nun zur Biologie zurück geht, sieht man, dass ein Basenpaar nicht nur 2 sondern 4 verschiedene Zustände annehmen kann. Daher reichen bereits 4 Basen um ein Byte zu ergeben.”

    Dazu hab ich mal ne Frage. Wenn ein Basenpaar (also 2 Basen) 4 verschiedene Zustände hat, bilden dann nicht 4 Basenpaare (und nicht 4 Basen) ein Byte?
    Beispiel für ein Byte mit 4 Paaren: 10;01;00;01
    Ich hab jetzt von Bio leider nicht sonderlich viel Ahnung also verzeiht mir diese vermutlich dumme Frage. 🙂
    Oh ich seh grad der Post ist schon etwas älter… Na egal vielleicht liests noch einer.

  13. tusneumaticos.com

    Verdammt, hätte ich in Bio doch besseer aufgepasst. So kann ich der Argumentation nicht ganz folgen, auch wenn ich zugeben muss, dass mich allein die Annahme vollkommen fasziniert und begeistert – kindisch, wie man eben ist

  14. Ohne jetzt alles gelesen zu haben:
    Information entsteht, wenn von Daten abstrahiert wird, die Datenmenge bestimmt nicht die Größe der Information.
    Weil Daten kodierte Information beinhalten, bestimmen die zwischen den Stationen abgesprochenen Regeln die Informationsmenge.
    Der Schreiber dieser Zeilen wüsste nicht, dass diese Regeln bekannt sind.

    MFG
    Dr. W

Schreibe einen Kommentar